Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
fe4ml-zh
提交
87087297
F
fe4ml-zh
项目概览
OpenDocCN
/
fe4ml-zh
通知
5
Star
1
Fork
2
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
F
fe4ml-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
未验证
提交
87087297
编写于
6月 11, 2018
作者:
Hhhy云帆
提交者:
GitHub
6月 11, 2018
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
Update 3.文本数据.md
update 把自然文本变成平面向量
上级
ea408527
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
3 addition
and
3 deletion
+3
-3
docs/3.文本数据.md
docs/3.文本数据.md
+3
-3
未找到文件。
docs/3.文本数据.md
浏览文件 @
87087297
...
...
@@ -6,12 +6,12 @@ Emma knocked on the door. No answer. She knocked again and waited. There was a l
该段包含很多信息。我们知道它谈到了到一个名叫Emma的人和一只乌鸦。这里有一座房子和一棵树,艾玛正想进屋,却看到了乌鸦。乌鸦很华丽,注意到艾玛,她有点害怕,但正在尝试交流。
那么,这些信息的哪些部分是我们应该提取的显着特征?首先,提取主要角色艾玛和乌鸦的名字似乎是个好主意。接下来,注意房子,门和树的设置可能也很好。关于乌鸦的描述呢?Emma的行为呢,敲门,退后一步,打招呼呢?
本章介绍文本特征工程的基础知识。我们从词袋(bags of words)开始,这是基于字数统计的最简单的文本功能。一个非常相关的变换是tf-idf,它本质上是一种特征缩放技术。它将被我在(下一篇)章节进行全面讨论。本章首先讨论文本
提取功能,然后讨论如何过滤和清理这些功能
。
本章介绍文本特征工程的基础知识。我们从词袋(bags of words)开始,这是基于字数统计的最简单的文本功能。一个非常相关的变换是tf-idf,它本质上是一种特征缩放技术。它将被我在(下一篇)章节进行全面讨论。本章首先讨论文本
特征提取,然后讨论如何过滤和清洗这些特征
。
## Bag of X:把自然文本变成平面向量
无论是构建机器学习模型还是特征工程,
结果应该简单易懂。简单的事情很容易尝试,可解释的功能和模型比复杂的更易于调试。简单和可解释的功能并不总是会导致最精确的模型。但从简单开始就是一个好主意,只有
在绝对必要时才会增加复杂性。
对于文本数据,我们可以从称为bag-of-words的字数统计开始。
很多词并没有特别的意义,比如Emma或乌鸦。但是这两个词在该段落中被重复提到,并且它们在这里的计数比诸如“hello”之类的随机词更高。对于诸如分类文档之
类的简单任务,字数统计通常足以用于该工作。它也可用于信息检索,其目标是检索与输入文本查询相关的一组文档。这两个任务都很好解释词级特征,因为某些特定词的存在可能是本文档主题内容的重要指标。
无论是构建机器学习模型还是特征工程,
其结果应该是通俗易懂的。简单的事情很容易尝试,可解释的特征和模型比复杂的更易于调试。简单和可解释的功能并不总是会导致最精确的模型。但从简单开始就是一个好主意,仅
在绝对必要时才会增加复杂性。
对于文本数据,我们可以从称为bag-of-words的字数统计开始。
字数统计表中并没有特别的努力来到寻找Emma或乌鸦这样有趣的实体。但是这两个词在该段落中被重复提到,并且它们在这里的计数比诸如“hello”之类的随机词更高。对于此类文档分
类的简单任务,字数统计通常足以用于该工作。它也可用于信息检索,其目标是检索与输入文本查询相关的一组文档。这两个任务都很好解释词级特征,因为某些特定词的存在可能是本文档主题内容的重要指标。
## 词袋
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录