未验证 提交 87087297 编写于 作者: Hhhy云帆's avatar Hhhy云帆 提交者: GitHub

Update 3.文本数据.md

update 把自然文本变成平面向量
上级 ea408527
......@@ -6,12 +6,12 @@ Emma knocked on the door. No answer. She knocked again and waited. There was a l
该段包含很多信息。我们知道它谈到了到一个名叫Emma的人和一只乌鸦。这里有一座房子和一棵树,艾玛正想进屋,却看到了乌鸦。乌鸦很华丽,注意到艾玛,她有点害怕,但正在尝试交流。
那么,这些信息的哪些部分是我们应该提取的显着特征?首先,提取主要角色艾玛和乌鸦的名字似乎是个好主意。接下来,注意房子,门和树的设置可能也很好。关于乌鸦的描述呢?Emma的行为呢,敲门,退后一步,打招呼呢?
本章介绍文本特征工程的基础知识。我们从词袋(bags of words)开始,这是基于字数统计的最简单的文本功能。一个非常相关的变换是tf-idf,它本质上是一种特征缩放技术。它将被我在(下一篇)章节进行全面讨论。本章首先讨论文本提取功能,然后讨论如何过滤和清理这些功能
本章介绍文本特征工程的基础知识。我们从词袋(bags of words)开始,这是基于字数统计的最简单的文本功能。一个非常相关的变换是tf-idf,它本质上是一种特征缩放技术。它将被我在(下一篇)章节进行全面讨论。本章首先讨论文本特征提取,然后讨论如何过滤和清洗这些特征
## Bag of X:把自然文本变成平面向量
无论是构建机器学习模型还是特征工程,结果应该简单易懂。简单的事情很容易尝试,可解释的功能和模型比复杂的更易于调试。简单和可解释的功能并不总是会导致最精确的模型。但从简单开始就是一个好主意,只有在绝对必要时才会增加复杂性。
对于文本数据,我们可以从称为bag-of-words的字数统计开始。很多词并没有特别的意义,比如Emma或乌鸦。但是这两个词在该段落中被重复提到,并且它们在这里的计数比诸如“hello”之类的随机词更高。对于诸如分类文档之类的简单任务,字数统计通常足以用于该工作。它也可用于信息检索,其目标是检索与输入文本查询相关的一组文档。这两个任务都很好解释词级特征,因为某些特定词的存在可能是本文档主题内容的重要指标。
无论是构建机器学习模型还是特征工程,其结果应该是通俗易懂的。简单的事情很容易尝试,可解释的特征和模型比复杂的更易于调试。简单和可解释的功能并不总是会导致最精确的模型。但从简单开始就是一个好主意,仅在绝对必要时才会增加复杂性。
对于文本数据,我们可以从称为bag-of-words的字数统计开始。字数统计表中并没有特别的努力来到寻找Emma或乌鸦这样有趣的实体。但是这两个词在该段落中被重复提到,并且它们在这里的计数比诸如“hello”之类的随机词更高。对于此类文档分类的简单任务,字数统计通常足以用于该工作。它也可用于信息检索,其目标是检索与输入文本查询相关的一组文档。这两个任务都很好解释词级特征,因为某些特定词的存在可能是本文档主题内容的重要指标。
## 词袋
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册