Update 3.文本数据.md

update 把自然文本变成平面向量

Update 3.文本数据.md
update 把自然文本变成平面向量
87087297 · Hhhy云帆 · GitHub · ea408527 · 87087297
隐藏空白更改
内联并排

Showing with 3 addition and 3 deletion

docs/3.文本数据.md docs/3.文本数据.md +3 -3

未找到文件。
--- a/docs/3.文本数据.md
+++ b/docs/3.文本数据.md
@@ -6,12 +6,12 @@ Emma knocked on the door. No answer. She knocked again and waited. There was a l

 该段包含很多信息。我们知道它谈到了到一个名叫Emma的人和一只乌鸦。这里有一座房子和一棵树，艾玛正想进屋，却看到了乌鸦。乌鸦很华丽，注意到艾玛，她有点害怕，但正在尝试交流。
 那么，这些信息的哪些部分是我们应该提取的显着特征？首先，提取主要角色艾玛和乌鸦的名字似乎是个好主意。接下来，注意房子，门和树的设置可能也很好。关于乌鸦的描述呢？Emma的行为呢，敲门，退后一步，打招呼呢？
-本章介绍文本特征工程的基础知识。我们从词袋（bags of words）开始，这是基于字数统计的最简单的文本功能。一个非常相关的变换是tf-idf，它本质上是一种特征缩放技术。它将被我在（下一篇）章节进行全面讨论。本章首先讨论文本提取功能，然后讨论如何过滤和清理这些功能。
+本章介绍文本特征工程的基础知识。我们从词袋（bags of words）开始，这是基于字数统计的最简单的文本功能。一个非常相关的变换是tf-idf，它本质上是一种特征缩放技术。它将被我在（下一篇）章节进行全面讨论。本章首先讨论文本特征提取，然后讨论如何过滤和清洗这些特征。

 ## Bag of X:把自然文本变成平面向量

-无论是构建机器学习模型还是特征工程，结果应该简单易懂。简单的事情很容易尝试，可解释的功能和模型比复杂的更易于调试。简单和可解释的功能并不总是会导致最精确的模型。但从简单开始就是一个好主意，只有在绝对必要时才会增加复杂性。
-对于文本数据，我们可以从称为bag-of-words的字数统计开始。很多词并没有特别的意义，比如Emma或乌鸦。但是这两个词在该段落中被重复提到，并且它们在这里的计数比诸如“hello”之类的随机词更高。对于诸如分类文档之类的简单任务，字数统计通常足以用于该工作。它也可用于信息检索，其目标是检索与输入文本查询相关的一组文档。这两个任务都很好解释词级特征，因为某些特定词的存在可能是本文档主题内容的重要指标。
+无论是构建机器学习模型还是特征工程，其结果应该是通俗易懂的。简单的事情很容易尝试，可解释的特征和模型比复杂的更易于调试。简单和可解释的功能并不总是会导致最精确的模型。但从简单开始就是一个好主意，仅在绝对必要时才会增加复杂性。
+对于文本数据，我们可以从称为bag-of-words的字数统计开始。字数统计表中并没有特别的努力来到寻找Emma或乌鸦这样有趣的实体。但是这两个词在该段落中被重复提到，并且它们在这里的计数比诸如“hello”之类的随机词更高。对于此类文档分类的简单任务，字数统计通常足以用于该工作。它也可用于信息检索，其目标是检索与输入文本查询相关的一组文档。这两个任务都很好解释词级特征，因为某些特定词的存在可能是本文档主题内容的重要指标。

 ## 词袋