ch3 style

a8e98ba6 · wizardforcel · 2dbadce3 · a8e98ba6
隐藏空白更改
内联并排

Showing with 17 addition and 12 deletion

docs/3.文本数据.md docs/3.文本数据.md +17 -12

未找到文件。
--- a/docs/3.文本数据.md
+++ b/docs/3.文本数据.md
@@ -26,7 +26,7 @@ Emma knocked on the door. No answer. She knocked again and waited. There was a l

 图 3-1 转换词成向量描述图

-BOW 将文本文档转换为平面向量。 它是“平面的”，因为它不包含任何原始的文本结构。 原文是一系列词语。但是词袋向量并没有序列; 它只是记得每个单词在文本中出现多少次。 它不代表任何词层次结构的概念。 例如，“动物”的概念包括“狗”，“猫”，“乌鸦”等。但是在一个词袋表示中，这些词都是矢量的相同元素。
+BOW 将文本文档转换为平面向量。 它是“平面的”，因为它不包含任何原始的文本结构。 原文是一系列词语。但是词袋向量并没有序列；它只是记得每个单词在文本中出现多少次。 它不代表任何词层次结构的概念。 例如，“动物”的概念包括“狗”，“猫”，“乌鸦”等。但是在一个词袋表示中，这些词都是矢量的相同元素。

 ![图3-2](../images/chapter3/3-2.PNG)

@@ -234,18 +234,23 @@ u'go'

 ![图3-gongshi](../images/chapter3/gongshi.PNG)

-似然函数L（Data; H）表示在单词对的独立模型或非独立模型下观察数据集中词频的概率。 为了计算这个概率，我们必须对如何生成数据做出另一个假设。 最简单的数据生成模型是二项模型，其中对于数据集中的每个单词，我们抛出一个硬币，并且如果硬币朝上出现，我们插入我们的特殊单词，否则插入其他单词。 在此策略下，特殊词的出现次数遵循二项分布。 二项分布完全由词的总数，词的出现次数和词首概率决定。
-似然比检验分析常用短语的算法 
-收益如下。 
-1.计算所有单体词的出现概率：p（w）。 
-2.计算所有唯一双元的条件成对词发生概率：p（W 2×W 1） 
-3.计算所有唯一的双对数似然比对数。 
-4.根据它们的似然比排序双字节。 
-5.以最小似然比值作为特征。 
-### Getting a Grip on Likelihood Ratio Test
+似然函数`L(Data; H)`表示在单词对的独立模型或非独立模型下观察数据集中词频的概率。为了计算这个概率，我们必须对如何生成数据做出另一个假设。最简单的数据生成模型是二项模型，其中对于数据集中的每个单词，我们抛出一个硬币，并且如果硬币朝上出现，我们插入我们的特殊单词，否则插入其他单词。在此策略下，特殊词的出现次数遵循二项分布。二项分布完全由词的总数，词的出现次数和词首概率决定。
+
+似然比检验分析常用短语的算法收益如下。 
+
+1.  计算所有单体词的出现概率：`p(w)`。 
+2.  计算所有唯一双元的条件成对词发生概率：`p(W2 × W1)`
+3.  计算所有唯一的双对数似然比对数。 
+4.  根据它们的似然比排序双字节。 
+5.  以最小似然比值作为特征。
+
+### 掌握似然比测试
+
 关键在于测试比较的不是概率参数本身，而是在这些参数（以及假设的数据生成模型）下观察数据的概率。可能性是统计学习的关键原则之一。但是在你看到它的前几次，这绝对是一个令人困惑的问题。一旦你确定了逻辑，它就变得直观了。
+
 还有另一种基于点互信息的统计方法。但它对真实世界文本语料库中常见的罕见词很敏感。因此它不常用，我们不会在这里展示它。
-请注意，搭配抽取的所有统计方法，无论是使用原始频率，假设测试还是点对点互信息，都是通过过滤候选词组列表来进行操作的。生成这种清单的最简单和最便宜的方法是计算n-gram。它可能产生不连续的序列，但是它们计算成本颇高。在实践中，即使是连续n-gram，人们也很少超过bi-gram或tri-gram，因为即使在过滤之后，它们的数量也很多。为了生成更长的短语，还有其他方法，如chunking或与词性标注相结合。
+
+请注意，搭配抽取的所有统计方法，无论是使用原始频率，假设测试还是点对点互信息，都是通过过滤候选词组列表来进行操作的。生成这种清单的最简单和最便宜的方法是计算 n-gram。它可能产生不连续的序列，但是它们计算成本颇高。在实践中，即使是连续 n-gram，人们也很少超过 bi-gram 或 tri-gram，因为即使在过滤之后，它们的数量也很多。为了生成更长的短语，还有其他方法，如分块或与词性标注相结合。


 ### 分块（Chunking）和词性标注（part-of-Speech Tagging）
@@ -411,7 +416,7 @@ Bag of-ngram 生成更多不同的 ngram。它增加了特征存储成本，以

 防止稀疏性和成本增加的一种方法是过滤 n-gram 并保留最有意义的短语。这是搭配抽取的目标。理论上，搭配（或短语）可以在文本中形成非连续的标记序列。然而，在实践中，寻找非连续词组的计算成本要高得多并且没有太多的收益。因此搭配抽取通常从一个候选人名单中开始，并利用统计方法对他们进行过滤。

-所有这些方法都将一系列文本标记转换为一组断开的计数。与一个序列相比，一个集合的结构要少得多;他们导致平面特征向量。
+所有这些方法都将一系列文本标记转换为一组断开的计数。与一个序列相比，一个集合的结构要少得多；他们导致平面特征向量。

 在本章中，我们用简单的语言描述文本特征化技术。这些技术将一段充满丰富语义结构的自然语言文本转化为一个简单的平面向量。我们讨论一些常用的过滤技术来降低向量维度。我们还引入了 ngram 和搭配抽取作为方法，在平面向量中添加更多的结构。下一章将详细介绍另一种常见的文本特征化技巧，称为 tf-idf。随后的章节将讨论更多方法将结构添加回平面向量。