diff --git a/0.md b/0.md index ef4ab2ce536a149cc5a316b5f253f945f7f1c133..1f0671cf63342bf3ccb7f5948ea11becd919edfe 100644 --- a/0.md +++ b/0.md @@ -80,9 +80,9 @@ NLTK 创建于 2001 年,最初是宾州大学计算机与信息科学系计算 | 访问语料库 | `corpus` | 语料库与词典的标准化接口 | | 字符串处理 | `tokenize, stem` | 分词,分句,提取主干 | | 搭配的发现 | `collocations` | t-检验,卡方,点互信息 PMI | -| 词性标注 | `tag` | n-gram, backoff, Brill, HMM, TnT | +| 词性标注 | `tag` | N 元组, backoff, Brill, HMM, TnT | | 机器学习 | `classify, cluster, tbl` | 决策树,最大熵,贝叶斯,EM,k-means | -| 分块 | `chunk` | 正则表达式,n-gram,命名实体 | +| 分块 | `chunk` | 正则表达式,N 元组,命名实体 | | 解析 | `parse, ccg` | 图表,基于特征,一致性,概率,依赖 | | 语义解释 | `sem, inference` | λ演算,一阶逻辑,模型检验 | | 指标评测 | `metrics` | 精度,召回率,协议系数 | diff --git a/1.md b/1.md index 722c39e55142982bdaf6868119458ef7f8c71f9f..dfc575f62b1fd50b45d6d21b90f9644001508171 100644 --- a/1.md +++ b/1.md @@ -28,7 +28,7 @@ Type "help", "copyright", "credits" or "license" for more information. 如果你无法运行 Python 解释器可能是因为没有正确安装 Python。请访问`http://python.org/`查阅详细操作说明。NLTK 3.0 在 Python 2.6 和 2.7 上同样可以工作。如果你使用的是这些较旧的版本,注意`/`运算符会向下舍入小数(所以`1/3`会得到`0`)。为了得到预期的除法行为,你需要输入:`from __future__ import division` -`>>>`提示符表示 Python 解释器正在等待输入。复制这本书的例子时,自己不要键入"`>>>`"。现在,让我们开始把 Python 当作计算器使用: +`>>>`提示符表示 Python 解释器正在等待输入。复制这本书的例子时,自己不要键入`>>>`。现在,让我们开始把 Python 当作计算器使用: ```py >>> 1 + 5 * 2 - 3 diff --git a/10.md b/10.md index 9d3d894b3e5925a63aa6b029c618d693d1764c43..d7103459fc1477fe57110e9f54a111250b453fb0 100644 --- a/10.md +++ b/10.md @@ -576,7 +576,7 @@ exists z1.see(z1,x) \x.exists z2.(dog(z2) & chase(x,z2)) ``` -为了建立一个句子的语义表示,我们也需要组合主语`NP`的语义。如果后者是一个量化的表达式,例如`every girl`,一切都与我们前面讲过的`a dog barks`一样的处理方式;主语转换为函数表达式,这被用于`VP`的语义表示。然而,我们现在似乎已经用适当的名称为自己创造了另一个问题。到目前为止,这些已经作为单独的常量进行了语义的处理,这些不能作为像`(47)`那样的表达式的函数应用。因此,我们需要为它们提出不同的语义表示。我们在这种情况下所做的是重新解释适当的名称,使它们也成为如量化的`NP`那样的函数表达式。这里是 Angus 的 λ 表达式。 +为了建立一个句子的语义表示,我们也需要组合主语`NP`的语义。如果后者是一个量化的表达式,例如`every girl`,一切都与我们前面讲过的`a dog barks`一样的处理方式;主语转换为函数表达式,这被用于`VP`的语义表示。然而,我们现在似乎已经用适当的名称为自己创造了另一个问题。到目前为止,这些已经作为单独的常量进行了语义的处理,这些不能作为像`(47)`那样的表达式的函数应用。因此,我们需要为它们提出不同的语义表示。我们在这种情况下所做的是重新解释适当的名称,使它们也成为如量化的`NP`那样的函数表达式。这里是`Angus`的 λ 表达式。 ```py >>> from nltk import load_parser @@ -668,7 +668,7 @@ all x.(girl(x) -> exists z4.(dog(z4) & chase(x,z4))) ## 5 段落语义层 -段落是句子的序列。很多时候,段落中的一个句子的解释依赖它前面的句子。一个明显的例子来自照应代词,如`he`、`she`和`it`。给定一个段落如`Angus used to have a dog. But he recently disappeared.`,你可能会解释`he`指的是 Angus 的狗。然而,在`Angus used to have a dog. He took him for walks in New Town.`中,你更可能解释`he`指的是 Angus 自己。 +段落是句子的序列。很多时候,段落中的一个句子的解释依赖它前面的句子。一个明显的例子来自照应代词,如`he`、`she`和`it`。给定一个段落如`Angus used to have a dog. But he recently disappeared.`,你可能会解释`he`指的是 Angus 的狗。然而,在`Angus used to have a dog. He took him for walks in New Town.`中,你更可能解释`he`指的是`Angus`自己。 ## 5.1 段落表示理论 diff --git a/14.md b/14.md index 9f0cdf6b43cd45a3f68bd00edb5fb0a0d2fb9194..89cee9905659f65db54cf6fd497c9a09b7d5ceca 100644 --- a/14.md +++ b/14.md @@ -451,8 +451,8 @@ * [λ abstraction *(4.2)*](ch10.html#λ_abstraction_index_term) * [λ operator *(4.2)*](ch10.html#λ_operator_index_term) -About this document... +## 关于本文档... -UPDATED FOR NLTK 3.0. This is a chapter from《Python 自然语言处理》, by [Steven Bird](http://estive.net/), [Ewan Klein](http://homepages.inf.ed.ac.uk/ewan/) and [Edward Loper](http://ed.loper.org/), Copyright © 2014 the authors. It is distributed with the *Natural Language Toolkit* [`http://nltk.org/`], Version 3.0, under the terms of the [*Creative Commons Attribution-Noncommercial-No Derivative Works 3\.0 United States License*](http://creativecommons.org/licenses/by-nc-nd/3.0/us/). +针对 NLTK 3.0 作出更新。本章来自于《Python 自然语言处理》,[Steven Bird](http://estive.net/), [Ewan Klein](http://homepages.inf.ed.ac.uk/ewan/) 和 [Edward Loper](http://ed.loper.org/),Copyright © 2014 作者所有。本章依据 [*Creative Commons Attribution-Noncommercial-No Derivative Works 3\.0 United States License*](http://creativecommons.org/licenses/by-nc-nd/3.0/us/) 条款,与[*自然语言工具包*](http://nltk.org/) 3.0 版一起发行。 -This document was built on Wed 1 Jul 2015 12:30:05 AEST \ No newline at end of file +本文档构建于星期三 2015 年 7 月 1 日 12:30:05 AEST \ No newline at end of file diff --git a/4.md b/4.md index 6b08d76a518b6f69b9167db7e4f590ce43ec8e3b..e987522127a7c51589e878e3e730a6f62002a70d 100644 --- a/4.md +++ b/4.md @@ -437,7 +437,7 @@ True ### 计数器的一些合理用途 -在有些情况下,我们仍然要在列表推导中使用循环变量。例如:我们需要使用一个循环变量中提取列表中连续重叠的 n-grams: +在有些情况下,我们仍然要在列表推导中使用循环变量。例如:我们需要使用一个循环变量中提取列表中连续重叠的 N 元组: ```py >>> sent = ['The', 'dog', 'gave', 'John', 'the', 'newspaper'] diff --git a/5.md b/5.md index 159471942e8e860769eb167b52ebc4d1667f234b..5d28c5b4e4a039e6bc1e694757b2fd0f4c337dc8 100644 --- a/5.md +++ b/5.md @@ -1207,7 +1207,7 @@ Statement User121 18/m pm me if u tryin to chat 38. ★ 思考 5 中的代码,它确定一个三元标注器的准确性上限。回顾 Abney 的关于精确标注的不可能性的讨论(Church, Young, & Bloothooft, 1996)。解释为什么正确标注这些例子需要获取词和标记以外的其他种类的信息。你如何估计这个问题的规模? 39. ★ 使用`nltk.probability`中的一些估计技术,例如 *Lidstone* 或 *Laplace* 估计,开发一种统计标注器,它在训练中没有遇到而测试中遇到的上下文中表现优于 N 元回退标注器。 40. ★ 检查 Brill 标注器创建的诊断文件`rules.out`和`errors.out`。通过访问源代码(`http://www.nltk.org/code`)获得演示代码,创建你自己版本的 Brill 标注器。并根据你从检查`rules.out`了解到的,删除一些规则模板。增加一些新的规则模板,这些模板使用那些可能有助于纠正你在`errors.out`看到的错误的上下文。 -41. ★ 开发一个 N 元回退标注器,允许在标注器初始化时指定“anti-n-grams”,如`["the", "the"]`。一个 anti-n-grams 被分配一个数字 0,被用来防止这个 N 元回退(如避免估计`P(the | the)`而只做`P(the)`)。 +41. ★ 开发一个 N 元回退标注器,允许在标注器初始化时指定逆 N 元组,如`["the", "the"]`。一个逆 N 元组被分配一个数字 0,被用来防止这个 N 元回退(如避免估计`P(the | the)`而只做`P(the)`)。 42. ★ 使用布朗语料库开发标注器时,调查三种不同的方式来定义训练和测试数据之间的分割:类别(`category`)、来源(`fileid`)和句子。比较它们的相对性能,并讨论哪种方法最合理。(你可能要使用`n`交叉验证,在 3 中讨论的,以提高评估的准确性。) 43. ★ 开发你自己的`NgramTagger`,从 NLTK 中的类继承,封装本章中所述的已标注的训练和测试数据的词汇表缩减方法。确保一元和默认回退标注器有机会获得全部词汇。