未验证 提交 5497d5e4 编写于 作者: G gin 提交者: GitHub

Update 4.特征缩放的效果.md

上级 04c2fe23
......@@ -9,16 +9,15 @@
Tf-Idf 是词袋的一个小小的转折。它表示词频-逆文档频。tf-idf不是查看每个文档中每个单词的原始计数,而是查看每个单词计数除以出现该单词的文档数量的标准化计数。
$$ bow(w, d)=\# times word w appears in document d $$
$$ tf-idf(w, d) = \frac{bow(w, d) \times N}{(\# documents in which word w appears)} $$
![](../images/chapter4/latex1.png)
N代表数据集中所有文档的数量。分数$\frac{bow(w, d) \times N}{(\# documents in which word w appears)}$就是所谓的逆文件频率。如果一个单词出现在许多文档中,则其逆文档频率接近1。如果单词出现在较少文档中,则逆文档频率要高得多。
N代表数据集中所有文档的数量。分数![](../images/chapter4/latex2.png)就是所谓的逆文件频率。如果一个单词出现在许多文档中,则其逆文档频率接近1。如果单词出现在较少文档中,则逆文档频率要高得多。
或者,我们可以对原始逆文档频率进行对数转换,可以将1变为0,并使得较大的数字(比1大得多)变小。(稍后更多内容)
如果我们定义 tf-idf 为:
$$ tf-idf(w, d) = bow(w, d) \times log\frac{N}{ \# documents in which word w appears} $$
![](../images/chapter4/latex3.png)
那么每个文档中出现的单词都将被有效清零,并且只出现在少数文档中的单词的计数将比以前更大。
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册