Update 4.特征缩放的效果.md

5497d5e4 · gin · GitHub · 04c2fe23 · 5497d5e4
隐藏空白更改
内联并排

Showing with 3 addition and 4 deletion

docs/4.特征缩放的效果.md docs/4.特征缩放的效果.md +3 -4

未找到文件。
--- a/docs/4.特征缩放的效果.md
+++ b/docs/4.特征缩放的效果.md
@@ -9,16 +9,15 @@

 Tf-Idf 是词袋的一个小小的转折。它表示词频-逆文档频。tf-idf不是查看每个文档中每个单词的原始计数，而是查看每个单词计数除以出现该单词的文档数量的标准化计数。

-$$ bow(w, d)=\# times　word　w　appears　in　document　d $$
-$$ tf-idf(w, d) = \frac{bow(w, d) \times N}{(\# documents　in　which　word　w　appears)} $$
+![](../images/chapter4/latex1.png)

-N代表数据集中所有文档的数量。分数$\frac{bow(w, d) \times N}{(\# documents　in　which　word　w　appears)}$就是所谓的逆文件频率。如果一个单词出现在许多文档中，则其逆文档频率接近1。如果单词出现在较少文档中，则逆文档频率要高得多。
+N代表数据集中所有文档的数量。分数![](../images/chapter4/latex2.png)就是所谓的逆文件频率。如果一个单词出现在许多文档中，则其逆文档频率接近1。如果单词出现在较少文档中，则逆文档频率要高得多。

 或者，我们可以对原始逆文档频率进行对数转换，可以将1变为0，并使得较大的数字（比1大得多）变小。（稍后更多内容）

 如果我们定义 tf-idf 为：

-$$ tf-idf(w, d) = bow(w, d) \times log\frac{N}{ \# documents　in　which　word　w　appears} $$
+![](../images/chapter4/latex3.png)

 那么每个文档中出现的单词都将被有效清零，并且只出现在少数文档中的单词的计数将比以前更大。