未验证 提交 d53e7c7a 编写于 作者: G gin 提交者: GitHub

latex

上级 4d65d059
......@@ -27,7 +27,7 @@ N代表数据集中所有文档的数量。分数![](../images/chapter4/latex2.p
<center><h5>图 4-1: 关于猫和狗的四个句子</h5></center>
现在让我们看看对逆文档频进行对数变换之后,相同四个句子的tf-idf表示。 图4-2显示了相应特征空间中的文档。可以注意到,单词“is”被有效地消除,因为它出现在该数据集中的所有句子中。另外,单词“puppy”和“cat”都只出现在四个句子中的一个句子中,所以现在这两个词计数得比之前更高($log(4)=1.38...>1$)。因此tf-idf使罕见词语更加突出,并有效地忽略了常见词汇。它与第3章中基于频率的滤波方法密切相关,但比放置严格截止阈值更具数学优雅性。
现在让我们看看对逆文档频进行对数变换之后,相同四个句子的tf-idf表示。 图4-2显示了相应特征空间中的文档。可以注意到,单词“is”被有效地消除,因为它出现在该数据集中的所有句子中。另外,单词“puppy”和“cat”都只出现在四个句子中的一个句子中,所以现在这两个词计数得比之前更高(log(4)=1.38...>1)。因此tf-idf使罕见词语更加突出,并有效地忽略了常见词汇。它与第3章中基于频率的滤波方法密切相关,但比放置严格截止阈值更具数学优雅性。
![Figure 4-2: 图4-1中四个句子的Tf-idf表示](../images/chapter4/4-2.png)
<center><h5>Figure 4-2: 图4-1中四个句子的Tf-idf表示</h5></center>
......@@ -360,7 +360,7 @@ Tf-idf和L2归一化都是数据矩阵上的列操作。 正如附录A所讨论
可以通过特征缩放来解决数据矩阵的不满秩问题吗? 让我们来看看。
列空间被定义为所有列向量的线性组合:![](../images/chapter4/latex4.png)。比方说,特征缩放用一个常数倍来替换一个列向量,$v_1=cv_1$。但是我们仍然可以通过用![](../images/chapter4/latex5.png)来替换![](../images/chapter4/latex6.png),生成原始的线性组合。看起来,特征缩放不会改变列空间的秩。类似地,特征缩放不会影响空间的秩,因为可以通过反比例缩放权重向量中的对应条目来抵消缩放的特征列。
列空间被定义为所有列向量的线性组合:![](../images/chapter4/latex4.png)。比方说,特征缩放用一个常数倍来替换一个列向量,![](../images/chapter4/latex8.png)。但是我们仍然可以通过用![](../images/chapter4/latex5.png)来替换![](../images/chapter4/latex6.png),生成原始的线性组合。看起来,特征缩放不会改变列空间的秩。类似地,特征缩放不会影响空间的秩,因为可以通过反比例缩放权重向量中的对应条目来抵消缩放的特征列。
但是,仍然存在一个陷阱。 如果标量为0,则无法恢复原始线性组合;![](../images/chapter4/latex7.png)消失了。 如果该向量与所有其他列线性无关,那么我们已经有效地缩小了列空间并放大了零空间。
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册