Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
fe4ml-zh
提交
d53e7c7a
F
fe4ml-zh
项目概览
OpenDocCN
/
fe4ml-zh
通知
5
Star
1
Fork
2
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
F
fe4ml-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
未验证
提交
d53e7c7a
编写于
6月 01, 2018
作者:
G
gin
提交者:
GitHub
6月 01, 2018
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
latex
上级
4d65d059
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
2 addition
and
2 deletion
+2
-2
docs/4.特征缩放的效果:从词袋到 TF-IDF.md
docs/4.特征缩放的效果:从词袋到 TF-IDF.md
+2
-2
未找到文件。
docs/4.特征缩放的效果.md
→
docs/4.特征缩放的效果
:从词袋到 TF-IDF
.md
浏览文件 @
d53e7c7a
...
...
@@ -27,7 +27,7 @@ N代表数据集中所有文档的数量。分数![](../images/chapter4/latex2.p
<center><h5>
图 4-1: 关于猫和狗的四个句子
</h5></center>
现在让我们看看对逆文档频进行对数变换之后,相同四个句子的tf-idf表示。 图4-2显示了相应特征空间中的文档。可以注意到,单词“is”被有效地消除,因为它出现在该数据集中的所有句子中。另外,单词“puppy”和“cat”都只出现在四个句子中的一个句子中,所以现在这两个词计数得比之前更高(
$log(4)=1.38...>1$
)。因此tf-idf使罕见词语更加突出,并有效地忽略了常见词汇。它与第3章中基于频率的滤波方法密切相关,但比放置严格截止阈值更具数学优雅性。
现在让我们看看对逆文档频进行对数变换之后,相同四个句子的tf-idf表示。 图4-2显示了相应特征空间中的文档。可以注意到,单词“is”被有效地消除,因为它出现在该数据集中的所有句子中。另外,单词“puppy”和“cat”都只出现在四个句子中的一个句子中,所以现在这两个词计数得比之前更高(
log(4)=1.38...>1
)。因此tf-idf使罕见词语更加突出,并有效地忽略了常见词汇。它与第3章中基于频率的滤波方法密切相关,但比放置严格截止阈值更具数学优雅性。
![
Figure 4-2: 图4-1中四个句子的Tf-idf表示
](
../images/chapter4/4-2.png
)
<center><h5>
Figure 4-2: 图4-1中四个句子的Tf-idf表示
</h5></center>
...
...
@@ -360,7 +360,7 @@ Tf-idf和L2归一化都是数据矩阵上的列操作。 正如附录A所讨论
可以通过特征缩放来解决数据矩阵的不满秩问题吗? 让我们来看看。
列空间被定义为所有列向量的线性组合:!
[](
../images/chapter4/latex4.png
)
。比方说,特征缩放用一个常数倍来替换一个列向量,
$v_1=cv_1$
。但是我们仍然可以通过用!
[](
../images/chapter4/latex5.png
)
来替换!
[](
../images/chapter4/latex6.png
)
,生成原始的线性组合。看起来,特征缩放不会改变列空间的秩。类似地,特征缩放不会影响空间的秩,因为可以通过反比例缩放权重向量中的对应条目来抵消缩放的特征列。
列空间被定义为所有列向量的线性组合:!
[](
../images/chapter4/latex4.png
)
。比方说,特征缩放用一个常数倍来替换一个列向量,
!
[](
../images/chapter4/latex8.png
)
。但是我们仍然可以通过用!
[](
../images/chapter4/latex5.png
)
来替换!
[](
../images/chapter4/latex6.png
)
,生成原始的线性组合。看起来,特征缩放不会改变列空间的秩。类似地,特征缩放不会影响空间的秩,因为可以通过反比例缩放权重向量中的对应条目来抵消缩放的特征列。
但是,仍然存在一个陷阱。 如果标量为0,则无法恢复原始线性组合;!
[](
../images/chapter4/latex7.png
)
消失了。 如果该向量与所有其他列线性无关,那么我们已经有效地缩小了列空间并放大了零空间。
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录