Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
d2l-zh
提交
0e023ce0
D
d2l-zh
项目概览
OpenDocCN
/
d2l-zh
通知
2
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
D
d2l-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
提交
0e023ce0
编写于
6月 27, 2019
作者:
A
Aston Zhang
提交者:
Aston Zhang
8月 28, 2019
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
Update batch-norm.md
上级
0c993bac
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
2 addition
and
2 deletion
+2
-2
chapter_convolutional-neural-networks/batch-norm.md
chapter_convolutional-neural-networks/batch-norm.md
+2
-2
未找到文件。
chapter_convolutional-neural-networks/batch-norm.md
浏览文件 @
0e023ce0
...
...
@@ -34,12 +34,12 @@ $$\boldsymbol{\sigma}_\mathcal{B}^2 \leftarrow \frac{1}{m} \sum_{i=1}^{m}(\bolds
$$
\h
at{
\b
oldsymbol{x}}^{(i)}
\l
eftarrow
\f
rac{
\b
oldsymbol{x}^{(i)} -
\b
oldsymbol{
\m
u}_
\m
athcal{B}}{
\s
qrt{
\b
oldsymbol{
\s
igma}_
\m
athcal{B}^2 +
\e
psilon}},$$
这里$
\e
psilon > 0$是一个很小的常数,保证分母大于0。在上面标准化的基础上,批量归一化层引入了两个可以学习的模型参数,拉伸(scale)参数 $
\b
oldsymbol{
\g
amma}$ 和偏移(shift)参数 $
\b
oldsymbol{
\b
eta}$。这两个参数和$
\b
oldsymbol{x}^{(i)}$形状相同,皆为$d$维向量。它们与$
\
b
oldsymbol{x
}^{(i)}$分别做按元素乘法(符号$
\o
dot$)和加法计算:
这里$
\e
psilon > 0$是一个很小的常数,保证分母大于0。在上面标准化的基础上,批量归一化层引入了两个可以学习的模型参数,拉伸(scale)参数 $
\b
oldsymbol{
\g
amma}$ 和偏移(shift)参数 $
\b
oldsymbol{
\b
eta}$。这两个参数和$
\b
oldsymbol{x}^{(i)}$形状相同,皆为$d$维向量。它们与$
\
h
at{
\b
oldsymbol{x}
}^{(i)}$分别做按元素乘法(符号$
\o
dot$)和加法计算:
$${
\b
oldsymbol{y}}^{(i)}
\l
eftarrow
\b
oldsymbol{
\g
amma}
\o
dot
\h
at{
\b
oldsymbol{x}}^{(i)} +
\b
oldsymbol{
\b
eta}.$$
至此,我们得到了$
\b
oldsymbol{x}^{(i)}$的批量归一化的输出$
\b
oldsymbol{y}^{(i)}$。
值得注意的是,可学习的拉伸和偏移参数保留了不对$
\
h
at{
\b
oldsymbol{x}
}^{(i)}$做批量归一化的可能:此时只需学出$
\b
oldsymbol{
\g
amma} =
\s
qrt{
\b
oldsymbol{
\s
igma}_
\m
athcal{B}^2 +
\e
psilon}$和$
\b
oldsymbol{
\b
eta} =
\b
oldsymbol{
\m
u}_
\m
athcal{B}$。我们可以对此这样理解:如果批量归一化无益,理论上,学出的模型可以不使用批量归一化。
值得注意的是,可学习的拉伸和偏移参数保留了不对$
\
b
oldsymbol{x
}^{(i)}$做批量归一化的可能:此时只需学出$
\b
oldsymbol{
\g
amma} =
\s
qrt{
\b
oldsymbol{
\s
igma}_
\m
athcal{B}^2 +
\e
psilon}$和$
\b
oldsymbol{
\b
eta} =
\b
oldsymbol{
\m
u}_
\m
athcal{B}$。我们可以对此这样理解:如果批量归一化无益,理论上,学出的模型可以不使用批量归一化。
### 对卷积层做批量归一化
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录