完成2.1.1节的校对

c5756c6a · lewisgu · c5e454f0 · c5756c6a
隐藏空白更改
内联并排

Showing with 10 addition and 10 deletion

docs/what-do-we-understand-about-convnet/2.1.1-2.1.3.md docs/what-do-we-understand-about-convnet/2.1.1-2.1.3.md +10 -10

未找到文件。
--- a/docs/what-do-we-understand-about-convnet/2.1.1-2.1.3.md
+++ b/docs/what-do-we-understand-about-convnet/2.1.1-2.1.3.md
@@ -12,35 +12,35 @@

 #### 2.1.1神经网络

-典型的神经网络架构由输入层![](img/tex.gif)，输出层，![](img/tex1.gif)和多个隐藏层的堆栈![](img/tex2.gif)组成，其中每层由多个单元或单元组成，如图2.1。通常，每个隐藏单元![](img/tex3.gif)接收来自前一层的所有单元的输入，并定义为输入的加权组合，后跟非线性根据
+典型的神经网络架构由输入层![](img/tex.gif)，输出层![](img/tex1.gif)，和多个隐藏层组成的堆栈![](img/tex2.gif)组成，其中每层由多个单元或单元组成，如图2.1所示。通常，每个隐藏单元![](img/tex3.gif)接收来自前一层所有单元的输入，其输出由输入的加权组合与非线性计算得到，计算公式见（2.1）

 ![](img/tex4.gif)（2.1）

-其中，![](img/tex5.gif)是控制输入单元和隐藏单元之间连接强度的权重，![](img/tex6.gif)是隐藏单元的小偏差，![](img/tex7.gif)是一些饱和非线性，如S形。
+其中，![](img/tex5.gif)是控制输入单元和隐藏单元之间连接强度的权重系数，![](img/tex6.gif)是隐藏单元的微小偏移量，![](img/tex7.gif)是饱和非线性函数，如Sigmoid函数。

 ![](img/x1.png)

-图2.1：典型神经网络架构的图示。图[〜]复制。
+图2.1：典型神经网络架构的图示。复制自文献[17]。

-深度神经网络可以看作是Rosenblatt的感知器[122]和多层感知器[123]的现代实例。虽然，神经网络模型已存在多年（_，即_。自1960年代以来），它们直到最近才被大量使用。这种延迟有很多原因。最初的负面结果显示感知器无法对XOR这样的简单操作进行建模，阻碍了对感知器的进一步研究一段时间，直到它们被推广到多层[106]。此外，缺乏适当的训练算法会减慢进展，直到反向传播算法的普及[125]。然而，阻碍多层神经网络发展的更大障碍是它们依赖于非常大量的参数，这反过来意味着需要大量的训练数据和计算资源来支持参数的学习。
+深度神经网络可以看作是Rosenblatt所提出的感知器[122]和多层感知器[123]的现代版实例。虽然，神经网络模型已存在多年（神经网络由1960年代首次提出），它们直到最近才被大量使用。神经网络的沉寂多年原因复杂。最初，实验的负面结果表明感知器无法对XOR这样的简单操作进行建模，这一失败在一定时间内阻碍了对感知器的进一步研究，直到感知器由单层推广到多层[106]。此外，缺乏适当的训练算法亦使得研究进展缓慢，直到反向传播算法的普及[125]。然而，阻碍多层神经网络发展的更大障碍是它们依赖于非常大量的参数，这反过来意味着多层神经网络需要大量的训练数据和计算资源来支持参数的学习。

-使用受限玻尔兹曼机器（RBM）[68]，在深度神经网络领域取得重大进展的主要贡献是分层无监督预训练。受限制的玻尔兹曼机器可以看作是两层神经网络，其限制形式只允许前馈连接。在图像识别的背景下，用于训练RBM的无监督学习方法可以归纳为三个步骤。首先，对于每个像素，![](img/tex8.gif)，并以一组随机权重，![](img/tex5.gif)和偏差![](img/tex6.gif)开始，每个单位的隐藏状态![](img/tex3.gif)以概率设置为![](img/tex9.gif)， ![](img/tex10.gif)。概率定义为
+通过使用受限玻尔兹曼机（RBM）[68]，深度神经网络领域在分层无监督预训练方面取得重大进展。受限玻尔兹曼机可以看作受限只允许前馈连接的两层神经网络。当应用于图像识别时，用于训练RBM的无监督学习方法可以归纳为三个步骤。首先，每个像素![](img/tex8.gif)作为输入，随机权重设为![](img/tex5.gif)，偏差为![](img/tex6.gif)，每个单位的隐藏状态![](img/tex3.gif)值为![](img/tex9.gif)的概率设为![](img/tex10.gif)。概率由式（2.2定义）

 ![](img/tex11.gif)（2.2）

-哪里，![](img/tex12.gif)。其次，一旦基于等式2.2随机地设置了所有隐藏状态，通过以概率![](img/tex13.gif)将每个像素![](img/tex8.gif)设置为![](img/tex9.gif)来执行重建图像的尝试。第三，通过基于由给出的重建误差更新权重和偏差来校正隐藏单元
+其中![](img/tex12.gif)。其次，一旦基于等式2.2随机地设置了所有隐藏状态，通过以概率![](img/tex13.gif)将每个像素![](img/tex8.gif)设置为![](img/tex9.gif)以尝试重建图像。第三，通过基于由式（2.3）给出的重建误差更新权重和偏差来校正隐藏单元

 ![](img/tex14.gif)（2.3）

-其中![](img/tex15.gif)是学习率，![](img/tex16.gif)是像素![](img/tex8.gif)和隐藏单元![](img/tex3.gif)在一起的次数。整个过程重复![](img/tex17.gif)次或直到误差下降到预设阈值![](img/tex18.gif)。在训练一个层之后，其输出被用作层次结构中下一层的输入，该层又按照相同的过程进行训练。通常，在预训练所有网络层之后，使用梯度下降通过误差反向传播进一步对标记数据进行微调[68]。使用该分层无监督预训练允许训练深度神经网络而不需要大量标记数据，因为无监督RBM预训练提供了用于经验上有用的初始化各种网络参数的方式。
+其中![](img/tex15.gif)是学习率，![](img/tex16.gif)是像素![](img/tex8.gif)和隐藏单元![](img/tex3.gif)在一起的次数。整个迭代过程最大重复为![](img/tex17.gif)次，或当直到误差下降到预设阈值![](img/tex18.gif)时迭代结束。当完成一层的训练后，该层的输出将作为层次结构中下一层的输入。下一层亦将循环该过程。通常，在完成所有网络层的预训练之后，使用梯度下降，通过误差反向传播进一步对标记数据进行微调[68]。通过使用该分层无监督预训练方法，深度神经网络不需要大量标记数据亦可进行训练，因为无监督RBM预训练提供了用于经验上有用的初始化各种网络参数的方式。

-依赖于堆叠RBM的神经网络首先成功地部署为一种降维方法，并应用于人脸识别[69]，其中它们被用作一种自动编码器。简而言之，自动编码器可以定义为由两个主要部分组成的多层神经网络：首先，编码器将输入数据转换为特征向量;第二，解码器将生成的特征向量映射回输入空间;见，图2.2。通过最小化输入与其重建版本之间的重建误差来学习自动编码器的参数。
+依赖于堆叠RBM的神经网络首先成功地在人脸识别应用中作为一种降维方法进行部署[69]，其中它们被用作一种自动编码器。简而言之，自动编码器可以定义为由两个主要部分组成的多层神经网络：首先，其中编码器将输入数据转换为特征向量;第二，解码器将生成的特征向量映射回输入空间;见图2.2。通过最小化输入与其重建版本之间的、误差来学习自动编码器的参数。

 ![](img/x2.png)

-图2.2：典型自动编码器网络的结构。图[〜]复制。
+图2.2：典型自编码器网络的结构。复制自文献[17]。

-除了基于RBM的自动编码器之外，后来提出了几种类型的自动编码器。每个自动编码器都引入了一种不同的正则化方法，即使在执行不同的不变性时，也能阻止网络学习琐碎的解决方案。示例包括稀疏自动编码器（SAE）[8]，去噪自动编码器（DAE）[141,142]和压缩自动编码器（CAE）[118]。稀疏自动编码器[8]允许中间表示的大小（_，即由编码器部分生成的_。）大于输入的大小，同时通过惩罚负输出来强制稀疏。相比之下，去噪自动编码器[141,142]通过尝试从人为损坏的版本重建干净的输入来改变重建本身的目标，目的是学习强大的表示。类似地，压缩自动编码器[118]通过进一步惩罚对注入噪声最敏感的单元来构建去噪自动编码器。各种类型的自动编码器的更详细的评论可以在其他地方找到[7]。
+除了基于RBM的自动编码器之外，后来学者们又提出了几种类型的自动编码器。每个自动编码器都引入了一种不同的正则化方法，即使在执行不同的不变性时，也能阻止网络学习不重要的解决方案。主要范例包括稀疏自动编码器（SAE）[8]，去噪自动编码器（DAE）[141,142]和压缩自动编码器（CAE）[118]。稀疏自动编码器[8]允许中间表示的大小（即由编码器部分生成的）大于输入的大小，同时通过惩罚负输出来强制实现稀疏。相比之下，去噪自动编码器[141,142]通过尝试从人为损坏的版本重建干净的输入来改变重建本身的目标，其目的是学习稳健的表示能力。类似地，压缩自动编码器[118]通过进一步惩罚对注入噪声最敏感的单元来构建去噪自动编码器。各种类型自动编码器的更详细介绍可以在其他地方找到，如参考文献[7]。

 #### 2.1.2递归神经网络