提交 1d1490f6 编写于 作者: W wizardforcel

2020-08-06 18:45:10

上级 7291d7a0
...@@ -4,8 +4,8 @@ ...@@ -4,8 +4,8 @@
+ [三、实现前馈神经网络](ch03.md) + [三、实现前馈神经网络](ch03.md)
+ [四、CNN 实战](ch04.md) + [四、CNN 实战](ch04.md)
+ [五、使用 TensorFlow 实现自编码器](ch05.md) + [五、使用 TensorFlow 实现自编码器](ch05.md)
+ [六、RNN 和梯度消失 - 爆炸问题](ch06.md) + [六、RNN 和梯度消失爆炸问题](ch06.md)
+ [七、TensorFlow GPU ](ch07.md) + [七、TensorFlow GPU ](ch07.md)
+ [八、TFLearn](ch08.md) + [八、TFLearn](ch08.md)
+ [九、使用协同过滤的电影推荐](ch09.md) + [九、使用协同过滤的电影推荐](ch09.md)
+ [十、OpenAI Gym](ch10.md) + [十、OpenAI Gym](ch10.md)
# 六、RNN 和梯度消失 - 爆炸问题 # 六、RNN 和梯度消失爆炸问题
较深层的梯度计算为多层网络中许多激活函数梯度的乘积。当这些梯度很小或为零时,它很容易消失。另一方面,当它们大于 1 时,它可能会爆炸。因此,计算和更新变得非常困难。 较深层的梯度计算为多层网络中许多激活函数梯度的乘积。当这些梯度很小或为零时,它很容易消失。另一方面,当它们大于 1 时,它可能会爆炸。因此,计算和更新变得非常困难。
...@@ -7,7 +7,7 @@ ...@@ -7,7 +7,7 @@
* 如果权重较小,则可能导致称为消失梯度的情况,其中梯度信号变得非常小,以至于学习变得非常慢或完全停止工作。这通常被称为消失梯度。 * 如果权重较小,则可能导致称为消失梯度的情况,其中梯度信号变得非常小,以至于学习变得非常慢或完全停止工作。这通常被称为消失梯度。
* 如果该矩阵中的权重很大,则可能导致梯度信号太大而导致学习发散的情况。这通常被称为爆炸梯度。 * 如果该矩阵中的权重很大,则可能导致梯度信号太大而导致学习发散的情况。这通常被称为爆炸梯度。
因此,RNN 的一个主要问题是消失 - 爆炸梯度问题,它直接影响表现。事实上,反向传播时间推出了 RNN,创建了一个非常深的前馈神经网络。从 RNN 获得长期背景的不可能性正是由于这种现象:如果梯度在几层内消失或爆炸,网络将无法学习数据之间的高时间距离关系。 因此,RNN 的一个主要问题是消失爆炸梯度问题,它直接影响表现。事实上,反向传播时间推出了 RNN,创建了一个非常深的前馈神经网络。从 RNN 获得长期背景的不可能性正是由于这种现象:如果梯度在几层内消失或爆炸,网络将无法学习数据之间的高时间距离关系。
下图显示了发生的情况:计算和反向传播的梯度趋于在每个时刻减少(或增加),然后,在一定数量的时刻之后,成本函数趋于收敛到零(或爆炸到无穷大) )。 下图显示了发生的情况:计算和反向传播的梯度趋于在每个时刻减少(或增加),然后,在一定数量的时刻之后,成本函数趋于收敛到零(或爆炸到无穷大) )。
...@@ -72,7 +72,7 @@ ...@@ -72,7 +72,7 @@
而且,它取决于循环层的参数`θ`。如果在训练期间你的权重变大,那么由于每个时间步长的等式(I)(II)的乘法,它们将会出现梯度爆炸的问题。 而且,它取决于循环层的参数`θ`。如果在训练期间你的权重变大,那么由于每个时间步长的等式(I)(II)的乘法,它们将会出现梯度爆炸的问题。
为了克服消失 - 爆炸问题,已经提出了基本 RNN 模型的各种扩展。将在下一节介绍的 LSTM 网络就是其中之一。 为了克服消失爆炸问题,已经提出了基本 RNN 模型的各种扩展。将在下一节介绍的 LSTM 网络就是其中之一。
## LSTM 网络 ## LSTM 网络
......
# 七、TensorFlow GPU # 七、TensorFlow GPU
要将 TensorFlow 与 NVIDIA GPU 配合使用,第一步是安装 CUDA Toolkit。 要将 TensorFlow 与 NVIDIA GPU 配合使用,第一步是安装 CUDA Toolkit。
......
...@@ -15,8 +15,8 @@ ...@@ -15,8 +15,8 @@
+ [三、实现前馈神经网络](docs/dl-tf-2e-zh/ch03.md) + [三、实现前馈神经网络](docs/dl-tf-2e-zh/ch03.md)
+ [四、CNN 实战](docs/dl-tf-2e-zh/ch04.md) + [四、CNN 实战](docs/dl-tf-2e-zh/ch04.md)
+ [五、使用 TensorFlow 实现自编码器](docs/dl-tf-2e-zh/ch05.md) + [五、使用 TensorFlow 实现自编码器](docs/dl-tf-2e-zh/ch05.md)
+ [六、RNN 和梯度消失 - 爆炸问题](docs/dl-tf-2e-zh/ch06.md) + [六、RNN 和梯度消失爆炸问题](docs/dl-tf-2e-zh/ch06.md)
+ [七、TensorFlow GPU ](docs/dl-tf-2e-zh/ch07.md) + [七、TensorFlow GPU ](docs/dl-tf-2e-zh/ch07.md)
+ [八、TFLearn](docs/dl-tf-2e-zh/ch08.md) + [八、TFLearn](docs/dl-tf-2e-zh/ch08.md)
+ [九、使用协同过滤的电影推荐](docs/dl-tf-2e-zh/ch09.md) + [九、使用协同过滤的电影推荐](docs/dl-tf-2e-zh/ch09.md)
+ [十、OpenAI Gym](docs/dl-tf-2e-zh/ch10.md) + [十、OpenAI Gym](docs/dl-tf-2e-zh/ch10.md)
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册