test

c30f48a4 · xiaowei_xing · 4997934f · c30f48a4
隐藏空白更改
内联并排

Showing with 1 addition and 1 deletion

docs/14.md docs/14.md +1 -1

未找到文件。
--- a/docs/14.md
+++ b/docs/14.md
@@ -119,7 +119,7 @@ $\bullet$ 不需要模型，只需要样本
 <div align=center><img src="img/fig14_4.png"/></div>

 <div align=center>
-图 4：基于 MCTS 的围棋。（a）UCB1 算法在每个步骤中选择的位置和移动都用粗体进行表示。每个圆圈包含了获胜次数/游戏次数。（b）树底部标记为 $1/1$ 的位置下没有进一步的统计记录，因此我们选择一个随机的动作并为其添加一个新纪录（初始化为 $0/0$）。添加新纪录后，蒙特卡洛仿真开始（虚线箭头）。仿真中的动作可以是完全随机的，也可以为随机性添加权重。（c）仿真结束后，路径中的所有记录都将更新（粗体数字）。（图出处：[[3]](#ref3)）
+图 4：基于 MCTS 的围棋。（a）UCB1 算法在每个步骤中选择的位置和移动都用粗体进行表示。每个圆圈包含了获胜次数/游戏次数。（b）树底部标记为 $1/1$ 的位置下没有进一步的统计记录，因此我们选择一个随机的动作并为其添加一个新纪录（初始化为 $0/0$）。添加新纪录后，蒙特卡洛仿真开始（虚线箭头）。仿真中的动作可以是完全随机的，也可以为随机性添加权重。（c）仿真结束后，路径中的所有记录都将更新（粗体数字）。图出处：[[3]](#ref3)。
 </div>

 AlphaGo [[1]](#ref1) 在仿真阶段使用了一个深度策略网络，这使得仿真比仅仅使用随机仿真更加真实。在围棋这种复杂的游戏中，仿真直到结束是不合适的，AlphaGo 会提前停止仿真，同时还使用了一个价值网络来获得获胜概率。最近，AlphaGo Zero [[2]](#ref2) 被提出，它使用一个单一的网络来同时输出策略和价值函数，并且只使用自玩来训练而没有内置的专家知识。AlphaGo Zero 的表现比 AlphaGo 更加令人印象深刻。