提交 c30f48a4 编写于 作者: X xiaowei_xing

test

上级 4997934f
......@@ -119,7 +119,7 @@ $\bullet$ 不需要模型,只需要样本
<div align=center><img src="img/fig14_4.png"/></div>
<div align=center>
图 4:基于 MCTS 的围棋。(a)UCB1 算法在每个步骤中选择的位置和移动都用粗体进行表示。每个圆圈包含了获胜次数/游戏次数。(b)树底部标记为 $1/1$ 的位置下没有进一步的统计记录,因此我们选择一个随机的动作并为其添加一个新纪录(初始化为 $0/0$)。添加新纪录后,蒙特卡洛仿真开始(虚线箭头)。仿真中的动作可以是完全随机的,也可以为随机性添加权重。(c)仿真结束后,路径中的所有记录都将更新(粗体数字)。(图出处:[[3]](#ref3)
图 4:基于 MCTS 的围棋。(a)UCB1 算法在每个步骤中选择的位置和移动都用粗体进行表示。每个圆圈包含了获胜次数/游戏次数。(b)树底部标记为 $1/1$ 的位置下没有进一步的统计记录,因此我们选择一个随机的动作并为其添加一个新纪录(初始化为 $0/0$)。添加新纪录后,蒙特卡洛仿真开始(虚线箭头)。仿真中的动作可以是完全随机的,也可以为随机性添加权重。(c)仿真结束后,路径中的所有记录都将更新(粗体数字)。图出处:[[3]](#ref3)
</div>
AlphaGo [[1]](#ref1) 在仿真阶段使用了一个深度策略网络,这使得仿真比仅仅使用随机仿真更加真实。在围棋这种复杂的游戏中,仿真直到结束是不合适的,AlphaGo 会提前停止仿真,同时还使用了一个价值网络来获得获胜概率。最近,AlphaGo Zero [[2]](#ref2) 被提出,它使用一个单一的网络来同时输出策略和价值函数,并且只使用自玩来训练而没有内置的专家知识。AlphaGo Zero 的表现比 AlphaGo 更加令人印象深刻。
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册