test

cf7b4ebd · xiaowei_xing · 8d441a2b · cf7b4ebd
隐藏空白更改
内联并排

Showing with 19 addition and 1 deletion

docs/14.md docs/14.md +19 -1

未找到文件。
--- a/docs/14.md
+++ b/docs/14.md
@@ -94,4 +94,22 @@ $\bullet$ 有效地结合规划和抽样来打破维度灾难（如围棋）

 ### 5.1 基于 MCTS 的围棋（MCTS for Go）

-作为一个双人游戏，围棋需要一些相当自然的扩展以应用前面提到的 MCTS 算法。我们现在构建一个极小极大树，白色节点寻求最小化奖励，黑色节点寻求最大化奖励。我们在黑色节点使用前面提到的 UCB，在白色节点使用 LCB（置信下界）即 $\mathop{\min}_{a}Q(s,a)-\sqrt{\frac{2\log N(s)}{N(s,a)}}$（因为它们寻求最小化奖励）。
\ No newline at end of file
+作为一个双人游戏，围棋需要一些相当自然的扩展以应用前面提到的 MCTS 算法。我们现在构建一个极小极大树，白色节点寻求最小化奖励，黑色节点寻求最大化奖励。我们在黑色节点使用前面提到的 UCB，在白色节点使用 LCB（置信下界）即 $\mathop{\min}_{a}Q(s,a)-\sqrt{\frac{2\log N(s)}{N(s,a)}}$（因为它们寻求最小化奖励）。
+
+考虑[图 4](#fig4)（a）树中的状态以及节点中记录的统计信息（胜利/总次数），不同的颜色代表不同的玩家。算法或树策略的第一阶段在节点中使用这些统计信息，将每个节点视作一个独立的 MAB 实例，并从根节点开始使用 UCB（LCB）依次选择动作，如粗体箭头所示（$c=2$）。
+
+一旦我们到达了树的叶节点，如[图 4](#fig4)（b）所示，我们就使用仿真策略来模拟一次游戏。然后，这次游戏的结果通过树反向传播（[图 4](#fig4)（c）），同时我们更新统计信息。
+
+继续执行这个过程直到结束，然后最佳动作便可以得到。有关详细的伪代码，可以参考 [[4]](#ref4)，Python 实现可以参考 [[3]](#ref3)。
+
+AlphaGo [[1]](#ref1) 在仿真阶段使用了一个深度策略网络，这使得仿真比仅仅使用随机仿真更加真实。在围棋这种复杂的游戏中，仿真直到结束是不合适的，AlphaGo 会提前停止仿真，同时还使用了一个价值网络来获得获胜概率。最近，AlphaGo Zero [[2]](#ref2) 被提出，它使用一个单一的网络来同时输出策略和价值函数，并且只使用自玩来训练而没有内置的专家知识。AlphaGo Zero 的表现比 AlphaGo 更加令人印象深刻。
+
+## 参考文献
+
+1. <span id="ref1">D. Silver et al, "Mastering the game of Go with deep neural networks and tree search," *Nature*, 2016.</span>
+
+2. <span id="ref2">D. Silver et al, "Mastreing the game of Go without human knowledge," *Nature*, 2017.</span>
+
+3. <span id="ref3">J. Bradberry, "[Introduction to Monte Carlo tree search](https://jeffbradberry.com/posts/2015/09/intro-to-monte-carlo-tree-search/)," 2015.</span>
+
+4. <span id="ref4">S. Gelly, and D. Silver, "Monte-Carlo tree search and rapid action value estimation in computer Go," *Artificial Intelligence*, 2011.</span>
\ No newline at end of file