提交 8d441a2b 编写于 作者: X xiaowei_xing

test

上级 707e3a5e
......@@ -94,4 +94,4 @@ $\bullet$ 有效地结合规划和抽样来打破维度灾难(如围棋)
### 5.1 基于 MCTS 的围棋(MCTS for Go)
作为一个双人游戏,围棋需要一些相当自然的扩展以应用前面提到的 MCTS 算法。我们现在构建一个极小极大树,白色节点寻求最小化奖励,黑色节点寻求最大化奖励。我们在黑色节点使用前面提到的 UCB,在白色节点使用 LCB(置信下界)即 $\mathop{\min}_{a}Q(s,a)-\sqrt{\feac{2\log N(s)}{N(s,a)}}$(因为它们寻求最小化奖励)。
\ No newline at end of file
作为一个双人游戏,围棋需要一些相当自然的扩展以应用前面提到的 MCTS 算法。我们现在构建一个极小极大树,白色节点寻求最小化奖励,黑色节点寻求最大化奖励。我们在黑色节点使用前面提到的 UCB,在白色节点使用 LCB(置信下界)即 $\mathop{\min}_{a}Q(s,a)-\sqrt{\frac{2\log N(s)}{N(s,a)}}$(因为它们寻求最小化奖励)。
\ No newline at end of file
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册