提交 707e3a5e 编写于 作者: X xiaowei_xing

test

上级 cd7622c6
......@@ -90,4 +90,8 @@ $\bullet$ 有效地结合规划和抽样来打破维度灾难(如围棋)
围棋是世界上最古老的棋类游戏,解决这一问题一直是人工智能面临的一个长期挑战,而在 AlphaGo 之前,传统的游戏树搜索算法未能达到专业的人类级别的性能。围棋是一个在 $19\times 19$ 板(也有更小的板)上进行的双人游戏(黑子/白子,B/W),黑子和白子接连被放在板上,游戏的主要目标是包围和占领领地,另外,被对手包围的棋子会被移除。
最简单的奖励函数可以按照如下规则设置:如果最终状态黑子胜则奖励为 $+1$,如果白子胜则为 $0$,而其他状态均为 $0$。那么黑子玩家的目的则为最大化奖励而白子玩家则要尽量最小化奖励。给定一个策略 $\pi=<\pi_{B},\pi_{W}>$(分别对黑子玩家和白子玩家),值函数为 $V_{\pi}(s)=\mathbb{E}_ {\pi}[R_{T}|s]=P[Black wins|s]$,最优值函数为 $V^{\ast}(s)=\mathop{\max}_ {\pi_{B}}\mathop{\min}_ {\pi_{W}}V_{\pi}(s)$。
\ No newline at end of file
最简单的奖励函数可以按照如下规则设置:如果最终状态黑子胜则奖励为 $+1$,如果白子胜则为 $0$,而其他状态均为 $0$。那么黑子玩家的目的则为最大化奖励而白子玩家则要尽量最小化奖励。给定一个策略 $\pi=<\pi_{B},\pi_{W}>$(分别对黑子玩家和白子玩家),值函数为 $V_{\pi}(s)=\mathbb{E}_ {\pi}[R_{T}|s]=P[Black wins|s]$,最优值函数为 $V^{\ast}(s)=\mathop{\max}_ {\pi_{B}}\mathop{\min}_ {\pi_{W}}V_{\pi}(s)$。
### 5.1 基于 MCTS 的围棋(MCTS for Go)
作为一个双人游戏,围棋需要一些相当自然的扩展以应用前面提到的 MCTS 算法。我们现在构建一个极小极大树,白色节点寻求最小化奖励,黑色节点寻求最大化奖励。我们在黑色节点使用前面提到的 UCB,在白色节点使用 LCB(置信下界)即 $\mathop{\min}_{a}Q(s,a)-\sqrt{\feac{2\log N(s)}{N(s,a)}}$(因为它们寻求最小化奖励)。
\ No newline at end of file
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册