提交 cd7622c6 编写于 作者: X xiaowei_xing

test

上级 27ceddd3
......@@ -86,4 +86,8 @@ $\bullet$ 有效地结合规划和抽样来打破维度灾难(如围棋)
**算法3**
## 5. 案例学习:围棋(Case Study: Go)
\ No newline at end of file
## 5. 案例学习:围棋(Case Study: Go)
围棋是世界上最古老的棋类游戏,解决这一问题一直是人工智能面临的一个长期挑战,而在 AlphaGo 之前,传统的游戏树搜索算法未能达到专业的人类级别的性能。围棋是一个在 $19\times 19$ 板(也有更小的板)上进行的双人游戏(黑子/白子,B/W),黑子和白子接连被放在板上,游戏的主要目标是包围和占领领地,另外,被对手包围的棋子会被移除。
最简单的奖励函数可以按照如下规则设置:如果最终状态黑子胜则奖励为 $+1$,如果白子胜则为 $0$,而其他状态均为 $0$。那么黑子玩家的目的则为最大化奖励而白子玩家则要尽量最小化奖励。给定一个策略 $\pi=<\pi_{B},\pi_{W}>$(分别对黑子玩家和白子玩家),值函数为 $V_{\pi}(s)=\mathbb{E}_ {\pi}[R_{T}|s]=P[Black wins|s]$,最优值函数为 $V^{\ast}(s)=\mathop{\max}_ {\pi_{B}}\mathop{\min}_ {\pi_{W}}V_{\pi}(s)$。
\ No newline at end of file
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册