test

cd7622c6 · xiaowei_xing · 27ceddd3 · cd7622c6
隐藏空白更改
内联并排

Showing with 5 addition and 1 deletion

docs/14.md docs/14.md +5 -1

未找到文件。
--- a/docs/14.md
+++ b/docs/14.md
@@ -86,4 +86,8 @@ $\bullet$ 有效地结合规划和抽样来打破维度灾难（如围棋）

 **算法3**

-## 5. 案例学习：围棋（Case Study: Go）
\ No newline at end of file
+## 5. 案例学习：围棋（Case Study: Go）
+
+围棋是世界上最古老的棋类游戏，解决这一问题一直是人工智能面临的一个长期挑战，而在 AlphaGo 之前，传统的游戏树搜索算法未能达到专业的人类级别的性能。围棋是一个在 $19\times 19$ 板（也有更小的板）上进行的双人游戏（黑子/白子，B/W），黑子和白子接连被放在板上，游戏的主要目标是包围和占领领地，另外，被对手包围的棋子会被移除。
+
+最简单的奖励函数可以按照如下规则设置：如果最终状态黑子胜则奖励为 $+1$，如果白子胜则为 $0$，而其他状态均为 $0$。那么黑子玩家的目的则为最大化奖励而白子玩家则要尽量最小化奖励。给定一个策略 $\pi=<\pi_{B},\pi_{W}>$（分别对黑子玩家和白子玩家），值函数为 $V_{\pi}(s)=\mathbb{E}_ {\pi}[R_{T}|s]=P[Black wins|s]$，最优值函数为 $V^{\ast}(s)=\mathop{\max}_ {\pi_{B}}\mathop{\min}_ {\pi_{W}}V_{\pi}(s)$。
\ No newline at end of file