test

8c489c3b · xiaowei_xing · f01ed24a · 8c489c3b
隐藏空白更改
内联并排

Showing with 3 addition and 1 deletion

docs/14.md docs/14.md +3 -1

未找到文件。
--- a/docs/14.md
+++ b/docs/14.md
@@ -78,4 +78,6 @@ $\bullet$ 有效地结合规划和抽样来打破维度灾难（如围棋）

 **图2**

-### 4.2 树搜索（Upper Confidence Tree Search）
\ No newline at end of file
+### 4.2 树搜索（Upper Confidence Tree Search）
+
+类似多臂老虎机，使用贪婪策略作为树策略往往是次优的，这会使我们即使是在一个糟糕的结果之后也避免采取行动，尽管其真实价值存在着很大的不确定性。作为一个例子，考虑[图 2](#fig2) 中最右边的节点，我们从该节点执行一个单独的仿真，收到一个值为 0 的奖励，然后再也不访问该节点，即使这个奖励可能只是因为运气不好（才是 0）。为了解决这个问题，我们可以使用 UCB 算法将不确定性下的乐观原则应用于 MCTS，更具体地说，树策略选择最大化动作值置信上界（$Q(s,a)+\sqrt{\frac{2\log N(s)}{N(s,a)}}$）的动作，而非贪婪地选择动作。
\ No newline at end of file