diff --git a/docs/14.md b/docs/14.md index b01739cf232d225ffdec620074b53f8e9120d5ed..1532436646975ae55f62f4c8b9ecfe5c3e7812d2 100644 --- a/docs/14.md +++ b/docs/14.md @@ -78,4 +78,6 @@ $\bullet$ 有效地结合规划和抽样来打破维度灾难(如围棋) **图2** -### 4.2 树搜索(Upper Confidence Tree Search) \ No newline at end of file +### 4.2 树搜索(Upper Confidence Tree Search) + +类似多臂老虎机,使用贪婪策略作为树策略往往是次优的,这会使我们即使是在一个糟糕的结果之后也避免采取行动,尽管其真实价值存在着很大的不确定性。作为一个例子,考虑[图 2](#fig2) 中最右边的节点,我们从该节点执行一个单独的仿真,收到一个值为 0 的奖励,然后再也不访问该节点,即使这个奖励可能只是因为运气不好(才是 0)。为了解决这个问题,我们可以使用 UCB 算法将不确定性下的乐观原则应用于 MCTS,更具体地说,树策略选择最大化动作值置信上界($Q(s,a)+\sqrt{\frac{2\log N(s)}{N(s,a)}}$)的动作,而非贪婪地选择动作。 \ No newline at end of file