提交 8c489c3b 编写于 作者: X xiaowei_xing

test

上级 f01ed24a
......@@ -78,4 +78,6 @@ $\bullet$ 有效地结合规划和抽样来打破维度灾难(如围棋)
**图2**
### 4.2 树搜索(Upper Confidence Tree Search)
\ No newline at end of file
### 4.2 树搜索(Upper Confidence Tree Search)
类似多臂老虎机,使用贪婪策略作为树策略往往是次优的,这会使我们即使是在一个糟糕的结果之后也避免采取行动,尽管其真实价值存在着很大的不确定性。作为一个例子,考虑[图 2](#fig2) 中最右边的节点,我们从该节点执行一个单独的仿真,收到一个值为 0 的奖励,然后再也不访问该节点,即使这个奖励可能只是因为运气不好(才是 0)。为了解决这个问题,我们可以使用 UCB 算法将不确定性下的乐观原则应用于 MCTS,更具体地说,树策略选择最大化动作值置信上界($Q(s,a)+\sqrt{\frac{2\log N(s)}{N(s,a)}}$)的动作,而非贪婪地选择动作。
\ No newline at end of file
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册