test

346994d3 · xiaowei_xing · 1375a4c1 · 346994d3
隐藏空白更改
内联并排

Showing with 1 addition and 1 deletion

docs/11&12.md docs/11&12.md +1 -1

未找到文件。
--- a/docs/11&12.md
+++ b/docs/11&12.md
@@ -90,7 +90,7 @@ $$

 考虑图 1，它显示了一些动作的估计分布。我们应该选择哪个动作？面对不确定性时的乐观原则是，我们应该把选择偏向于可能是好的的动作。直觉上，这将使我们了解到这个动作要么的确会带来高额回报，要么并不如我们期望的那么好，而且也会使我们了解到关于我们的问题的有价值的信息。

-在这个方法的基础上，置信上界算法产（Upper Confidence Bound Algorithm）生了，其过程如下。首先，我们对每个动作值估计一个置信上界 $\hat{U}_ {t}(a)$ 使得大概率 $Q(a)\leq\hat{Q}_ {t}(a)+\hat{U}_ {t}(a)$ 成立，这依赖于动作 $a$ 被选择的次数。然后我们选择最大化置信上界的动作
+在这个方法的基础上，置信上界算法（Upper Confidence Bound Algorithm）产生了，其过程如下。首先，我们对每个动作值估计一个置信上界 $\hat{U}_ {t}(a)$ 使得大概率 $Q(a)\leq\hat{Q}_ {t}(a)+\hat{U}_ {t}(a)$ 成立，这依赖于动作 $a$ 被选择的次数。然后我们选择最大化置信上界的动作

 $$
 a_{t}=\mathop{\arg\max}_ {a\in A}(\hat{Q}_ {t}(a)+\hat{U}_ {t}(a))，