提交 346994d3 编写于 作者: X xiaowei_xing

test

上级 1375a4c1
......@@ -90,7 +90,7 @@ $$
考虑图 1,它显示了一些动作的估计分布。我们应该选择哪个动作?面对不确定性时的乐观原则是,我们应该把选择偏向于可能是好的的动作。直觉上,这将使我们了解到这个动作要么的确会带来高额回报,要么并不如我们期望的那么好,而且也会使我们了解到关于我们的问题的有价值的信息。
在这个方法的基础上,置信上界算法产(Upper Confidence Bound Algorithm)生了,其过程如下。首先,我们对每个动作值估计一个置信上界 $\hat{U}_ {t}(a)$ 使得大概率 $Q(a)\leq\hat{Q}_ {t}(a)+\hat{U}_ {t}(a)$ 成立,这依赖于动作 $a$ 被选择的次数。然后我们选择最大化置信上界的动作
在这个方法的基础上,置信上界算法(Upper Confidence Bound Algorithm)产生了,其过程如下。首先,我们对每个动作值估计一个置信上界 $\hat{U}_ {t}(a)$ 使得大概率 $Q(a)\leq\hat{Q}_ {t}(a)+\hat{U}_ {t}(a)$ 成立,这依赖于动作 $a$ 被选择的次数。然后我们选择最大化置信上界的动作
$$
a_{t}=\mathop{\arg\max}_ {a\in A}(\hat{Q}_ {t}(a)+\hat{U}_ {t}(a)),
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册