test

b6bac5b0 · xiaowei_xing · 4a3801fa · b6bac5b0
隐藏空白更改
内联并排

Showing with 27 addition and 4 deletion

docs/11&12.md docs/11&12.md +27 -4

未找到文件。
--- a/docs/11&12.md
+++ b/docs/11&12.md
@@ -25,9 +25,9 @@ $$

 一个简单的基于 $\epsilon$-贪婪算法的方法是乐观初始化（optimistic initialization），它讲所有 $a\in A$ 的 $\hat{Q}_ {0}(a)$ 初始化为大于真值 $Q(a)$ 的某个值，也就是说，我们开始时对所有的动作选择“非常乐观”。在每一步我们可以使用贪婪（或 $\epsilon$-贪婪）的方法来选择动作，由于真正的奖励都低于我们的初始估计，所以被采用过的动作的估计值 $\hat{Q}$ 就会减小，这就鼓励了行为体对那些未被采用过的、$\hat{Q}$ 值仍旧大的动作进行探索。因此，所有的动作都会被至少尝试一次，可能多次。此外，我们可以初始化 $N_{0}(a)>0$ 以调整乐观初始化向真值收敛的速度。

-### 2.1 ？？（Regret）
+### 2.1 遗憾（Regret）

-这些探索策略自然会产生一个问题，即我们应该使用哪种标准来比较它们。可能的标准包括经验性的表现（尽管这依赖于环境）、渐近收敛的保证、有限采样的保证或 PAC 的保证。在 MAB 文献中的标准通常是？？（regret），我们现在定义？？以及相关的量。
+这些探索策略自然会产生一个问题，即我们应该使用哪种标准来比较它们。可能的标准包括经验性的表现（尽管这依赖于环境）、渐近收敛的保证、有限采样的保证或 PAC 的保证。在 MAB 文献中的标准通常是遗憾（regret），我们现在定义遗憾以及相关的量。

 $\bullet$ 动作值（action-value）$Q(a)=\mathbb{E}[r|a]$

@@ -35,6 +35,29 @@ $\bullet$ 最优值（optimal value）$V^{\ast}=Q(a^{\ast})=\mathop{\max}_{a\in

 $\bullet$ 差距（gap）$\Delta_{a}=V^{\ast}-Q(a)$

-$\bullet$ ？？（regret）$l_{t}=\mathbb{E}[V^{\ast}-Q(a_{t})]$
+$\bullet$ 遗憾（regret）$l_{t}=\mathbb{E}[V^{\ast}-Q(a_{t})]$

-$\bullet$ 总？？（total regret）$L_{t}=\mathbb{E}[\sum_{\tau=1}^{t}(V^{\ast}-Q(a_{\tau}))]=t\cdot V^{\ast} - \mathbb{E}[\sum_{\tau=1}^{t}Q(a_{\tau})]$
\ No newline at end of file
+$\bullet$ 总遗憾（total regret）$L_{t}=\mathbb{E}[\sum_{\tau=1}^{t}(V^{\ast}-Q(a_{\tau}))]=t\cdot V^{\ast} - \mathbb{E}[\sum_{\tau=1}^{t}Q(a_{\tau})]$
+
+因此，最小化总遗憾等价于最大化累积的奖励。如果我们定义 $\overline{N}_{t}(a)$ 为动作 $a$ 的期望选择次数，那么总遗憾就是差距和动作选择次数的函数：
+
+$$
+L_{t} = \mathbb{E}[\sum_{\tau=1}^{t}(V^{\ast}-Q(a_{\tau}))]
+\tag{2}
+$$
+
+$$
+= \sum_{a\in A} \mathbb{E}[N_{t}(a)] (V^{\ast}-Q(a))
+\tag{3}
+$$
+
+$$
+= \sum_{a\in A} \overline{N}_ {t}(a) \Delta_{a}
+\tag{4}。
+$$
+
+高质量的算法可以保证对于大的差距，动作选择次数比较小。然而，差距并不能被事先知道，而且必须通过与 MAB 交互被习得。
+
+### 2.2 遗憾界限（Regret Bounds）
+
+我们希望保证某些算法的遗憾是可以量化并且有界的。遗憾界限有两种类型：与问题相关的遗憾界限和与问题无关的遗憾界限。与问题相关的遗憾界限是动作选择次数与差距的函数，与问题无关的遗憾界限是 $T$ 的函数，这里 $T$ 为算法执行的总步骤数。
\ No newline at end of file