test

a335c41f · xiaowei_xing · b6bac5b0 · a335c41f
隐藏空白更改
内联并排

Showing with 20 addition and 2 deletion

docs/11&12.md docs/11&12.md +20 -2

未找到文件。
--- a/docs/11&12.md
+++ b/docs/11&12.md
 # Lecture 11&12 Exploration and Exploitation

-# 课时11&12 探索与利用 2019.02.20
+# 课时11&12 探索与利用 2019.02.20 & 2019.02.25 & 2019.02.27

 ## 1. 介绍（Introduction）

@@ -60,4 +60,22 @@ $$

 ### 2.2 遗憾界限（Regret Bounds）

-我们希望保证某些算法的遗憾是可以量化并且有界的。遗憾界限有两种类型：与问题相关的遗憾界限和与问题无关的遗憾界限。与问题相关的遗憾界限是动作选择次数与差距的函数，与问题无关的遗憾界限是 $T$ 的函数，这里 $T$ 为算法执行的总步骤数。
\ No newline at end of file
+我们希望保证某些算法的遗憾是可以量化并且有界的。遗憾界限有两种类型：与问题相关的遗憾界限和与问题无关的遗憾界限。与问题相关的遗憾界限是动作选择次数与差距的函数，与问题无关的遗憾界限是 $T$ 的函数，这里 $T$ 为算法执行的总步骤数。
+
+永远探索或永远选择次优操作的算法都会经历线性遗憾（linear regret）。因此，达到次线性遗憾（sublinear regret）是可取的。前面讨论过的算法的遗憾界限如下：
+
+$\bullet$ 贪婪（greedy）：线性总遗憾
+
+$\bullet$ 常值 $\epsilon$-贪婪（constant $\epsilon$-greedy）：线性总遗憾
+
+$\bullet$ 衰减 $\epsilon$-贪婪（decaying $\epsilon$-greedy）：次线性遗憾但 $\epsilon$ 的衰减进度需要差距的知识
+
+$\bullet$ 乐观初始化（optimistic initialization）：如果初始值足够乐观则为次线性遗憾，否则为线性遗憾
+
+为了解问题的严重性，我们先来探讨遗憾的下界。一般来说，任何算法的性能都取决于最优动作与其他动作的相似性。困难的问题会有相似的动作，但方式略有不同，这可以由差距 $\Delta_{a}$ 和分布的相似性（通过 KL 散度） $KL(R^{a}\lVert R^{a^{\ast}})$ 来描述，然后，我们可以对渐近总遗憾建立一个界限。
+
+**定理 1**（Lai and Robbins，1985）对于 MAB，任何算法在总遗憾上的渐近下界至少为
+
+$$
+\lim_{t\to\infty} L_{t}\geq \log t \sum_{a|\Delta_{a}>0}\frac{\Delta_{a}}{KL(R^{a}\lVert R^{a^{\ast}})}。
+$$
\ No newline at end of file