提交 a335c41f 编写于 作者: X xiaowei_xing

test

上级 b6bac5b0
# Lecture 11&12 Exploration and Exploitation
# 课时11&12 探索与利用 2019.02.20
# 课时11&12 探索与利用 2019.02.20 & 2019.02.25 & 2019.02.27
## 1. 介绍(Introduction)
......@@ -60,4 +60,22 @@ $$
### 2.2 遗憾界限(Regret Bounds)
我们希望保证某些算法的遗憾是可以量化并且有界的。遗憾界限有两种类型:与问题相关的遗憾界限和与问题无关的遗憾界限。与问题相关的遗憾界限是动作选择次数与差距的函数,与问题无关的遗憾界限是 $T$ 的函数,这里 $T$ 为算法执行的总步骤数。
\ No newline at end of file
我们希望保证某些算法的遗憾是可以量化并且有界的。遗憾界限有两种类型:与问题相关的遗憾界限和与问题无关的遗憾界限。与问题相关的遗憾界限是动作选择次数与差距的函数,与问题无关的遗憾界限是 $T$ 的函数,这里 $T$ 为算法执行的总步骤数。
永远探索或永远选择次优操作的算法都会经历线性遗憾(linear regret)。因此,达到次线性遗憾(sublinear regret)是可取的。前面讨论过的算法的遗憾界限如下:
$\bullet$ 贪婪(greedy):线性总遗憾
$\bullet$ 常值 $\epsilon$-贪婪(constant $\epsilon$-greedy):线性总遗憾
$\bullet$ 衰减 $\epsilon$-贪婪(decaying $\epsilon$-greedy):次线性遗憾但 $\epsilon$ 的衰减进度需要差距的知识
$\bullet$ 乐观初始化(optimistic initialization):如果初始值足够乐观则为次线性遗憾,否则为线性遗憾
为了解问题的严重性,我们先来探讨遗憾的下界。一般来说,任何算法的性能都取决于最优动作与其他动作的相似性。困难的问题会有相似的动作,但方式略有不同,这可以由差距 $\Delta_{a}$ 和分布的相似性(通过 KL 散度) $KL(R^{a}\lVert R^{a^{\ast}})$ 来描述,然后,我们可以对渐近总遗憾建立一个界限。
**定理 1**(Lai and Robbins,1985)对于 MAB,任何算法在总遗憾上的渐近下界至少为
$$
\lim_{t\to\infty} L_{t}\geq \log t \sum_{a|\Delta_{a}>0}\frac{\Delta_{a}}{KL(R^{a}\lVert R^{a^{\ast}})}。
$$
\ No newline at end of file
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册