提交 d49f7523 编写于 作者: X xiaowei_xing

test

上级 bf523a9b
......@@ -72,7 +72,7 @@ $\bullet$ 衰减 $\epsilon$-贪婪(decaying $\epsilon$-greedy):次线性
$\bullet$ 乐观初始化(optimistic initialization):如果初始值足够乐观则为次线性遗憾,否则为线性遗憾
为了解问题的严重性,我们先来探讨遗憾的下界。一般来说,任何算法的性能都取决于最优动作与其他动作的相似性。困难的问题会有相似的动作,但方式略有不同,这可以由差距 $\Delta_{a}$ 和分布的相似性(通过 KL 散度)$KL(R^{a}\lVert R^{a^{\ast}})$ 来描述,然后,我们可以对渐近总遗憾建立一个界限。
为了解问题的严重性,我们先来探讨遗憾的下界。一般来说,任何算法的性能都取决于最优动作与其他动作的相似程度。困难的问题会有相似的动作,但方式略有不同,这可以由差距 $\Delta_{a}$ 和分布的相似程度(通过 KL 散度)$KL(R^{a}\lVert R^{a^{\ast}})$ 来描述,然后,我们可以对渐近总遗憾建立一个界限。
**定理 1**(Lai and Robbins,1985)对于 MAB,任何算法在总遗憾上的渐近下界至少为
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册