test

d49f7523 · xiaowei_xing · bf523a9b · d49f7523
隐藏空白更改
内联并排

Showing with 1 addition and 1 deletion

docs/11&12.md docs/11&12.md +1 -1

未找到文件。
--- a/docs/11&12.md
+++ b/docs/11&12.md
@@ -72,7 +72,7 @@ $\bullet$ 衰减 $\epsilon$-贪婪（decaying $\epsilon$-greedy）：次线性

 $\bullet$ 乐观初始化（optimistic initialization）：如果初始值足够乐观则为次线性遗憾，否则为线性遗憾

-为了解问题的严重性，我们先来探讨遗憾的下界。一般来说，任何算法的性能都取决于最优动作与其他动作的相似性。困难的问题会有相似的动作，但方式略有不同，这可以由差距 $\Delta_{a}$ 和分布的相似性（通过 KL 散度）$KL(R^{a}\lVert R^{a^{\ast}})$ 来描述，然后，我们可以对渐近总遗憾建立一个界限。
+为了解问题的严重性，我们先来探讨遗憾的下界。一般来说，任何算法的性能都取决于最优动作与其他动作的相似程度。困难的问题会有相似的动作，但方式略有不同，这可以由差距 $\Delta_{a}$ 和分布的相似程度（通过 KL 散度）$KL(R^{a}\lVert R^{a^{\ast}})$ 来描述，然后，我们可以对渐近总遗憾建立一个界限。

 **定理 1**（Lai and Robbins，1985）对于 MAB，任何算法在总遗憾上的渐近下界至少为