提交 209892c7 编写于 作者: X xiaowei_xing

test

上级 916200dc
...@@ -95,8 +95,15 @@ $$ ...@@ -95,8 +95,15 @@ $$
这可以由 Hoeffding 不等式(Hoeffding's inequality)推导得出。 这可以由 Hoeffding 不等式(Hoeffding's inequality)推导得出。
**定理 2**(Hoeffding 不等式)令 $X_{1},...,X_{t}$ 为在区间 $[0,1]$ 中的独立同分布(i.i.d.)随机变量,$\overline{X}=\frac{1}{t}\sum_{\tau=1}^{t}X_{\tau}$ 为平均值,$u$ 为一个常量。那么, <span id="thm2">**定理 2**</span>(Hoeffding 不等式)令 $X_{1},...,X_{t}$ 为在区间 $[0,1]$ 中的独立同分布(i.i.d.)随机变量,$\overline{X}=\frac{1}{t}\sum_{\tau=1}^{t}X_{\tau}$ 为平均值,$u$ 为一个常量。那么,
$$ $$
P[ \mathbb{E}[x]>\overline{X}_{t}+u] \leq e^{-2tu^{1}}。 P[ \mathbb{E}[x]>\overline{X}_{t}+u] \leq e^{-2tu^{2}}。
$$
对 MAB 问题应用[定理 2](#thm2),我们得到:
$$
P[Q(a)>\hat{Q}_ {t}(a)+U_ {t}(a)] \leq e^{-2N_{t}(a)U_{t}(a)^{2}}。
\tag{6}
$$ $$
\ No newline at end of file
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册