提交 a96dedec 编写于 作者: X xiaowei_xing

test

上级 48e9570c
......@@ -166,4 +166,6 @@ $$
**算法 1**
类似的方法也适用于单位方差高斯 MAB。经过时间 $t$ 后,对于动作 $k$ 的后验值为 $N(\mu_{k},\frac{1}{S_k+F_k+1})$,这里 $\mu_k$ 为经验性的奖励。作为练习,请证明这一结论。
\ No newline at end of file
类似的方法也适用于单位方差高斯 MAB。经过时间 $t$ 后,对于动作 $k$ 的后验值为 $N(\mu_{k},\frac{1}{S_k+F_k+1})$,这里 $\mu_k$ 为经验性的奖励。作为练习,请证明这一结论。
### 2.5
\ No newline at end of file
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册