提交 767648b3 编写于 作者: X xiaowei_xing

test

上级 5878d017
...@@ -149,4 +149,11 @@ $$ ...@@ -149,4 +149,11 @@ $$
$$ $$
a_{t}=\mathop{\arg\max}_ {a\in A}(\mu_a + c\frac{\sigma_{a}}{\sqrt{N(a)}})。 a_{t}=\mathop{\arg\max}_ {a\in A}(\mu_a + c\frac{\sigma_{a}}{\sqrt{N(a)}})。
\tag{11} \tag{11}
$$
另一种方式是概率匹配(probability matching),即根据某一动作是最优动作的概率选择动作,
$$
\pi(a|h_t) = P[Q(a)>Q(a'),\forall a'\neq a|h_t]。
\tag{12}
$$ $$
\ No newline at end of file
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册