test

767648b3 · xiaowei_xing · 5878d017 · 767648b3
隐藏空白更改
内联并排

Showing with 7 addition and 0 deletion

docs/11&12.md docs/11&12.md +7 -0

未找到文件。
--- a/docs/11&12.md
+++ b/docs/11&12.md
@@ -149,4 +149,11 @@ $$
 $$
 a_{t}=\mathop{\arg\max}_ {a\in A}(\mu_a + c\frac{\sigma_{a}}{\sqrt{N(a)}})。
 \tag{11}
+$$
+另一种方式是概率匹配（probability matching），即根据某一动作是最优动作的概率选择动作，
+$$
+\pi(a|h_t) = P[Q(a)>Q(a'),\forall a'\neq a|h_t]。
+\tag{12}
 $$
\ No newline at end of file