test

b5aaea37 · xiaowei_xing · 3a25cab3 · b5aaea37
隐藏空白更改
内联并排

Showing with 5 addition and 1 deletion

docs/14.md docs/14.md +5 -1

未找到文件。
--- a/docs/14.md
+++ b/docs/14.md
@@ -20,4 +20,8 @@ $$

 给定一个真实轨迹的集合 ${S_t^k,A_t^k,R_t^k,...,S_T^k}_{k=1}^{K}$，模型学习可以被视为一个监督学习问题，学习奖励函数 $R(s,a)$ 是一个回归问题，而学习转移函数 $P(s'|s,a)$ 是一个密度估计问题。首先我们选取一类合适的参数化模型，如查表模型、线性期望、线性高斯、高斯过程、深度神经网络等，然后我们选择一个恰当的损失函数，如均方误差、KL 散度等，通过最小化这个损失来优化参数。

-## 3. 规划
\ No newline at end of file
+## 3. 规划（Planning）
+
+给定一个学习到的环境的模型，规划可以由基于值的方法、策略搜索的方法或树搜索的方法来实现。
+
+一种比较的规划方法的思路为：仅使用该模型来生成采样轨迹，并使用 Q-学习、蒙特卡洛控制或 SARSA 等方法进行控制。这种基于样本的规划方法通常更具数据效率。
\ No newline at end of file