test

c206af98 · xiaowei_xing · 79f8aa20 · c206af98
隐藏空白更改
内联并排

Showing with 3 addition and 1 deletion

docs/14.md docs/14.md +3 -1

未找到文件。
--- a/docs/14.md
+++ b/docs/14.md
@@ -26,4 +26,6 @@ $$

 一种比较的规划方法的思路为：仅使用该模型来生成采样轨迹，并使用 Q-学习、蒙特卡洛控制或 SARSA 等方法进行控制。这种基于样本的规划方法通常更具数据效率。

-学习得到的模型可能是不准确的，因此，通过规划所学习的缩略也可能是次优的，即基于模型的 RL 的质量依赖于所学习的模型的质量。基于探索/利用的技术可用于在规划时明确解释模型中的这种不确定性。或者，如果我们确定模型在某些情况下是错误的，无模型 RL 方法也可以作为我们的后备方案。
\ No newline at end of file
+学习得到的模型可能是不准确的，因此，通过规划所学习的缩略也可能是次优的，即基于模型的 RL 的质量依赖于所学习的模型的质量。基于探索/利用的技术可用于在规划时明确解释模型中的这种不确定性。或者，如果我们确定模型在某些情况下是错误的，无模型 RL 方法也可以作为我们的后备方案。
+
+## 4. 基于仿真的搜索（Simulation Based Search）
\ No newline at end of file