Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
stanford-cs234-notes-zh
提交
b6bac5b0
S
stanford-cs234-notes-zh
项目概览
OpenDocCN
/
stanford-cs234-notes-zh
通知
8
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
S
stanford-cs234-notes-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
提交
b6bac5b0
编写于
12月 11, 2019
作者:
X
xiaowei_xing
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
test
上级
4a3801fa
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
27 addition
and
4 deletion
+27
-4
docs/11&12.md
docs/11&12.md
+27
-4
未找到文件。
docs/11&12.md
浏览文件 @
b6bac5b0
...
...
@@ -25,9 +25,9 @@ $$
一个简单的基于 $
\e
psilon$-贪婪算法的方法是乐观初始化(optimistic initialization),它讲所有 $a
\i
n A$ 的 $
\h
at{Q}_ {0}(a)$ 初始化为大于真值 $Q(a)$ 的某个值,也就是说,我们开始时对所有的动作选择“非常乐观”。在每一步我们可以使用贪婪(或 $
\e
psilon$-贪婪)的方法来选择动作,由于真正的奖励都低于我们的初始估计,所以被采用过的动作的估计值 $
\h
at{Q}$ 就会减小,这就鼓励了行为体对那些未被采用过的、$
\h
at{Q}$ 值仍旧大的动作进行探索。因此,所有的动作都会被至少尝试一次,可能多次。此外,我们可以初始化 $N_{0}(a)>0$ 以调整乐观初始化向真值收敛的速度。
### 2.1
??
(Regret)
### 2.1
遗憾
(Regret)
这些探索策略自然会产生一个问题,即我们应该使用哪种标准来比较它们。可能的标准包括经验性的表现(尽管这依赖于环境)、渐近收敛的保证、有限采样的保证或 PAC 的保证。在 MAB 文献中的标准通常是
??(regret),我们现在定义??
以及相关的量。
这些探索策略自然会产生一个问题,即我们应该使用哪种标准来比较它们。可能的标准包括经验性的表现(尽管这依赖于环境)、渐近收敛的保证、有限采样的保证或 PAC 的保证。在 MAB 文献中的标准通常是
遗憾(regret),我们现在定义遗憾
以及相关的量。
$
\b
ullet$ 动作值(action-value)$Q(a)=
\m
athbb{E}[r|a]$
...
...
@@ -35,6 +35,29 @@ $\bullet$ 最优值(optimal value)$V^{\ast}=Q(a^{\ast})=\mathop{\max}_{a\in
$
\b
ullet$ 差距(gap)$
\D
elta_{a}=V^{
\a
st}-Q(a)$
$
\b
ullet$
??
(regret)$l_{t}=
\m
athbb{E}[V^{
\a
st}-Q(a_{t})]$
$
\b
ullet$
遗憾
(regret)$l_{t}=
\m
athbb{E}[V^{
\a
st}-Q(a_{t})]$
$
\b
ullet$ 总??(total regret)$L_{t}=
\m
athbb{E}[
\s
um_{
\t
au=1}^{t}(V^{
\a
st}-Q(a_{
\t
au}))]=t
\c
dot V^{
\a
st} -
\m
athbb{E}[
\s
um_{
\t
au=1}^{t}Q(a_{
\t
au})]$
\ No newline at end of file
$
\b
ullet$ 总遗憾(total regret)$L_{t}=
\m
athbb{E}[
\s
um_{
\t
au=1}^{t}(V^{
\a
st}-Q(a_{
\t
au}))]=t
\c
dot V^{
\a
st} -
\m
athbb{E}[
\s
um_{
\t
au=1}^{t}Q(a_{
\t
au})]$
因此,最小化总遗憾等价于最大化累积的奖励。如果我们定义 $
\o
verline{N}_{t}(a)$ 为动作 $a$ 的期望选择次数,那么总遗憾就是差距和动作选择次数的函数:
$$
L_{t} =
\m
athbb{E}[
\s
um_{
\t
au=1}^{t}(V^{
\a
st}-Q(a_{
\t
au}))]
\t
ag{2}
$$
$$
=
\s
um_{a
\i
n A}
\m
athbb{E}[N_{t}(a)] (V^{
\a
st}-Q(a))
\t
ag{3}
$$
$$
=
\s
um_{a
\i
n A}
\o
verline{N}_ {t}(a)
\D
elta_{a}
\t
ag{4}。
$$
高质量的算法可以保证对于大的差距,动作选择次数比较小。然而,差距并不能被事先知道,而且必须通过与 MAB 交互被习得。
### 2.2 遗憾界限(Regret Bounds)
我们希望保证某些算法的遗憾是可以量化并且有界的。遗憾界限有两种类型:与问题相关的遗憾界限和与问题无关的遗憾界限。与问题相关的遗憾界限是动作选择次数与差距的函数,与问题无关的遗憾界限是 $T$ 的函数,这里 $T$ 为算法执行的总步骤数。
\ No newline at end of file
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录