Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
stanford-cs234-notes-zh
提交
a335c41f
S
stanford-cs234-notes-zh
项目概览
OpenDocCN
/
stanford-cs234-notes-zh
通知
8
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
S
stanford-cs234-notes-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
提交
a335c41f
编写于
12月 13, 2019
作者:
X
xiaowei_xing
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
test
上级
b6bac5b0
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
20 addition
and
2 deletion
+20
-2
docs/11&12.md
docs/11&12.md
+20
-2
未找到文件。
docs/11&12.md
浏览文件 @
a335c41f
# Lecture 11&12 Exploration and Exploitation
# 课时11&12 探索与利用 2019.02.20
# 课时11&12 探索与利用 2019.02.20
& 2019.02.25 & 2019.02.27
## 1. 介绍(Introduction)
...
...
@@ -60,4 +60,22 @@ $$
### 2.2 遗憾界限(Regret Bounds)
我们希望保证某些算法的遗憾是可以量化并且有界的。遗憾界限有两种类型:与问题相关的遗憾界限和与问题无关的遗憾界限。与问题相关的遗憾界限是动作选择次数与差距的函数,与问题无关的遗憾界限是 $T$ 的函数,这里 $T$ 为算法执行的总步骤数。
\ No newline at end of file
我们希望保证某些算法的遗憾是可以量化并且有界的。遗憾界限有两种类型:与问题相关的遗憾界限和与问题无关的遗憾界限。与问题相关的遗憾界限是动作选择次数与差距的函数,与问题无关的遗憾界限是 $T$ 的函数,这里 $T$ 为算法执行的总步骤数。
永远探索或永远选择次优操作的算法都会经历线性遗憾(linear regret)。因此,达到次线性遗憾(sublinear regret)是可取的。前面讨论过的算法的遗憾界限如下:
$
\b
ullet$ 贪婪(greedy):线性总遗憾
$
\b
ullet$ 常值 $
\e
psilon$-贪婪(constant $
\e
psilon$-greedy):线性总遗憾
$
\b
ullet$ 衰减 $
\e
psilon$-贪婪(decaying $
\e
psilon$-greedy):次线性遗憾但 $
\e
psilon$ 的衰减进度需要差距的知识
$
\b
ullet$ 乐观初始化(optimistic initialization):如果初始值足够乐观则为次线性遗憾,否则为线性遗憾
为了解问题的严重性,我们先来探讨遗憾的下界。一般来说,任何算法的性能都取决于最优动作与其他动作的相似性。困难的问题会有相似的动作,但方式略有不同,这可以由差距 $
\D
elta_{a}$ 和分布的相似性(通过 KL 散度) $KL(R^{a}
\l
Vert R^{a^{
\a
st}})$ 来描述,然后,我们可以对渐近总遗憾建立一个界限。
**定理 1**
(Lai and Robbins,1985)对于 MAB,任何算法在总遗憾上的渐近下界至少为
$$
\l
im_{t
\t
o
\i
nfty} L_{t}
\g
eq
\l
og t
\s
um_{a|
\D
elta_{a}>0}
\f
rac{
\D
elta_{a}}{KL(R^{a}
\l
Vert R^{a^{
\a
st}})}。
$$
\ No newline at end of file
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录