Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
ml-for-humans-zh
提交
f921b646
M
ml-for-humans-zh
项目概览
OpenDocCN
/
ml-for-humans-zh
通知
1
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
M
ml-for-humans-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
提交
f921b646
编写于
10月 12, 2017
作者:
W
wizardforcel
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
2.1.
上级
变更
2
隐藏空白更改
内联
并排
Showing
2 changed file
with
54 addition
and
0 deletion
+54
-0
.gitignore
.gitignore
+2
-0
2.1.md
2.1.md
+52
-0
未找到文件。
.gitignore
0 → 100644
浏览文件 @
f921b646
_book
Thumbs.db
2.1.md
0 → 100644
浏览文件 @
f921b646
# 2.1 监督学习
> 原文:[Machine Learning for Humans, Part 2.1: Supervised Learning](https://medium.com/machine-learning-for-humans/supervised-learning-740383a2feab)
> 作者:[Vishal Maini](mailto:ml4humans@gmail.com)
> 译者:[飞龙](https://github.com/wizardforcel)
> 协议:[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
> 监督学习的两大任务:回归和分类。线性回归,损失函数和梯度下降。
通过在数字广告上花费更多的钱,我们能挣多少钱?这个贷款的申请人是否能偿还贷款?股市明天会发生什么?
在监督学习的问题中,我们以一个数据集开始,它包含训练样本,每个样本带有关联的正确标签。例如,学习分类手写数字的时候,监督学习算法接受数千张手写体数字的图片,以及标签,它们包含每个图片表示的正确数字。算法会学习图像和关联的数值的关系。之后将学到的关系用于划分全新的图片(不带标签),机器从来没有见过它们。这就是你可以通过使用手机拍张照片,来存入支票的原因。
为了展示监督学习的工作原理,让我们看一个问题,根据某人完成的高等教育的年数,来预测年收入。更形式化来说,我们打算构建一个模型,它近似描述了高等教育年数
`X`
和对应年收入
`Y`
的关系
`f`
。
```
Y = f(X) + ϵ
```
> `X`(输入)为高等教育的年限
> `Y`(输出)为年收入
> `f`为描述`X`和`Y`关系的函数
> `ϵ`(epsilon)为随机误差项(可正可负),均值为零
> 关于`ϵ`:
> `ϵ`表示模型的残余误差,它是你的算法的理论极限,由于你尝试解释的现象中存在固有噪声。例如,想象构建一个模型来预测抛硬币的结果。
> 此外,数学家 [Paul Erdős](https://archive.is/o/VGPh3/https://en.wikipedia.org/wiki/Paul_Erd%C5%91s) 将孩子们称为`ϵ`,因为在微积分中(而不是统计学),`ϵ`代表任意小的正数值。很恰当吧?
一种预测收入的方式,就是创建一个基于规则的严格模型,来表示收入和教育如何相关。例如,我估计出,高等教育每增加一年,年收入增加 $5000。
```
income = ($5,000 * years_of_education) + baseline_income
```
> 这个方式就是构建一个解的示例(而不是学习一个解,就像下面描述的线性回归方法那样)。
通过包含一些规则,关于学位类型、工作年限、学校的层次,以及其它,你可以提出一个更复杂的模型。例如,“如果他们完成了学士或更高的学位,就将收入估计为 1.5 倍”。
但是这种类型的,明确的基于规则的规划,对于复杂数据不是很有效。想像一下,尝试设计一个图像分类器算法,它由
`if-then`
语句组成。这些语句描述了像素亮度的组合,来判断它是否是一只猫。
监督机器学习通过让计算机为你工作,来解决这个问题。通过识别数据中的规律,机器能够得到启发。这个和人类学习最大的差异是,机器学习运行在计算机硬件上,并且可以通过计算机科学和统计学的视角很好地理解,然而人类的模式识别发生在生物大脑中(不过完成了相同的目标)。
在监督学习中,机器试图从零开始 学习收入和教育之间的关系,通过使用带标签的训练数据来运行算法。习得的函数可以用于估计人们的收入,其中收入
`Y`
是未知的,只要我们将教育年数
`X`
作为输入。换句话说,我们可以将我们的模型用于不带标签的测试数据来估计
`Y`
。
监督学习的目标是,当获得
`X`
已知
`Y`
未知的新样本时,尽可能准确地预测
`Y`
。下面我们会探索多种最常见的方法。
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录