Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
data8-textbook-zh
提交
19361f9b
D
data8-textbook-zh
项目概览
OpenDocCN
/
data8-textbook-zh
9 个月 前同步成功
通知
0
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
D
data8-textbook-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
提交
19361f9b
编写于
11月 18, 2017
作者:
W
wizardforcel
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
ch7.
上级
a429746b
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
9 addition
and
9 deletion
+9
-9
7.md
7.md
+9
-9
未找到文件。
7.md
浏览文件 @
19361f9b
...
...
@@ -273,7 +273,7 @@ cut_off
查尔斯·达尔文(Charles Darwin)的堂兄弗朗西斯·高尔顿(Sir Francis Galton)是使用这个思想来基于数值数据进行预测的先驱。 他研究了物理特征是如何传递下来的。
下面的数据是父母和他们的成年子女的
高度测量值,由高尔顿仔细收集。 每行对应一个成年孩子。 变量是家庭的数字代码,父母的高度(以英寸为单位),“双亲身高”,这是父母双方身高的加权平均值 [1],家庭中孩子的数量 ,以及孩子
的出生次序(第几个),性别和身高。
下面的数据是父母和他们的成年子女的
身高测量值,由高尔顿仔细收集。 每行对应一个成年子女。 变量是家庭的数字代码,父母的身高(以英寸为单位),“双亲身高”,这是父母双方身高的加权平均值 [1],家庭中子女的数量 ,以及子女
的出生次序(第几个),性别和身高。
> [1] 高尔顿在计算男性和女性的平均身高之前,将女性身高乘上 1.08。对于这个的讨论,请查看 [Chance](http://chance.amstat.org/2013/09/1-pagano/),这是一个由美国统计协会出版的杂志。
...
...
@@ -299,9 +299,9 @@ galton
(省略了 924 行)
收集数据的主要原因是,能够预测父母所生的
孩子的成年身高,和数据集
类似。让我们尝试这样做,用双亲的身高作为我们预测的基础变量。 因此双亲的身高是我们的预测性变量。
收集数据的主要原因是,能够预测父母所生的
子女的成年身高,其中父母和数据集中的
类似。让我们尝试这样做,用双亲的身高作为我们预测的基础变量。 因此双亲的身高是我们的预测性变量。
表格
`heights`
包含双亲和
孩子
的身高。 两个变量的散点图显示了正相关,正如我们对这些变量的预期。
表格
`heights`
包含双亲和
子女
的身高。 两个变量的散点图显示了正相关,正如我们对这些变量的预期。
```
py
heights
=
galton
.
select
(
3
,
7
).
relabeled
(
0
,
'MidParent'
).
relabeled
(
1
,
'Child'
)
...
...
@@ -327,13 +327,13 @@ heights
heights
.
scatter
(
0
)
```
现在假设高尔顿遇到了新的一对夫妇,与他的数据集类似,并且想知道他们的
孩子有多高。考虑到双亲身高是 68 英寸,他预测孩子
身高的一个好方法是什么?
现在假设高尔顿遇到了新的一对夫妇,与他的数据集类似,并且想知道他们的
子女有多高。考虑到双亲身高是 68 英寸,他预测子女
身高的一个好方法是什么?
一个合理的方法是基于约 68 英寸的双亲身高对应的所有点,来做预测。预测值等于从这些点计算的
孩子
身高的均值。
一个合理的方法是基于约 68 英寸的双亲身高对应的所有点,来做预测。预测值等于从这些点计算的
子女
身高的均值。
假设我们是高尔顿,并执行这个计划。现在我们只是对“68 英寸左右”的含义做一个合理的定义,并用它来处理。在课程的后面,我们将研究这种选择的后果。
我们的“接近”的意思是“在半英寸之内”。下图显示了 67.5 英寸和 68.5 英寸之间的双亲身高对应的所有点。这些都是红色直线之间的点。每一个点都对应一个
孩子;我们对新夫妇的孩子身高的预测是所有孩子
的平均身高。这由金色的点表示。
我们的“接近”的意思是“在半英寸之内”。下图显示了 67.5 英寸和 68.5 英寸之间的双亲身高对应的所有点。这些都是红色直线之间的点。每一个点都对应一个
子女;我们对新夫妇的子女身高的预测是所有子女
的平均身高。这由金色的点表示。
忽略代码,仅仅专注于理解到达金色的点的心理过程。
...
...
@@ -367,7 +367,7 @@ close_to_68
(省略了 121 行)
双亲身高为 68 英寸的
孩子的预测身高,是这些行中孩子
的平均身高。 这是 66.24 英寸。
双亲身高为 68 英寸的
子女的预测身高,是这些行中子女
的平均身高。 这是 66.24 英寸。
```
py
close_to_68
.
column
(
'Child'
).
mean
()
...
...
@@ -375,7 +375,7 @@ close_to_68.column('Child').mean()
```
我们现在有了一种方法,给定任何数据集中的双亲身高,就可以预测
孩子
的身高。我们可以定义一个函数
`predict_child`
来实现它1。 除了名称的选择之外,函数的主体由上面两个单元格中的代码组成。
我们现在有了一种方法,给定任何数据集中的双亲身高,就可以预测
子女
的身高。我们可以定义一个函数
`predict_child`
来实现它1。 除了名称的选择之外,函数的主体由上面两个单元格中的代码组成。
```
py
def
predict_child
(
mpht
):
...
...
@@ -430,7 +430,7 @@ heights_with_predictions
heights_with_predictions
.
scatter
(
'MidParent'
)
```
金色的点的图形称为均值图,因为每个金色的点都是两条直线的中心,就像之前绘制的那样。每个都按照给定的双亲高度,做出了
孩子高度的预测。例如,散点图显示,对于 72 英寸的双亲高度,孩子
的预测高度将在 68 英寸和 69 英寸之间,事实上,
`predict_child(72)`
返回 68.5。
金色的点的图形称为均值图,因为每个金色的点都是两条直线的中心,就像之前绘制的那样。每个都按照给定的双亲高度,做出了
子女高度的预测。例如,散点图显示,对于 72 英寸的双亲高度,子女
的预测高度将在 68 英寸和 69 英寸之间,事实上,
`predict_child(72)`
返回 68.5。
高尔顿的计算和可视化与我们非常相似,除了他没有 Python。他通过散点图绘制了均值图,并注意到它大致沿着直线。这条直线现在被称为回归线,是最常见的预测方法之一。高尔顿的朋友,数学家卡尔·皮尔森(Karl Pearson)用这些分析来形式化关联的概念。
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录