Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
data8-textbook-zh
提交
022dc2f2
D
data8-textbook-zh
项目概览
OpenDocCN
/
data8-textbook-zh
8 个月 前同步成功
通知
0
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
D
data8-textbook-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
提交
022dc2f2
编写于
1月 10, 2018
作者:
W
wizardforcel
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
ch13.
上级
65a57f3d
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
71 addition
and
0 deletion
+71
-0
13.md
13.md
+71
-0
未找到文件。
13.md
浏览文件 @
022dc2f2
...
...
@@ -649,3 +649,74 @@ heights_with_predictions.scatter('MidParent')
```
灰色圆点显示回归预测,全部在回归线上。 注意这条线与均值的金色图非常接近。 对于这些数据,回归线很好地逼近垂直条形的中心。
### 拟合值
所有的预测值都在直线上,被称为“拟合值”。 函数
`fit`
使用表名和
`x`
和
`y`
的标签,并返回一个拟合值数组,散点图中每个点一个。
```
py
def
fit
(
table
,
x
,
y
):
"""Return the height of the regression line at each x value."""
a
=
slope
(
table
,
x
,
y
)
b
=
intercept
(
table
,
x
,
y
)
return
a
*
table
.
column
(
x
)
+
b
```
下图比上图更轻易看到直线:
```
py
heights
.
with_column
(
'Fitted'
,
fit
(
heights
,
'MidParent'
,
'Child'
)).
scatter
(
'MidParent'
)
```
另一个绘制直线的方式是在表方法
`scatter`
中,使用选项
`fit_line=True`
。
```
py
heights
.
scatter
(
'MidParent'
,
fit_line
=
True
)
```
### 斜率的测量单位
斜率是一个比值,值得花点时间来研究它的测量单位。 我们的例子来自熟悉的医院系统中产妇的数据集。 孕期体重与高度的散点图看起来像是一个橄榄球,已经在一场比赛中使用了很多次,但足够接近橄榄球,我们可以让我们的拟合直线穿过它来证明。 在后面的章节中,我们将看到如何使这种证明更正式。
```
py
baby
=
Table
.
read_table
(
'baby.csv'
)
baby
.
scatter
(
'Maternal Height'
,
'Maternal Pregnancy Weight'
,
fit_line
=
True
)
```
```
py
slope
(
baby
,
'Maternal Height'
,
'Maternal Pregnancy Weight'
)
3.5728462592750558
```
回归线的斜率是 3.57 磅每英寸。 这意味着,对于身高相差 1 英寸的两名女性来说,我们对孕期体重的预测相差 3.57 磅。 对于身高相差 2 英寸的女性,我们预测的孕期体重相差
`2 * 3.57 ~= 7.14`
磅。
请注意,散点图中的连续垂直条形相距 1 英寸,因为高度已经舍入到最近的英寸。 另一种考虑斜率的方法是取两个相连的条形(相隔 1 英寸),相当于两组身高相差 1 英寸的女性。 3.57 磅每英寸的斜率意味着,较高组的平均孕期体重比较矮组多大约 3.57 磅。
### 示例
假设我们的目标是使用回归,基于巴塞特猎犬的体重来估计它的身高,所用的样本与回归模型看起来一致。 假设观察到的相关性
`r`
为 0.5,并且这两个变量的汇总统计量如下表所示:
| | average | SD |
| --- | --- | --- |
| height | 14 inches | 2 inches |
| weight | 50 pounds | 5 pounds |
为了计算回归线的方程,我们需要斜率和截距。
![](
http://latex.codecogs.com/gif.latex?%5Cmbox%7Bslope%7D%20%7E%3D%7E%20%5Cfrac%7Br%20%5Ccdot%20%5Cmbox%7BSD%20of%20%7Dy%7D%7B%5Cmbox%7BSD%20of%20%7Dx%7D%20%7E%3D%7E%20%5Cfrac%7B0.5%20%5Ccdot%202%20%5Cmbox%7B%20inches%7D%7D%7B5%20%5Cmbox%7B%20pounds%7D%7D%20%7E%3D%7E%200.2%20%7E%5Cmbox%7Binches%20per%20pound%7D
)
![](
http://latex.codecogs.com/gif.latex?%5Cmbox%7Bintercept%7D%20%7E%3D%7E%20%5Cmbox%7Baverage%20of%20%7Dy%20-%20%5Cmbox%7Bslope%7D%5Ccdot%20%5Cmbox%7Baverage%20of%20%7D%20x%20%7E%3D%7E%2014%20%5Cmbox%7B%20inches%7D%20%7E-%7E%200.2%20%5Cmbox%7B%20inches%20per%20pound%7D%20%5Ccdot%2050%20%5Cmbox%7B%20pounds%7D%20%7E%3D%7E%204%20%5Cmbox%7B%20inches%7D
)
回归线的方程允许我们,根据给定重量(磅)计算估计高度(英寸):
![](
http://latex.codecogs.com/gif.latex?%5Cmbox%7Bestimated%20height%7D%20%7E%3D%7E%200.2%20%5Ccdot%20%5Cmbox%7Bgiven%20weight%7D%20%7E+%7E%204
)
线的斜率衡量随着重量的单位增长的估计高度的增长。 斜率是正值,重要的是要注意,这并不表示我们认为,如果体重增加巴塞特猎狗就会变得更高。 斜率反映了两组狗的平均身高的差异,这两组狗的体重相差 1 磅。 具体来说,考虑一组重量为
`w`
磅,以及另一组重量为
`w + 1`
磅的狗。 我们估计,第二组的均值高出 0.2 英寸。 对于样本中的所有
`w`
值都是如此。
一般来说,回归线的斜率可以解释为随着
`x`
单位增长的
`y`
平均增长。 请注意,如果斜率为负值,那么对于
`x`
的每单位增长,
`y`
的平均值会减少。
### 尾注
即使我们没有建立回归方程的数学基础,我们可以看到,当散点图是橄榄形的时候,它会给出相当好的预测。 这是一个令人惊讶的数学事实,无论散点图的形状如何,同一个方程给出所有直线中的“最好”的预测。 这是下一节的主题。
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录