Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
prob140-textbook-zh
提交
cf5f9246
P
prob140-textbook-zh
项目概览
OpenDocCN
/
prob140-textbook-zh
通知
13
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
P
prob140-textbook-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
未验证
提交
cf5f9246
编写于
1月 25, 2019
作者:
Z
Zeyu Zhong
提交者:
GitHub
1月 25, 2019
浏览文件
操作
浏览文件
下载
差异文件
Merge pull request #34 from ThomasCai/master
Update Chapter 24
上级
529eda8e
3a15e35f
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
72 addition
and
0 deletion
+72
-0
docs/24.md
docs/24.md
+72
-0
未找到文件。
docs/24.md
浏览文件 @
cf5f9246
...
...
@@ -283,6 +283,78 @@ $$
## 02 线性最小二乘法
```
python
# HIDDEN
from
datascience
import
*
from
prob140
import
*
import
numpy
as
np
import
matplotlib.pyplot
as
plt
plt
.
style
.
use
(
'fivethirtyeight'
)
%
matplotlib
inline
from
scipy
import
stats
```
### 最小二乘线性预测器
在这一节中,我们将远离二元正态分布,看看我们能否基于另一个数字变量的预测因子,从一个数字变量的所有线性预测因子中找出最好的,而不管这两个变量的联合分布如何。
对于联合分布随机变量$X$和$Y$,你知道$E(Y∣X)$是$Y$基于$X$函数的最小二乘预测器。我们现在将允许的函数限制为线性函数,并且看看我们能否在其中找到最好的一个。下一节我们将看到这个最好的线性预测器,所有预测器中最好的,和二元正态分布之间的联系。
**最小化均方误差**
令$h(X)=aX+b$其中$a$和$b$为常量,并且使$MSE(a,b)$表示$MSE(h)$
![](
http://latex.codecogs.com/gif.latex?MSE(a,b
)
=E((Y-(aX+b)){^2}))
为了找到最小二乘线性预测器,我们必须在所有$a$和$b$上最小化这个MSE。我们将使用微积分分两步完成:
-
固定$a$的值,并且在这个$a$下寻找$b{^
*
_a}$值以使得$MSE(a,b)$最小;
-
然后将这个最小化的值$b{^
*_a}$代入$b$,并且最小化![](http://latex.codecogs.com/gif.latex?MSE(a,b{^*
_a}))以求出$a$。
**步骤一**
固定$a$且最小化$MSE(a,b)$以求得$b$
![](
http://latex.codecogs.com/gif.latex?MSE(a,b
)
=E(((Y-aX)-b){^2})=E((Y-aX){^2})-2bE(Y-aX)+b{^2})
对b求导得
![](
http://latex.codecogs.com/gif.latex?\frac{d}{db}MSE(a,b
)
=-2E(Y-aX)+2b)
设置此值等于0并求解,可得对于a的固定值的最小化的b值
![](
http://latex.codecogs.com/gif.latex?b{^*_a}=E(Y-aX
)
=E(Y)-aE(X))
**步骤二**
现在我们最小化以下函数并求得$a$
![](
http://latex.codecogs.com/gif.latex?E((Y-(aX+b{^*_a}
)
){^2})=E((Y-(aX+E(Y)-aE(X))){^2})=E
\B
ig(
\b
ig((Y-E(Y))-a(X-E(X))
\b
ig){^2}
\B
ig)=E
\b
ig((Y-E(Y)){^2}
\b
ig)-2aE
\b
ig((Y-E(Y))(X-E(X))
\b
ig)+a{^2}E
\b
ig((X-E(X)){^2}
\b
ig)=Var(Y)-2aCov(X,Y)+a{^2}Var(X))
对$a$求导得$-2Cov(X,Y)+2aVar(X)$。所以最小化的$a$是
![](
http://latex.codecogs.com/gif.latex?a{^*}=\frac{Cov(X,Y
)
}{Var(X)})
在这一点上,我们应该检查我们所拥有的是最小值,而不是最大值,但是根据您的预测经验,您可能只愿意接受我们所拥有的最小值。如果不是,那么再次求导,看看得到的函数的符号。
**回归线的斜率和截距**
最小二乘直线称为回归线。最小二乘直线称为回归线。现在你可以从数据8中得到它的等式的证明。设!
[](
http://latex.codecogs.com/gif.latex?\tau{_X,_Y}
)
是$X$和$Y$之间的相关性。然后斜率和截距由下式给出:
![](
http://latex.codecogs.com/gif.latex?SlopeOfRegression_line=\frac{Cov(X,Y
)
}{Var(X)}=
\t
au{_X,_Y}
\f
rac{
\s
igma{_Y}}{
\s
igma{_X}})
![](
http://latex.codecogs.com/gif.latex?InterceptOfRegression_line=E(Y
)
-slope
\c
dot{E(X)})
**标准单位的回归**
如果$X$和$Y$都是用标准单位测量的,那么回归线的斜率就是相关性!
[](
http://latex.codecogs.com/gif.latex?\tau{_X,_Y}
)
,截距为0。
换句话说,已知$X=x$标准单位,Y的预测值为!
[](
http://latex.codecogs.com/gif.latex?\tau{_X,_Y}x
)
标准单位。当!
[](
http://latex.codecogs.com/gif.latex?\tau{_X,_Y}
)
为正而不是1时,这个结果称为回归因子;Y的预测值比X的给定值更接近0。
**散点图的线和形状**
以上计算表明:
-
回归线经过这个点$(E(X), E(Y))$.
-
不管$X$和$Y$的联合分布如何,回归线的方程都成立。
-
无论$X$和$Y$之间的关系如何,在所有直线中始终存在最佳直线预测器。如果关系不是大致线性的,则不希望使用最佳直线进行预测,因为最佳直线仅仅是一类不好的预测结果中最好, 它总是存在。
## 03 回归和二元正态分布
## 04 回归方程
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录