未验证 提交 cf5f9246 编写于 作者: Z Zeyu Zhong 提交者: GitHub

Merge pull request #34 from ThomasCai/master

Update Chapter 24
......@@ -283,6 +283,78 @@ $$
## 02 线性最小二乘法
```python
# HIDDEN
from datascience import *
from prob140 import *
import numpy as np
import matplotlib.pyplot as plt
plt.style.use('fivethirtyeight')
%matplotlib inline
from scipy import stats
```
### 最小二乘线性预测器
在这一节中,我们将远离二元正态分布,看看我们能否基于另一个数字变量的预测因子,从一个数字变量的所有线性预测因子中找出最好的,而不管这两个变量的联合分布如何。
对于联合分布随机变量$X$和$Y$,你知道$E(Y∣X)$是$Y$基于$X$函数的最小二乘预测器。我们现在将允许的函数限制为线性函数,并且看看我们能否在其中找到最好的一个。下一节我们将看到这个最好的线性预测器,所有预测器中最好的,和二元正态分布之间的联系。
**最小化均方误差**
令$h(X)=aX+b$其中$a$和$b$为常量,并且使$MSE(a,b)$表示$MSE(h)$
![](http://latex.codecogs.com/gif.latex?MSE(a,b)=E((Y-(aX+b)){^2}))
为了找到最小二乘线性预测器,我们必须在所有$a$和$b$上最小化这个MSE。我们将使用微积分分两步完成:
- 固定$a$的值,并且在这个$a$下寻找$b{^*_a}$值以使得$MSE(a,b)$最小;
- 然后将这个最小化的值$b{^*_a}$代入$b$,并且最小化![](http://latex.codecogs.com/gif.latex?MSE(a,b{^*_a}))以求出$a$。
**步骤一**
固定$a$且最小化$MSE(a,b)$以求得$b$
![](http://latex.codecogs.com/gif.latex?MSE(a,b)=E(((Y-aX)-b){^2})=E((Y-aX){^2})-2bE(Y-aX)+b{^2})
对b求导得
![](http://latex.codecogs.com/gif.latex?\frac{d}{db}MSE(a,b)=-2E(Y-aX)+2b)
设置此值等于0并求解,可得对于a的固定值的最小化的b值
![](http://latex.codecogs.com/gif.latex?b{^*_a}=E(Y-aX)=E(Y)-aE(X))
**步骤二**
现在我们最小化以下函数并求得$a$
![](http://latex.codecogs.com/gif.latex?E((Y-(aX+b{^*_a})){^2})=E((Y-(aX+E(Y)-aE(X))){^2})=E\Big(\big((Y-E(Y))-a(X-E(X))\big){^2}\Big)=E\big((Y-E(Y)){^2}\big)-2aE\big((Y-E(Y))(X-E(X))\big)+a{^2}E\big((X-E(X)){^2}\big)=Var(Y)-2aCov(X,Y)+a{^2}Var(X))
对$a$求导得$-2Cov(X,Y)+2aVar(X)$。所以最小化的$a$是
![](http://latex.codecogs.com/gif.latex?a{^*}=\frac{Cov(X,Y)}{Var(X)})
在这一点上,我们应该检查我们所拥有的是最小值,而不是最大值,但是根据您的预测经验,您可能只愿意接受我们所拥有的最小值。如果不是,那么再次求导,看看得到的函数的符号。
**回归线的斜率和截距**
最小二乘直线称为回归线。最小二乘直线称为回归线。现在你可以从数据8中得到它的等式的证明。设![](http://latex.codecogs.com/gif.latex?\tau{_X,_Y})是$X$和$Y$之间的相关性。然后斜率和截距由下式给出:
![](http://latex.codecogs.com/gif.latex?SlopeOfRegression_line=\frac{Cov(X,Y)}{Var(X)}=\tau{_X,_Y}\frac{\sigma{_Y}}{\sigma{_X}})
![](http://latex.codecogs.com/gif.latex?InterceptOfRegression_line=E(Y)-slope\cdot{E(X)})
**标准单位的回归**
如果$X$和$Y$都是用标准单位测量的,那么回归线的斜率就是相关性![](http://latex.codecogs.com/gif.latex?\tau{_X,_Y}),截距为0。
换句话说,已知$X=x$标准单位,Y的预测值为![](http://latex.codecogs.com/gif.latex?\tau{_X,_Y}x)标准单位。当![](http://latex.codecogs.com/gif.latex?\tau{_X,_Y})为正而不是1时,这个结果称为回归因子;Y的预测值比X的给定值更接近0。
**散点图的线和形状**
以上计算表明:
- 回归线经过这个点$(E(X), E(Y))$.
- 不管$X$和$Y$的联合分布如何,回归线的方程都成立。
- 无论$X$和$Y$之间的关系如何,在所有直线中始终存在最佳直线预测器。如果关系不是大致线性的,则不希望使用最佳直线进行预测,因为最佳直线仅仅是一类不好的预测结果中最好, 它总是存在。
## 03 回归和二元正态分布
## 04 回归方程
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册