Merge pull request #34 from ThomasCai/master

Update Chapter 24

Merge pull request #34 from ThomasCai/master
Update Chapter 24
cf5f9246 · Zeyu Zhong · GitHub · 529eda8e · 3a15e35f · cf5f9246
隐藏空白更改
内联并排

Showing with 72 addition and 0 deletion

docs/24.md docs/24.md +72 -0

未找到文件。
--- a/docs/24.md
+++ b/docs/24.md
@@ -283,6 +283,78 @@ $$

 ## 02 线性最小二乘法

+```python
+# HIDDEN
+from datascience import *
+from prob140 import *
+import numpy as np
+import matplotlib.pyplot as plt
+plt.style.use('fivethirtyeight')
+%matplotlib inline
+from scipy import stats
+```
+### 最小二乘线性预测器
+在这一节中，我们将远离二元正态分布，看看我们能否基于另一个数字变量的预测因子，从一个数字变量的所有线性预测因子中找出最好的，而不管这两个变量的联合分布如何。
+
+对于联合分布随机变量$X$和$Y$，你知道$E(Y∣X)$是$Y$基于$X$函数的最小二乘预测器。我们现在将允许的函数限制为线性函数，并且看看我们能否在其中找到最好的一个。下一节我们将看到这个最好的线性预测器，所有预测器中最好的，和二元正态分布之间的联系。
+
+**最小化均方误差**
+
+令$h(X)=aX+b$其中$a$和$b$为常量，并且使$MSE(a,b)$表示$MSE(h)$
+![](http://latex.codecogs.com/gif.latex?MSE(a,b)=E((Y-(aX+b)){^2}))
+为了找到最小二乘线性预测器，我们必须在所有$a$和$b$上最小化这个MSE。我们将使用微积分分两步完成：
+
+- 固定$a$的值，并且在这个$a$下寻找$b{^*_a}$值以使得$MSE(a,b)$最小；
+- 然后将这个最小化的值$b{^*_a}$代入$b$，并且最小化![](http://latex.codecogs.com/gif.latex?MSE(a,b{^*_a}))以求出$a$。
+
+**步骤一**
+
+固定$a$且最小化$MSE(a,b)$以求得$b$
+
+![](http://latex.codecogs.com/gif.latex?MSE(a,b)=E(((Y-aX)-b){^2})=E((Y-aX){^2})-2bE(Y-aX)+b{^2})
+
+对b求导得
+
+![](http://latex.codecogs.com/gif.latex?\frac{d}{db}MSE(a,b)=-2E(Y-aX)+2b)
+
+设置此值等于0并求解，可得对于a的固定值的最小化的b值
+
+![](http://latex.codecogs.com/gif.latex?b{^*_a}=E(Y-aX)=E(Y)-aE(X))
+
+**步骤二**
+
+现在我们最小化以下函数并求得$a$
+
+![](http://latex.codecogs.com/gif.latex?E((Y-(aX+b{^*_a})){^2})=E((Y-(aX+E(Y)-aE(X))){^2})=E\Big(\big((Y-E(Y))-a(X-E(X))\big){^2}\Big)=E\big((Y-E(Y)){^2}\big)-2aE\big((Y-E(Y))(X-E(X))\big)+a{^2}E\big((X-E(X)){^2}\big)=Var(Y)-2aCov(X,Y)+a{^2}Var(X))
+
+对$a$求导得$-2Cov(X,Y)+2aVar(X)$。所以最小化的$a$是
+
+![](http://latex.codecogs.com/gif.latex?a{^*}=\frac{Cov(X,Y)}{Var(X)})
+
+在这一点上，我们应该检查我们所拥有的是最小值，而不是最大值，但是根据您的预测经验，您可能只愿意接受我们所拥有的最小值。如果不是，那么再次求导，看看得到的函数的符号。
+
+**回归线的斜率和截距**
+
+最小二乘直线称为回归线。最小二乘直线称为回归线。现在你可以从数据8中得到它的等式的证明。设![](http://latex.codecogs.com/gif.latex?\tau{_X,_Y})是$X$和$Y$之间的相关性。然后斜率和截距由下式给出：
+
+![](http://latex.codecogs.com/gif.latex?SlopeOfRegression_line=\frac{Cov(X,Y)}{Var(X)}=\tau{_X,_Y}\frac{\sigma{_Y}}{\sigma{_X}})
+
+![](http://latex.codecogs.com/gif.latex?InterceptOfRegression_line=E(Y)-slope\cdot{E(X)})
+
+**标准单位的回归**
+
+如果$X$和$Y$都是用标准单位测量的，那么回归线的斜率就是相关性![](http://latex.codecogs.com/gif.latex?\tau{_X,_Y})，截距为0。
+
+换句话说，已知$X=x$标准单位，Y的预测值为![](http://latex.codecogs.com/gif.latex?\tau{_X,_Y}x)标准单位。当![](http://latex.codecogs.com/gif.latex?\tau{_X,_Y})为正而不是1时，这个结果称为回归因子；Y的预测值比X的给定值更接近0。
+
+**散点图的线和形状**
+
+以上计算表明：
+
+- 回归线经过这个点$(E(X), E(Y))$.
+- 不管$X$和$Y$的联合分布如何，回归线的方程都成立。
+- 无论$X$和$Y$之间的关系如何，在所有直线中始终存在最佳直线预测器。如果关系不是大致线性的，则不希望使用最佳直线进行预测，因为最佳直线仅仅是一类不好的预测结果中最好， 它总是存在。
+
 ## 03 回归和二元正态分布

 ## 04 回归方程