提交 19361f9b 编写于 作者: W wizardforcel

ch7.

上级 a429746b
......@@ -273,7 +273,7 @@ cut_off
查尔斯·达尔文(Charles Darwin)的堂兄弗朗西斯·高尔顿(Sir Francis Galton)是使用这个思想来基于数值数据进行预测的先驱。 他研究了物理特征是如何传递下来的。
下面的数据是父母和他们的成年子女的高度测量值,由高尔顿仔细收集。 每行对应一个成年孩子。 变量是家庭的数字代码,父母的高度(以英寸为单位),“双亲身高”,这是父母双方身高的加权平均值 [1],家庭中孩子的数量 ,以及孩子的出生次序(第几个),性别和身高。
下面的数据是父母和他们的成年子女的身高测量值,由高尔顿仔细收集。 每行对应一个成年子女。 变量是家庭的数字代码,父母的身高(以英寸为单位),“双亲身高”,这是父母双方身高的加权平均值 [1],家庭中子女的数量 ,以及子女的出生次序(第几个),性别和身高。
> [1] 高尔顿在计算男性和女性的平均身高之前,将女性身高乘上 1.08。对于这个的讨论,请查看 [Chance](http://chance.amstat.org/2013/09/1-pagano/),这是一个由美国统计协会出版的杂志。
......@@ -299,9 +299,9 @@ galton
(省略了 924 行)
收集数据的主要原因是,能够预测父母所生的孩子的成年身高,和数据集类似。让我们尝试这样做,用双亲的身高作为我们预测的基础变量。 因此双亲的身高是我们的预测性变量。
收集数据的主要原因是,能够预测父母所生的子女的成年身高,其中父母和数据集中的类似。让我们尝试这样做,用双亲的身高作为我们预测的基础变量。 因此双亲的身高是我们的预测性变量。
表格`heights`包含双亲和孩子的身高。 两个变量的散点图显示了正相关,正如我们对这些变量的预期。
表格`heights`包含双亲和子女的身高。 两个变量的散点图显示了正相关,正如我们对这些变量的预期。
```py
heights = galton.select(3, 7).relabeled(0, 'MidParent').relabeled(1, 'Child')
......@@ -327,13 +327,13 @@ heights
heights.scatter(0)
```
现在假设高尔顿遇到了新的一对夫妇,与他的数据集类似,并且想知道他们的孩子有多高。考虑到双亲身高是 68 英寸,他预测孩子身高的一个好方法是什么?
现在假设高尔顿遇到了新的一对夫妇,与他的数据集类似,并且想知道他们的子女有多高。考虑到双亲身高是 68 英寸,他预测子女身高的一个好方法是什么?
一个合理的方法是基于约 68 英寸的双亲身高对应的所有点,来做预测。预测值等于从这些点计算的孩子身高的均值。
一个合理的方法是基于约 68 英寸的双亲身高对应的所有点,来做预测。预测值等于从这些点计算的子女身高的均值。
假设我们是高尔顿,并执行这个计划。现在我们只是对“68 英寸左右”的含义做一个合理的定义,并用它来处理。在课程的后面,我们将研究这种选择的后果。
我们的“接近”的意思是“在半英寸之内”。下图显示了 67.5 英寸和 68.5 英寸之间的双亲身高对应的所有点。这些都是红色直线之间的点。每一个点都对应一个孩子;我们对新夫妇的孩子身高的预测是所有孩子的平均身高。这由金色的点表示。
我们的“接近”的意思是“在半英寸之内”。下图显示了 67.5 英寸和 68.5 英寸之间的双亲身高对应的所有点。这些都是红色直线之间的点。每一个点都对应一个子女;我们对新夫妇的子女身高的预测是所有子女的平均身高。这由金色的点表示。
忽略代码,仅仅专注于理解到达金色的点的心理过程。
......@@ -367,7 +367,7 @@ close_to_68
(省略了 121 行)
双亲身高为 68 英寸的孩子的预测身高,是这些行中孩子的平均身高。 这是 66.24 英寸。
双亲身高为 68 英寸的子女的预测身高,是这些行中子女的平均身高。 这是 66.24 英寸。
```py
close_to_68.column('Child').mean()
......@@ -375,7 +375,7 @@ close_to_68.column('Child').mean()
```
我们现在有了一种方法,给定任何数据集中的双亲身高,就可以预测孩子的身高。我们可以定义一个函数`predict_child`来实现它1。 除了名称的选择之外,函数的主体由上面两个单元格中的代码组成。
我们现在有了一种方法,给定任何数据集中的双亲身高,就可以预测子女的身高。我们可以定义一个函数`predict_child`来实现它1。 除了名称的选择之外,函数的主体由上面两个单元格中的代码组成。
```py
def predict_child(mpht):
......@@ -430,7 +430,7 @@ heights_with_predictions
heights_with_predictions.scatter('MidParent')
```
金色的点的图形称为均值图,因为每个金色的点都是两条直线的中心,就像之前绘制的那样。每个都按照给定的双亲高度,做出了孩子高度的预测。例如,散点图显示,对于 72 英寸的双亲高度,孩子的预测高度将在 68 英寸和 69 英寸之间,事实上,`predict_child(72)`返回 68.5。
金色的点的图形称为均值图,因为每个金色的点都是两条直线的中心,就像之前绘制的那样。每个都按照给定的双亲高度,做出了子女高度的预测。例如,散点图显示,对于 72 英寸的双亲高度,子女的预测高度将在 68 英寸和 69 英寸之间,事实上,`predict_child(72)`返回 68.5。
高尔顿的计算和可视化与我们非常相似,除了他没有 Python。他通过散点图绘制了均值图,并注意到它大致沿着直线。这条直线现在被称为回归线,是最常见的预测方法之一。高尔顿的朋友,数学家卡尔·皮尔森(Karl Pearson)用这些分析来形式化关联的概念。
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册