ch7.

19361f9b · wizardforcel · a429746b · 19361f9b
隐藏空白更改
内联并排

Showing with 9 addition and 9 deletion

7.md 7.md +9 -9

未找到文件。
--- a/7.md
+++ b/7.md
@@ -273,7 +273,7 @@ cut_off

 查尔斯·达尔文（Charles Darwin）的堂兄弗朗西斯·高尔顿（Sir Francis Galton）是使用这个思想来基于数值数据进行预测的先驱。 他研究了物理特征是如何传递下来的。

-下面的数据是父母和他们的成年子女的高度测量值，由高尔顿仔细收集。 每行对应一个成年孩子。 变量是家庭的数字代码，父母的高度（以英寸为单位），“双亲身高”，这是父母双方身高的加权平均值 [1]，家庭中孩子的数量 ，以及孩子的出生次序（第几个），性别和身高。
+下面的数据是父母和他们的成年子女的身高测量值，由高尔顿仔细收集。 每行对应一个成年子女。 变量是家庭的数字代码，父母的身高（以英寸为单位），“双亲身高”，这是父母双方身高的加权平均值 [1]，家庭中子女的数量 ，以及子女的出生次序（第几个），性别和身高。

 > [1] 高尔顿在计算男性和女性的平均身高之前，将女性身高乘上 1.08。对于这个的讨论，请查看 [Chance](http://chance.amstat.org/2013/09/1-pagano/)，这是一个由美国统计协会出版的杂志。

@@ -299,9 +299,9 @@ galton

 （省略了 924 行）

-收集数据的主要原因是，能够预测父母所生的孩子的成年身高，和数据集类似。让我们尝试这样做，用双亲的身高作为我们预测的基础变量。 因此双亲的身高是我们的预测性变量。
+收集数据的主要原因是，能够预测父母所生的子女的成年身高，其中父母和数据集中的类似。让我们尝试这样做，用双亲的身高作为我们预测的基础变量。 因此双亲的身高是我们的预测性变量。

-表格`heights`包含双亲和孩子的身高。 两个变量的散点图显示了正相关，正如我们对这些变量的预期。
+表格`heights`包含双亲和子女的身高。 两个变量的散点图显示了正相关，正如我们对这些变量的预期。

 ```py
 heights = galton.select(3, 7).relabeled(0, 'MidParent').relabeled(1, 'Child')
@@ -327,13 +327,13 @@ heights
 heights.scatter(0)
 ```

-现在假设高尔顿遇到了新的一对夫妇，与他的数据集类似，并且想知道他们的孩子有多高。考虑到双亲身高是 68 英寸，他预测孩子身高的一个好方法是什么？
+现在假设高尔顿遇到了新的一对夫妇，与他的数据集类似，并且想知道他们的子女有多高。考虑到双亲身高是 68 英寸，他预测子女身高的一个好方法是什么？

-一个合理的方法是基于约 68 英寸的双亲身高对应的所有点，来做预测。预测值等于从这些点计算的孩子身高的均值。
+一个合理的方法是基于约 68 英寸的双亲身高对应的所有点，来做预测。预测值等于从这些点计算的子女身高的均值。

 假设我们是高尔顿，并执行这个计划。现在我们只是对“68 英寸左右”的含义做一个合理的定义，并用它来处理。在课程的后面，我们将研究这种选择的后果。

-我们的“接近”的意思是“在半英寸之内”。下图显示了 67.5 英寸和 68.5 英寸之间的双亲身高对应的所有点。这些都是红色直线之间的点。每一个点都对应一个孩子；我们对新夫妇的孩子身高的预测是所有孩子的平均身高。这由金色的点表示。
+我们的“接近”的意思是“在半英寸之内”。下图显示了 67.5 英寸和 68.5 英寸之间的双亲身高对应的所有点。这些都是红色直线之间的点。每一个点都对应一个子女；我们对新夫妇的子女身高的预测是所有子女的平均身高。这由金色的点表示。

 忽略代码，仅仅专注于理解到达金色的点的心理过程。

@@ -367,7 +367,7 @@ close_to_68

 （省略了 121 行）

-双亲身高为 68 英寸的孩子的预测身高，是这些行中孩子的平均身高。 这是 66.24 英寸。
+双亲身高为 68 英寸的子女的预测身高，是这些行中子女的平均身高。 这是 66.24 英寸。

 ```py
 close_to_68.column('Child').mean()
@@ -375,7 +375,7 @@ close_to_68.column('Child').mean()
 ```


-我们现在有了一种方法，给定任何数据集中的双亲身高，就可以预测孩子的身高。我们可以定义一个函数`predict_child`来实现它1。 除了名称的选择之外，函数的主体由上面两个单元格中的代码组成。
+我们现在有了一种方法，给定任何数据集中的双亲身高，就可以预测子女的身高。我们可以定义一个函数`predict_child`来实现它1。 除了名称的选择之外，函数的主体由上面两个单元格中的代码组成。

 ```py
 def predict_child(mpht):
@@ -430,7 +430,7 @@ heights_with_predictions
 heights_with_predictions.scatter('MidParent')
 ```

-金色的点的图形称为均值图，因为每个金色的点都是两条直线的中心，就像之前绘制的那样。每个都按照给定的双亲高度，做出了孩子高度的预测。例如，散点图显示，对于 72 英寸的双亲高度，孩子的预测高度将在 68 英寸和 69 英寸之间，事实上，`predict_child(72)`返回 68.5。
+金色的点的图形称为均值图，因为每个金色的点都是两条直线的中心，就像之前绘制的那样。每个都按照给定的双亲高度，做出了子女高度的预测。例如，散点图显示，对于 72 英寸的双亲高度，子女的预测高度将在 68 英寸和 69 英寸之间，事实上，`predict_child(72)`返回 68.5。

 高尔顿的计算和可视化与我们非常相似，除了他没有 Python。他通过散点图绘制了均值图，并注意到它大致沿着直线。这条直线现在被称为回归线，是最常见的预测方法之一。高尔顿的朋友，数学家卡尔·皮尔森（Karl Pearson）用这些分析来形式化关联的概念。