From 3b2d4686beb5edf977c1d32e12381caf257ad900 Mon Sep 17 00:00:00 2001 From: wizardforcel <562826179@qq.com> Date: Wed, 3 Jan 2018 18:35:03 +0800 Subject: [PATCH] ch12. --- 12.md | 136 ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ 1 file changed, 136 insertions(+) create mode 100644 12.md diff --git a/12.md b/12.md new file mode 100644 index 0000000..a6965c1 --- /dev/null +++ b/12.md @@ -0,0 +1,136 @@ +# 十二、为什么均值重要 + +在这个课程中,我们已经研究了几个不同的统计量,包括总编译距离,最大值,中位数和平均值。在关于随机性的明确假设下,我们绘制了所有这些统计量的经验分布。有些统计量,比如最大和总变异距离,分布明显偏向一个方向。但是,无论研究对象如何,样本均值的经验分布几乎总是接近钟形。 + +如果随机样本的性质是真的,不管总体如何,它都能成为一个有力的推理工具,因为我们通常不清楚总体中的数据。大型随机样本的均值分布属于这类性质。这就是随机抽样方法广泛用于数据科学的原因。 + +在本章中,我们将研究均值,以及我们可以说的一些东西,仅仅使用最基本的底层总体的假设。我们要解决的问题包括: + ++ 均值正好测量了什么? ++ 大部分数据与平均值有多接近? ++ 样本量如何与样本的均值相关? ++ 为什么随机样本的经验分布出现钟形? ++ 我们如何有效地使用抽样方法进行推理? + +## 均值的性质 + +在这个课程中,我们可以互换地使用“average”和“mean”两个单词(译者注,在中文中都译为“均值”),后面也一样。 在你高中甚至更早的时候,你熟悉均值的定义。 + +定义:数值集合的均值是集合中所有元素的总和,除以集合中元素的数量。 + +`np.average`和`np.mean`方法返回数组的均值。 + +```py +not_symmetric = make_array(2, 3, 3, 9) +np.average(not_symmetric) +4.25 +np.mean(not_symmetric) +4.25 +``` + +### 基本性质 + +上面的定义和例子指出了均值的一些性质。 + ++ 它不一定是集合中的一个元素。 ++ 即使集合的所有元素都是整数,也不一定是整数。 ++ 它在集合的最小值和最大值之间。 ++ 它不一定在两个极值的正中间;集合中一半的元素并不总是大于均值。 ++ 如果集合含有一个变量的值,以指定单位测量,则均值也具有相同的单位。 + +我们现在将研究一些其他性质,它有助于理解均值,并与其他统计量相关。 + +### 均值是个“平滑器” + +您可以将均值视为“均衡”或“平滑”操作。 例如,将上面的`not_symmetric`中的条目设想为四个不同人的口袋中的美元。 为此,你先把所有的钱都放进一个大袋子,然后平均分配给四个人。 最开始,他们在口袋中装了不同数量的钱(2 美元,3 美元,3 美元和9 美元),但现在每个人都有平均数量 4.25 美元。 + +### 均值的性质 + +如果一个集合只包含 1 和 0,那么集合的总和就是集合中 1 的数量,集合的均值就是 1 的比例。 + +```py +zero_one = make_array(1, 1, 1, 0) +sum(zero_one) +3 +np.mean(zero_one) +0.75 +``` + +捏可以将 1 替换为布尔值`True`,0 替换为`False`。 + +```py +np.mean(make_array(True, True, True, False)) +0.75 +``` + +因为比例是均值的一个特例,随机样本均值的结果也适用于随机样本比例。 + +### 均值和直方图 + +集合`{2, 3, 3, 9}`的平均值是 4.25,这不是数据的“正中间的点”。 那么这是什么意思? + +为了了解它,请注意,平均值可以用不同的方式计算。 + +![](http://latex.codecogs.com/gif.latex?%5Cbegin%7Balign*%7D%20%5Cmbox%7Bmean%7D%20%7E%20%26%3D%7E%204.25%20%5C%5C%20%5C%5C%20%26%3D%7E%20%5Cfrac%7B2%20+%203%20+%203%20+%209%7D%7B4%7D%20%5C%5C%20%5C%5C%20%26%3D%7E%202%20%5Ccdot%20%5Cfrac%7B1%7D%7B4%7D%20%7E%7E%20+%20%7E%7E%203%20%5Ccdot%20%5Cfrac%7B1%7D%7B4%7D%20%7E%7E%20+%20%7E%7E%203%20%5Ccdot%20%5Cfrac%7B1%7D%7B4%7D%20%7E%7E%20+%20%7E%7E%209%20%5Ccdot%20%5Cfrac%7B1%7D%7B4%7D%20%5C%5C%20%5C%5C%20%26%3D%7E%202%20%5Ccdot%20%5Cfrac%7B1%7D%7B4%7D%20%7E%7E%20+%20%7E%7E%203%20%5Ccdot%20%5Cfrac%7B2%7D%7B4%7D%20%7E%7E%20+%20%7E%7E%209%20%5Ccdot%20%5Cfrac%7B1%7D%7B4%7D%20%5C%5C%20%5C%5C%20%26%3D%7E%202%20%5Ccdot%200.25%20%7E%7E%20+%20%7E%7E%203%20%5Ccdot%200.5%20%7E%7E%20+%20%7E%7E%209%20%5Ccdot%200.25%20%5Cend%7Balign*%7D) + +最后一个表达式就是一个普遍事实的例子:当我们计算平均值时,集合中的每个不同的值都由它在集合中出现的时间比例加权。 + +这有一个重要的结果。 集合的平均值仅取决于不同的值及其比例,而不取决于集合中元素的数量。 换句话说,集合的平均值仅取决于集合中值的分布。 + +因此,如果两个集合具有相同的分布,则它们具有相同的均值。 + +例如,这里是另一个集合,它的分布与`not_symmetric`相同,因此均值也相同。 + +```py +not_symmetric +array([2, 3, 3, 9]) +same_distribution = make_array(2, 2, 3, 3, 3, 3, 9, 9) +np.mean(same_distribution) +4.25 +``` + +均值是分布直方图的物理属性。这里是`not_symmetric`的分布直方图,或者等价的`same_distribution`的分布直方图。 + + +想象一下,直方图是由纸板组成的图形,它附着在一条线上,线沿着横轴延伸。并且,将这些条形想象为附加在值 2, 3 和 9 上的权重。假设您尝试在线上的某个点平衡这个图形。如果该点接近 2,图形就向右倾斜。如果该点接近 9,则图形就向左倾斜。之间的某个地方是这个数字取得平衡的点。这个点是 4.25,就是均值。 + +均值是直方图的重心或平衡点。 + +为了理解这是为什么,了解一些物理会有帮助。重心的计算与我们计算平均值的方法完全相同,通过将不同值按它们比例加权。 + +因为均值是一个平衡点,有时在直方图的底部显示为一个支点或三角形。 + +### 均值和中位数 + +如果一个学生的考试成绩低于平均水平,这是否意味着该学生在该考试中处于后一半? + +对于学生来说,回答是“不一定”。 原因与直方图的平衡点即均值,和数据的“中间点”即中位数之间的关系有关。 + +通过这个关系很容易看到一个简单的例子。 这里是数组`symmetric`的集合`{2, 3, 3, 4}`的直方图。 分布对称于 3。均值和中位数都等于 3。 + +```py +symmetric = make_array(2, 3, 3, 4) +``` + +```py +np.mean(symmetric) +3.0 +percentile(50, symmetric) +3 +``` + +一般来说,对于对称分布,均值和中位数是相等的。 + +如果分布不对称呢? 我们来比较`symmetric`和`not_symmetric`。 + + +蓝色直方图表示原始的`symmetric`分布。 `not_symmetric `的金色从左端起始,和蓝色一样,但是最右边的条形到了数值 9。棕色部分是两个直方图重叠的位置。 + +蓝色分布的中位数和均值都等于 3。金色分布的中值也等于 3,尽管右半部分与左边的分布不同。 + +但金色分布的平均值不是 3:金色直方图在 3 时不平衡。平衡点已经向右移动到 4.25。 + +在金色分布中,4 个条目中有 3 个(75%)低于平均水平。 因此,低于平均分的学生可以放心。 他或她可能是班上的大多数人。 + +一般来说,如果直方图的一边有尾巴(整数属于是“偏斜的”),那么平均值就会从中间拉到尾巴的方向。 + -- GitLab