diff --git a/9.md b/9.md index d0e3d2176b5bdf42b055dab7100d19363d5b09b7..7745c05571764c8460c2a6ad237d3f01a92fc4d6 100644 --- a/9.md +++ b/9.md @@ -520,4 +520,28 @@ Table().with_column('Sample Median', medians) | 2 | | 3 | | 1 | -| 3 | \ No newline at end of file +| 3 | + +(省略了 4990 行) + +```py +Table().with_column('Sample Median', medians).hist(bins=np.arange(0.5, 5, 1)) +``` + +你可以看到样本中位数很可能接近 2,这是总体中位数的值。 由于 1000 次航班延误的样本可能与延误总体相似,因此这些样本的延误中位数应接近总体的延误中位数,也就不足为奇了。 + +这是一个例子,统计量如何较好估计参数。 + +### 模拟的威力 + +如果我们能够生成所有可能的大小为 1000 的随机样本,我们就可以知道所有可能的统计量(样本中位数),以及所有这些值的概率。我们可以在统计量的概率直方图中可视化所有值和概率。 + +但在许多情况下(包括这个),所有可能的样本数量足以超过计算机的容量,概率的纯粹数学计算可能有些困难。 + +这是经验直方图的作用。 + +我们知道,如果样本量很大,并且如果重复抽样过程无数次,那么根据平均定律,统计量的经验直方图可能类似于统计量的概率直方图。 + +这意味着反复模拟随机过程是一种近似概率分布的方法,不需要在数学上计算概率,或者生成所有可能的随机样本。因此,计算机模拟成为数据科学中的一个强大工具。他们可以帮助数据科学家理解随机数量的特性,这些数据会以其他方式进行分析。 + +这就是这种的模拟的经典例子。