提交 26a75d24 编写于 作者: W wizardforcel

tex

上级 df0a43f6
......@@ -656,12 +656,12 @@ P 值是在原假设下,检验统计量等于在数据中观察到的值,或
检验统计量。0.75 与花为紫色的植物的观察比例的距离:
![](http://latex.codecogs.com/gif.latex?%5Cmbox%7Btest%20statistic%7D%20%7E%3D%7E%20%7C%5Cmbox%7Bobserved%20proportion%20purple%7D%20-%200.75%7C)
![](img/tex-10-1.gif)
样本量较大(929),所以如果孟德尔的模型好,那么观察到的紫色花的比例应该接近 0.75。 如果孟德尔的模型是错误的,则观察到的紫色比例不应该接近0.75,从而使统计值量更大。
因此,在这种情况下,“备选假设的方向”意味着“更大”。
检验统计量的观测值(四舍五入到小数点后五位)是 ![](http://latex.codecogs.com/gif.latex?%7C0.75888%20-%200.75%7C%20%7E%3D%7E%200.00888)。根据定义,P 值是从孟德尔的模型中抽取的样本,产生 0.00888 或更大的统计量的几率。
检验统计量的观测值(四舍五入到小数点后五位)是 ![](img/tex-10-2.gif)。根据定义,P 值是从孟德尔的模型中抽取的样本,产生 0.00888 或更大的统计量的几率。
虽然我们还没有学会如何精确地计算这个几率,但我们可以通过模拟来逼近它,这就是我们在前一节中所做的。 以下是该部分的所有相关代码。
......@@ -803,7 +803,7 @@ results.where('Random Sample Mean', are.between(12.99, 13.01)).num_rows
备选假设:硬币不均匀。
假设你的数据基于 400 个硬币的投掷。 你会预计平等的硬币能够在 400 个次投掷中拥有 200 个正面,所以合理的检验统计量就是使用 ![](http://latex.codecogs.com/gif.latex?%5Cmbox%7Btest%20statistic%7D%20%7E%3D%7E%20%7C%5Cmbox%7Bnumber%20of%20heads%7D%20-%20200%7C)
假设你的数据基于 400 个硬币的投掷。 你会预计平等的硬币能够在 400 个次投掷中拥有 200 个正面,所以合理的检验统计量就是使用 ![](img/tex-10-3.gif)
我们可以在均匀的原假设下模拟统计量。
......@@ -866,7 +866,7 @@ results.hist(bins = np.arange(0, 45, 5))
### 技术注解:识别拒绝域
在上面的硬币投掷的例子中,我们基于 400 次投掷,使用 P 值的 3.5 倍的截断值来测试硬币的平等性。检验统计量是 ![](http://latex.codecogs.com/gif.latex?%7C%5Cmbox%7Bnumber%20of%20heads%7D%20-%20200%7C)。我们在平等的原假设下模拟了这个统计量。
在上面的硬币投掷的例子中,我们基于 400 次投掷,使用 P 值的 3.5 倍的截断值来测试硬币的平等性。检验统计量是 ![](img/tex-10-4.gif)。我们在平等的原假设下模拟了这个统计量。
由于所有统计数据的前 3.5%,检验的结论是硬币是不平等的,在下面展示为红色。
......
......@@ -561,7 +561,7 @@ baby
这种关系的一个简单的衡量标准是出生体重与怀孕天数的比值。`ratios`表包含`baby`的前两列,以及一列`ratios`。 这一列的第一个条目按以下方式计算:
![](http://latex.codecogs.com/gif.latex?%5Cfrac%7B120%7E%5Cmbox%7Bounces%7D%7D%7B284%7E%5Cmbox%7Bdays%7D%7D%20%7E%5Capprox%20%7E%200.4225%7E%20%5Cmbox%7Bounces%20per%20day%7D)
![](img/tex-11-1.gif)
```py
ratios = baby.select('Birth Weight', 'Gestational Days').with_column(
......
......@@ -80,7 +80,7 @@ np.mean(make_array(True, True, True, False))
为了了解它,请注意,平均值可以用不同的方式计算。
![](http://latex.codecogs.com/gif.latex?%5Cbegin%7Balign*%7D%20%5Cmbox%7Bmean%7D%20%7E%20%26%3D%7E%204.25%20%5C%5C%20%5C%5C%20%26%3D%7E%20%5Cfrac%7B2%20+%203%20+%203%20+%209%7D%7B4%7D%20%5C%5C%20%5C%5C%20%26%3D%7E%202%20%5Ccdot%20%5Cfrac%7B1%7D%7B4%7D%20%7E%7E%20+%20%7E%7E%203%20%5Ccdot%20%5Cfrac%7B1%7D%7B4%7D%20%7E%7E%20+%20%7E%7E%203%20%5Ccdot%20%5Cfrac%7B1%7D%7B4%7D%20%7E%7E%20+%20%7E%7E%209%20%5Ccdot%20%5Cfrac%7B1%7D%7B4%7D%20%5C%5C%20%5C%5C%20%26%3D%7E%202%20%5Ccdot%20%5Cfrac%7B1%7D%7B4%7D%20%7E%7E%20+%20%7E%7E%203%20%5Ccdot%20%5Cfrac%7B2%7D%7B4%7D%20%7E%7E%20+%20%7E%7E%209%20%5Ccdot%20%5Cfrac%7B1%7D%7B4%7D%20%5C%5C%20%5C%5C%20%26%3D%7E%202%20%5Ccdot%200.25%20%7E%7E%20+%20%7E%7E%203%20%5Ccdot%200.5%20%7E%7E%20+%20%7E%7E%209%20%5Ccdot%200.25%20%5Cend%7Balign*%7D)
![](img/tex-12-1.gif)
最后一个表达式就是一个普遍事实的例子:当我们计算平均值时,集合中的每个不同的值都由它在集合中出现的时间比例加权。
......@@ -484,7 +484,7 @@ nba13.sort('Age in 2013').show(3)
俄罗斯数学家切比雪夫(Pafnuty Chebychev,1821-1894)证明了这个结论,使我们的粗略陈述更加精确。
对于所有列表和所有数字`z`,“均值上下`z`个标准差”范围内的条目比例至少为 ![](http://latex.codecogs.com/gif.latex?1%20-%20%5Cfrac%7B1%7D%7Bz%5E2%7D)
对于所有列表和所有数字`z`,“均值上下`z`个标准差”范围内的条目比例至少为 ![](img/tex-12-2.gif)
值得注意的是,结果给出了一个界限,而不是一个确切的数值或近似值。
......@@ -508,7 +508,7 @@ nba13.sort('Age in 2013').show(3)
要将一个值转换为标准单位,首先要求出距离平均值有多远,然后将该偏差与标准差比较。
![](http://latex.codecogs.com/gif.latex?z%20%7E%3D%7E%20%5Cfrac%7B%5Cmbox%7Bvalue%20%7D-%5Cmbox%7B%20average%7D%7D%7B%5Cmbox%7BSD%7D%7D)
![](img/tex-12-3.gif)
我们将会看到,标准单位经常用于数据分析。 所以定义一个函数,将数值的数组转换为标准单位是很有用的。
......@@ -632,7 +632,7 @@ plots.xticks(positions);
标准正态曲线的方程令人印象深刻。 但是现在,最好把它看作是变量直方图的平滑轮廓,变量以标准单位测量并具有钟形分布。
![](http://latex.codecogs.com/gif.latex?%5Cphi%28z%29%20%3D%20%7B%5Cfrac%7B1%7D%7B%5Csqrt%7B2%20%5Cpi%7D%7D%7D%20e%5E%7B-%5Cfrac%7B1%7D%7B2%7Dz%5E2%7D%2C%20%7E%7E%20-%5Cinfty%20%3C%20z%20%3C%20%5Cinfty)
![](img/tex-12-4.gif)
![](img/12-10.png)
......@@ -1148,7 +1148,7 @@ sd_comparison.plot('Sample Size n')
固定样本大小。如果样本是从总体中带放回随机抽取的:
![](http://latex.codecogs.com/gif.latex?%7B%5Cmbox%7BSD%20of%20all%20possible%20sample%20means%7D%7D%20%7E%3D%7E%20%5Cfrac%7B%5Cmbox%7BPopulation%20SD%7D%7D%7B%5Csqrt%7B%5Cmbox%7Bsample%20size%7D%7D%7D)
![](img/tex-12-5.gif)
这是所有可能样本均值的标准差。 它大致衡量了样本均值与总体均值的差距。
......@@ -1201,11 +1201,11 @@ sd_comparison.plot('Sample Size n')
我们愿意容忍`1% = 0.01`的宽度。因此,使用上一节中开发的公式:
![](http://latex.codecogs.com/gif.latex?4%20%5Ctimes%20%5Cfrac%7B%5Cmbox%7BSD%20of%20the%200-1%20population%7D%7D%7B%5Csqrt%7B%5Cmbox%7Bsample%20size%7D%7D%7D%20%7E%20%5Cle%20%7E%200.01)
![](img/tex-12-6.gif)
所以:
![](http://latex.codecogs.com/gif.latex?%5Csqrt%7B%5Cmbox%7Bsample%20size%7D%7D%20%7E%20%5Cge%20%7E%204%20%5Ctimes%20%5Cfrac%7B%5Cmbox%7BSD%20of%20the%200-1%20population%7D%7D%7B0.01%7D)
![](img/tex-12-7.gif)
### 01 集合的标准差
......@@ -1265,8 +1265,8 @@ zero_one_sds.scatter("Population Proportion of 1's")
### 样本量
我们知道了 ![](http://latex.codecogs.com/gif.latex?%5Csqrt%7B%5Cmbox%7Bsample%20size%7D%7D%20%7E%20%5Cge%20%7E%204%20%5Ctimes%20%5Cfrac%7B%5Cmbox%7BSD%20of%20the%200-1%20population%7D%7D%7B0.01%7D),并且 01 总体的标准差最大为 0.5,无论总体中 1 的比例。 所以这样是安全的:
我们知道了 ![](img/tex-12-7.gif),并且 01 总体的标准差最大为 0.5,无论总体中 1 的比例。 所以这样是安全的:
![](http://latex.codecogs.com/gif.latex?%5Csqrt%7B%5Cmbox%7Bsample%20size%7D%7D%20%7E%20%5Cge%20%7E%204%20%5Ctimes%20%5Cfrac%7B0.5%7D%7B0.01%7D%20%7E%3D%7E%20200)
![](img/tex-12-8.gif)
所以样本量应该至少是`200 ^ 2 = 40,000`。 这是一个巨大的样本! 但是,如果你想以较高的置信度确保高精度,不管总体是什么样子,那就是你所需要的。
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册