提交 a6f0e75d 编写于 作者: W wizardforcel

ch9.

上级 c5644801
......@@ -397,3 +397,58 @@ Table().with_columns(
这取决于你愿意承担多少风险,因为直方图还表明,如果你对分割下注,你比对红色下注更容易损失超过 50 美元。
轮盘赌桌上,所有赌注的单位美元的预期净损失相同(除了线注,这是更糟的)。 但一些赌注的回报比其他赌注更为可变。 你可以选择这些赌注,只要你准备好可能会大输一场。
## 统计量的经验分布
平均定律意味着,大型随机样本的经验分布类似于总体的分布,概率相当高。
在两个直方图中可以看到相似之处:大型随机样本的经验直方图很可能类似于总体的直方图。
提醒一下,这里是所有美联航航班延误的直方图,以及这些航班的 1000 个随机样本的经验直方图。
```py
united = Table.read_table('united_summer2015.csv')
delay_bins = np.arange(-20, 201, 10)
united.select('Delay').hist(bins = delay_bins, unit = 'minute')
plots.title('Population');
```
```py
sample_1000 = united.sample(1000)
sample_1000.select('Delay').hist(bins = delay_bins, unit = 'minute')
plots.title('Sample of Size 1000');
```
两个直方图明显相似,虽然他们并不等价。
### 参数
我们经常对总体相关的数量感兴趣。
在选民的总体中,有多少人会投票给候选人 A 呢?
在 Facebook 用户的总体中,用户最多拥有的 Facebook 好友数是多少?
在美联航航班的总体中,起飞延误时间的中位数是多少?
与总体相关的数量被称为参数。 对于美联航航班的总体,我们知道参数“延误时间的中位数”的值:
```py
np.median(united.column('Delay'))
2.0
```
NumPy 函数`median`返回数组的中值(中位数)。 在所有的航班中,延误时间的中位数为 2 分钟。 也就是说,总体中约有 50% 的航班延误了 2 分钟以内:
```py
united.where('Delay', are.below_or_equal_to(2)).num_rows/united.num_rows
0.5018444846292948
```
一半的航班在预定起飞时间的 2 分钟之内起飞。 这是非常短暂的延误!
注意。 由于“重复”,百分比并不完全是 50,也就是说,延误了 2 分钟的航班有 480 个。数据集中的重复很常见,我们不会在这个课程中担心它。
```py
united.where('Delay', are.equal_to(2)).num_rows
480
```
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册