diff --git a/9.md b/9.md index 709024bba17ba58ed6b5c58ef41b9e4b8da3c083..76a1116b21f56dd5c168ab7adc80bb454585c4e7 100644 --- a/9.md +++ b/9.md @@ -36,6 +36,8 @@ die_bins = np.arange(0.5, 6.6, 1) die.hist(bins = die_bins) ``` +![](img/9-1.png) + 递增值由相同的固定量分隔,例如骰子面上的值(递增值由 1 分隔),这样的变量被称为离散值。上面的直方图被称为离散直方图。它的桶由数组`die_bins`指定,并确保每个条形的中心是对应的整数值。 重要的是要记住,骰子不能显示 1.3 个点或 5.2 个点 - 总是显示整数个点。但是我们的可视化将每个值的概率扩展到条形区域。虽然在本课程的这个阶段这看起来有些随意,但是稍后当我们在离散直方图上叠加平滑曲线时,这将变得很重要。 @@ -86,16 +88,22 @@ def empirical_hist_die(n): empirical_hist_die(10) ``` +![](img/9-2.png) + 当样本量增加时,经验直方图开始看起来更像是理论概率的直方图。 ```py empirical_hist_die(100) ``` +![](img/9-3.png) + ```py empirical_hist_die(1000) ``` +![](img/9-4.png) + 当我们增加模拟中的投掷次数时,每个条形的面积接近 16.67%,这是概率直方图中每个条形的面积。 我们在实例中观察到了一般规则: @@ -150,6 +158,8 @@ delay_bins = np.append(np.arange(-20, 301, 10), 600) united.select('Delay').hist(bins = delay_bins, unit = 'minute') ``` +![](img/9-5.png) + 就本节而言,仅仅关注部分数据就足够了,我们忽略延迟超过 200 分钟的 0.8% 的航班。 这个限制只是为了视觉便利。 该表仍然保留所有的数据。 ```py @@ -160,6 +170,8 @@ delay_bins = np.arange(-20, 201, 10) united.select('Delay').hist(bins = delay_bins, unit = 'minute') ``` +![](img/9-6.png) + `[0,10)`的条形高度不到每分钟 3%,这意味着只有不到 30% 的航班延误了 0 到 10 分钟。 这是通过行的计数来确认的: ```py @@ -182,16 +194,22 @@ def empirical_hist_delay(n): empirical_hist_delay(10) ``` +![](img/9-7.png) + ```py empirical_hist_delay(100) ``` +![](img/9-8.png) + 最一致的可见差异在总体中罕见的值之中。 在我们的示例中,这些值位于分布的最右边。 但随着样本量的增加,这些值以大致正确的比例,开始出现在样本中。 ```py empirical_hist_delay(1000) ``` +![](img/9-9.png) + ### 样本的经验直方图的总结 我们在本节中观察到的东西,可以总结如下: @@ -301,6 +319,8 @@ Table().with_column('Color', colors)\ .barh('Color') ``` +![](img/9-10.png) + 38 个口袋里有 18 个是红色的,每个口袋都是等可能的。 因此,在 5000 次模拟中,我们预计大致(但可能不是完全)看到`18/38*5000`或者 2,368 次红色。模拟证明了这一点。 在模拟中,我们也记录了你的奖金。 这些经验直方图显示了,你对红色下注的不同结果的(近似)几率。 @@ -310,6 +330,8 @@ Table().with_column('Winnings: Red', winnings_on_red)\ .hist(bins = np.arange(-1.55, 1.65, .1)) ``` +![](img/9-11.png) + 每个模拟的唯一可能的结果是,你赢了一美元或输了一美元,这反映在直方图中。 我们也可以看到,你赢的次数要比输的次数少一点。 你喜欢这个赌博策略吗? ### 多次游戏 @@ -341,6 +363,8 @@ for i in np.arange(num_simulations): Table().with_column('Net Gain on Red', net_gain).hist() ``` +![](img/9-12.png) + 注意横轴上 0 的位置。 这就是你不赚不赔的地方。 通过使用这个赌博策略,你喜欢这个赚钱几率吗? 如果对红色下注不吸引人,也许值得尝试不同的赌注。 “分割”(Split)是轮盘赌桌上两个相邻号码的下注,例如 0 和 00。分割的回报是 17 比 1。 @@ -398,6 +422,8 @@ Table().with_columns( ).hist(bins=np.arange(-200, 200, 20)) ``` +![](img/9-13.png) + 横轴上 0 的位置表明,无论你选择哪种赌注,你都更有可能赔钱而不是赚钱。在两个直方图中,不到 50% 的区域在 0 的右侧。 然而,分割的赌注赚钱几率更大,赚取超过 50 美元的机会也是如此。 金色直方图有很多区域在五十美元的右侧,而蓝色直方图几乎没有。 那么你应该对分割下注吗? @@ -421,12 +447,16 @@ united.select('Delay').hist(bins = delay_bins, unit = 'minute') plots.title('Population'); ``` +![](img/9-14.png) + ```py sample_1000 = united.sample(1000) sample_1000.select('Delay').hist(bins = delay_bins, unit = 'minute') plots.title('Sample of Size 1000'); ``` +![](img/9-15.png) + 两个直方图明显相似,虽然他们并不等价。 ### 参数 @@ -536,6 +566,8 @@ Table().with_column('Sample Median', medians) Table().with_column('Sample Median', medians).hist(bins=np.arange(0.5, 5, 1)) ``` +![](img/9-16.png) + 你可以看到样本中位数很可能接近 2,这是总体中位数的值。 由于 1000 次航班延误的样本可能与延误总体相似,因此这些样本的延误中位数应接近总体的延误中位数,也就不足为奇了。 这是一个例子,统计量如何较好估计参数。 @@ -646,6 +678,8 @@ every_ten = np.arange(1, N+100, 10) Table().with_column('Max Serial Number', maxes).hist(bins = every_ten) ``` +![](img/9-17.png) + 这是 750 个估计值的直方图,每个估计值是统计量“观察到的最大序列号”的观测值。 正如你所看到的,尽管在理论上它们可能会小得多,但估计都在 300 附近。直方图表明,作为飞机总数的估计,最大的序列号可能低了大约 10 到 25 个。但是,飞机的真实数量低了 50 个是不太可能的。 @@ -728,6 +762,8 @@ results results.drop(0).hist(bins = every_ten) ``` +![](img/9-18.png) + 你可以看到,原有方法几乎总是低估; 形式上,我们说它是有偏差的。 但它的变异性很小,很可能接近真正的飞机总数。 新方法高估了它,和低估的频率一样,因此从长远来看,平均而言大致没有偏差。 然而,它比旧的估计更可变,因此容易出现较大的绝对误差。 diff --git a/img/9-1.png b/img/9-1.png new file mode 100644 index 0000000000000000000000000000000000000000..b803d28a9e37c450c45019d96ea7307dc5654b0d Binary files /dev/null and b/img/9-1.png differ diff --git a/img/9-10.png b/img/9-10.png new file mode 100644 index 0000000000000000000000000000000000000000..8d681165edf69bc4e6e5d1550fe40342a37adfdf Binary files /dev/null and b/img/9-10.png differ diff --git a/img/9-11.png b/img/9-11.png new file mode 100644 index 0000000000000000000000000000000000000000..e5fc2589373914df23bef9854caab84ff8ec7667 Binary files /dev/null and b/img/9-11.png differ diff --git a/img/9-12.png b/img/9-12.png new file mode 100644 index 0000000000000000000000000000000000000000..42344f9ca57c1fb6e9e572ecc4103f8a6b56aa71 Binary files /dev/null and b/img/9-12.png differ diff --git a/img/9-13.png b/img/9-13.png new file mode 100644 index 0000000000000000000000000000000000000000..d57de745d9fd516bc81200302f95983aff2ec29f Binary files /dev/null and b/img/9-13.png differ diff --git a/img/9-14.png b/img/9-14.png new file mode 100644 index 0000000000000000000000000000000000000000..d079848f66311c5fa5dd42402b234a22f7e9f918 Binary files /dev/null and b/img/9-14.png differ diff --git a/img/9-15.png b/img/9-15.png new file mode 100644 index 0000000000000000000000000000000000000000..9b7da802e6ca46bf2466736673aa6571942bf813 Binary files /dev/null and b/img/9-15.png differ diff --git a/img/9-16.png b/img/9-16.png new file mode 100644 index 0000000000000000000000000000000000000000..ce63448ff6eb4602d95f38002bcf2e8aee974238 Binary files /dev/null and b/img/9-16.png differ diff --git a/img/9-17.png b/img/9-17.png new file mode 100644 index 0000000000000000000000000000000000000000..5f640a1d3a0d2599c13299e3e1537c359ca23230 Binary files /dev/null and b/img/9-17.png differ diff --git a/img/9-18.png b/img/9-18.png new file mode 100644 index 0000000000000000000000000000000000000000..f2bf94c153752794e1ec292bd7e26003cbe2527a Binary files /dev/null and b/img/9-18.png differ diff --git a/img/9-2.png b/img/9-2.png new file mode 100644 index 0000000000000000000000000000000000000000..e57e58697805f78d63598b11682cd3b0da9f0dca Binary files /dev/null and b/img/9-2.png differ diff --git a/img/9-3.png b/img/9-3.png new file mode 100644 index 0000000000000000000000000000000000000000..651329cce97369d7f1f2d45da495b4fb2bd04525 Binary files /dev/null and b/img/9-3.png differ diff --git a/img/9-4.png b/img/9-4.png new file mode 100644 index 0000000000000000000000000000000000000000..fc12f585f26091c4f08b808e0fb357f7891d8aa7 Binary files /dev/null and b/img/9-4.png differ diff --git a/img/9-5.png b/img/9-5.png new file mode 100644 index 0000000000000000000000000000000000000000..15b472fc73618859a9be296450aa712bd9d73c72 Binary files /dev/null and b/img/9-5.png differ diff --git a/img/9-6.png b/img/9-6.png new file mode 100644 index 0000000000000000000000000000000000000000..6ae87b723506a7dcedb20fdf74780eb257d774b4 Binary files /dev/null and b/img/9-6.png differ diff --git a/img/9-7.png b/img/9-7.png new file mode 100644 index 0000000000000000000000000000000000000000..3f0faf43ac9f4e90865832797be8daee0882c8a9 Binary files /dev/null and b/img/9-7.png differ diff --git a/img/9-8.png b/img/9-8.png new file mode 100644 index 0000000000000000000000000000000000000000..5727cf79d7b76e51d08a53faf3ab4fbfe1d1d6b5 Binary files /dev/null and b/img/9-8.png differ diff --git a/img/9-9.png b/img/9-9.png new file mode 100644 index 0000000000000000000000000000000000000000..280e66bc77bc645b75311bd6a6c65f0e21617acc Binary files /dev/null and b/img/9-9.png differ