提交 6402246e 编写于 作者: W wizardforcel

2020-05-07 21:50:59

上级 d60f81f1
......@@ -62,13 +62,13 @@
密度曲线通常按比例缩放,使得曲线下面积等于 1。这种惯例会使 *y* 轴刻度混乱,因为它取决于 *x* 轴的单位。例如,在年龄分布的情况下, *x* 轴上的数据范围从 0 到大约 75。因此,我们期望密度曲线的平均高度为 1/75 = 0.013。实际上,当观察年龄密度曲线时(例如,图 7.4),我们看到 *y* 值的范围从 0 到大约 0.04,平均值接近 0.01。
核密度估计有一个我们需要注意的陷阱:它们倾向于在不存在数据的地方产生数据外观,特别是在尾部。因此,不小心使用密度估计很容易导致产生无意义的图表。例如,如果我们不注意,我们可能会生成包含负年龄的年龄分布的可视化(图 7.5)。
核密度估计有一个我们需要注意的陷阱:它们倾向于在不存在数据的地方产生数据外观,特别是在尾部。因此,不小心使用密度估计很容易导致产生无意义的图表。例如,如果我们不注意,我们可能会生成包含负年龄的年龄分布的可视化(图 7.5)。
![](img/88f6ba188d11dccbf63dd04c356c3a05.jpg)
图 7.5:核密度估计可以将分布的尾部扩展到没有数据,甚至不可能存在数据的区域。在这里,密度估计已被允许延伸到负年龄范围。这显然是荒谬的,应该避免。
始终验证您的密度估计没有预测无意义数据值的存在。
始终验证您的密度估计没有预测无意义数据值的存在。
那么你应该使用直方图或密度图来显示分布吗?可以就这个主题进行激烈的讨论。有些人强烈反对密度图,并认为它们是任意的和误导性的。其他人意识到直方图可能同样具有任意性和误导性。我认为选择主要取决于品味,但有时候一个或另一个选项可能更准确地反映手头数据中感兴趣的具体特征。也有可能不使用二者,而是选择经验累积密度函数或 q-q 图(第八章)。最后,我相信,一旦我们想要一次可视化多个分布,密度估计就会比直方图具有固有的优势(见下一节)。
......@@ -94,13 +94,13 @@
![](img/23fc6221d1fc44756f357ce31828cd78.jpg)
图 7.8:男性和女性泰坦尼克号乘客年龄的密度估计。为了突出显示男性乘客多于女性乘客,密度曲线按比例缩放,使得每条曲线下的面积对应于已知年龄的男性和女性乘客的总数(分别为 468 和 288)。
图 7.8:男性和女性泰坦尼克号乘客年龄的密度估计。为了突出显示男性乘客多于女性乘客,密度曲线按比例缩放,使得每条曲线下的面积对应于已知年龄的男性和女性乘客的总数(分别为 468 和 288)。
适用于该数据集的解决方案是分别显示男性和女性乘客的年龄分布,每个图作为整体年龄分布的一个比例(图 7.9)。这种可视化直观而清晰地表明,在泰坦尼克号上,20-50 岁年龄段的女性比男性少得多。
![](img/8ce2b228e73d8c22326e01b4c33f971e.jpg)
图 7.9:男性和女性泰坦尼克号乘客的年龄分布,以乘客总数的比例显示。彩色区域分别显示男性和女性乘客年龄的密度估计,灰色区域显示乘客整体年龄分布。
图 7.9:男性和女性泰坦尼克号乘客的年龄分布,以乘客总数的比例显示。彩色区域分别显示男性和女性乘客年龄的密度估计,灰色区域显示乘客整体年龄分布。
最后,当我们想要准确地可视化两个分布时,我们还可以制作两个单独的直方图,将它们旋转 90 度,并使一个直方图中的条形指向另一个直方图的相反方向。这种技巧通常用于可视化年龄分布,结果图通常称为年龄金字塔(图 7.10)。
......@@ -112,6 +112,6 @@
![](img/1fbc40ef2a1dfb7718b189c124b36aca.jpg)
图 7.11:四个品种的牛奶中乳脂百分比的密度估计。数据来源:加拿大纯种奶牛的表现记录
图 7.11:四个品种的牛奶中乳脂百分比的密度估计。数据来源:加拿大纯种奶牛的表现记录
为了一次可视化几个分布,核密度图通常比直方图更好。
\ No newline at end of file
......@@ -16,7 +16,7 @@
![](img/4d1be3920348f537730aa3860dd382c8.jpg)
图 9.1:2016 年内布拉斯加州林肯市的日平均气温。点表示每月的日平均温度,在一个月的所有日期上计算平均,误差条代表每个月的日平均温度的两倍标准差。这个图表被标记为“不好”,因为误差条通常用于显示估计的不确定性,而不是总体的可变性。数据来源:Weather Underground
图 9.1:2016 年内布拉斯加州林肯市的日平均气温。点表示每月的日平均温度,在一个月的所有日期上计算平均,误差条代表每个月的日平均温度的两倍标准差。这个图表被标记为“不好”,因为误差条通常用于显示估计的不确定性,而不是总体的可变性。数据来源:Weather Underground
我们可以通过使用传统且常用的可视化分布方法(箱形图)来解决图 9.1 的所有四个缺点。箱形图将数据划分为四分位数并以标准化方式将其可视化(图 9.2 )。
......@@ -66,7 +66,7 @@
在第七章中,我们使用直方图和密度图来沿水平轴显示分布。在这里,我们将通过在垂直方向上错开分布图来扩展这个想法。由此产生的可视化称为脊线图,因为这些图看起来像脊线。如果想要显示随时间变化的分布趋势,脊线图往往效果特别好。
标准脊线图使用密度估计(图 9.9 )。它与提琴图密切相关,但经常激发对数据的更直观的理解。例如,11 月左右的 35 度和 50 华氏度的两个温度簇,在图 9.9 中比图 9.5 更加明显。
标准脊线图使用密度估计(图 9.9 )。它与提琴图密切相关,但经常激发对数据的更直观的理解。例如,11 月左右的 35 度和 50 华氏度的两个温度簇,在图 9.9 中比图 9.5 更加明显。
![](img/2a603abd82f4c34afc392129535a803b.jpg)
......
......@@ -6,11 +6,11 @@
> 自豪地采用[谷歌翻译](https://translate.google.cn/)
许多数据集包含两个或更多个定量变量,我们可能对这些变量如何相互关联感兴趣。例如,我们可能有一个不同动物的量化测量数据集,例如动物的身高,体重,长度和日常能量需求。仅绘制两个这样的变量的关系,例如:身高和体重,我们通常会使用散点图。如果我们想一次显示两个以上的变量,我们可能会选择气泡图,散点图矩阵或相关图。最后,对于非常高维的数据集,执行降维可能是有用的,例如以主成分分析的形式。
许多数据集包含两个或更多个定量变量,我们可能对这些变量如何相互关联感兴趣。例如,我们可能有一个不同动物的量化测量数据集,例如动物的身高,体重,长度和日常能量需求。仅绘制两个这样的变量的关系,例如:身高和体重,我们通常会使用散点图。如果我们想一次显示两个以上的变量,我们可能会选择气泡图,散点图矩阵或相关图。最后,对于非常高维的数据集,执行降维可能是有用的,例如以主成分分析的形式。
## 12.1 散点图
我将使用在 123 只蓝色杰伊鸟上进行的测量数据集,来演示基本散点图及其若干变体。数据集包含每只鸟的头部长度(从头部的尖端到头部后部测量),头骨大小(头部长度减去喙部长度)以及体重等信息。我们希望这些变量之间存在关系。例如,具有较长喙部的鸟类预计具有较大的头骨大小,具有较大体重的鸟类应具有比具有较小体重的鸟类更大的喙部和头骨。
我将使用在 123 只蓝色杰伊鸟上进行的测量数据集,来演示基本散点图及其若干变体。数据集包含每只鸟的头部长度(从头部的尖端到头部后部测量),头骨大小(头部长度减去喙部长度)以及体重等信息。我们希望这些变量之间存在关系。例如,具有较长喙部的鸟类预计具有较大的头骨大小,具有较大体重的鸟类应具有比具有较小体重的鸟类更大的喙部和头骨。
为了探索这些关系,我先从头部长度与体重的关系图开始(图 12.1)。在该图中,头长度沿 *y* 轴显示,体重沿 *x* 轴显示,每只鸟用一个点表示。 (注意术语:我们说,我们根据沿 *x* 轴显示的变量绘制沿 *y* 轴显示的变量。)点形成一个分散的云(因此术语是散点图),但毫无疑问,一个趋势是,体重较大的鸟类有更长的头部。头部最长的鸟接近观察到的最大体重,头部最短的鸟接近观察到的最小体重。
......@@ -28,7 +28,7 @@
![](img/84084034e6d8c8568893964f261f0de0.jpg)
图 12.3:123 只蓝鸟的头长与体重的关系。鸟的性别用颜色表示,鸟的头骨大小用标记大小表示。头部长度测量包括喙部的长度,而头骨大小测量则不包括。头部长度和头骨大小往往是相关的,但是有些鸟类的头骨大小非常长或短。数据来源:欧柏林学院的 Keith Tarvin
图 12.3:123 只蓝鸟的头长与体重的关系。鸟的性别用颜色表示,鸟的头骨大小用标记大小表示。头部长度测量值包括喙部的长度,而头骨大小测量值则不包括。头部长度和头骨大小往往是相关的,但是有些鸟类的头骨大小非常长或短。数据来源:欧柏林学院的 Keith Tarvin
气泡图的缺点是它们显示相同类型的变量,定量变量,具有两种不同类型的比例,位置和大小。这使得难以在视觉上确定各种变量之间的关联强度。此外,编码为气泡大小的数据值之间的差异,比编码为位置的数据值之间的差异更难以察觉。因为即使最大的气泡与总的图形尺寸相比也需要稍微小一些,即使最大和最小气泡之间的尺寸差异也必然很小。因此,数据值的较小差异将对应于实际上不可能看到的非常小的尺寸差异。在图 12.3 中,我使用了一个尺寸映射,可以直观地放大最小的头骨(大约 28mm)和最大的头骨(大约 34mm)之间的差异,但很难确定头骨大小和体重或头部长度之间的关系。
......@@ -92,9 +92,9 @@
## 12.4 配对数据
多变量定量数据的一个特例是配对数据:在略微不同的条件下,有两个或多个相同数量的测量值的数据。示例包括每个受试者的两个类似测量值(例如,人的右臂和左臂的长度),在不同时间点对同一受试者的重复测量(例如,一年中两个不同时间的人的体重),或两个密切相关的主题的测量(例如,两个同卵双胞胎的高度)。对于配对数据,可以合理地假设,属于一对的两个测量值,而不是其他对的测量值彼此更相似。两个双胞胎的高度大约相同,但高度与其他双胞胎不同。因此,对于配对数据,我们需要选择可突出配对测量之间任何差异的可视化。
多变量定量数据的一个特例是配对数据:在略微不同的条件下,有两个或多个相同数量的测量值的数据。示例包括每个受试者的两个类似测量值(例如,人的右臂和左臂的长度),在不同时间点对同一受试者的重复测量值(例如,一年中两个不同时间的人的体重),或两个密切相关的主题的测量值(例如,两个同卵双胞胎的高度)。对于配对数据,可以合理地假设,属于一对的两个测量值,而不是其他对的测量值彼此更相似。两个双胞胎的高度大约相同,但高度与其他双胞胎不同。因此,对于配对数据,我们需要选择可突出配对测量之间任何差异的可视化。
在这种情况下,一个很好的选择是在对角线上标记 *x = y* 的简单散点图。在这样的图中,如果每对的两个测量之间的唯一差异是随机噪声,那么样本中的所有点将围绕该线对称地分布。相比之下,配对测量之间的任何系统差异,将在数据点相对于对角线向上或向下的系统移位中可见。例如,考虑一下 1970 年和 2010 年 166 个国家的人均二氧化碳(CO2)排放量(图 12.11 )。此示例突出显示配对数据的两个常见特征。首先,大多数点相对接近对角线。尽管各国的 CO2 排放量差异超过近四个数量级,但在 40 年的时间跨度内,每个国家的排放量相当一致。其次,这些点相对于对角线系统地向上移动。在所考虑的 40 年中,大多数国家的 CO2 排放量增加。
在这种情况下,一个很好的选择是在对角线上标记 *x = y* 的简单散点图。在这样的图中,如果每对的两个测量值之间的唯一差异是随机噪声,那么样本中的所有点将围绕该线对称地分布。相比之下,配对测量值之间的任何系统差异,将在数据点相对于对角线向上或向下的系统移位中可见。例如,考虑一下 1970 年和 2010 年 166 个国家的人均二氧化碳(CO2)排放量(图 12.11 )。此示例突出显示配对数据的两个常见特征。首先,大多数点相对接近对角线。尽管各国的 CO2 排放量差异超过近四个数量级,但在 40 年的时间跨度内,每个国家的排放量相当一致。其次,这些点相对于对角线系统地向上移动。在所考虑的 40 年中,大多数国家的 CO2 排放量增加。
![](img/be1e2c90f201b569fb93bb8c9a839e39.jpg)
......
......@@ -54,7 +54,7 @@ LOESS 是一种非常流行的平滑方法,因为它往往会产生适合人
## 14.2 以所定义的函数形式显示趋势
我们在图 14.5 中看到,对于任何给定的数据集,通用平滑器的行为可能有些不可预测。这些平滑器也不提供具有有意义解释的参数估计。因此,只要有可能,最好使用适合于数据的特定函数形式拟合曲线,并使用具有明确含义的参数。
我们在图 14.5 中看到,对于任何给定的数据集,通用平滑器的行为可能有些不可预测。这些平滑器也不提供具有有意义的解释的参数估计值。因此,只要有可能,最好使用适合于数据的特定函数形式拟合曲线,并使用具有明确含义的参数。
对于油箱数据,我们需要一条曲线,该曲线最初线性上升但随后以恒定值平稳。函数`y = A - B exp(-mx)`可能适合该顺序。这里,`A``B``m`是常数,我们调整它来使曲线适合数据。对于较小的`x`,函数近似为线性,`y ~ A - B + B mx`,对于较大`x`,它接近常数值,`y ~ A`,对于`x`的所有制它严格递增。图 14.6 表明该方程至少与我们之前考虑的任何平滑器一样适合数据(图 14.5)。
......
......@@ -4,7 +4,7 @@
数据可视化最具挑战性的方面之一是不确定性的可视化。当我们看到在特定位置绘制的数据点时,我们倾向于将其解释为真实数据值的精确表示。很难想象数据点实际上可能位于尚未绘制的某个位置。然而,这种情况在数据可视化中无处不在。几乎我们使用的每个数据集都有一些不确定性,我们选择表示这种不确定性的方式,对我们的受众多么准确地感知数据的含义,可能产生重大影响。
指示不确定性的两种常用方法,是误差条和置信带。这些方法是在科学出版物的背景下开发的,它们需要正确解释一些专业知识。然而,它们精确且节省空间。例如,通过使用误差条,我们可以在单个图中显示许多不同参数估计的不确定性。然而,对于非专业读者而言,产生不确定性的强烈直观印象的可视化策略可能更好,即使它们的代价是降低可视化精度或减少密集数据的展示。这里的选项包括频率成帧,我们以近似比例明确绘制不同的可能场景,或者循环不同可能场景的动画。
指示不确定性的两种常用方法,是误差条和置信带。这些方法是在科学出版物的背景下开发的,它们需要正确解释一些专业知识。然而,它们精确且节省空间。例如,通过使用误差条,我们可以在单个图中显示许多不同参数估计的不确定性。然而,对于非专业读者而言,产生不确定性的强烈直观印象的可视化策略可能更好,即使它们的代价是降低可视化精度或减少密集数据的展示。这里的选项包括频率成帧,我们以近似比例明确绘制不同的可能场景,或者循环不同可能场景的动画。
## 16.1 将概率表现为频率
......@@ -24,7 +24,7 @@
![](img/1ec8f5e0275a6df7a45b112fa10967d2.jpg)
图 16.2:选举结果的假设预测。预计蓝方将赢得黄方约一个百分点(标记为“最佳估计”),但该预测存在误差幅度(它覆盖 95% 的可能结果,以最佳预测为中心,两个方向上的 1.76 个百分点)。蓝色阴影区域占总数的 87.1%,代表蓝色获胜的所有结果。同样,黄色阴影区域占总数的 12.9%,代表黄色获胜的所有结果。在这个例子中,蓝色有 87% 的机会赢得选举。
图 16.2:选举结果的假设预测。预计蓝方将赢得黄方约一个百分点(标记为“最佳估计”),但该预测存在误差幅度(它覆盖 95% 的可能结果,以最佳预测为中心,两个方向上的 1.76 个百分点)。蓝色阴影区域占总数的 87.1%,代表蓝色获胜的所有结果。同样,黄色阴影区域占总数的 12.9%,代表黄色获胜的所有结果。在这个例子中,蓝色有 87% 的机会赢得选举。
通过做一些数学计算,我们可以计算出,对于我们的例子,黄方获胜的几率是 12.9%。因此,黄方获胜的几率比图 16.1 中显示的 10% 几率情况要好一些。如果你喜欢蓝方,你可能不会过于担心,但黄方有足够的获胜几率,他们可能碰巧成功。如果将图 16.2 与图 16.1 进行比较,您可能会发现图 16.1 在结果中创造了更好的不确定性的感觉,即使阴影区域在图 16.2 准确地表示蓝方或黄方获胜的概率。这是离散结果可视化的力量。对人类感知的研究表明,我们在识别,计数和判断离散物体的相对频率方面要好得多 - 只要它们的总数不是太大 - 而不是判断不同区域的相对大小。
......@@ -40,15 +40,15 @@
在图 16.2 中,我显示了“最佳估计值”和“误差幅度”,但我没有解释这些量究竟是什么或者如何获得它们。为了更好地理解它们,我们需要快速介绍统计抽样的基本概念。在统计数据中,我们的首要目标是通过查看世界的一小部分来了解世界。继续选举的例子,假设有许多不同的选区,每个选区的公民都要为蓝方或黄方投票。我们可能想要预测每个选区的投票方式,以及各地区的整体投票均值(平均值)。为了在选举前做出预测,我们不能对每个选区的每个公民进行民意调查,来了解他们将如何投票。相反,我们必须轮询选区子集的公民子集,并使用这些数据得出最佳猜测。在统计语言中,所有选区所有公民的可能投票总数称为总体,我们调查的公民和/或选区的子集是样本。总体代表了世界的潜在真实状态,样本是我们进入这个世界的窗口。
我们通常对汇总总体重要属性的具体数量感兴趣。在选举的例子中,这些可能是跨选区的投票结果的均值或选区结果之间的标准差。描述总体的数量称为参数,并且它们通常是不可知的。但是,我们可以使用样本来猜测真实参数值,统计学家将这些猜测称为估计值。样本均值是总体均值的估计值,这是一个参数。各个参数值​​的估计也称为点估计,因为每个参数值可以由线上的点表示。
我们通常对汇总总体重要属性的具体数量感兴趣。在选举的例子中,这些可能是跨选区的投票结果的均值或选区结果之间的标准差。描述总体的数量称为参数,并且它们通常是不可知的。但是,我们可以使用样本来猜测真实参数值,统计学家将这些猜测称为估计值。样本均值是总体均值的估计值,这是一个参数。各个参数值​​的估计也称为点估计,因为每个参数值可以由线上的点表示。
图 16.4 显示了这些关键概念如何相互关联。兴趣变量(例如,每个选区的投票结果)在总体中具有一些分布,总体具有总体平均值和总体标准差。样本将包含一组特定的观测值。样本中单个观测值的数量称为样本大小。从样本中我们可以计算样本均值和样本标准差,这些通常与总体均值和标准差不同。最后,我们可以定义采样分布,如果我们多次重复采样过程,它是我们将获得的估计分布。采样分布的宽度称为标准误差,它告诉我们估计的精确程度。换句话说,标准误差提供了与我们的参数估计相关的不确定性的度量。作为一般规则,样本量越大,标准误差越小,因此估计的不确定性越小。
图 16.4 显示了这些关键概念如何相互关联。兴趣变量(例如,每个选区的投票结果)在总体中具有一些分布,总体具有总体平均值和总体标准差。样本将包含一组特定的观测值。样本中单个观测值的数量称为样本大小。从样本中我们可以计算样本均值和样本标准差,这些通常与总体均值和标准差不同。最后,我们可以定义采样分布,如果我们多次重复采样过程,它是我们将获得的估计分布。采样分布的宽度称为标准误差,它告诉我们估计的精确程度。换句话说,标准误差提供了与我们的参数估计相关的不确定性的度量。作为一般规则,样本量越大,标准误差越小,因此估计的不确定性越小。
![](img/76f6cc5ad9218720797ff61917a2f305.jpg)
图 16.4:统计抽样的关键概念。我们正在研究的兴趣变量在总体中具有一些真实的分布,具有真实的总体平均值和标准差。该变量的任何有限样本将具有样本均值和标准差,与总体参数不同。如果我们每次重复采样并计算平均值,则所得均值遵循均值的采样分布。标准误差提供采样分布宽度的信息,告诉我们估计兴趣参数(这里是总体平均值)的准确程度。
至关重要的是,我们不要混淆标准差和标准误差。标准差是总体的属性。它告诉我们,我们可以做出的个别观测值的分散程度。例如,如果我们考虑投票区的总体,标准差告诉我们不同的选域的差异是多少。相比之下,标准误差告诉我们,我们确定参数估计的准确程度。如果我们想估计所有选区的投票结果均值,那么标准误差会告诉我们对均值的估计有多准确。
至关重要的是,我们不要混淆标准差和标准误差。标准差是总体的属性。它告诉我们,我们可以做出的个别观测值的分散程度。例如,如果我们考虑投票区的总体,标准差告诉我们不同的选域的差异是多少。相比之下,标准误差告诉我们,我们确定参数估计的准确程度。如果我们想估计所有选区的投票结果均值,那么标准误差会告诉我们对均值的估计有多准确。
所有统计学家都使用样本来计算参数估计值及其不确定性。然而,他们将这些计算方式分为贝叶斯主义者和频率论者。贝叶斯假设他们对世界有一些先验知识,他们使用样本来更新这些知识。相比之下,频率论者试图在没有任何先验知识的情况下,对世界做出精确的陈述。幸运的是,当涉及可视化不确定性时,贝叶斯和频率论者通常可以采用相同类型的策略。在这里,我将首先讨论频率论方法,然后描述贝叶斯环境特有的一些特定问题。
......@@ -66,7 +66,7 @@
图 16.6:随着样本量的缩小,置信区间变宽。来自加拿大和瑞士的巧克力棒具有可比较的评级均值和可比较的标准差(用简单的黑色误差条表示)。然而,被评级的加拿大巧克力棒是瑞士的三倍,因此瑞士的评级均值(用不同颜色和厚度的误差条表示)的置信区间,比加拿大要宽。数据来源:曼哈顿巧克力学会 Brady Brelinski
在图 16.6 中,我同时显示三个不同的置信区间,使用较暗的颜色和较粗的线条表示较低置信度的区间。我将这些可视化称为分级误差条。分级有助于读者认识到存在一系列不同的可能性。如果我向一组人显示简单的误差条(没有分级),则至少其中一些人可能会以确定性的方式感知误差条,例如表示数据的最小值和最大值。或者,他们可能认为误差条描绘了参数估计的可能范围,即,估计值永远不会落在误差条之外。这些类型的误解称为确定性解释错误。我们越能将确定性解释错误的风险降至最低,我们对不确定性的可视化就越好。
在图 16.6 中,我同时显示三个不同的置信区间,使用较暗的颜色和较粗的线条表示较低置信度的区间。我将这些可视化称为分级误差条。分级有助于读者认识到存在一系列不同的可能性。如果我向一组人显示简单的误差条(没有分级),则至少其中一些人可能会以确定性的方式感知误差条,例如表示数据的最小值和最大值。或者,他们可能认为误差条描绘了参数估计的可能范围,即,估计值永远不会落在误差条之外。这些类型的误解称为确定性解释错误。我们越能将确定性解释错误的风险降至最低,我们对不确定性的可视化就越好。
误差条很方便,因为它们允许我们同时显示许多估计值及其不确定性。因此,它们通常用于科学出版物,其主要目标通常是向专业读者传达大量信息。作为此类应用的一个例子,图 16.7 显示了在六个不同国家生产的巧克力棒的巧克力评级均值和相关置信区间。
......@@ -100,7 +100,7 @@
图 16。11:宾夕法尼亚州 67 个县的收入中位数与年龄中位数。误差条表示 90% 置信区间。数据来源:2015 年美国五年社区调查
让我们回到频率论者和贝叶斯主义者的话题。频率论者用置信区间评估不确定性,而贝叶斯学家计算后验分布和可信区间。贝叶斯后验分布告诉我们,给定输入数据的特定参数估计的可能性。可信区间表示一个值的范围,参数值以给定概率位于其中,就像从后验分布中计算一样。例如,95% 的可信区间对应于后验分布的中间 95%。真实参数值有 95% 的可能性处于 95% 可信区间。
让我们回到频率论者和贝叶斯主义者的话题。频率论者用置信区间评估不确定性,而贝叶斯学家计算后验分布和可信区间。贝叶斯后验分布告诉我们,给定输入数据的特定参数估计的可能性。可信区间表示一个值的范围,参数值以给定概率位于其中,就像从后验分布中计算一样。例如,95% 的可信区间对应于后验分布的中间 95%。真实参数值有 95% 的可能性处于 95% 可信区间。
如果您不是统计学家,您可能会对我对可信区间的定义感到惊讶。您可能认为它实际上是置信区间的定义。它不是。贝叶斯可信区间告诉您真实参数可能在哪里,频率论置信区间告诉您真实参数可能不在哪里。虽然这种区别可能看起来像语义上的,但两种方法之间存在重要的概念差异。在贝叶斯方法下,您使用数据和您之前的所研究系统的知识(称为先验)来计算概率分布(后验),告诉您可以预期真实参数值位于哪里。相比之下,在频率论方法下,你首先假设你打算拒绝。该假设被称为零(原)假设,并且通常简单地假设参数等于零(例如,两个条件之间没有差异)。然后计算随机抽样生成的数据,类似于零假设为真时的观测数据的概率。置信区间是该概率的表示。如果给定置信区间排除零假设下的参数值(即零值),则可以在该置信水平拒绝零假设。或者,您可以将置信区间视为一个区间,它以指定可能性在重复采样下捕获真实参数值(图 16.12 )。因此,如果真实参数值为零,则 95% 置信区间仅在 5% 的分析样本中排除零。
......
......@@ -76,13 +76,13 @@
![](img/a7e62626501a392d0528e3d323f81325.jpg)
图 20.10:三个不同鸢尾花物种萼片长度的密度估计值。每个密度估计值直接用相应的物种名称标记。
图 20.10:三个不同鸢尾花物种萼片长度的密度估计。每个密度估计直接用相应的物种名称标记。
我们还可以使用密度图(例如图 20.10 作为图例的替代方案,通过将密度图放入散点图的边缘(图 20.11 )。这允许我们直接标记边缘密度图而不是中心散点图,因此得到的图形比具有直接标记椭圆的图 20.9 稍微杂乱一些。
![](img/8210b74a9a6b473c4fe9e4c5e39c185a.jpg)
图 20.11:三个不同鸢尾花物种的萼片宽度与萼片长度的关系,带有每个物种的每个变量的边缘密度估计
图 20.11:三个不同鸢尾花物种的萼片宽度与萼片长度的关系,带有每个物种的每个变量的边缘密度估计。
最后,每当我们在多个美学中编码单个变量时,我们通常不需要多个单独的图例来表示不同的美学。相反,应该只有一个类似图例的视觉元素,一次传达所有映射。在我们将相同变量映射到沿主轴的位置和颜色的情况下,这意味着参考颜色条应该沿着并且被集成到同一轴中。图 20.12 显示的情况是,我们将温度映射到沿 *x* 轴的位置和颜色,我们因此将颜色图例整合到 *x* 轴中。
......
......@@ -34,7 +34,7 @@
![](img/e154f6a3229c86a28111043f4cfc784a.jpg)
图 22.3:123 只蓝鸟的头长与体重的关系。鸟的性别用颜色表示,鸟的头骨大小用符号大小表示。头部长度测量包括喙部的长度,而头骨大小测量则不包括。数据来源:欧柏林学院的 Keith Tarvin
图 22.3:123 只蓝鸟的头长与体重的关系。鸟的性别用颜色表示,鸟的头骨大小用符号大小表示。头部长度测量值包括喙部的长度,而头骨大小测量值则不包括。数据来源:欧柏林学院的 Keith Tarvin
但是,有些情况下,可以省略轴或图例标题,即标签完全自解释时。例如,显示标记为“雌性”和“雄性”的两个不同颜色的点的图例,清楚地表明颜色编码性别。标题“性别”不需要澄清这一事实,事实上在本书中,我经常省略表示性别的图例的图例标题(参见例如图 6.10 , 12.2 ,或 21.1)。同样,国家或地区名称通常不需要标题来表明它们是什么(图 6.11 ),电影标题(图 6.1 )或年份(图 22.4 )也不需要。
......
......@@ -20,11 +20,11 @@
图 25.2:图 25.1 的相同直方图,现在用实心条形绘制。在该图的变形中,年龄分布的形状更容易辨别。
接下来,我们来看看旧式的密度绘图。我正在显示三种鸢尾花的萼片长度分布的密度估计,完全绘制为黑白线条图(图 25.3 )。分布仅通过它们的轮廓显示,并且因为图形是黑白的,我们使用不同的线条样式来区分它们。这个图形有两个主要问题。首先,虚线样式不能在曲线下方的区域与其上方的区域之间提供清晰的分离。虽然我们的视觉系统非常擅长将各个线条元素连接成一条连续的线条,但虚线看起来仍然是多孔的,并不能作为封闭区域的有效边界。其次,因为线条相交并且它们所包围的区域没有阴影,所以难以从六个不同的形状轮廓中,分割出不同的密度。如果我对所有三个分布使用实线而不是虚线,这种效果会更强。
接下来,我们来看看旧式的密度绘图。我正在显示三种鸢尾花的萼片长度分布的密度估计,完全绘制为黑白线条图(图 25.3 )。分布仅通过它们的轮廓显示,并且因为图形是黑白的,我们使用不同的线条样式来区分它们。这个图形有两个主要问题。首先,虚线样式不能在曲线下方的区域与其上方的区域之间提供清晰的分离。虽然我们的视觉系统非常擅长将各个线条元素连接成一条连续的线条,但虚线看起来仍然是多孔的,并不能作为封闭区域的有效边界。其次,因为线条相交并且它们所包围的区域没有阴影,所以难以从六个不同的形状轮廓中,分割出不同的密度。如果我对所有三个分布使用实线而不是虚线,这种效果会更强。
![](img/134e5cf965824165228a2c3ccc72f065.jpg)
图 25.3:三个不同鸢尾花物种的萼片长度的密度估计。用于杂色和弗吉尼亚鸢尾的虚线样式,减损了曲线下方的区域与它们上方的区域不同的感觉。
图 25.3:三个不同鸢尾花物种的萼片长度的密度估计。用于杂色和弗吉尼亚鸢尾的虚线样式,减损了曲线下方的区域与它们上方的区域不同的感觉。
我们可以尝试通过使用彩色线条而不是虚线,来解决多孔边界的问题(图 25.4 )。然而,所得图中的密度区域仍然几乎没有视觉存在感。总的来说,我发现填充区域的版本(图 25.5 )最清晰直观。然而,重要的是使填充区域部分透明,以便可以看到每个物种的完整分布。
......@@ -34,7 +34,7 @@
![](img/ab45885278251e0d91bb62bc3837f06a.jpg)
图 25.5:三个不同鸢尾花物种的萼片长度的密度估计,显示为部分透明的阴影区域。
图 25.5:三个不同鸢尾花物种的萼片长度的密度估计,显示为部分透明的阴影区域。
当不同类型的点绘制为空心圆,三角形,十字等时,折现图也会出现在散点图的上下文中。例如,请考虑图 25.6 。该图包含许多视觉噪声,并且不同类型的点彼此之间没有很强的分离。用实心有色形状绘制相同的图形解决了这个问题(图 25.7 )。
......
......@@ -66,7 +66,7 @@
![](img/1b88da76c2f13bb37e9af485ec4c5a21.jpg)
误差条表示某些估计或测量的可能值的范围。它们从表示估计或测量的某个参考点水平和/或垂直延伸(第 16 章)。参考点可以以各种方式显示,例如通过点或条形。渐变误差条同时显示多个范围,其中每个范围对应于不同的置信度。它们实际上是多个误差条,其中不同的线厚度彼此叠加。
误差条表示某些估计值或测量值的可能值的范围。它们从表示估计值或测量值的某个参考点水平和/或垂直延伸(第 16 章)。参考点可以以各种方式显示,例如通过点或条形。渐变误差条同时显示多个范围,其中每个范围对应于不同的置信度。它们实际上是多个误差条,其中不同的线厚度彼此叠加。
![](img/48666ed2ad9505bf8c7f56b75666547a.jpg)
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册