提交 9c069e64 编写于 作者: W wizardforcel

2020-05-08 14:50:08

上级 fb91323f
......@@ -32,7 +32,7 @@
![](img/b0e21f8e827792c86362901a0dcaafed.jpg)
图 6.2:2017 年 12 月 22 日至 24 日周末的最高票房电影,显示为带有旋转轴刻度标签的条形图。旋转轴刻度标签往往难以阅读,并且需要使用绘图下方的笨拙的空间。出于这些原因,我通常认为旋转刻度标签的图很难看。数据来源:[Box Office Mojo](http://www.boxofficemojo.com/),经许可使用
图 6.2:2017 年 12 月 22 日至 24 日周末的最高票房电影,显示为带有旋转轴刻度标签的条形图。旋转轴刻度标签往往难以阅读,并且需要使用绘图下方的笨拙的空间。出于这些原因,我通常认为旋转刻度标签的图很难看。数据来源:[Box Office Mojo](http://www.boxofficemojo.com/),经许可使用
长标签的更好解决方案通常是交换 *x**y* 轴,使条形水平放置(图 6.3)。在交换轴之后,我们获得了一个紧凑的图形,其中所有可视元素(包括所有文本)都是水平方向的。因此,该图比图 6.2 或甚至图 6.1 更容易阅读。
......@@ -66,7 +66,7 @@
图 6.7:2016 年美国家庭年收入中位数,按年龄组和种族划分。年龄组沿着 *x* 轴显示,并且对于每个年龄组,有四个条形,分别对应于亚洲人,白人,拉美人和黑人的收入中位数。数据来源:美国人口普查局
分组条形图一次显示大量信息,它们可能令人困惑。事实上,即使我没有将图 6.7 标记为坏或丑,我觉得很难阅读。特别是,对于特定的种族分组,很难比较不同年龄组的收入中位数。因此,只有当我们主要关注种族分组的收入水平差异(分别针对特定年龄组)时,这个图才适用。如果我们更关心种族分组收入水平的总体模式,可能最好沿着 *x* 轴显示种族,并在每个种族分组中显示年龄为不同的条形图(图 6.8)。
分组条形图一次显示大量信息,它们可能令人困惑。事实上,即使我没有将图 6.7 标记为坏或丑,我觉得很难阅读。特别是,对于特定的种族分组,很难比较不同年龄组的收入中位数。因此,只有当我们主要关注种族分组的收入水平差异(分别针对特定年龄组)时,这个图才适用。如果我们更关心种族分组收入水平的总体模式,可能最好沿着 *x* 轴显示种族,并在每个种族分组中显示年龄为不同的条形图(图 6.8)。
![](img/db8a89cb4c50a901438d0dd9a9566d77.jpg)
......@@ -92,7 +92,7 @@
条形图不是可视化数量的唯一选项。条形的一个重要限制是它们需要从零开始,因此条形长度与所示数量成比例。对于某些数据集,这可能不切实际或可能会模糊关键特征。在这种情况下,我们可以通过在 *x**y* 轴的适当位置放置点来指示数量。
图 6.11 展示了这种可视化方法,用于美洲 25 个国家的预期寿命数据集。这些国家的公民的预期寿命在 60 到 81 岁之间,每个人的预期寿命值在 *x* 轴的适当位置显示为蓝点。通过将轴范围限制在 60 至 81 年的区间,该图突出了该数据集的主要特征:加拿大在所有列出的国家中,具有最高的预期寿命,而玻利维亚和海地的预期寿命远低于所有其他国家。如果我们使用了条形而不是点(图 6.12),我们已经做了一个不太引人注目的图。因为这个图中的条形很长,并且它们都具有几乎相同的长度,所以眼睛被吸引到条形的中间而不是它们的端点,并且该图形无法传达其信息。
图 6.11 展示了这种可视化方法,用于美洲 25 个国家的预期寿命数据集。这些国家的公民的预期寿命在 60 到 81 岁之间,每个人的预期寿命值在 *x* 轴的适当位置显示为蓝点。通过将轴范围限制在 60 至 81 年的区间,该图突出了该数据集的主要特征:加拿大在所有列出的国家中,具有最高的预期寿命,而玻利维亚和海地的预期寿命远低于所有其他国家。如果我们使用了条形而不是点(图 6.12),我们已经做了一个不太引人注目的图。因为这个图中的条形很长,并且它们都具有几乎相同的长度,所以眼睛被吸引到条形的中间而不是它们的端点,并且该图形无法传达其信息。
![](img/1f94fa1b3a3744fa49dd8544be1093b3.jpg)
......@@ -100,15 +100,15 @@
![](img/c6f1c1a317aba9985e7e22145a6fa7be.jpg)
图 6.12:2007 年美洲国家的预期寿命,以条形图示。此数据集不适合用条形图显示。这些条形太长了,他们将注意力从数据的关键特征,不同国家的预期寿命差异中吸引过来。数据来源:Gapminder 项目
图 6.12:2007 年美洲国家的预期寿命,以条形图示。此数据集不适合用条形图显示。这些条形太长了,他们将注意力从数据的关键特征,不同国家的预期寿命差异中吸引过来。数据来源:Gapminder 项目
然而,无论我们使用条形还是圆形,我们都需要注意数据值的排序。在图 6.11 和 6.12 中,各国按照预期寿命的降序排列。如果我们按字母顺序对它们进行排序,我们最终会得到混乱的点云,这些点令人困惑并且无法传达明确的信息(图 6.13)。
![](img/8e5c2d754dab11c3ee2c0f2d7330c0d4.jpg)
图 6.13:2007 年美洲国家的预期寿命。这里,按字母顺序排列国家,这会导致点成无序的点云。这使得图难以阅读,因此它应该被标记为“不好”。数据来源:Gapminder 项目
图 6.13:2007 年美洲国家的预期寿命。这里,按字母顺序排列国家,这会导致点成无序的点云。这使得图难以阅读,因此它应该被标记为“不好”。数据来源:Gapminder 项目
到目前为止,所有示例都沿位置刻度,按照地点表示数量,通过条形的终点或点的位置。对于非常大的数据集,这些选项都不合适,因为所得图表会变得太密集。我们已经在图 6.7 中看到,仅仅七组四个数据值可能会导致图形复杂且不易阅读。如果我们有 20 组 20 个数据值,那么类似的图表可能会非常混乱。
到目前为止,所有示例都沿位置刻度,按照地点表示数量,通过条形的终点或点的位置。对于非常大的数据集,这些选项都不合适,因为所得图形会变得太密集。我们已经在图 6.7 中看到,仅仅七组四个数据值可能会导致图形复杂且不易阅读。如果我们有 20 组 20 个数据值,那么类似的图形可能会非常混乱。
作为通过条形或点将数据值映射到位置的替代方法,我们可以将数据值映射到颜色上。这样的图称为热图。图 6.14 使用这种方法显示了 1994 年到 2016 年的 23 年中,20 个国家的互联网用户的百分比。虽然这种可视化使得更难确定所显示的确切数据值(例如,2015 年美国互联网用户的确切百分比是多少?),它突出了更广泛的趋势。我们可以清楚地看到,哪些国家早期开始使用互联网,哪些国家没有,我们也可以清楚地看到,哪些国家在数据集覆盖的最后一年(2016 年)具有较高的互联网渗透率。
......@@ -116,10 +116,10 @@
图 6.14:部分国家/地区的互联网使用情况。颜色表示相应国家/地区的互联网用户的百分比。国家按 2016 年的互联网用户百分比排序。数据来源:世界银行
与本章讨论的所有其他可视化方法一样,我们需要在制作热图时,注意类别数据值的顺序。在图 6.14 中,各国按 2016 年互联网使用的百分比排序。此顺序将英国,日本,加拿大和德国置于美国之上,因为所有这些国家在 2016 年的互联网普及率都比美国高,虽然美国在较早的时候具有大量的互联网使用。或者,我们可以通过他们的互联网使用的起始时间来排序国家。在图 6.15 中,各国按照互联网使用率首次上升至 20% 以上的年份进行排序。在这个图中,美国从顶部落到了第三位,与互联网使用的起始时间相比,它突出了 2016 年的互联网的相对较低的使用率。意大利也可以看到类似的模式。相比之下,以色列和法国起步较晚,但迅速取得了进展。
与本章讨论的所有其他可视化方法一样,我们需要在制作热图时,注意类别数据值的顺序。在图 6.14 中,各国按 2016 年互联网使用的百分比排序。此顺序将英国,日本,加拿大和德国置于美国之上,因为所有这些国家在 2016 年的互联网普及率都比美国高,虽然美国在较早的时候具有大量的互联网使用。或者,我们可以通过他们的互联网使用的起始时间来排序国家。在图 6.15 中,各国按照互联网使用率首次上升至 20% 以上的年份进行排序。在这个图中,美国从顶部落到了第三位,与互联网使用的起始时间相比,它突出了 2016 年的互联网的相对较低的使用率。意大利也可以看到类似的模式。相比之下,以色列和法国起步较晚,但迅速取得了进展。
![](img/757b1d3c8e28a2f6fc3a6903121be466.jpg)
图 6.15:针对特定国家/地区的互联网使用情况。按照互联网使用率首次超过 20% 的年份排序国家。数据来源:世界银行
图 6.14 和 6.15 都是数据的有效表示。哪一个是首选取决于我们想传达的故事。如果我们的故事关于 2016 年的互联网使用,那么图表 6.14 可能是更好的选择。但是,如果我们的故事是相对于当前的使用,互联网使用的时间是早还是晚,那么图 6.15 是优选的。
\ No newline at end of file
图 6.14 和 6.15 都是数据的有效表示。哪一个是首选取决于我们想传达的故事。如果我们的故事关于 2016 年的互联网使用,那么图形 6.14 可能是更好的选择。但是,如果我们的故事是相对于当前的使用,互联网使用的时间是早还是晚,那么图 6.15 是优选的。
\ No newline at end of file
......@@ -62,7 +62,7 @@
密度曲线通常按比例缩放,使得曲线下面积等于 1。这种惯例会使 *y* 轴刻度混乱,因为它取决于 *x* 轴的单位。例如,在年龄分布的情况下, *x* 轴上的数据范围从 0 到大约 75。因此,我们期望密度曲线的平均高度为 1/75 = 0.013。实际上,当观察年龄密度曲线时(例如,图 7.4),我们看到 *y* 值的范围从 0 到大约 0.04,平均值接近 0.01。
核密度估计有一个我们需要注意的陷阱:它们倾向于在不存在数据的地方产生数据外观,特别是在尾部。因此,不小心使用密度估计很容易导致产生无意义的图。例如,如果我们不注意,我们可能会生成包含负年龄的年龄分布的可视化(图 7.5)。
核密度估计有一个我们需要注意的陷阱:它们倾向于在不存在数据的地方产生数据外观,特别是在尾部。因此,不小心使用密度估计很容易导致产生无意义的图。例如,如果我们不注意,我们可能会生成包含负年龄的年龄分布的可视化(图 7.5)。
![](img/88f6ba188d11dccbf63dd04c356c3a05.jpg)
......@@ -78,15 +78,15 @@
![](img/a6d6ae6425e2f74b889a6b6c0d8ddb07.jpg)
图 7.6:按性别分层的泰坦尼克号乘客年龄的直方图。这个图被标记为“不好”,因为堆叠的直方图很容易与重叠的直方图混淆(另见图 7.7 )。另外,代表女性乘客的条形的高度不容易彼此比较。
图 7.6:按性别分层的泰坦尼克号乘客年龄的直方图。这个图被标记为“不好”,因为堆叠的直方图很容易与重叠的直方图混淆(另见图 7.7 )。另外,代表女性乘客的条形的高度不容易彼此比较。
在我看来,应该避免这种类型的可视化。这里有两个关键问题:首先,仅仅看一下这个图,不会完全清楚这些条形的确切位置。它们是从颜色变化开始还是从零开始?换句话说,是否有大约 25 位女性,年龄在 18-20 岁或者几乎有 80 位?(前者就是这种情况。)其次,女性计数的高度不能直接相互比较,因为这些都是从不同高度开始的。例如,男性平均年龄大于女性,这一事实在图 7.6 中根本不可见。
在我看来,应该避免这种类型的可视化。这里有两个关键问题:首先,仅仅看一下这个图,不会完全清楚这些条形的确切位置。它们是从颜色变化开始还是从零开始?换句话说,是否有大约 25 位女性,年龄在 18-20 岁或者几乎有 80 位?(前者就是这种情况。)其次,女性计数的高度不能直接相互比较,因为这些都是从不同高度开始的。例如,男性平均年龄大于女性,这一事实在图 7.6 中根本不可见。
我们可以尝试通过让所有条形从零开始并使条形部分透明来解决这些问题(图 7.7)。
![](img/7413ef72a7d54a53f9b23ca84e22e76c.jpg)
图 7.7:男性和女性泰坦尼克号乘客的年龄分布,显示为两个重叠的直方图。这个图被标记为“不好”,因为没有明确的视觉指示,所有蓝条都以 0 开始计数。
图 7.7:男性和女性泰坦尼克号乘客的年龄分布,显示为两个重叠的直方图。这个图被标记为“不好”,因为没有明确的视觉指示,所有蓝条都以 0 开始计数。
但是,这种方法会产生新的问题。现在看来实际上有三个不同的组,而不仅仅是两组,我们仍然不完全确定每个条形的开始和结束位置。重叠的直方图不能工作得很好,因为在另一个上面绘制的半透明条看起来不像半透明条形,而是像用不同颜色绘制的条形。
......
......@@ -6,7 +6,7 @@
> 自豪地采用[谷歌翻译](https://translate.google.cn/)
在第七章中,我描述了如何使用直方图或密度图来可视化分布。这两种方法都非常直观且具有视觉吸引力。然而,正如该章中所讨论的,它们有共同的限制,即所得图在很大程度上取决于用户必须选择的参数,例如直方图的箱宽和密度图的带宽。因此,两者都必须被视为对数据的解释,而不是数据本身的直接可视化。
在第七章中,我描述了如何使用直方图或密度图来可视化分布。这两种方法都非常直观且具有视觉吸引力。然而,正如该章中所讨论的,它们有共同的限制,即所得图在很大程度上取决于用户必须选择的参数,例如直方图的箱宽和密度图的带宽。因此,两者都必须被视为对数据的解释,而不是数据本身的直接可视化。
作为使用直方图或密度图的替代方法,我们可以简单地将所有数据点单独显示为点云。但是,对于非常大的数据集,这种方法变得难以处理,并且在任何情况下,聚合方法中有一些值,突出显示分布的属性而不是单个数据点。为了解决这个问题,统计学家发明了经验累积分布函数(ecdfs)和分位数-分位数(q-q)图。这些类型的可视化不需要任意参数的选择,它们一次显示所有数据。不幸的是,它们比直方图或密度图更不直观,我不认为它们在高科技出版物之外经常使用。不过,他们在统计学家中很受欢迎,我认为任何对数据可视化感兴趣的人都应该熟悉这些技术。
......
......@@ -12,11 +12,11 @@
## 9.1 沿垂直轴可视化分布
一次显示多个分布的最简单方法是将它们的平均值或中位数显示为点,并通过误差条显示平均值或中值附近的变化。图 9.1 将这种方法,用于展示 2016 年内布拉斯加州林肯市的月气温分布。我将此图标记为不好,因为这种方法存在多个问题。首先,通过仅用一个点和两个误差条表示每个分布,我们丢失了大量的数据信息。其次,即使大多数读者可能猜测它们代表均值或中位数,但这些点代表的东西并不是很明显。第三,误差条代表什么肯定不明显。它们是否代表数据的标准差,均值的标准误差,95% 置信区间或其他一些东西?没有普遍接受的标准。通过阅读图 9.1 的图标题,我们可以看到,它们在这里代表日平均温度标准差的两倍,意味着指示包含大约 95% 数据的范围。但是,误差条更常用于显示标准误差(或 95% 置信区间的标准误差的两倍),读者很容易将标准误差与标准差混淆。标准误差量化了我们对均值估计的准确程度,而标准差则估计了数据在均值周围的分散程度。数据集可能具有非常小的均值标准误差和非常大的标准差。第四,如果数据存在任何偏差,对称误差线会产生误导,这种情况几乎适用于所有真实世界的数据集。
一次显示多个分布的最简单方法是将它们的平均值或中位数显示为点,并通过误差条显示平均值或中值附近的变化。图 9.1 将这种方法,用于展示 2016 年内布拉斯加州林肯市的月气温分布。我将此图标记为不好,因为这种方法存在多个问题。首先,通过仅用一个点和两个误差条表示每个分布,我们丢失了大量的数据信息。其次,即使大多数读者可能猜测它们代表均值或中位数,但这些点代表的东西并不是很明显。第三,误差条代表什么肯定不明显。它们是否代表数据的标准差,均值的标准误差,95% 置信区间或其他一些东西?没有普遍接受的标准。通过阅读图 9.1 的图标题,我们可以看到,它们在这里代表日平均温度标准差的两倍,意味着指示包含大约 95% 数据的范围。但是,误差条更常用于显示标准误差(或 95% 置信区间的标准误差的两倍),读者很容易将标准误差与标准差混淆。标准误差量化了我们对均值估计的准确程度,而标准差则估计了数据在均值周围的分散程度。数据集可能具有非常小的均值标准误差和非常大的标准差。第四,如果数据存在任何偏差,对称误差线会产生误导,这种情况几乎适用于所有真实世界的数据集。
![](img/4d1be3920348f537730aa3860dd382c8.jpg)
图 9.1:2016 年内布拉斯加州林肯市的日平均气温。点表示每月的日平均温度,在一个月的所有日期上计算平均,误差条代表每个月的日平均温度的两倍标准差。这个图被标记为“不好”,因为误差条通常用于显示估计值的不确定性,而不是总体的可变性。数据来源:Weather Underground
图 9.1:2016 年内布拉斯加州林肯市的日平均气温。点表示每月的日平均温度,在一个月的所有日期上计算平均,误差条代表每个月的日平均温度的两倍标准差。这个图被标记为“不好”,因为误差条通常用于显示估计值的不确定性,而不是总体的可变性。数据来源:Weather Underground
我们可以通过使用传统且常用的可视化分布方法(箱形图)来解决图 9.1 的所有四个缺点。箱形图将数据划分为四分位数并以标准化方式将其可视化(图 9.2 )。
......@@ -60,7 +60,7 @@
![](img/f110473b9483e31a382c877d6f0addbd.jpg)
图 9.8:内布拉斯加州林肯市的日平均气温,可视化为 Sina 阴影(单独的点和提琴的组合)。这些点沿着 *x* 轴与各个温度下的点密度成比例地散开。名称 Sina 图旨在表彰丹麦哥本哈根大学的学生 Sina Hadi Sohi,他编写了该大学研究人员制作此类图的第一版代码(Frederik O. Bagger, personal communication)。
图 9.8:内布拉斯加州林肯市的日平均气温,可视化为 Sina 阴影(单独的点和提琴的组合)。这些点沿着 *x* 轴与各个温度下的点密度成比例地散开。名称 Sina 图旨在表彰丹麦哥本哈根大学的学生 Sina Hadi Sohi,他编写了该大学研究人员制作此类图的第一版代码(Frederik O. Bagger, personal communication)。
## 9.2 沿水平轴可视化分布
......@@ -74,11 +74,11 @@
因为 *x* 轴显示响应变量而 *y* 轴显示分组变量,所以在脊线图中没有单独的轴用于密度估计。密度估计与分组变量一起显示。这与提琴图没有什么不同,其中密度也与分组变量一起显示,没有单独的显式刻度。在这两种情况下,绘图的目的不是显示特定的密度值,而是为了便于比较各组的密度形状和相对高度。
原则上,我们可以在脊线可视化中使用直方图代替密度图。但是,所得图通常看起来不太好(图 9.10)。这些问题类似于堆叠或重叠的直方图(第七章)。由于这些脊线直方图中的垂直线始终显示完全相同的 *x* 值,因此来自不同直方图的条形以令人困惑的方式彼此对齐。在我看来,最好不要绘制这样重叠的直方图。
原则上,我们可以在脊线可视化中使用直方图代替密度图。但是,所得图通常看起来不太好(图 9.10)。这些问题类似于堆叠或重叠的直方图(第七章)。由于这些脊线直方图中的垂直线始终显示完全相同的 *x* 值,因此来自不同直方图的条形以令人困惑的方式彼此对齐。在我看来,最好不要绘制这样重叠的直方图。
![](img/993a494cdbb3f06ff8e3c9223956d68a.jpg)
图 9.10:2016 年内布拉斯加州林肯市的气温,可视化为直方图的脊线图。单个直方图在视觉上不能很好地分离,整体图非常嘈杂且令人困惑。
图 9.10:2016 年内布拉斯加州林肯市的气温,可视化为直方图的脊线图。单个直方图在视觉上不能很好地分离,整体图非常嘈杂且令人困惑。
脊线图可以扩展到非常大的分布。例如,图 9.11 显示了从 1913 年到 2005 年的电影长度分布。该图包含近 100 种不同的分布,但它很容易阅读。我们可以看到,在 20 世纪 20 年代,电影有很多不同的长度,但自从大约 1960 年以来,电影长度标准化为大约 90 分钟。
......
......@@ -75,17 +75,17 @@
如果我们希望想象比例如何变化来回应连续变量,我们可以从堆叠条形切换到堆叠密度。堆叠密度可以被认为是并排排列的无限多个无限小的堆叠条形的极限情况。堆叠密度图中的密度通常从核密度估计中获得,如第七章所述,我将向您推荐这一章,其中对该方法的优缺点进行了一般性讨论。
举一个堆叠密度可能合适的例子,考虑人的健康状况随年龄的变化。年龄可以被认为是一个连续变量,以这种方式可视化数据工作得相当好(图 10.8)。虽然我们这里有四个健康类别,而且我通常不喜欢堆叠多个条件,如上所述,我认为在这种情况下这个图是可以接受的。我们可以清楚地看到,随着人们年龄的增长,整体健康状况会下降,我们也可以看到,尽管有这种趋势,但超过一半的人口在年老之前仍保持良好或很棒的健康状态。
举一个堆叠密度可能合适的例子,考虑人的健康状况随年龄的变化。年龄可以被认为是一个连续变量,以这种方式可视化数据工作得相当好(图 10.8)。虽然我们这里有四个健康类别,而且我通常不喜欢堆叠多个条件,如上所述,我认为在这种情况下这个图是可以接受的。我们可以清楚地看到,随着人们年龄的增长,整体健康状况会下降,我们也可以看到,尽管有这种趋势,但超过一半的人口在年老之前仍保持良好或很棒的健康状态。
![](img/aaa62eb0d8ceacdceb92631fd1730ab6.jpg)
图 10.8:一般社会调查(GSS)报告的不同年龄的健康状况。
然而,这个图表有一个主要的局限性:通过将四种健康状况的比例可视化为总数的百分比,该图表模糊了数据集中的年轻人比老年人多得多。因此,尽管报告健康的人的百分比在七十年的年龄段内大致保持不变,但健康状况良好的人的绝对数量,随着特定年龄的人口总数下降而下降。我将在下一节介绍这个问题的潜在解决方案。
然而,这个图形有一个主要的局限性:通过将四种健康状况的比例可视化为总数的百分比,该图形模糊了数据集中的年轻人比老年人多得多。因此,尽管报告健康的人的百分比在七十年的年龄段内大致保持不变,但健康状况良好的人的绝对数量,随着特定年龄的人口总数下降而下降。我将在下一节介绍这个问题的潜在解决方案。
## 10.4 将比例分别展示为总数的一部分
并排条形具有这样的问题:它们不能清楚地展示各个部分相对于整体的大小,并且堆叠条形具有不能容易地比较不同的条形的问题,因为它们具有不同的基线。我们可以通过为每个部分制作单独的图,并且在每个图中展示相对于整体的相应部分,来解决这两个问题。对于图 10.8 的健康数据集,该过程得到图 10.9。数据集中的总体年龄分布显示为灰色阴影区域,每个健康状态的年龄分布显示为蓝色。这个图突出显示,从绝对意义上讲,健康状况优秀或健康状况良好的人数在 30-40 岁之间下降,而健康一般的人数在各个年龄段都保持不变。
并排条形具有这样的问题:它们不能清楚地展示各个部分相对于整体的大小,并且堆叠条形具有不能容易地比较不同的条形的问题,因为它们具有不同的基线。我们可以通过为每个部分制作单独的图,并且在每个图中展示相对于整体的相应部分,来解决这两个问题。对于图 10.8 的健康数据集,该过程得到图 10.9。数据集中的总体年龄分布显示为灰色阴影区域,每个健康状态的年龄分布显示为蓝色。这个图突出显示,从绝对意义上讲,健康状况优秀或健康状况良好的人数在 30-40 岁之间下降,而健康一般的人数在各个年龄段都保持不变。
![](img/e83816af685b969ecbc946fe1875e592.jpg)
......@@ -95,7 +95,7 @@
![](img/0902bd77fb15978581db1059514a3caf.jpg)
图 10.10:一般社会调查(GSS)所报告的不同年龄的婚姻状况。为了简化图表,我删除了少数报告为分开的案例。我把这个图表称为“不亮”,因为从未结婚或丧偶的人的频率随着年龄的增长而变化非常大,以至于已婚和离婚的人的年龄分布高度扭曲且难以解释。
图 10.10:一般社会调查(GSS)所报告的不同年龄的婚姻状况。为了简化图形,我删除了少数报告为分开的案例。我把这个图形称为“不亮”,因为从未结婚或丧偶的人的频率随着年龄的增长而变化非常大,以至于已婚和离婚的人的年龄分布高度扭曲且难以解释。
可视化为部分密度的相同数据集更清晰(图 10.11 )。特别是,我们看到已婚人口的比例在 30-40 岁末期达到峰值,离婚人口的比例在 40-50 岁初期达到峰值,而丧偶人口的比例在 70-80 岁中期达到峰值。
......
......@@ -16,7 +16,7 @@
![](img/738c08bc3e42103ae1a8de715e9697b2.jpg)
图 11.1:匹兹堡的桥梁,按照建筑材料(钢,木材,铁)和建造日期(手工,1870 年之前,现代,1940 年之后)划分,以饼图展示。数字代表所有桥梁中给定类型的桥梁的百分比。此图无效,因为百分比加起来超过 100%。建筑材料与施工日期之间存在重叠。例如,所有现代桥梁均由钢制成,大多数手工桥梁由木材制成。数据来源:Yoram Reich 和 Steven J. Fenves,UCI 机器学习库(Dua 和 Karra Taniskidou 2017)
图 11.1:匹兹堡的桥梁,按照建筑材料(钢,木材,铁)和建造日期(手工,1870 年之前,现代,1940 年之后)划分,以饼图展示。数字代表所有桥梁中给定类型的桥梁的百分比。此图无效,因为百分比加起来超过 100%。建筑材料与施工日期之间存在重叠。例如,所有现代桥梁均由钢制成,大多数手工桥梁由木材制成。数据来源:Yoram Reich 和 Steven J. Fenves,UCI 机器学习库(Dua 和 Karra Taniskidou 2017)
如果我们选择不要求比例加起来是 100% 的可视化,则重复计算不一定是个问题。如前一章所述,并排条形符合此标准。我们可以在一个图中将不同比例的桥梁显示为条形图,这个图在技术上不是错误的(图 11.2)。尽管如此,我还是将其标记为“不好”,因为它并未立即显示某些类别之间存在重叠。一个不经意的观察者可能从图 11.2 得出结论,有五种不同类型的桥梁,例如,现代桥梁既不是由钢制成,也不是由木头或铁制成。
......@@ -66,7 +66,7 @@
图 11.7:匹兹堡的桥梁,由建筑材料(钢,木材,铁)和建造时代(手工,新兴,成熟,现代)拆分。数字代表每个类别中的桥梁数量。数据来源:Yoram Reich 和 Steven J. Fenves,UCI 机器学习库(Dua 和 Karra Taniskidou 2017)
图 11.7 的饼图示桥梁数据集的合理可视化,但是与等效树形图直接相比(图 11.4 ),我认为树形图是更可取的。首先,树形图的矩形形状允许它更好地利用可用空间。图 11.4 和 11.7 具有完全相同的大小,但在图 11.7 中,大部分图由于空白区域被浪费了。图 11.4 ,树形图,几乎没有多余的空白区域。这很重要,因为它使我能够将标签放在树形图中的阴影区域内。内部标签总是使用数据创建比外部标签更强的可视单元,因此是首选。其次,图 11.7 中的一些切片非常薄,因此很难看到。相比之下,图 11.4 中的每个矩形都具有合理的尺寸。
图 11.7 的饼图示桥梁数据集的合理可视化,但是与等效树形图直接相比(图 11.4 ),我认为树形图是更可取的。首先,树形图的矩形形状允许它更好地利用可用空间。图 11.4 和 11.7 具有完全相同的大小,但在图 11.7 中,大部分图由于空白区域被浪费了。图 11.4 ,树形图,几乎没有多余的空白区域。这很重要,因为它使我能够将标签放在树形图中的阴影区域内。内部标签总是使用数据创建比外部标签更强的可视单元,因此是首选。其次,图 11.7 中的一些切片非常薄,因此很难看到。相比之下,图 11.4 中的每个矩形都具有合理的尺寸。
## 11.4 平行集
......@@ -76,17 +76,17 @@
图 11.8:匹兹堡的桥梁,由建筑材料,长度,建造时代和它们跨越的河流划分,显示为平行集图。条带的着色突出了不同桥梁的建筑材料。数据来源:Yoram Reich 和 Steven J. Fenves,UCI 机器学习库(Dua 和 Karra Taniskidou 2017)
如果我们按照不同的标准着色,例如通过河流(图 11.9 ),相同的可视化看起来很不一样。这个图在视觉上很嘈杂,有许多纵横交错的条带,但我们确实看到,几乎所有类型的桥梁都可以跨越每条河流。
如果我们按照不同的标准着色,例如通过河流(图 11.9 ),相同的可视化看起来很不一样。这个图在视觉上很嘈杂,有许多纵横交错的条带,但我们确实看到,几乎所有类型的桥梁都可以跨越每条河流。
![](img/1248bcbfeb2b25d29506ffeb19e4bd1c.jpg)
图 11.9:匹兹堡的桥梁,按建筑材料,长度,建造时代和跨越河流划分。这个图类似于图 11.8 ,但现在条带的着色突出了不同桥梁跨越的河流。该图标记为“丑陋”,因为图中间的彩色条带的布置非常嘈杂,并且还因为需要从右向左读取条带。数据来源:Yoram Reich 和 Steven J. Fenves,UCI 机器学习库(Dua 和 Karra Taniskidou 2017)
图 11.9:匹兹堡的桥梁,按建筑材料,长度,建造时代和跨越河流划分。这个图类似于图 11.8 ,但现在条带的着色突出了不同桥梁跨越的河流。该图标记为“丑陋”,因为图中间的彩色条带的布置非常嘈杂,并且还因为需要从右向左读取条带。数据来源:Yoram Reich 和 Steven J. Fenves,UCI 机器学习库(Dua 和 Karra Taniskidou 2017)
我将图 11.9 标记为“丑陋”,因为我觉得它过于复杂和令人困惑。首先,因为我们习惯于从左到右阅读,所以我认为定义着色的集合应该一直显示在左边,而不是右边。这样可以更容易地查看着色的起源位置以及它如何在数据集中流动。其次,改变集合的顺序是一个好主意,这样可以最大限度地减少交叉条带的数量。按照这些原则,我得出图 11.10 ,我认为它比图 11.9 更可取。
![](img/764879251206a21c98ca37776292b7e9.jpg)
图 11.10:匹兹堡的桥梁,按照河流,建造时代,长度和建筑材料划分。该图与图 11.9 的不同之处仅在于平行集的顺序。但是,修改后的顺序会产生更易于阅读且不太嘈杂的图。数据来源:Yoram Reich 和 Steven J. Fenves,UCI 机器学习库(Dua 和 Karra Taniskidou 2017)
图 11.10:匹兹堡的桥梁,按照河流,建造时代,长度和建筑材料划分。该图与图 11.9 的不同之处仅在于平行集的顺序。但是,修改后的顺序会产生更易于阅读且不太嘈杂的图。数据来源:Yoram Reich 和 Steven J. Fenves,UCI 机器学习库(Dua 和 Karra Taniskidou 2017)
### 参考
......
......@@ -22,7 +22,7 @@
图 13.2:预印本服务器 bioRxiv 的每月提交量,显示为由线连接的点。这些线不代表数据,但仅作为眼睛的向导。通过用直线连接各个点,我们强调点之间有一个顺序,每个点恰好有一个前面的相邻点和后面的一个相邻点。数据来源:Jordan Anaya,[prepubmed.org](http://www.prepubmed.org/)
有些人反对在点之间绘制线条,因为线条不代表观察到的数据。特别是,如果只有很少的观测值,距离相隔很远,那么在中间时间进行观测时,它们可能不会精确地落在所示的线上。因此,在某种意义上,线对应于补充数据。然而,当点间隔很远或间距不均匀时,它们可能有助于感知。我们可以通过在图标题中指出它来解决这个难题,例如通过写“直线作为眼睛的向导”(参见图 13.2 的标题)。
有些人反对在点之间绘制线条,因为线条不代表观察到的数据。特别是,如果只有很少的观测值,距离相隔很远,那么在中间时间进行观测时,它们可能不会精确地落在所示的线上。因此,在某种意义上,线对应于补充数据。然而,当点间隔很远或间距不均匀时,它们可能有助于感知。我们可以通过在图标题中指出它来解决这个难题,例如通过写“直线作为眼睛的向导”(参见图 13.2 的标题)。
然而,使用直线来表示时间序列,并且通常完全省略点,是通常可接受的做法(图 13.3)。没有点,该图更加强调数据的整体趋势,而不是单个观测值。没有点的图形在视觉上也不那么嘈杂。一般来说,时间序列越密集,用点来表示单个观测值就越不重要。对于此处显示的预印本数据集,我认为省略这些点很好。
......@@ -38,11 +38,11 @@
## 13.2 多个时间序列和剂量反应曲线
我们经常有多个时间序列,我们想要一次显示它们。在这种情况下,我们必须更加谨慎地绘制数据,因为图可能会变得混乱或难以阅读。例如,如果我们想要显示每月向多个预印本服务器提交的内容,则散点图不是一个好主意,因为各个时间序列相互碰撞(图 13.5)。用直线连接点可以缓解这个问题(图 13.6)。
我们经常有多个时间序列,我们想要一次显示它们。在这种情况下,我们必须更加谨慎地绘制数据,因为图可能会变得混乱或难以阅读。例如,如果我们想要显示每月向多个预印本服务器提交的内容,则散点图不是一个好主意,因为各个时间序列相互碰撞(图 13.5)。用直线连接点可以缓解这个问题(图 13.6)。
![](img/c0ccb7dc28a15614eed6280349b4bca4.jpg)
图 13.5:生物医学研究相关的三个预印本服务器的每月提交量:bioRxiv,arXiv 的 q-bio 部分和 PeerJ Preprints。每个点代表一个月内相应预印本服务器的提交数量。这个图被标记为“不好”,因为这三个时间序列在视觉上相互干扰并且难以阅读。数据来源:Jordan Anaya,[prepubmed.org](http://www.prepubmed.org/)
图 13.5:生物医学研究相关的三个预印本服务器的每月提交量:bioRxiv,arXiv 的 q-bio 部分和 PeerJ Preprints。每个点代表一个月内相应预印本服务器的提交数量。这个图被标记为“不好”,因为这三个时间序列在视觉上相互干扰并且难以阅读。数据来源:Jordan Anaya,[prepubmed.org](http://www.prepubmed.org/)
![](img/55b14db89114ddbea6f2eb7e5f417d85.jpg)
......@@ -52,7 +52,7 @@
![](img/2a35352cfef3c8133bada561dba5469b.jpg)
图 13.7:生物医学研究相关的三个预印本服务器的每月提交量。通过直接标记线条而不是提供图例,我们减少了读取图形所需的认知负担。消除图例消除了对不同形状点的需求。因此,我们可以通过消除点来进一步简化图。数据来源:Jordan Anaya, [www.prepubmed.org](http://www.prepubmed.org/)
图 13.7:生物医学研究相关的三个预印本服务器的每月提交量。通过直接标记线条而不是提供图例,我们减少了读取图形所需的认知负担。消除图例消除了对不同形状点的需求。因此,我们可以通过消除点来进一步简化图。数据来源:Jordan Anaya, [www.prepubmed.org](http://www.prepubmed.org/)
折线图不限于时间序列。只要数据点具有自然顺序,由沿 *x* 轴显示的变量反映,它们就是合适的,因此相邻点可以用线连接。例如,这种情况在剂量 - 反应曲线中出现,我们测量改变实验中的一些数值参数(剂量),如何影响感兴趣的结果(响应)。图 13.8 显示了这种类型的经典实验,根据增加的受精量来测量燕麦产量。折线图可视化突出了对于所考虑的三种燕麦品种,剂量 - 响应曲线如何具有相似的形状,但在没有受精的情况下起点不同(即一些品种具有比其他品种更高的产量)。
......
......@@ -66,7 +66,7 @@ LOESS 是一种非常流行的平滑方法,因为它往往会产生适合人
![](img/e8fbf5f6c88626ac8ce204c7721e9f6f.jpg)
图 14.7:123 只蓝鸟的头长与体重的关系。鸟的性别用颜色表示。这个图相当于图 12.2,但现在我们已经在各个数据点之上绘制了线性趋势直线。数据来源:欧柏林学院的 Keith Tarvin
图 14.7:123 只蓝鸟的头长与体重的关系。鸟的性别用颜色表示。这个图相当于图 12.2,但现在我们已经在各个数据点之上绘制了线性趋势直线。数据来源:欧柏林学院的 Keith Tarvin
当数据表现出非线性关系时,我们需要猜测适当的函数形式可能是什么。在这种情况下,通过转换轴使线性关系出现,我们可以评估我们猜测的准确性。为了证明这一原理,让我们回到预印本服务器 bioRxiv 的每月提交量,在第 12 章中讨论。如果每个月提交量的增量与上个月的提交量成比例,即,如果每月的提交量以一个固定的百分比增长,那么得到的曲线是指数的。 bioRxiv 数据似乎满足了这个假设,因为指数形式的曲线`y = A exp(mx)`,很好地符合 bioRxiv 提交数据(图 14.8)。
......@@ -74,7 +74,7 @@ LOESS 是一种非常流行的平滑方法,因为它往往会产生适合人
图 14.8:预印本服务器 bioRxiv 的每月提交量。蓝色实线表示预印本的实际的每月计数,黑色虚线表示数据的指数拟合,`y = 60 exp(0.77(x - 2014))`。数据来源:Jordan Anaya,[prepubmed.org](http://www.prepubmed.org/)
如果原始曲线是指数,`y = A exp(mx)`,则 *y* 值的对数变换将使其变为线性关系,`log(y) = log(A) + mx`。因此,使用对数变换的 *y* 值(或等效地,使用对数 *y* 轴)绘制数据并寻找线性关系,是确定数据集是否呈现指数增长的好方法。对于 bioRxiv 提交图,当使用对数 *y* 轴时,我们确实获得了线性关系(图 14.9)。
如果原始曲线是指数,`y = A exp(mx)`,则 *y* 值的对数变换将使其变为线性关系,`log(y) = log(A) + mx`。因此,使用对数变换的 *y* 值(或等效地,使用对数 *y* 轴)绘制数据并寻找线性关系,是确定数据集是否呈现指数增长的好方法。对于 bioRxiv 提交图,当使用对数 *y* 轴时,我们确实获得了线性关系(图 14.9)。
![](img/5d889c70c371cdb7cebe9d63135b8ff8.jpg)
......
......@@ -6,7 +6,7 @@
> 自豪地采用[谷歌翻译](https://translate.google.cn/)
许多数据集包含链接到物理世界中的位置的信息。例如,在生态学研究中,数据集可列出特定植物或动物被发现的位置。同样,在社会经济或政治背景下,数据集可能包含具有特定属性(如收入,年龄或教育程度)的人的居住地,或人造物体(如桥梁,道路,建筑物)所在地的信息。在所有这些情况下,在适当的地理空间环境中可视化数据,可能是有帮助的,即,在真实地图上显示数据或者作为类似地图的图
许多数据集包含链接到物理世界中的位置的信息。例如,在生态学研究中,数据集可列出特定植物或动物被发现的位置。同样,在社会经济或政治背景下,数据集可能包含具有特定属性(如收入,年龄或教育程度)的人的居住地,或人造物体(如桥梁,道路,建筑物)所在地的信息。在所有这些情况下,在适当的地理空间环境中可视化数据,可能是有帮助的,即,在真实地图上显示数据或者作为类似地图的图
地图往往对读者来说很直观,但它们对设计来说可能很有挑战性。我们需要考虑地图投影之类的概念,以及对于我们的具体应用,角度或区域的准确表示是否更为关键。一种常见的映射技术,等值线图,包括空间区域,其中数据值表示为不同颜色。等值线图有时非常有用,而在其他时候则极具误导性。作为替代方案,我们可以构建称为统计地图,可以有目的地扭曲地图区域或以形式化形式表示它们,例如作为相等大小的正方形。
......@@ -48,11 +48,11 @@
图 15.5:美国地图,使用保留面积的 Albers 投影(ESRI:102003,通常用于投影 48 个州)。阿拉斯加和夏威夷的真实位置显示了出来。
为了解决空的空间的问题,通常的做法是分别投射阿拉斯加和夏威夷(来尽量减少形状扭曲),然后移动它们,使它们显示在 48 个州下方(图 15.6 )。您可能会注意到图 15.6 中阿拉斯加相对于 48 个州看起来比图 15.5 中的小得多。造成这种差异的原因是,阿拉斯加不仅已被移动,而且已经扩大规模,因此其规模与典型的中西部或西部各州相当。这种扩展虽然是常见的做法,却极具误导性,因此我将这个图标记为“不好”。
为了解决空的空间的问题,通常的做法是分别投射阿拉斯加和夏威夷(来尽量减少形状扭曲),然后移动它们,使它们显示在 48 个州下方(图 15.6 )。您可能会注意到图 15.6 中阿拉斯加相对于 48 个州看起来比图 15.5 中的小得多。造成这种差异的原因是,阿拉斯加不仅已被移动,而且已经扩大规模,因此其规模与典型的中西部或西部各州相当。这种扩展虽然是常见的做法,却极具误导性,因此我将这个图标记为“不好”。
![](img/11093161984b952eb1bd9e7c63322516.jpg)
图 15.6:美国的可视化,阿拉斯加州和夏威夷州位于 48 个州的下方。阿拉斯加也已按比例调整,因此其线性规模仅为该州实际规模的 35%。 (换句话说,该州的面积已减少到其真实尺寸的大约 12%。)这种缩放经常应用于阿拉斯加,使其在视觉上看起来与典型的中西部或西部州相似。然而,缩放是非常误导的,因此该图被标记为“不好”。
图 15.6:美国的可视化,阿拉斯加州和夏威夷州位于 48 个州的下方。阿拉斯加也已按比例调整,因此其线性规模仅为该州实际规模的 35%。 (换句话说,该州的面积已减少到其真实尺寸的大约 12%。)这种缩放经常应用于阿拉斯加,使其在视觉上看起来与典型的中西部或西部州相似。然而,缩放是非常误导的,因此该图被标记为“不好”。
我们可以在不改变其规模的情况下移动它,而不是移动和缩放阿拉斯加(图 15.7 )。这种可视化清楚地表明,阿拉斯加州是最大的州,面积超过德克萨斯州的两倍。我们不习惯看到以这种方式显示的美国,但在我看来,这是 50 个州的一个更合理的表示,而不是图 15.6 。
......@@ -88,13 +88,13 @@
![](img/4f735facbf25b503269ea2971fc0b198.jpg)
图 15.11:美国每个县的人口密度,以等值线图示。人口密度报告为每平方公里人数。数据来源:2015 年五年美国社区调查
图 15.11:美国每个县的人口密度,以等值线图示。人口密度报告为每平方公里人数。数据来源:2015 年五年美国社区调查
图 15.11 使用浅色表示低人口密度和深色表示高密度,因此高密度都市区域在浅色背景上突出显示为深色。当图形的背景颜色较浅时,我们倾向于将较暗的颜色与较高的强度相关联。但是,我们也可以在深色背景上选择高值较浅的颜色刻度(图 15.12 )。只要较浅的颜色落入红黄色光谱中,使它们看起来发光,它们就可以被认为代表更高的强度。作为一般原则,当图打印在白纸上时,浅色背景区域(如图 15.11 )通常会更好。对于在线观看或在深色背景上,深色背景区域(如图 15.12 )可能更好。
图 15.11 使用浅色表示低人口密度和深色表示高密度,因此高密度都市区域在浅色背景上突出显示为深色。当图形的背景颜色较浅时,我们倾向于将较暗的颜色与较高的强度相关联。但是,我们也可以在深色背景上选择高值较浅的颜色刻度(图 15.12 )。只要较浅的颜色落入红黄色光谱中,使它们看起来发光,它们就可以被认为代表更高的强度。作为一般原则,当图打印在白纸上时,浅色背景区域(如图 15.11 )通常会更好。对于在线观看或在深色背景上,深色背景区域(如图 15.12 )可能更好。
![](img/c66fae51fcd7b1204ab8cfe589a46b19.jpg)
图 15.12:美国每个县的人口密度,以等值线图示。该图与图 15.11 相同,不同之处在于现在颜色刻度的浅色用于高人口密度,和深色用于低人口密度。数据来源:2015 年五年美国社区调查
图 15.12:美国每个县的人口密度,以等值线图示。该图与图 15.11 相同,不同之处在于现在颜色刻度的浅色用于高人口密度,和深色用于低人口密度。数据来源:2015 年五年美国社区调查
当着色代表密度(即,一些量除以表面积,如图 15.11 和 15.12 )时,等值线最佳。我们认为较大的区域对应于较大的总量而不是较小的总量(另见关于比例墨水的章节,第十七章),并且密度的阴影校正了这种影响。然而,在实践中,我们经常看到根据一些非密度量着色的等值线。例如,在图 4.4 中,我显示了德克萨斯州的年收入中位数的等值线。这些等值线图要谨慎准备。我们可以通过两种条件对非密度量进行颜色映射:首先,如果我们着色的所有区域具有大致相同的大小和形状,那么我们不必担心,某些区域仅仅因为他们的大小,而获得不成比例的关注。其次,如果我们着色的各个区域相对于地图的整体尺寸相对较小,并且如果颜色所代表的数量,在比单个着色区域大的规模上发生变化,那么我们再次不必担心某些区域仅仅由于它们的大小而获得不成比例的注意力。图 4.4 中大致满足这两个条件。
......@@ -124,7 +124,7 @@
图 15.16:美国每个州的收入中位数,显示为统计热图。每个州由相同大小的方块表示,并且方块根据每个州相对于其他州的近似位置来排列。该表示为每个州提供相同的视觉权重。数据来源:2015 年五年美国社区调查
最后,我们可以通过在每个州的位置放置单独的绘图,来绘制更复杂的统计地图。例如,如果我们想要了解每个州的失业率随时间的演变,为每个州绘制一个单独的图表,然后根据各州之间的近似相对位置排列图表(图 15.17 )有所帮助。对于熟悉美国地理的人来说,这种排列可以使得更容易找到特定州的图形而不是,例如,按字母顺序排列它们。此外,人们会期望相邻州显示类似的模式,图 15.17 表明情况确实如此。
最后,我们可以通过在每个州的位置放置单独的绘图,来绘制更复杂的统计地图。例如,如果我们想要了解每个州的失业率随时间的演变,为每个州绘制一个单独的图形,然后根据各州之间的近似相对位置排列图形(图 15.17 )有所帮助。对于熟悉美国地理的人来说,这种排列可以使得更容易找到特定州的图形而不是,例如,按字母顺序排列它们。此外,人们会期望相邻州显示类似的模式,图 15.17 表明情况确实如此。
![](img/7f9afa583c9d84a62d0e0c6797c2acaf.jpg)
......
......@@ -14,7 +14,7 @@
可视化单个概率很困难。你如何可视化在彩票中获胜,或者用匀质的骰子掷出六点的几率?在这两种情况下,概率都是单个数字。我们可以将该数字视为一个数量,并使用第六章中讨论的任何技术显示它,例如条形图或点图,但结果不会非常有用。大多数人缺乏概率值如何转化为经验现实的直观理解。将概率值显示为条形或作为点放在一条线上,无助于此问题。
我们可以通过创建一个图,强调随机试验的频率切面和不可预测性,来使概率概念变得有形,例如通过绘制随机排列的不同颜色的方块。在图 16.1 中,我使用这种技术可视化三种不同的概率,1% 的成功几率,10% 的成功几率和 40% 的成功率。为了阅读这个图,想象一下,你得到了一个选择深色方块的任务,通过选择一个方块,然后看到哪个方块是深色,哪个方块是浅色。 (如果你愿意的话,你可以考虑闭着眼睛挑选一个方块。)直观地说,你可能会理解在 1% 几率情况下,不太可能选择一个深色的方块。同样,在 10% 几率 的情况下,仍然不太可能选择深色的方块。然而,在 40% 的情况下,胜率看起来并不那么糟糕。这种可视化风格,其中我们显示特定的潜在结果,被称为离散结果可视化,并且将概率可视化为频率的行为被称为频率成帧。我们根据易于理解的结果的频率来表现结果的概率性质。
我们可以通过创建一个图,强调随机试验的频率切面和不可预测性,来使概率概念变得有形,例如通过绘制随机排列的不同颜色的方块。在图 16.1 中,我使用这种技术可视化三种不同的概率,1% 的成功几率,10% 的成功几率和 40% 的成功率。为了阅读这个图,想象一下,你得到了一个选择深色方块的任务,通过选择一个方块,然后看到哪个方块是深色,哪个方块是浅色。 (如果你愿意的话,你可以考虑闭着眼睛挑选一个方块。)直观地说,你可能会理解在 1% 几率情况下,不太可能选择一个深色的方块。同样,在 10% 几率 的情况下,仍然不太可能选择深色的方块。然而,在 40% 的情况下,胜率看起来并不那么糟糕。这种可视化风格,其中我们显示特定的潜在结果,被称为离散结果可视化,并且将概率可视化为频率的行为被称为频率成帧。我们根据易于理解的结果的频率来表现结果的概率性质。
![](img/d1b4ef2fa53ff80fc4bf47fddd3c6c7a.jpg)
......@@ -32,7 +32,7 @@
![](img/b7d6b948bc268eaeb5b80e2433a4b7ee.jpg)
图 16.3:图 16.2 的选举结果分布的分位数点图示。 (a)平滑分布用 50 个点近似,每个代表 2% 的几率。因此,六个黄点对应的概率为 12%,合理接近 12.9% 的真实值。 (b)平滑分布近似为 10 个点,每个点几率为 10%。因此,一个黄点对应 10% 的几率,仍然接近真实值。具有较少数量点的分位数点图往往更容易阅读,因此在该示例中,10 点版本可能优于 50 点版本。
图 16.3:图 16.2 的选举结果分布的分位数点图示。 (a)平滑分布用 50 个点近似,每个代表 2% 的几率。因此,六个黄点对应的概率为 12%,合理接近 12.9% 的真实值。 (b)平滑分布近似为 10 个点,每个点几率为 10%。因此,一个黄点对应 10% 的几率,仍然接近真实值。具有较少数量点的分位数点图往往更容易阅读,因此在该示例中,10 点版本可能优于 50 点版本。
作为一般原则,分位点点图应使用小到中等数量的点。如果点太多,那么我们倾向于将它们视为连续体而不是单独的离散单位。这抵消了离散图的优点。图 16.3 显示具有 50 个点(图 16.3a)和 10 个点(图 16.3b)的变体。虽然 50 个点的版本更准确地捕获真实的概率分布,但是点的数量太大而不能容易地区分各个点。十个点的版本立即传达了蓝方或黄方获胜的相对几率。对十个点的版本的一个缺陷可能是它不是很精确。我们对黄方获胜的几率过少表示为 2.9 个百分点。然而,通常值得牺牲一些数学精度,来获得所得可视化的更准确的人类感知,特别是在与非专业读者进行交流时。在数学上正确但感知上不正确的可视化在实践中没有用。
......@@ -178,6 +178,6 @@
Kay,M.,T。Kola,J。Hullman 和 S. Munson。 2016.“何时(Ish)是我的公共汽车?以用户为中心的日常不确定性可视化,移动预测系统。“ _CHI 计算系统中的人为因素会议 _,5092-5103。 doi: [10.1145 / 2858036.2858558](https://doi.org/10.1145/2858036.2858558)
Hullman,J.,P。Resnick 和 E. Adar。 “假设结果图优于误差条和小提琴图,用于推断变量排序的可靠性。” _PLOS ONE_ 10:e0142444。 doi: [10.1371 / journal.pone.0142444](https://doi.org/10.1371/journal.pone.0142444)
Hullman,J.,P。Resnick 和 E. Adar。 “假设结果图优于误差条和小提琴图,用于推断变量排序的可靠性。” _PLOS ONE_ 10:e0142444。 doi: [10.1371 / journal.pone.0142444](https://doi.org/10.1371/journal.pone.0142444)
Kale,A.,F。Nguyen,M。Kay 和 J. Hullman。 2018.“假设结果图帮助未经训练的观察者判断模糊数据的趋势。” _IEEE 可视化与计算机图形学交易 _。 doi: [10.1109 / TVCG.2018.2864909](https://doi.org/10.1109/TVCG.2018.2864909)
\ No newline at end of file
......@@ -16,11 +16,11 @@
## 17.1 沿线性轴可视化
我们首先考虑最常见的情景,即沿线性比例的数量可视化。图 17.1 显示夏威夷州的五个县的收入中位数。这是报纸文章中可能遇到的典型图像。快速浏览一下这个图表明,夏威夷县非常贫穷,而檀香山县比其他县富裕得多。然而,图 17.1 相当具有误导性,因为所有条形都以 50,000 美元的收入中位数开始。因此,虽然每个条形的终点正确代表了每个县的实际收入中位数,但条形高度代表收入中位数超过 50,000 美元的程度,这是一个任意数字。并且人类感知是这样的:条形高度是我们在观察该图时所感知的关键数量,而不是条形终点相对于 *y* 轴的位置。
我们首先考虑最常见的情景,即沿线性比例的数量可视化。图 17.1 显示夏威夷州的五个县的收入中位数。这是报纸文章中可能遇到的典型图像。快速浏览一下这个图表明,夏威夷县非常贫穷,而檀香山县比其他县富裕得多。然而,图 17.1 相当具有误导性,因为所有条形都以 50,000 美元的收入中位数开始。因此,虽然每个条形的终点正确代表了每个县的实际收入中位数,但条形高度代表收入中位数超过 50,000 美元的程度,这是一个任意数字。并且人类感知是这样的:条形高度是我们在观察该图时所感知的关键数量,而不是条形终点相对于 *y* 轴的位置。
![](img/452cc298918aa248e14a3a062ffd04b9.jpg)
图 17.1:夏威夷州五个县的收入中位数。这个图具有误导性,因为 *y* 轴刻度从 50,000 美元而不是 0 美元开始。结果,条形高度与所示数值不成比例,夏威夷县与其他四个县之间的收入差距看起来比实际大得多。数据来源:2015 年美国五年社区调查。
图 17.1:夏威夷州五个县的收入中位数。这个图具有误导性,因为 *y* 轴刻度从 50,000 美元而不是 0 美元开始。结果,条形高度与所示数值不成比例,夏威夷县与其他四个县之间的收入差距看起来比实际大得多。数据来源:2015 年美国五年社区调查。
这些数据的适当可视化使得故事不那么令人激动(图 17.2 )。虽然各州之间的收入中位数存在差异,但它们远远没有图 17.1 所暗示的那么大。总体而言,不同县的收入中位数是差不多的。
......@@ -30,15 +30,15 @@
线性刻度上的条形应始终从 0 开始。
在时间序列的可视化中经常出现类似的可视化问题,例如股票价格的可视化问题。图 17.3 表明 Facebook 股票价格在 2016 年 11 月 1 日左右大幅下跌。实际上,相对于股票总价格,价格下跌幅度较小(图 17.4 ])。即使没有曲线下方的阴影,图 17.3 中的 *y* 轴刻度也会有问题。但有了阴影,这个图变得特​​别成问题。阴影强调从 *x* 轴的位置到所示的特定 *y* 值的距离,因此它产生视觉印象,即给定日期的阴影区域的高度代表那天的股票价格。相反,它只代表股票价格与基线的差异,图 17.3 中为 110 美元。
在时间序列的可视化中经常出现类似的可视化问题,例如股票价格的可视化问题。图 17.3 表明 Facebook 股票价格在 2016 年 11 月 1 日左右大幅下跌。实际上,相对于股票总价格,价格下跌幅度较小(图 17.4 ])。即使没有曲线下方的阴影,图 17.3 中的 *y* 轴刻度也会有问题。但有了阴影,这个图变得特​​别成问题。阴影强调从 *x* 轴的位置到所示的特定 *y* 值的距离,因此它产生视觉印象,即给定日期的阴影区域的高度代表那天的股票价格。相反,它只代表股票价格与基线的差异,图 17.3 中为 110 美元。
![](img/e41bb3c4afe15d0cd47e28e7c3e6893d.jpg)
图 17.3:2016 年 10 月 22 日到 2017 年 1 月 21 日的 Facebook(FB)的股票价格。这个图似乎意味着 Facebook 股票价格在 2016 年 11 月 1 日左右崩溃。但是,这是误导性的,因为 *y* 轴的起价为 110 美元而不是 0 美元。
图 17.3:2016 年 10 月 22 日到 2017 年 1 月 21 日的 Facebook(FB)的股票价格。这个图似乎意味着 Facebook 股票价格在 2016 年 11 月 1 日左右崩溃。但是,这是误导性的,因为 *y* 轴的起价为 110 美元而不是 0 美元。
![](img/671e885cfc22a1ca449c76a07ddacce8.jpg)
图 17.4:2016 年 10 月 22 日至 2017 年 1 月 21 日的 Facebook(FB)的股票价格。通过在 0 美元到 150 美元的 *y* 轴上展示的股票价格,这个图更准确地传递了 2016 年 11 月 1 日左右的 FB 价格下跌的幅度。
图 17.4:2016 年 10 月 22 日至 2017 年 1 月 21 日的 Facebook(FB)的股票价格。通过在 0 美元到 150 美元的 *y* 轴上展示的股票价格,这个图更准确地传递了 2016 年 11 月 1 日左右的 FB 价格下跌的幅度。
图 17.2 和图 17.4 的例子可能表明,条形和阴影区域不能用于表示随时间的微小变化,或条件之间的差异,因为我们总是需要画出整个条形或从 0 开始的区域。但事实并非如此。使用条形或阴影区域来显示条件之间的差异是完全有效的,只要我们明确说明我们显示的差异。例如,我们可以使用条形图来显示 2010 年至 2015 年夏威夷县收入中位数的变化(图 17.5 )。对于除卡拉沃以外的所有县,这一变化不到 5000 美元。 (卡拉沃是一个不同寻常的县,人口不到 100 人,少数人进出该县可能产生收入中位数的大幅波动。)对于夏威夷县,这种变化是负面的,即 2015 年的收入中位数低于 2010 年。我们通过绘制相反方向的条形来表示负值,即从 0 向下而不是向上延伸。
......@@ -90,13 +90,13 @@
![](img/96861189e5339825ab7eb3ab024cb8cd.jpg)
图 17.11:罗德岛县的居民人数,以饼图示。每个楔形的角度和面积都与各个县的居民数量成比例。数据来源:2010 年美国十年普查。
图 17.11:罗德岛县的居民人数,以饼图示。每个楔形的角度和面积都与各个县的居民数量成比例。数据来源:2010 年美国十年普查。
因为每个楔形的面积与其角度成比例,该角度与楔形所代表的数据值成比例,所以饼图满足比例墨水原理。但是,我们认为饼图中的面积与条形图中的相同面积不同。根本原因是人类感知主要判断距离而不是面积。因此,如果数据值完全被编码为距离,如条形长度的情况,比起数据值编码为两三个距离的组合,它们共同创建一个区域的情况,我们更准确地感知它。为了看到这种差异,比较图 17.11 和图 17.12 ,它使用条形显示相同的数据。普罗维登斯县和其他县之间居民人数的差异在图 17.12 中比在图 17.11 中更大。
![](img/9e4f98f9cacbc15d525b253c125e6ba8.jpg)
图 17.12:罗德岛县的居民人数,以条形图示。每个条形的长度与各自县的居民数量成比例。数据来源:2010 年美国十年普查。
图 17.12:罗德岛县的居民人数,以条形图示。每个条形的长度与各自县的居民数量成比例。数据来源:2010 年美国十年普查。
人类感知更善于判断距离而不是判断区域的问题,也出现在树形图中(图 17.13 ),可以将其视为饼图的方形版本。同样,与图 17.12 相比,各县居民数量的差异在图 17.13 中显得不太明显。
......
......@@ -22,7 +22,7 @@
图 18.2:城市燃油效率与发动机排量。因为点已经部分透明,所以位于其他点之上的点现在可以通过其较暗的阴影来识别。
然而,使点部分透明并不总是足以解决过度绘图的问题。例如,尽管我们可以在图 18.2 中看到某些点的阴影比其他点更暗,但很难估计每个位置在彼此的顶部绘制了多少个点。此外,虽然阴影的差异清晰可见,但它们并不是不言自明的。第一次看到这个图的读者可能会想知道为什么有些点比其他点更暗,并且不会意识到这些点实际上是多个点叠在一起。在这种情况下有用的一个简单技巧是对点施加少量抖动,即在 *x**y* 或两者的方向上,随机移动少量点。对于抖动,很明显,较暗的区域来自彼此重叠的点(图 18.3 )。此外,现在,代表具有 2.0 升发动机的四轮驱动汽车的黑点第一次清晰可见。
然而,使点部分透明并不总是足以解决过度绘图的问题。例如,尽管我们可以在图 18.2 中看到某些点的阴影比其他点更暗,但很难估计每个位置在彼此的顶部绘制了多少个点。此外,虽然阴影的差异清晰可见,但它们并不是不言自明的。第一次看到这个图的读者可能会想知道为什么有些点比其他点更暗,并且不会意识到这些点实际上是多个点叠在一起。在这种情况下有用的一个简单技巧是对点施加少量抖动,即在 *x**y* 或两者的方向上,随机移动少量点。对于抖动,很明显,较暗的区域来自彼此重叠的点(图 18.3 )。此外,现在,代表具有 2.0 升发动机的四轮驱动汽车的黑点第一次清晰可见。
![](img/c5d7c2a96331eb8db82d3400b10c076e.jpg)
......@@ -44,7 +44,7 @@
图 18.5 显示超过 100,000 个单独航班的起飞延误,每个点代表一次航班起飞。尽管我们已经使各个点相当透明,但是它们中的大多数只是在 0 到 300 分钟的起飞延误之间形成黑带。这个带子模糊了大多数航班是否准时起飞或大幅延误(比如 50 分钟或更长时间)。同时,由于点的透明度,最延误的航班(延误 400 分钟或更长时间)几乎看不到。
在这种情况下,我们可以制作 2D 直方图,而不是绘制单个点。 2D 直方图在概念上类似于第七章中讨论的一维直方图,但现在我们将数据在二维中分桶。我们将整个 *x* - *y* 平面细分为小矩形,计算落入每个桶的观测值数量,然后按该计数来着色矩形。图 18.6 使用这种方法,显示了起飞延误数据的结果。该可视化清晰地突出了航班起飞数据的几个重要特征。首先,白天(早上 6 点到晚上 9 点)的绝大多数航班,实际上是在没有延误甚至提前(负延误)的​​情况下起飞的。然而,一定数量的航班有很大的延误。此外,一架飞机在当天的起飞得越晚,它的延误就越大。重要的是,起飞时间是实际的起飞时间,而不是预定的起飞时间。所以这个图并不一定告诉我们计划提前起飞的飞机从未经历过延误。然而,它告诉我们的是,如果飞机提前起飞,它要么没有延误,要么在极少数情况下延误大约 900 分钟。
在这种情况下,我们可以制作 2D 直方图,而不是绘制单个点。 2D 直方图在概念上类似于第七章中讨论的一维直方图,但现在我们将数据在二维中分桶。我们将整个 *x* - *y* 平面细分为小矩形,计算落入每个桶的观测值数量,然后按该计数来着色矩形。图 18.6 使用这种方法,显示了起飞延误数据的结果。该可视化清晰地突出了航班起飞数据的几个重要特征。首先,白天(早上 6 点到晚上 9 点)的绝大多数航班,实际上是在没有延误甚至提前(负延误)的​​情况下起飞的。然而,一定数量的航班有很大的延误。此外,一架飞机在当天的起飞得越晚,它的延误就越大。重要的是,起飞时间是实际的起飞时间,而不是预定的起飞时间。所以这个图并不一定告诉我们计划提前起飞的飞机从未经历过延误。然而,它告诉我们的是,如果飞机提前起飞,它要么没有延误,要么在极少数情况下延误大约 900 分钟。
![](img/dda901bdf850f3f1a4078e75b0692f8b.jpg)
......
......@@ -10,17 +10,17 @@
## 19.1 编码过多或无关的信息
一个常见的错误是,通过将太多不同项目编码在不同颜色中,尝试为颜色提供太大而无法处理的工作。例如,考虑图 19.1 。它显示了美国所有 50 个州和哥伦比亚特区的人口增长与人口规模。我试图通过为每个州提供独立的颜色来识别它们。但是,结果不是很有用。即使我们可以通过查看绘图和图例中的彩色点,来猜测哪个州是哪个,但尝试在两者之间来回匹配它们,需要花费很多精力。有太多不同的颜色,其中许多颜色彼此非常相似。尽管付出了很多努力,我们也可以准确地确定哪个州是哪个,这种可视化会破坏着色的目的。我们应该使用颜色来增强图并使它们更容易阅读,而不是通过创建视觉谜题来模糊数据。
一个常见的错误是,通过将太多不同项目编码在不同颜色中,尝试为颜色提供太大而无法处理的工作。例如,考虑图 19.1 。它显示了美国所有 50 个州和哥伦比亚特区的人口增长与人口规模。我试图通过为每个州提供独立的颜色来识别它们。但是,结果不是很有用。即使我们可以通过查看绘图和图例中的彩色点,来猜测哪个州是哪个,但尝试在两者之间来回匹配它们,需要花费很多精力。有太多不同的颜色,其中许多颜色彼此非常相似。尽管付出了很多努力,我们也可以准确地确定哪个州是哪个,这种可视化会破坏着色的目的。我们应该使用颜色来增强图并使它们更容易阅读,而不是通过创建视觉谜题来模糊数据。
![](img/dd2f9532b18bf42e197aa62c6ba8c16c.jpg)
图 19.1:2000 年至 2010 年的人口增长与 2020 年的人口规模,美国所有 50 个州以及哥伦比亚的判决。每个州都标有不同的颜色。由于状态太多,因此很难将图例中的颜色与散点图中的点进行匹配。数据来源:美国人口普查局
根据经验,当有三到五个不同类别需要着色时,定性颜色刻度最有效。一旦我们达到八到十个不同类别或更多类别,将颜色与类别匹配的任务变得过于繁琐而无用,即使颜色保持足够不同而在原则上可区分。对于图 19.1 的数据集,最好仅使用颜色来表明每个州的地理区域,并通过直接标记识别各个州,即通过在数据点附近放置适当的文本标签(图 19.2 )。即使我们不能标记每个州,而不使图表过于拥挤​​,直接标记也是这个图表的正确选择。通常,对于诸如此类的图表,我们不需要标记每个数据点。标记代表性子集就足够了,例如一组州,我们特别希望在文本中标明它,文本和图表在一起。如果我们想确保读者完全可以访问它,我们总是可以选择将底层数据提供为表格。
根据经验,当有三到五个不同类别需要着色时,定性颜色刻度最有效。一旦我们达到八到十个不同类别或更多类别,将颜色与类别匹配的任务变得过于繁琐而无用,即使颜色保持足够不同而在原则上可区分。对于图 19.1 的数据集,最好仅使用颜色来表明每个州的地理区域,并通过直接标记识别各个州,即通过在数据点附近放置适当的文本标签(图 19.2 )。即使我们不能标记每个州,而不使图形过于拥挤​​,直接标记也是这个图形的正确选择。通常,对于诸如此类的图形,我们不需要标记每个数据点。标记代表性子集就足够了,例如一组州,我们特别希望在文本中标明它,文本和图形在一起。如果我们想确保读者完全可以访问它,我们总是可以选择将底层数据提供为表格。
![](img/e4a2114b9ea805bdda0aebb4e0b2e4a8.jpg)
图 19.2:2000 年至 2010 年的人口增长与 2000 年的人口规模。与图 19.1 相比,我现在按区域着色州并直接标记了一个州的子集。大部分州都没有标记,以防止这个图过度拥挤。数据来源:美国人口普查局
图 19.2:2000 年至 2010 年的人口增长与 2000 年的人口规模。与图 19.1 相比,我现在按区域着色州并直接标记了一个州的子集。大部分州都没有标记,以防止这个图过度拥挤。数据来源:美国人口普查局
当您需要区分超过大约八个分类项时,请使用直接标注而不是颜色。
......@@ -30,9 +30,9 @@
图 19.3:2000 年至 2010 年美国的人口增长。州的彩虹着色没有任何意义,令人分心。此外,颜色过度饱和。数据来源:美国人口普查局
除了滥用不同颜色外,图 19.3 还有第二个与颜色相关的问题:所选择的颜色过于饱和且强烈。这种颜色强度使图难以看清。例如,如果没有将我们的眼睛从州名旁边的较大和强烈的着色区域移开,就很难阅读州名。类似地,难以将条形的端点与下面的网格线进行比较。
除了滥用不同颜色外,图 19.3 还有第二个与颜色相关的问题:所选择的颜色过于饱和且强烈。这种颜色强度使图难以看清。例如,如果没有将我们的眼睛从州名旁边的较大和强烈的着色区域移开,就很难阅读州名。类似地,难以将条形的端点与下面的网格线进行比较。
避免大面积过饱和的填充区域。它们使您的读者难以仔细查看您的图
避免大面积过饱和的填充区域。它们使您的读者难以仔细查看您的图
## 19.2 使用非单调颜色刻度来编码数据值
......@@ -93,13 +93,13 @@
| 红紫色 | #CC79A7 | 326° | 10,70,0,0 | 204,121,167 | 80,60,70 |
| 黑色 | #000000 | - | 0,0,0,100 | 0,0,0 | 0, 0, 0 |
虽然有几种很好的 CVD 安全的颜色刻度可供选择,但我们需要认识到它们不是魔法子弹。很有可能使用 CVD 安全的刻度,仍然会产生具有 CVD 的人无法破译的图表。一个关键参数是彩色图形元素的大小。当它们应用于大面积而不是小面积或细线时,颜色更容易区分(Stone,Albers Szafir 和 Setlur 2014)。并且这种效果在 CVD 下更加恶化(图 19.11 )。除了本章和第四章中讨论的各种颜色设计注意事项外,我建议您在 CVD 模拟下查看彩色图表,来了解它对于具有 CVD 的人的样子。有几种在线服务和桌面应用可供用户通过 CVD 模拟来显示任意图表
虽然有几种很好的 CVD 安全的颜色刻度可供选择,但我们需要认识到它们不是魔法子弹。很有可能使用 CVD 安全的刻度,仍然会产生具有 CVD 的人无法破译的图形。一个关键参数是彩色图形元素的大小。当它们应用于大面积而不是小面积或细线时,颜色更容易区分(Stone,Albers Szafir 和 Setlur 2014)。并且这种效果在 CVD 下更加恶化(图 19.11 )。除了本章和第四章中讨论的各种颜色设计注意事项外,我建议您在 CVD 模拟下查看彩色图形,来了解它对于具有 CVD 的人的样子。有几种在线服务和桌面应用可供用户通过 CVD 模拟来显示任意图形
![](img/de9079f8b6bfcbc6c1af108d79a6f825.jpg)
图 19.11:彩色元素在小尺寸时难以区分。左上方的面板(标有“原始”)显示了四个矩形,四条粗线,四条细线和四组点,所有这些都以相同的四种颜色着色。视觉元素越小或越薄,我们可以看到颜色变得越难以区分。这个问题在 CVD 模拟中变得更加严重,其中即使对于较大图形元素,颜色也已经更难以区分。
为了确保您的图表适用于具有 CVD 的人,不要只依赖于特定的颜色刻度。相反,在 CVD 模拟器中测试你的图表
为了确保您的图形适用于具有 CVD 的人,不要只依赖于特定的颜色刻度。相反,在 CVD 模拟器中测试你的图形
### 参考
......
......@@ -40,7 +40,7 @@
该图包含四条线,代表四家不同公司的股票价格。这些线条采用色觉缺陷友好的颜色刻度进行颜色编码。因此,将每条线与相应的公司相关联应该是相对直接的。但事实并非如此。这里的问题是数据线具有清晰的视觉顺序。代表 Facebook 的黄线显然是最高的线,代表 Apple 的黑线显然是最低的,其中 Alphabet 和 Microsoft 介于此之间。然而,图例中四家公司的顺序是 Alphabet,Apple,Facebook,Microsoft(字母顺序)。因此,数据线的感知顺序不同于图例中的公司顺序,并且将数据线与公司名称匹配需要花费大量精力。
这个问题通常出现在绘制自动生成图例的软件上。绘图软件没有观察者将感知的视觉顺序的概念。相反,该软件按其他顺序排序图例,最常见的是按字母顺序排列。我们可以通过手动重新排序图例中的条目来解决这个问题,使它们与数据中的先前排序相匹配(图 20.6 )。结果是一个图,使图例更容易与数据匹配。
这个问题通常出现在绘制自动生成图例的软件上。绘图软件没有观察者将感知的视觉顺序的概念。相反,该软件按其他顺序排序图例,最常见的是按字母顺序排列。我们可以通过手动重新排序图例中的条目来解决这个问题,使它们与数据中的先前排序相匹配(图 20.6 )。结果是一个图,使图例更容易与数据匹配。
![](img/9940959651d4ef3565baa42af035b30f.jpg)
......@@ -54,17 +54,17 @@
图 20.7:图 20.6 的色觉缺陷模拟。
## 20.2 设计没有图例的图
## 20.2 设计没有图例的图
尽管通过冗余编码数据可以提高图例的易读性,但是在多种美学中,图例总是给读者带来额外的精神负担。在阅读图例时,读者需要在可视化的一部分中获取信息,然后将其转移到不同的部分。如果我们完全消除这个图例,我们通常可以让读者更轻松。然而,消除图例并不意味着我们根本不提供一个图例,并在图标题中写出诸如“黄点代表杂色鸢尾”的句子。消除图例意味着我们以这样的方式设计图形,即使没有明确的图例,各种图形元素所代表的内容也是不言自明的。
我们可以采用的一般策略称为直接标记,我们将适当的文本标签或其他视觉元素放置在图的其余部分作为指导。我们之前在第 19 章(图 19.2 )中遇到了直接标记,作为绘制具有 50 多种不同颜色的图例的替代方法。为了将直接标记概念应用于股票价格图,我们将每个公司的名称放在其各自数据线末尾的旁边(图 20.8 )。
我们可以采用的一般策略称为直接标记,我们将适当的文本标签或其他视觉元素放置在图的其余部分作为指导。我们之前在第 19 章(图 19.2 )中遇到了直接标记,作为绘制具有 50 多种不同颜色的图例的替代方法。为了将直接标记概念应用于股票价格图,我们将每个公司的名称放在其各自数据线末尾的旁边(图 20.8 )。
![](img/84e4b8c9d79f48386a788e3be7bb17be.jpg)
图 20.8:四家主要科技公司的随时间变化的股票价格。 2012 年 6 月,每家公司的股票价格已经标准化为 100。数据来源:雅虎财经
只要有可能,设计您的图,使他们不需要图例。
只要有可能,设计您的图,使他们不需要图例。
我们也可以从本章开始就将直接标记概念应用于鸢尾花数据,特别是图 20.3 。因为它是分成三个不同组的许多点的散点图,所以我们需要直接标记组而不是单个点。一种解决方案是绘制包围大部分点的椭圆,然后标记椭圆(图 20.9 )。
......
......@@ -16,7 +16,7 @@
图 22.1:腐败和人类发展:最发达国家经历了最少的腐败。这个图形的灵感来自经济学人在线(2011)。数据来源:Transparency International,和联合国人类发展报告
或者,我可以将图标题以及说明的其他元素(例如数据源声明)合并到主显示中(图 22.2 )。在直接比较中,您可能会发现图 22.2 比图 22.1 更具吸引力,您可能想知道为什么我在本书中选择后者的风格。我这样做是因为这两种风格具有不同的应用领域,具有集成标题的图形不适合传统的书籍布局。基本原则是一个图形只能有一个标题。标题被集成到实际的图形显示中,或者作为图形下方的说明的第一个元素提供。并且,如果出版物的布局是,每个图形在显示项目下面都有一个常规说明栏,则标题必须在该文本块中提供。出于这个原因,在传统书籍或文章出版的背景下,我们通常不会将标题整合到图形中。但是,如果它们旨在用作独立信息图,或者在社交媒体或网页上发布而不附带说明文本,具有集成标题,副标题和数据源声明的图形是合适的。
或者,我可以将图标题以及说明的其他元素(例如数据源声明)合并到主显示中(图 22.2 )。在直接比较中,您可能会发现图 22.2 比图 22.1 更具吸引力,您可能想知道为什么我在本书中选择后者的风格。我这样做是因为这两种风格具有不同的应用领域,具有集成标题的图形不适合传统的书籍布局。基本原则是一个图形只能有一个标题。标题被集成到实际的图形显示中,或者作为图形下方的说明的第一个元素提供。并且,如果出版物的布局是,每个图形在显示项目下面都有一个常规说明栏,则标题必须在该文本块中提供。出于这个原因,在传统书籍或文章出版的背景下,我们通常不会将标题整合到图形中。但是,如果它们旨在用作独立信息图,或者在社交媒体或网页上发布而不附带说明文本,具有集成标题,副标题和数据源声明的图形是合适的。
![](img/b033ea183f421173894738328128dff3.jpg)
......@@ -30,7 +30,7 @@
就像每个绘图都需要一个标题,轴和图例也需要标题。 (轴标题通常通俗地称为轴标签。)轴标签和图例标题说明了显示的数据值,以及它们如何映射到绘图美学。
为了展示所有轴和图例都经过适当标注和配有标题的图示例,我在第 12 章中详细讨论了蓝色杰伊鸟数据集,并将其显示为气泡图(图 22.3 )。在该图中,轴标题清楚地表明 *x* 轴显示以克为单位的体重,*y* 轴显示以毫米为单位的头部长度。同样,图例标题显示,点的着色表示鸟类的性别,点的大小表示鸟类的头骨大小,以毫米为单位。我强调,对于所有数值变量(体重,头长和头骨大小),相关标题不仅说明所显示的变量,还说明变量的测量单位。这是一种很好的做法,应该尽可能地实现。类别变量(例如性别)不需要单位。
为了展示所有轴和图例都经过适当标注和配有标题的图示例,我在第 12 章中详细讨论了蓝色杰伊鸟数据集,并将其显示为气泡图(图 22.3 )。在该图中,轴标题清楚地表明 *x* 轴显示以克为单位的体重,*y* 轴显示以毫米为单位的头部长度。同样,图例标题显示,点的着色表示鸟类的性别,点的大小表示鸟类的头骨大小,以毫米为单位。我强调,对于所有数值变量(体重,头长和头骨大小),相关标题不仅说明所显示的变量,还说明变量的测量单位。这是一种很好的做法,应该尽可能地实现。类别变量(例如性别)不需要单位。
![](img/e154f6a3229c86a28111043f4cfc784a.jpg)
......@@ -42,7 +42,7 @@
图 22.4:四家主要科技公司的随时间变化的股票价格。 2012 年 6 月,每家公司的股票价格已经标准化为 100。这个图形是第 20 章 20.6 的略微修改版本。这里,表示时间的 *x* 轴没有标题。从上下文可以清楚地看出,2013 年,2014 年等数字是指年份。
但是,在省略轴或图例标题时我们必须要小心,因为很容易误判上下文中的内容和不明显的内容。我经常看到大众媒体中的图表,以一种让我感到不舒服的程度省略轴标题。例如,一些出版物可能会产生一个图形,例如图 22.5 ,假设轴的含义在图表标题和副标题中清晰可见(这里:“四个主要科技公司的随时间变化的股票价格”和“2012 年 6 月,每家公司的股票价格已经标准化为 100”)。我不同意上下文明确定义轴的观点。因为标题通常不包括诸如“*x* / *y* 轴显示”之类的单词,所以总是需要一定量的猜测来解释该图。根据我自己的经验,轴没有正确标记的图形往往会让我感到不安 - 即使我 95% 确定我明白所展示的内容,我也不会 100% 肯定。作为一般原则,我认为让读者猜出你的意思是一种不好的做法。你为什么要对读者产生一种不确定感?
但是,在省略轴或图例标题时我们必须要小心,因为很容易误判上下文中的内容和不明显的内容。我经常看到大众媒体中的图形,以一种让我感到不舒服的程度省略轴标题。例如,一些出版物可能会产生一个图形,例如图 22.5 ,假设轴的含义在图形标题和副标题中清晰可见(这里:“四个主要科技公司的随时间变化的股票价格”和“2012 年 6 月,每家公司的股票价格已经标准化为 100”)。我不同意上下文明确定义轴的观点。因为标题通常不包括诸如“*x* / *y* 轴显示”之类的单词,所以总是需要一定量的猜测来解释该图。根据我自己的经验,轴没有正确标记的图形往往会让我感到不安 - 即使我 95% 确定我明白所展示的内容,我也不会 100% 肯定。作为一般原则,我认为让读者猜出你的意思是一种不好的做法。你为什么要对读者产生一种不确定感?
![](img/f314ecdfcd25b4ebb0c8523cc1ead771.jpg)
......
......@@ -60,7 +60,7 @@ R 软件 ggplot2 推广了一种风格,在灰色背景上使用相当突出的
赞成灰色背景的论据包括它(i)帮助将绘图视为单个视觉实体,以及(ii)防止绘图在周围的黑暗文本中显示为白色框(Wickham 2016)。我完全同意第一点,这就是我在图 23.6 中使用灰色背景的原因。对于第二点,我要提醒一下,文本的感知暗度将取决于字体大小,字体和行间距,并且图形的感知暗度将取决于所用墨水的绝对量和颜色,包括所有数据墨水。以密集的 10 号 Times New Roman 排版的科学纸张,看起来比行间距为 1.5,以 14 号 Palatino 排版的咖啡桌书本要深一些。同样,五个黄点的散点图看起来要比 10,000 个黑点的散点图浅得多。如果要使用灰色图形背景,请考虑图形前景的颜色强度,以及图形周围文本的预期布局和排版,并相应地调整背景灰色的选择。否则,可能会发生这样的情况:您的图形最终会在周围较浅的文本中突出显示为深色盒子。此外,请记住,用于绘制数据的颜色需要配合灰色背景。我们倾向于在不同背景下不同地感知颜色,并且灰色背景需要比白色背景需要更暗且更饱和的前景色。
我们可以在相反的方向上一直移动,并移除背景和网格线(图 23.8 )。在这种情况下,我们需要可见的轴线来绘制图,并将其保持为单个视觉单元。对于这个特殊的图形,我认为这个选择是一个更糟糕的选择,我把它标记为“不好”。在没有任何背景网格的情况下,曲线似乎在空间中漂浮,并且很难将右侧的最终值匹配左侧的轴标签。
我们可以在相反的方向上一直移动,并移除背景和网格线(图 23.8 )。在这种情况下,我们需要可见的轴线来绘制图,并将其保持为单个视觉单元。对于这个特殊的图形,我认为这个选择是一个更糟糕的选择,我把它标记为“不好”。在没有任何背景网格的情况下,曲线似乎在空间中漂浮,并且很难将右侧的最终值匹配左侧的轴标签。
![](img/3564226416008bb0639a7bc221b8e100.jpg)
......@@ -116,7 +116,7 @@ R 软件 ggplot2 推广了一种风格,在灰色背景上使用相当突出的
使用非数据墨水使图形过载,和过度擦除非数据墨水,都会导致图形设计不佳。我们需要找到一种健康的媒介,其中数据点是图形的重点,同时提供所显示的数据的足够上下文,即点相对于彼此在哪里,以及它们的含义。
关于背景和背景网格,没有一种选择在所有情况下都是优选的。我建议对网格线要谨慎。仔细考虑哪些特定网格或引导线对您正在制作的图最有用,然后仅显示这些。我更喜欢白色背景上的最小的浅色网格,因为白色是纸上的默认中性色,几乎支持任何前景色。但是,阴影背景有助于绘图显示为单个视觉实体,这在小型多图中可能特别有用。最后,我们必须考虑所有这些选择如何与视觉品牌和身份相关。许多杂志和网站都喜欢具有立即可识别的内部风格,阴影背景和背景网格的特定选择有助于创建独特的视觉身份。
关于背景和背景网格,没有一种选择在所有情况下都是优选的。我建议对网格线要谨慎。仔细考虑哪些特定网格或引导线对您正在制作的图最有用,然后仅显示这些。我更喜欢白色背景上的最小的浅色网格,因为白色是纸上的默认中性色,几乎支持任何前景色。但是,阴影背景有助于绘图显示为单个视觉实体,这在小型多图中可能特别有用。最后,我们必须考虑所有这些选择如何与视觉品牌和身份相关。许多杂志和网站都喜欢具有立即可识别的内部风格,阴影背景和背景网格的特定选择有助于创建独特的视觉身份。
### 参考
......
......@@ -50,7 +50,7 @@
图 29.3:平均到达延误与距离纽约市的距离。每个点代表一个目的地,每个点的大小代表 2013 年从纽约市三个主要机场(纽瓦克,肯尼迪国际机场或拉瓜迪亚)之一到该目的地的航班数量。负延误意味着航班早到。实线表示到达延误和距离之间的平均趋势。无论行程距离如何,达美的到达延误始终低于其他航空公司。平均而言,美国航空在短距离内的延误率最低,但是对于长途旅行来说,延误最大。这个图形被标记为“不好”,因为它过于复杂。大多数读者会发现它令人困惑,并且不会直观地掌握图中显示的内容。数据来源:美国运输部,交通运输统计局。
我认为图 29.3 最重要的特征是美国和达美的到达时间最短。在简单的条形图中更好地传达了这种见解(图 29.4)。因此,图 29.4 是正确的图形,显示该故事是否与航空公司的到达延误有关,即使该图不会挑战您的数据可视化技能。如果你当时想知道,这些航空公司的延误较小,是否因为他们没有飞出纽约市那么长时间,你可以提出第二个条形图,强调美国和达美都是纽约市的主要航空公司(图 29.5)。这两个条形图都丢弃了图 29.3 中显示的距离变量。还行吧。我们不需要可视化与我们的故事无关的数据维度,即使我们拥有它们,即使我们可以制作一个显示它们的图形。简单清晰比复杂混乱更好。
我认为图 29.3 最重要的特征是美国和达美的到达时间最短。在简单的条形图中更好地传达了这种见解(图 29.4)。因此,图 29.4 是正确的图形,显示该故事是否与航空公司的到达延误有关,即使该图不会挑战您的数据可视化技能。如果你当时想知道,这些航空公司的延误较小,是否因为他们没有飞出纽约市那么长时间,你可以提出第二个条形图,强调美国和达美都是纽约市的主要航空公司(图 29.5)。这两个条形图都丢弃了图 29.3 中显示的距离变量。还行吧。我们不需要可视化与我们的故事无关的数据维度,即使我们拥有它们,即使我们可以制作一个显示它们的图形。简单清晰比复杂混乱更好。
![](img/d37ca061b993739656e2d7196d950189.jpg)
......
......@@ -97,7 +97,7 @@
Edward R. Tufte. “The Visual Display of Quantitative Information, 2nd Edition.” Graphics Press, 2001.
```
本书于 1983 年首次出版,在数据可视化领域具有极大的影响力。它引入了图垃圾,数据墨水比和迷你图等概念。这本书还展示了第一个斜率图(但没有命名)。然而,该书还包含许多经得起时间考验的建议。特别是,它建议过度简约的绘图设计。
本书于 1983 年首次出版,在数据可视化领域具有极大的影响力。它引入了图垃圾,数据墨水比和迷你图等概念。这本书还展示了第一个斜率图(但没有命名)。然而,该书还包含许多经得起时间考验的建议。特别是,它建议过度简约的绘图设计。
## 30.5 广泛相关主题的书籍
......
......@@ -6,32 +6,32 @@
> 自豪地采用[谷歌翻译](https://translate.google.cn/)
如果您是科学家,分析师,顾问或任何其他必须制作技术文档或报告的人,您需要掌握的最重要技能之一就是,以图表形式进行引人注目的数据可视化的能力。图表通常为你的论据带来权重。他们清晰,有吸引力,令人信服。好的和坏的图表之间的差异可能是高影响力或模糊不清的论文,补助或合同的得到或失去,工作面试的好与坏之间的差异。然而,令人惊讶的是,很少有资源可以教您如何制作引人注目的数据可视化。很少有大学提供有关这一主题的课程,也没有很多关于这个主题的书籍。 (当然有些存在。)绘制软件的教程通常关注如何实现特定的视觉效果,而不是解释为什么某些选择是首选而其他选择不是。在您的日常工作中,您只需要知道如何做出好的数据,如果您很幸运,您有一位耐心的顾问会在您撰写第一篇科学论文时教您一些技巧。
如果您是科学家,分析师,顾问或任何其他必须制作技术文档或报告的人,您需要掌握的最重要技能之一就是,以图形形式进行引人注目的数据可视化的能力。图形通常为你的论据带来权重。他们清晰,有吸引力,令人信服。好的和坏的图形之间的差异可能是高影响力或模糊不清的论文,补助或合同的得到或失去,工作面试的好与坏之间的差异。然而,令人惊讶的是,很少有资源可以教您如何制作引人注目的数据可视化。很少有大学提供有关这一主题的课程,也没有很多关于这个主题的书籍。 (当然有些存在。)绘制软件的教程通常关注如何实现特定的视觉效果,而不是解释为什么某些选择是首选而其他选择不是。在您的日常工作中,您只需要知道如何做出好的数据,如果您很幸运,您有一位耐心的顾问会在您撰写第一篇科学论文时教您一些技巧。
在写作的背景下,经验丰富的编辑谈论“耳朵”,听到(在内部,当你阅读一篇散文时)写作是否良好的能力。我认为,在图表和其他可视化方面,我们同样需要“眼睛”,看到一个图表,看看它是否平衡,清晰,引人注目的能力。就像写作的情况一样,可以学习查看图表是否有效的能力。拥有眼睛主要是指,您了解更多简单规则和良好可视化原则,并注意其他人可能没有的细节。
在写作的背景下,经验丰富的编辑谈论“耳朵”,听到(在内部,当你阅读一篇散文时)写作是否良好的能力。我认为,在图形和其他可视化方面,我们同样需要“眼睛”,看到一个图形,看看它是否平衡,清晰,引人注目的能力。就像写作的情况一样,可以学习查看图形是否有效的能力。拥有眼睛主要是指,您了解更多简单规则和良好可视化原则,并注意其他人可能没有的细节。
根据我的经验,同样像写作一样,你不会在周末读书时开发眼睛。这是一个终身的过程,今天对你来说过于复杂或过于微妙的概念,可能会在五年后变得更有意义。我可以对自己说,我继续开发我对图表的理解。我经常尝试让自己接触新的方法,并且我注意他人在他们的图表中做出的视觉和设计选择。我也愿意改变主意。我今天可能会认为一个特定的图表很棒,但下个月我可能会找到批评它的理由。所以考虑到这一点,请不要把我说的任何东西当作福音。仔细思考我对某些选择的理由,并决定是否要采用它们。
根据我的经验,同样像写作一样,你不会在周末读书时开发眼睛。这是一个终身的过程,今天对你来说过于复杂或过于微妙的概念,可能会在五年后变得更有意义。我可以对自己说,我继续开发我对图形的理解。我经常尝试让自己接触新的方法,并且我注意他人在他们的图形中做出的视觉和设计选择。我也愿意改变主意。我今天可能会认为一个特定的图形很棒,但下个月我可能会找到批评它的理由。所以考虑到这一点,请不要把我说的任何东西当作福音。仔细思考我对某些选择的理由,并决定是否要采用它们。
虽然本书中的材料是按逻辑展示的,但大多数章节都可以独立存在,而且无需阅读书籍封面。您可以随意浏览,选择您当前感兴趣的特定部分,或者涵盖您正在考虑的特定设计选择的部分。事实上,如果你不是一次性阅读本书,而是在更长的时间内逐渐阅读它,尝试在你的图制作中应用书中的一些概念,并回过头来阅读其他概念或重新阅读您在一段时间后学到的概念,我认为你会从这本书中获得最大的收益。如果您在几个月的时间过后重新阅读它,您可能会发现同一章告诉您不同的事情。
虽然本书中的材料是按逻辑展示的,但大多数章节都可以独立存在,而且无需阅读书籍封面。您可以随意浏览,选择您当前感兴趣的特定部分,或者涵盖您正在考虑的特定设计选择的部分。事实上,如果你不是一次性阅读本书,而是在更长的时间内逐渐阅读它,尝试在你的图制作中应用书中的一些概念,并回过头来阅读其他概念或重新阅读您在一段时间后学到的概念,我认为你会从这本书中获得最大的收益。如果您在几个月的时间过后重新阅读它,您可能会发现同一章告诉您不同的事情。
尽管本书中的几乎所有图表都是用 R 和 ggplot2 制作的,但我并不认为这是 R 的书。我在谈论图表制作的一般原则。用于制作图表的软件是随意的。你可以使用任何你想要的绘图软件,来生成我在这里展示的各种图表。但是,ggplot2 和类似的软件包使我使用的许多技巧比其他绘图库简单得多。重要的是,因为这不是 R 的书,所以我不会在本书的任何地方讨论代码或编程技巧。我希望你专注于概念和图表,而不是代码。如果您对如何制作任何数据感到好奇,可以在[ GitHub 存储库](https://github.com/clauswilke/dataviz)中查看该书的源代码。
尽管本书中的几乎所有图形都是用 R 和 ggplot2 制作的,但我并不认为这是 R 的书。我在谈论图形制作的一般原则。用于制作图形的软件是随意的。你可以使用任何你想要的绘图软件,来生成我在这里展示的各种图形。但是,ggplot2 和类似的软件包使我使用的许多技巧比其他绘图库简单得多。重要的是,因为这不是 R 的书,所以我不会在本书的任何地方讨论代码或编程技巧。我希望你专注于概念和图形,而不是代码。如果您对如何制作任何数据感到好奇,可以在[ GitHub 存储库](https://github.com/clauswilke/dataviz)中查看该书的源代码。
## 关于绘图软件和图制作流程图的思考
## 关于绘图软件和图制作流程图的思考
我有超过二十年的为科学出版物制作图表的经验,并已只做了成千上万的图表。如果在这二十年中有一个常数,那就是图表制作流水线的变化。每隔几年,就会开发一个新的绘图库或者出现一个新的范例,大量的科学家们转而使用热门的新工具包。我使用 gnuplot,Xfig,Mathematica,Matlab,python 中的 matplotlib,R 中的 R 基本库,ggplot2,以及我目前无法记住的其他东西。我目前首选的方法是 R 中的 ggplot2,但我不希望在退休之前我会继续使用它。
我有超过二十年的为科学出版物制作图形的经验,并已只做了成千上万的图形。如果在这二十年中有一个常数,那就是图形制作流水线的变化。每隔几年,就会开发一个新的绘图库或者出现一个新的范例,大量的科学家们转而使用热门的新工具包。我使用 gnuplot,Xfig,Mathematica,Matlab,python 中的 matplotlib,R 中的 R 基本库,ggplot2,以及我目前无法记住的其他东西。我目前首选的方法是 R 中的 ggplot2,但我不希望在退休之前我会继续使用它。
软件平台的这种不断变化,是本书不是编程手册,以及为什么我遗漏了所有代码示例的主要原因之一。无论你使用哪种软件,我都希望这本书对你有用,而且即使每个人都从 ggplot2 转移并使用下一个新东西,我希望它仍然有价值。我意识到这个选择对于一些 ggplot2 用户来说可能会令人沮丧,他们想知道我如何制作给定图。我告诉他们,阅读这本书的源代码,它是可用的。此外,将来我可能会发布一个仅关注代码的补充文档。
软件平台的这种不断变化,是本书不是编程手册,以及为什么我遗漏了所有代码示例的主要原因之一。无论你使用哪种软件,我都希望这本书对你有用,而且即使每个人都从 ggplot2 转移并使用下一个新东西,我希望它仍然有价值。我意识到这个选择对于一些 ggplot2 用户来说可能会令人沮丧,他们想知道我如何制作给定图。我告诉他们,阅读这本书的源代码,它是可用的。此外,将来我可能会发布一个仅关注代码的补充文档。
多年来我学到的一件事是,自动化是你的朋友。我认为作为数据分析流水线的一部分,图表应该自动生成(也应该是自动化的),它们应该从流水线中出来,准备好发送到打印机,不需要手动后处理。我看到很多学员自动生成他们的图表的粗略草稿,然后他们导入到 Illustrator 中进行修饰。这是坏主意并有几个原因。首先,在您手动编辑图表的那一刻,您的最终图表变得不可再现。第三方无法生成和您所做的完全相同的图表。虽然这可能并不重要,如果您所做的只是更改轴标签的字体,使线条模糊,并且很容易跨越到不太清晰的区域。举个例子,假设你想用更可读的标签手动替换谜之标签。第三方可能无法验证标签更换是否合适。其次,如果您在图表制作流水线中添加了大量手动后处理,那么您将更不愿意进行任何更改或重做您的工作。因此,您可能会忽略协作者或同事做出的合理的更改请求,或者即使您实际重新生成了所有数据,也可能会重复使用旧图表。这些都不是假设的例子。我在实际场景中看到过他们。第三,你自己可能会忘记,你为准备一个给定的图表做了什么,或者你可能无法生成一个新数据的未来图表,与你之前的图表在视觉上完全匹配。
多年来我学到的一件事是,自动化是你的朋友。我认为作为数据分析流水线的一部分,图形应该自动生成(也应该是自动化的),它们应该从流水线中出来,准备好发送到打印机,不需要手动后处理。我看到很多学员自动生成他们的图形的粗略草稿,然后他们导入到 Illustrator 中进行修饰。这是坏主意并有几个原因。首先,在您手动编辑图形的那一刻,您的最终图形变得不可再现。第三方无法生成和您所做的完全相同的图形。虽然这可能并不重要,如果您所做的只是更改轴标签的字体,使线条模糊,并且很容易跨越到不太清晰的区域。举个例子,假设你想用更可读的标签手动替换谜之标签。第三方可能无法验证标签更换是否合适。其次,如果您在图形制作流水线中添加了大量手动后处理,那么您将更不愿意进行任何更改或重做您的工作。因此,您可能会忽略协作者或同事做出的合理的更改请求,或者即使您实际重新生成了所有数据,也可能会重复使用旧图形。这些都不是假设的例子。我在实际场景中看到过他们。第三,你自己可能会忘记,你为准备一个给定的图形做了什么,或者你可能无法生成一个新数据的未来图形,与你之前的图形在视觉上完全匹配。
由于上述所有原因,交互式绘图程序是一个坏主意。它们固有地迫使您手动制作您的图表。实际上,最好自动生成一个图表草稿并在 Illustrator 中修饰它,而不是在一些交互式绘图程序中手工制作整个图表。请注意,Excel 也是一个交互式绘图程序,不建议用于图表制作(或数据分析)。
由于上述所有原因,交互式绘图程序是一个坏主意。它们固有地迫使您手动制作您的图形。实际上,最好自动生成一个图形草稿并在 Illustrator 中修饰它,而不是在一些交互式绘图程序中手工制作整个图形。请注意,Excel 也是一个交互式绘图程序,不建议用于图形制作(或数据分析)。
数据可视化图书中的一个关键成分,是所提出的可视化的可行性。很高兴能够发明一些优雅的可视化新方法,但是如果没有人能够使用这种可视化轻松生成数据,那么就没有多大用处。例如,当 Tufte 首次提出迷你图时,没有人能够轻松制作它们。虽然我们需要有远见的人通过可能的方式来推动世界的发展,但我认为这本书是切实可行的,并直接适用于为其出版物制作图形的职业数据科学家。因此,我在后续章节中提出的可视化,可以通过几行 R 代码,通过 和随时可用的扩展包生成。事实上,本书中的几乎每一个图表,除了第 [26](no-3d.html#no-3d)[27](image-file-formats.html#image-file-formats)[28](choosing-visualization-software.html#choosing-visualization-software) 章中的一些图表外,都是完全自动生成的。
数据可视化图书中的一个关键成分,是所提出的可视化的可行性。很高兴能够发明一些优雅的可视化新方法,但是如果没有人能够使用这种可视化轻松生成数据,那么就没有多大用处。例如,当 Tufte 首次提出迷你图时,没有人能够轻松制作它们。虽然我们需要有远见的人通过可能的方式来推动世界的发展,但我认为这本书是切实可行的,并直接适用于为其出版物制作图形的职业数据科学家。因此,我在后续章节中提出的可视化,可以通过几行 R 代码,通过 和随时可用的扩展包生成。事实上,本书中的几乎每一个图形,除了第 [26](no-3d.html#no-3d)[27](image-file-formats.html#image-file-formats)[28](choosing-visualization-software.html#choosing-visualization-software) 章中的一些图形外,都是完全自动生成的。
## 致谢
如果没有 RStudio 团队将 R Universe 变成一流的出版平台所做的出色工作,这个项目是不可能实现的。特别是,我要感谢 Hadley Wickham 创建 **ggplot2**,这是用于制作本书所有数据的绘图软件。我还要感谢 Yihui Xie 创建 R Markdown 以及编写 **knitr****bookdown** 软件包。如果这些工具没有准备就绪,我认为我不会启动这个项目。编写 R Markdown 文件很有趣,并且很容易收集材料并获得动力。特别感谢 Achim Zeileis 和 Reto Stauffer 的 **colorspace**,Thomas Lin Pedersen 的 **ggforce****gganimate**,Kamil Slowikowski 的 **ggrepel**,Edzer Pebesma 的 **sf** 和 Claire McWhite 在 **colorspace****colorblindr** 上的工作,模拟 R 装配图中的色觉缺陷。
有几个人对本书的草稿版本提供了有用的反馈。最重要的是,O'Reilly 的编辑 Mike Loukides 和 Steve Haroz 都阅读并评论了每一章。我还收到了 Carl Bergstrom,Jessica Hullman,Matthew Kay,Edzer Pebesma,Tristan Mahr,Jon Schwabish 和 Hadley Wickham 的有益评论。 Len Kiefer 的博客和 Kieran Healy 的书和博客文章为图制作和数据集提供了许多灵感。许多人指出了小问题或错别字,包括 Thiago Arrais,Malcolm Barrett,Jessica Burnett,Jon Calder,AntônioPedroCamargo,Daren Card,Kim Cressman,Akos Hajdu,Andrew Kinsman,Will Koehrsen,Alex Lalejini,John Leadley,Katrin Leinweber,Mikel Madina,Claire McWhite,S'busiso Mkhondwane,Jose Nazario,Steve Putman,MaëlleSalmon,Christian Schudoma,James Scott-Brown,Enrico Spinielli,Wouter van der Bijl 和 Ron Yurko。
有几个人对本书的草稿版本提供了有用的反馈。最重要的是,O'Reilly 的编辑 Mike Loukides 和 Steve Haroz 都阅读并评论了每一章。我还收到了 Carl Bergstrom,Jessica Hullman,Matthew Kay,Edzer Pebesma,Tristan Mahr,Jon Schwabish 和 Hadley Wickham 的有益评论。 Len Kiefer 的博客和 Kieran Healy 的书和博客文章为图制作和数据集提供了许多灵感。许多人指出了小问题或错别字,包括 Thiago Arrais,Malcolm Barrett,Jessica Burnett,Jon Calder,AntônioPedroCamargo,Daren Card,Kim Cressman,Akos Hajdu,Andrew Kinsman,Will Koehrsen,Alex Lalejini,John Leadley,Katrin Leinweber,Mikel Madina,Claire McWhite,S'busiso Mkhondwane,Jose Nazario,Steve Putman,MaëlleSalmon,Christian Schudoma,James Scott-Brown,Enrico Spinielli,Wouter van der Bijl 和 Ron Yurko。
我还要更广泛地感谢 tidyverse 和 R 社区的所有其他贡献者。确实存在可用于任何可视化挑战的 R 包。所有这些包都是由数千名数据科学家和统计学家组成的广泛社区开发的,其中许多都以某种形式为本书的制作做出了贡献。
\ No newline at end of file
......@@ -6,38 +6,38 @@
> 自豪地采用[谷歌翻译](https://translate.google.cn/)
数据可视化是部分艺术和部分科学。挑战在于让艺术变得正确而不会让科学出错,反之亦然。首先,数据可视化必须准确地传达数据。它绝不能误导或扭曲。如果一个数字是另一个数字的两倍,但在可视化中它们看起来大致相同,那么可视化就是错误的。同时,数据可视化应该是美学上令人愉悦的。良好的视觉呈现倾向于增强可视化的信息。如果图表包含不和谐的颜色,不平衡的视觉元素或其他分散注意力的特征,那么观察者将发现更难以检查图表并正确解释它。
数据可视化是部分艺术和部分科学。挑战在于让艺术变得正确而不会让科学出错,反之亦然。首先,数据可视化必须准确地传达数据。它绝不能误导或扭曲。如果一个数字是另一个数字的两倍,但在可视化中它们看起来大致相同,那么可视化就是错误的。同时,数据可视化应该是美学上令人愉悦的。良好的视觉呈现倾向于增强可视化的信息。如果图形包含不和谐的颜色,不平衡的视觉元素或其他分散注意力的特征,那么观察者将发现更难以检查图形并正确解释它。
根据我的经验,科学家经常(虽然并非总是如此!)知道如何可视化数据而不会产生严重的误导。然而,它们可能没有良好的视觉美感,并且它们可能无意中做出视觉选择,从而减损了他们想要的信息。另一方面,设计师可能制作看起来漂亮,但可能简单和松散地使用数据的可视化。我的目标是为两个群体提供有用的信息。
本书试图涵盖可视化出版物,报告或演示文稿数据所需的关键原则,方法和概念。因为数据可视化是一个广阔的领域,并且在其最广泛的定义中可能包括各种主题,如技术原理图,3D 动画和用户界面,我必须限制本书的范围。我特别报道了在印刷品,在线或幻灯片中呈现的静态可视化的情况。除了可视化不确定性章节中的一个简短部分外,本书不包括交互式视觉效果或电影。因此,在本书中,我将互换使用“可视化”和“图表”这两个词。本书也没有提供如何用现有的可视化软件或编程库制作图表的任何指导。本书末尾的带标注的参考书目,包含了涵盖这些主题的适当文本的引用。
本书试图涵盖可视化出版物,报告或演示文稿数据所需的关键原则,方法和概念。因为数据可视化是一个广阔的领域,并且在其最广泛的定义中可能包括各种主题,如技术原理图,3D 动画和用户界面,我必须限制本书的范围。我特别报道了在印刷品,在线或幻灯片中呈现的静态可视化的情况。除了可视化不确定性章节中的一个简短部分外,本书不包括交互式视觉效果或电影。因此,在本书中,我将互换使用“可视化”和“图形”这两个词。本书也没有提供如何用现有的可视化软件或编程库制作图形的任何指导。本书末尾的带标注的参考书目,包含了涵盖这些主题的适当文本的引用。
这本书分为三个部分。第一个“从数据到可视化”描述了不同类型的绘图和图,例如条形图,散点图或饼图。它的主要重点是可视化科学。在这一部分中,我不是试图提供所有可想象的可视化方法的百科全书,而是讨论一组核心的视觉效果,您可能会在出版物和/或您自己的工作中遇到这些视觉效果。在组织这一部分时,我试图通过它们传达的消息类型,而不是可视化数据的类型,来对可视化进行分组。统计文本通常按数据类型描述数据分析和可视化,按数量和变量类型组织材料(一个连续变量,一个离散变量,两个连续变量,一个连续变量和一个离散变量等)。我相信只有统计学家才会觉得这个组织很有帮助。大多数人都会根据消息来思考,比如某事物有多大,它是如何由部分组成的,它与其他事物的关系等等。
这本书分为三个部分。第一个“从数据到可视化”描述了不同类型的绘图和图,例如条形图,散点图或饼图。它的主要重点是可视化科学。在这一部分中,我不是试图提供所有可想象的可视化方法的百科全书,而是讨论一组核心的视觉效果,您可能会在出版物和/或您自己的工作中遇到这些视觉效果。在组织这一部分时,我试图通过它们传达的消息类型,而不是可视化数据的类型,来对可视化进行分组。统计文本通常按数据类型描述数据分析和可视化,按数量和变量类型组织材料(一个连续变量,一个离散变量,两个连续变量,一个连续变量和一个离散变量等)。我相信只有统计学家才会觉得这个组织很有帮助。大多数人都会根据消息来思考,比如某事物有多大,它是如何由部分组成的,它与其他事物的关系等等。
第二部分“图表设计原理”讨论了制作数据可视化时出现的各种设计问题。它的主要但不是唯一的重点,是数据可视化的美学方面。一旦我们选择了适合我们数据集的正确类型的绘图或图表,我们就必须对视觉元素做出美学选择,例如颜色,符号和字体大小。这些选择可以影响可视化的清晰程度和外观的优雅程度。第二部分的章节讨论了在实际应用中反复出现的最常见问题。
第二部分“图形设计原理”讨论了制作数据可视化时出现的各种设计问题。它的主要但不是唯一的重点,是数据可视化的美学方面。一旦我们选择了适合我们数据集的正确类型的绘图或图形,我们就必须对视觉元素做出美学选择,例如颜色,符号和字体大小。这些选择可以影响可视化的清晰程度和外观的优雅程度。第二部分的章节讨论了在实际应用中反复出现的最常见问题。
第三部分“杂项主题”涵盖了一些不符合前两部分的遗留问题。它讨论了常用于存储图像和绘图的文件格式,它提供了有关可视化软件选择的想法,并解释了如何将单个图放入更大文档的上下文中。
第三部分“杂项主题”涵盖了一些不符合前两部分的遗留问题。它讨论了常用于存储图像和绘图的文件格式,它提供了有关可视化软件选择的想法,并解释了如何将单个图放入更大文档的上下文中。
## 丑陋,不好的和错误的图
## 丑陋,不好的和错误的图
在本书中,我经常展示相同图表的不同版本,一些作为如何制作良好可视化的示例,一些作为反面示例。为了提供一个简单的视觉指南,说明哪些例子应该被模仿,哪些应该被避免,我明确地将有问题的图表标记为“丑陋”,“不良”或“错误”(图 1.1):
在本书中,我经常展示相同图形的不同版本,一些作为如何制作良好可视化的示例,一些作为反面示例。为了提供一个简单的视觉指南,说明哪些例子应该被模仿,哪些应该被避免,我明确地将有问题的图形标记为“丑陋”,“不良”或“错误”(图 1.1):
* **丑陋** - 有审美问题的图,但其他方面很清楚,信息量很大。
* **丑陋** - 有审美问题的图,但其他方面很清楚,信息量很大。
* **不良** - 与感知有关的问题;它可能不清楚,混乱,过于复杂或误导性。
* **错误** - 有数学问题的图;这是客观上不正确的。
* **错误** - 有数学问题的图;这是客观上不正确的。
![](img/fc6befb0b2d914eed1b279e551952039.jpg)
图 1.1:丑陋,不良和错误图的例子。
图 1.1:丑陋,不良和错误图的例子。
(a)显示三个值(`A = 3``B = 5``C = 4`)的条形图。这是一个合理的可视化,没有重大缺陷。
(b)(a)的丑陋版本。虽然绘图在技术上是正确的,但它在美学上并不令人愉悦。颜色太亮而且没用。背景网格太突出了。使用三种不同尺寸的三种不同字体显示文本。
(c)(a)的不良版本。每个条都显示有自己的`y`轴刻度。由于刻度不对齐,这使得图有误导性。人们可以很容易地得到三个值比实际值更接近的印象。
(c)(a)的不良版本。每个条都显示有自己的`y`轴刻度。由于刻度不对齐,这使得图有误导性。人们可以很容易地得到三个值比实际值更接近的印象。
(d)(a)部分的错误版本。如果没有明确的`y`轴刻度,则无法确定由条形表示的数字。条形似乎长度为 1,3 和 2,即使显示的值为 3,5 和 4。
我没有明确标明好的图表。任何未明确标记为有缺陷的图表都应假定为至少可以接受。这是一个信息丰富的图表,看起来很吸引人,并且可以按原样打印。请注意,在好的图表中,质量仍然存在差异,一些好的图表会比其他图表更好。
我没有明确标明好的图形。任何未明确标记为有缺陷的图形都应假定为至少可以接受。这是一个信息丰富的图形,看起来很吸引人,并且可以按原样打印。请注意,在好的图形中,质量仍然存在差异,一些好的图形会比其他图形更好。
我通常会提供具体评级的理由,但有些是品味问题。一般来说,“丑陋”评级比“不良”或“错误”评级更主观。而且,“丑陋”和“不良”之间的界限有点模糊。有时糟糕的设计选择会干扰人类的感知,以至于“不良”评级比“丑陋”评级更合适。无论如何,我鼓励你开发自己的眼睛并批判性地评估我的选择。
\ No newline at end of file
......@@ -70,7 +70,7 @@
图 2.4:美国四个地点的每月正常平均温度数据来源:NOAA
我想强调的是,图 2.4 使用两个位置刻度(沿着 *x* 轴的月份和沿着 *y* 轴的站点),但两者都不是连续刻度。月份是一个有 12 个水平的有序因子,位置是一个有四个水平的无序因子。因此,两个位置刻度都是离散的。对于离散位置刻度,我们通常将因子的不同水平沿轴线以相等的间距放置。如果因子是有序的(就像这里的月份一样),则需要按适当的顺序放置水平。如果因子是无序的(这里是站点的情况),那么顺序是任意的,我们可以选择我们想要的任何顺序。我排列了整体最冷(芝加哥)到整体最热(死亡谷)的地点,来产生令人愉快的惊人色彩。但是,我可以选择任何其他顺序,这个图同样有效。
我想强调的是,图 2.4 使用两个位置刻度(沿着 *x* 轴的月份和沿着 *y* 轴的站点),但两者都不是连续刻度。月份是一个有 12 个水平的有序因子,位置是一个有四个水平的无序因子。因此,两个位置刻度都是离散的。对于离散位置刻度,我们通常将因子的不同水平沿轴线以相等的间距放置。如果因子是有序的(就像这里的月份一样),则需要按适当的顺序放置水平。如果因子是无序的(这里是站点的情况),那么顺序是任意的,我们可以选择我们想要的任何顺序。我排列了整体最冷(芝加哥)到整体最热(死亡谷)的地点,来产生令人愉快的惊人色彩。但是,我可以选择任何其他顺序,这个图同样有效。
图 2.3 和 2.4 总共使用了三个刻度,两个位置刻度和一个颜色刻度。这是基本可视化的典型刻度数,但我们可以同时使用三个以上的刻度。图 2.5 使用五个刻度,两个位置刻度,一个颜色,一个尺寸和一个形状刻度,所有刻度表示来自数据集的不同变量。
......
......@@ -18,7 +18,7 @@
但是,数据的值通常不仅仅是数字。他们有单位。例如,如果我们测量温度,则可以以摄氏度或华氏度为单位。类似地,如果我们测量距离,则可以以公里或英里为单位,如果我们测量持续时间,则可以以分钟,小时或天为单位。在笛卡尔坐标系中,沿轴的网格线之间的间距对应于这些数据单元中的离散步长。例如,在温度范围内,我们可能每 10 华氏度有一个网格线,而在距离范围内,我们可能每 5 公里有一个网格线。
笛卡尔坐标系可以具有代表两个不同单位的两个轴。每当我们将两种不同类型的变量映射到 *x**y* 时,就会出现这种情况。例如,在图 2.3 中,我们绘制了温度与一年中的天数。图 2.3 的 *y* 轴以华氏度为单位测量,网格线均为 20 度,*x* 轴以月为单位测量,网格线在每三个月的第一个月。无论何时以不同的单位测量两个轴,我们都可以相对于另一个轴拉伸或压缩,并保持数据的有效可视化(图 3.2 )。哪个版本更合适,取决于我们想传达的故事。高而窄的图表强调沿 *y* 轴的变化,而短而宽的图表则相反。理想情况下,我们希望选择一个宽高比,以确保任何位置上的重要差异都是显而易见的。
笛卡尔坐标系可以具有代表两个不同单位的两个轴。每当我们将两种不同类型的变量映射到 *x**y* 时,就会出现这种情况。例如,在图 2.3 中,我们绘制了温度与一年中的天数。图 2.3 的 *y* 轴以华氏度为单位测量,网格线均为 20 度,*x* 轴以月为单位测量,网格线在每三个月的第一个月。无论何时以不同的单位测量两个轴,我们都可以相对于另一个轴拉伸或压缩,并保持数据的有效可视化(图 3.2 )。哪个版本更合适,取决于我们想传达的故事。高而窄的图形强调沿 *y* 轴的变化,而短而宽的图形则相反。理想情况下,我们希望选择一个宽高比,以确保任何位置上的重要差异都是显而易见的。
![](img/76d590c40886e2b956856d7eb7834b39.jpg)
......
......@@ -6,7 +6,7 @@
> 自豪地采用[谷歌翻译](https://translate.google.cn/)
本章提供了通常用于可视化数据的各种图表的简单可视化概述。它既可以作为目录,也可以用来查找您可能不知道的特定名称的可视化,如果您需要找到您经常制作的图表的替代方案,则可以作为灵感来源。
本章提供了通常用于可视化数据的各种图形的简单可视化概述。它既可以作为目录,也可以用来查找您可能不知道的特定名称的可视化,如果您需要找到您经常制作的图形的替代方案,则可以作为灵感来源。
## 5.1 数量
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册