提交 810b0c54 编写于 作者: W wizardforcel

2020-04-26 22:03:35

上级 038105f5
......@@ -10,7 +10,7 @@
## 12.1 散点图
我将使用在 123 只蓝色杰伊鸟上进行的测量数据集,来演示基本散点图及其若干变体。数据集包含每只鸟的头部长度(从头部的尖端到头部后部测量),头骨尺寸(头部长度减去喙部长度)以及体重等信息。我们希望这些变量之间存在关系。例如,具有较长喙部的鸟类预计具有较大的头骨尺寸,具有较大体重的鸟类应具有比具有较小体重的鸟类更大的喙部和头骨。
我将使用在 123 只蓝色杰伊鸟上进行的测量数据集,来演示基本散点图及其若干变体。数据集包含每只鸟的头部长度(从头部的尖端到头部后部测量),头骨大小(头部长度减去喙部长度)以及体重等信息。我们希望这些变量之间存在关系。例如,具有较长喙部的鸟类预计具有较大的头骨大小,具有较大体重的鸟类应具有比具有较小体重的鸟类更大的喙部和头骨。
为了探索这些关系,我先从头部长度与体重的关系图开始(图 12.1)。在该图中,头长度沿 *y* 轴显示,体重沿 *x* 轴显示,每只鸟用一个点表示。 (注意术语:我们说,我们根据沿 *x* 轴显示的变量绘制沿 *y* 轴显示的变量。)点形成一个分散的云(因此术语是散点图),但毫无疑问,一个趋势是,体重较大的鸟类有更长的头部。头部最长的鸟接近观察到的最大体重,头部最短的鸟接近观察到的最小体重。
......@@ -28,9 +28,9 @@
![](img/84084034e6d8c8568893964f261f0de0.jpg)
图 12.3:123 只蓝鸟的头长与体重的关系。鸟的性别用颜色表示,鸟的头骨大小用标记大小表示。头部长度测量包括喙部的长度,而头骨尺寸测量则不包括。头部长度和头骨大小往往是相关的,但是有些鸟类的头骨尺寸非常长或短。数据来源:欧柏林学院的 Keith Tarvin
图 12.3:123 只蓝鸟的头长与体重的关系。鸟的性别用颜色表示,鸟的头骨大小用标记大小表示。头部长度测量包括喙部的长度,而头骨大小测量则不包括。头部长度和头骨大小往往是相关的,但是有些鸟类的头骨大小非常长或短。数据来源:欧柏林学院的 Keith Tarvin
气泡图的缺点是它们显示相同类型的变量,定量变量,具有两种不同类型的比例,位置和大小。这使得难以在视觉上确定各种变量之间的关联强度。此外,编码为气泡大小的数据值之间的差异,比编码为位置的数据值之间的差异更难以察觉。因为即使最大的气泡与总的图形尺寸相比也需要稍微小一些,即使最大和最小气泡之间的尺寸差异也必然很小。因此,数据值的较小差异将对应于实际上不可能看到的非常小的尺寸差异。在图 12.3 中,我使用了一个尺寸映射,可以直观地放大最小的头骨(大约 28mm)和最大的头骨(大约 34mm)之间的差异,但很难确定头骨尺寸和体重或头部长度之间的关系。
气泡图的缺点是它们显示相同类型的变量,定量变量,具有两种不同类型的比例,位置和大小。这使得难以在视觉上确定各种变量之间的关联强度。此外,编码为气泡大小的数据值之间的差异,比编码为位置的数据值之间的差异更难以察觉。因为即使最大的气泡与总的图形尺寸相比也需要稍微小一些,即使最大和最小气泡之间的尺寸差异也必然很小。因此,数据值的较小差异将对应于实际上不可能看到的非常小的尺寸差异。在图 12.3 中,我使用了一个尺寸映射,可以直观地放大最小的头骨(大约 28mm)和最大的头骨(大约 34mm)之间的差异,但很难确定头骨大小和体重或头部长度之间的关系。
作为气泡图的替代方案,最好显示一个根据全部变量的散点图矩阵,其中每个单独的图显示两个数据维度(图 12.4 )。该图清楚地表明,除了雌鸟往往稍微小一些之外,雌性和雄性鸟的头骨大小和体重之间的关系是相似的。然而,头部长度和体重之间的关系也是如此。不同性别有着显著的差异。雄性鸟类的喙部通常比雌性鸟类更长,其他变量相同。
......
# 22 标题,说明和表格
> 原文: [https://serialmentor.com/dataviz/figure-titles-captions.html](https://serialmentor.com/dataviz/figure-titles-captions.html)
> 原文: [22 Titles, captions, and tables](https://serialmentor.com/dataviz/figure-titles-captions.html)
> 校验:[飞龙](https://github.com/wizardforcel)
> 自豪地采用[谷歌翻译](https://translate.google.cn/)
数据可视化不是一件仅仅因其美学上令人愉悦的特征而被关注的艺术品。相反,它的目的是传达信息并提出一个观点。为了在准备可视化时可靠地实现此目标,我们必须将数据放入上下文并提供附带的标题,说明和其他注解。在本章中,我将讨论如何正确为图形起标题和标注图形。我还将讨论如何以表格形式呈现数据。
......@@ -24,37 +28,37 @@
## 22.2 轴和图例头衔
就像每个绘图都需要一个标题,轴和传说也需要标题。 (轴标题通常通俗地称为 _ 轴标签 _。)轴和图例标题和标签说明了显示的数据值以及它们如何映射到绘图美学。
就像每个绘图都需要一个标题,轴和图例也需要标题。 (轴标题通常通俗地称为轴标签。)轴标签和图例标题说明了显示的数据值,以及它们如何映射到绘图美学。
为了展示所有轴和图例都经过适当标注和标题的图表示例,我在第 [12](visualizing-associations.html#visualizing-associations) 章节中详细讨论了蓝色的 jay 数据集,并将其显示为气泡图(图 22.3 )。在该图中,轴标题清楚地表明 *x* 轴显示以克为单位的体重, *y* 轴显示以毫米为单位的头部长度。同样,图例标题显示点着色表示鸟类的性别,点大小表示鸟类的头骨大小,以毫米为单位。我强调,对于所有数值变量(体重,头长和头骨大小),相关标题不仅说明所显示的变量,还说明变量的测量单位。这是一种很好的做法,应该尽可能地完成。类别变量(例如性别)不需要单位。
为了展示所有轴和图例都经过适当标注和配有标题的图表示例,我在第 12 章中详细讨论了蓝色杰伊鸟数据集,并将其显示为气泡图(图 22.3 )。在该图中,轴标题清楚地表明 *x* 轴显示以克为单位的体重,*y* 轴显示以毫米为单位的头部长度。同样,图例标题显示,点的着色表示鸟类的性别,点的大小表示鸟类的头骨大小,以毫米为单位。我强调,对于所有数值变量(体重,头长和头骨大小),相关标题不仅说明所显示的变量,还说明变量的测量单位。这是一种很好的做法,应该尽可能地实现。类别变量(例如性别)不需要单位。
![](img/e154f6a3229c86a28111043f4cfc784a.jpg)
图 22.3:123 只蓝鸟的头长与体重的关系。鸟的性别用颜色表示,鸟的头骨大小用符号大小表示。头部长度测量包括账单的长度,而头骨尺寸测量则不包括。数据来源:欧柏林学院的 Keith Tarvin
图 22.3:123 只蓝鸟的头长与体重的关系。鸟的性别用颜色表示,鸟的头骨大小用符号大小表示。头部长度测量包括喙部的长度,而头骨大小测量则不包括。数据来源:欧柏林学院的 Keith Tarvin
但是,有些情况下,可以省略轴或图例标题,即标签本身完全解释时。例如,显示标记为“女性”和“男性”的两个不同颜色的点的图例清楚地表明颜色编码性别。标题“性别”不需要澄清这一事实,事实上在本书中我经常省略表示性别或性别的传说的图例标题(参见例如图 6.10 , 12.2 ,或 21.1 )。同样,国名通常不需要标题表明它们是什么(图 6.11 ),电影标题(图 6.1 )或年份(图 22.4 )也不需要)
但是,有些情况下,可以省略轴或图例标题,即标签完全自解释时。例如,显示标记为“雌性”和“雄性”的两个不同颜色的点的图例,清楚地表明颜色编码性别。标题“性别”不需要澄清这一事实,事实上在本书中,我经常省略表示性别的图例的图例标题(参见例如图 6.10 , 12.2 ,或 21.1)。同样,国家或地区名称通常不需要标题来表明它们是什么(图 6.11 ),电影标题(图 6.1 )或年份(图 22.4 )也不需要
![](img/6242b71901efdc537bd6b60c368d6974.jpg)
图 22.4:四家主要科技公司的股价随时间变化。 2012 年 6 月,每家公司的股票价格已经标准化为 100。这个数字是 [20](redundant-coding.html#redundant-coding) 章节 20.6 的略微修改版本。这里,表示时间的 *x* 轴没有标题。从上下文可以清楚地看出,2013 年,2014 年等数字是指年份。
图 22.4:四家主要科技公司的股价随时间的变化。 2012 年 6 月,每家公司的股票价格已经标准化为 100。这个图形是第 20 章 20.6 的略微修改版本。这里,表示时间的 *x* 轴没有标题。从上下文可以清楚地看出,2013 年,2014 年等数字是指年份。
但是,在省略轴或图例标题时我们必须要小心,因为很容易误判上下文中的内容和不明显的内容。我经常看到大众媒体中的图表将省略轴标题推到一个让我感到不舒服的地方。例如,一些出版物可能会产生一个数字,例如图 22.5 ,假设轴的含义从图表标题和副标题中清楚(这里:“四个主要科技公司的股票价格随着时间的推移”和“2012 年 6 月,每家公司的股票价格已经标准化为 100”。我不同意上下文明确定义轴的观点。因为标题通常不包括诸如“ *x* / *y* 轴显示”之类的单词,所以总是需要一定量的猜测来解释该图。根据我自己的经验,没有正确标记轴的数字往往会让我感到不安 - 即使我 95%确定我明白所展示的内容,我也不会 100%肯定。作为一般原则,我认为让读者猜出你的意思是一种不好的做法。你为什么要在读者中产生一种不确定感?
但是,在省略轴或图例标题时我们必须要小心,因为很容易误判上下文中的内容和不明显的内容。我经常看到大众媒体中的图表,以一种让我感到不舒服的程度省略轴标题。例如,一些出版物可能会产生一个图形,例如图 22.5 ,假设轴的含义在图表标题和副标题中清晰可见(这里:“四个主要科技公司的股票价格随时间的变化”和“2012 年 6 月,每家公司的股票价格已经标准化为 100”)。我不同意上下文明确定义轴的观点。因为标题通常不包括诸如“*x* / *y* 轴显示”之类的单词,所以总是需要一定量的猜测来解释该图。根据我自己的经验,轴没有正确标记的图形往往会让我感到不安 - 即使我 95% 确定我明白所展示的内容,我也不会 100% 肯定。作为一般原则,我认为让读者猜出你的意思是一种不好的做法。你为什么要对读者产生一种不确定感?
![](img/f314ecdfcd25b4ebb0c8523cc1ead771.jpg)
图 22.5:四家主要科技公司的股价随时间变化。 2012 年 6 月,每家公司的股票价格已经标准化为 100.图 22.4 的这个变体被标记为“坏”,因为 *y* 轴现在没有标题或者, *y* 轴上显示的值表示从上下文中不是立即显而易见的。
图 22.5:四家主要科技公司的股价随时间的变化。 2012 年 6 月,每家公司的股票价格已经标准化为 100。图 22.4 的这个变体被标记为“不好”,因为 *y* 轴现在没有标题,或者 *y* 轴上显示的值代表什么,从上下文中不是立即显而易见的。
另一方面,我们可以过度标注。如果图例列出了四家知名公司的名称,则图例标题“公司”是多余的,并没有添加任何有用的东西(图 22.6 )。同样地,即使我们通常应该报告所有定量变量的单位,如果 *x* 轴显示近几年将其标题为“时间(AD 年)”是尴尬的(图 22.6 )。
另一方面,我们可能过度标注。如果图例列出了四家知名公司的名称,则图例标题“公司”是多余的,并没有添加任何有用的东西(图 22.6 )。同样地,即使我们通常应该报告所有定量变量的单位,如果 *x* 轴显示近几年,将其标题设为“时间(年份 AD)”是笨拙的(图 22.6)。
![](img/c66f463634165f7e8d486ce6d6bc0d99.jpg)
图 22.6:四家主要科技公司的股价随时间变化。 2012 年 6 月,每家公司的股票价格已经标准化为 100.图 22.4 的这个变体被标记为“丑陋”,因为它被过度标记。特别地,为 *x* 轴上的值提供单位(“年 AD”)是不方便的。
图 22.6:四家主要科技公司的股价随时间的变化。 2012 年 6 月,每家公司的股票价格已经标准化为 100。图 22.4 的这个变体被标记为“丑陋”,因为它是过度标记的。特别地,为 *x* 轴上的值提供单位(“年份 AD”)是笨拙的。
最后,在某些情况下,不仅可以省略轴标题而且可以省略整个轴。饼图通常没有明确的轴(例如,图 10.1 ),树形图也没有(图 11.4 )。如果图的含义清楚,则可以显示没有一个或两个轴的马赛克图或条形图(图 11.3 和 6.10 )。省略带有轴刻度和刻度标签的显式轴向读者发出信号,表明图的定性特征比特定数据值更重要。
最后,在某些情况下,不仅可以省略轴标题而且可以省略整个轴。饼图通常没有明确的轴(例如,图 10.1),树形图也没有(图 11.4)。如果图的含义清楚,则可以显示没有一个或两个轴的马赛克图或条形图(图 11.3 和 6.10)。省略带有轴刻度和刻度标签的显式轴向读者发出信号,表明图的定性特征比特定数据值更重要。
## 22.3 表
## 22.3 表
是可视化数据的重要工具。然而,由于它们显而易见的简单性,它们可能并不总能得到所需的关注。我在本书中展示了一些表,例如表 6.1 , 7.1 和 19.1 。花点时间找到这些表格,查看它们的格式,并将它们与您或同事最近制作的表格进行比较。很有可能,存在重要的差异。根据我的经验,如果没有适当的表格格式培训,很少有人会本能地做出正确的格式选择。在自行发布的文档中,格式较差的表格比设计不佳的数据更为普遍。此外,通常用于创建表的大多数软件都提供了不推荐的默认值。例如,我的 Microsoft Word 版本提供了 105 种预定义的表格样式,其中至少 70-80 违反了我将在这里讨论的一些表格规则。因此,如果您随机选择 Microsoft Word 表格布局,则有 80%的机会选择一个有问题的表格。如果你选择默认值,那么每次都会得到一张格式不佳的表格。
格是可视化数据的重要工具。然而,由于它们显而易见的简单性,它们可能并不总是得到所需的关注。我在本书中展示了一些表,例如表 6.1 , 7.1 和 19.1 。花点时间找到这些表格,查看它们的格式,并将它们与您或同事最近制作的表格进行比较。很有可能,存在重要的差异。根据我的经验,如果没有适当的表格格式上的训练,很少有人会本能地做出正确的格式选择。在自行发布的文档中,格式较差的表格比设计不佳的图形更为普遍。此外,通常用于创建表格的大多数软件都提供了不推荐的默认值。例如,我的 Microsoft Word 版本提供了 105 种预定义的表格样式,其中至少 70-80 违反了我将在这里讨论的一些表格规则。因此,如果您随机选择 Microsoft Word 表格布局,则有 80% 的几率选择一个有问题的表格。如果你选择默认值,那么每次都会得到一张格式不佳的表格。
表格布局的一些关键规则如下:
......@@ -65,16 +69,18 @@
5. 包含单个字符的列居中。
6. 标题字段与其数据对齐,即,文本列的标题将左对齐,数字列的标题将右对齐。
图 22.7 以四种不同的方式从[6](visualizing-amounts.html#visualizing-amounts) 中复制表 6.1 ,其中两个(a,b)违反了其中一些规则,其中两个(c) ,d)不要
图 22.7 以四种不同的方式从第六章中重制表 6.1 ,其中两个(a,b)违反了其中一些规则,其中两个(c ,d)没有
![](img/61f0f5a51bb2d3d070d4ff073d727874.jpg)
图 22.7:使用第 [6](visualizing-amounts.html#visualizing-amounts) 章节 6.1 中的数据,表格格式不合适的示例。 (a)该表违反了许多正确的表格格式惯例,包括使用垂直线,使用数据行之间的水平线和使用居中数据列。 (b)该表遇到表(a)的所有问题,此外,它通过在非常暗和非常轻的行之间交替产生额外的视觉噪声。此外,表头在视觉上与表体强烈分离。 (c)这是一个格式适当的表格,设计极少。 (d)颜色可以有效地用于将数据分组成行,但颜色差异应该是微妙的。可以使用更强的颜色来设置表头。数据来源:Box Office Mojo( [http://www.boxofficemojo.com/](http://www.boxofficemojo.com/) )。经许可使用
图 22.7:使用第六章 6.1 中的数据,格式不佳和格式适当的表格示例。 (a)该表违反了许多正确的表格格式惯例,包括使用垂直线,使用数据行之间的水平线和使用居中数据列。 (b)该表遇到表(a)的所有问题,此外,通过在非常暗和非常亮的行之间交替,它产生额外的视觉噪声。此外,表头在视觉上与表体强烈分离。 (c)这是一个格式适当的表格,带有最少的设计。 (d)颜色可以有效地用于将数据分组成行,但颜色差异应该是微小的。可以使用更强的颜色来设置表头。数据来源:Box Office Mojo([boxofficemojo.com](http://www.boxofficemojo.com/)),经许可使用
当作者在数据行之间绘制具有水平线的表时,目的通常是帮助眼睛跟随各个线。但是,除非桌子非常宽且稀疏,否则通常不需要这种视觉辅助。我们也不会在一段常规文本中的行之间绘制水平线。水平(或垂直)线的成本是视觉混乱。比较图 22.7 的(a)和(c)部分。 (c)部分比(a)部分更容易阅读。如果我们觉得需要一个分隔表行的视觉辅助,那么行的较浅和较暗的阴影往往会工作得很好而不会产生太多的混乱(图 22.7 d)。
当作者绘制具有数据行间的水平线的表格时,目的通常是帮助眼睛跟随各个线。但是,除非表格非常宽且稀疏,否则通常不需要这种视觉辅助。我们也不会在一段常规文本中的行之间绘制水平线。水平(或垂直)线的成本是视觉混乱。比较图 22.7 的(a)和(c)部分。 (c)部分比(a)部分更容易阅读。如果我们觉得需要一个分隔表格的行的视觉辅助,那么行的较亮和较暗的交替阴影往往会工作得很好,而不会产生太多的混乱(图 22.7 d)。
最后,标题相对于显示项目所在的图形和表格之间存在关键区别。对于数字,习惯上将标题放在下面,而对于表格,通常将标题放在上面。此标题放置由读者处理图形和表格的方式指导。对于数字,读者倾向于首先查看图形显示,然后阅读上下文的标题,因此标题在图下方有意义。相比之下,表格往往像文本一样从上到下进行处理,在阅读标题之前读取表格内容通常没有用处。因此,字幕位于表格上方。
最后,图形和表格之间有个关键区别,即说明相对于显示项目所在的位置。对于图形,习惯上将说明放在下面,而对于表格,通常将说明放在上面。说明的放置由读者处理图形和表格的方式指导。对于图形,读者倾向于首先查看图形显示,然后阅读上下文的说明,因此说明在图下方有意义。相比之下,表格往往像文本一样从上到下进行处理,在阅读说明之前读取表格内容通常没有用处。因此,说明位于表格上方。
### 参考
经济学人在线。 “腐蚀性腐败。” [https://www.economist.com/graphic-detail/2011/12/02/corrosive-corruption](https://www.economist.com/graphic-detail/2011/12/02/corrosive-corruption)
\ No newline at end of file
```
The Economist online. 2011. “Corrosive Corruption.” https://www.economist.com/graphic-detail/2011/12/02/corrosive-corruption.
```
......@@ -48,7 +48,7 @@ Edward Tufte 在他的着作“定量信息的视觉显示”(Tufte [2001](#re
绘图背景中的网格线可以帮助读者识别特定数据值,并将绘图的一部分中的值与另一部分中的值进行比较。同时,网格线可以增加视觉噪声,特别是当它们突出或密集间隔时。合理的人可能不同意是否使用网格,如果是这样,如何格式化以及如何密集地使用它。在本书中,我使用了各种不同的网格样式,以突出显示不一定是最佳选择。
R 软件 ggplot2 在灰色背景上使用相当突出的白线背景网格推广了一种风格。图 23.7 显示了这种风格的一个例子。该图显示了 2012 年至 2017 年五个窗口期间四家主要科技公司的股价变化。向 ggplot2 作者 Hadley Wickham 道歉,我非常尊重他,我没有找到白色 - 灰色背景网格特别有吸引力。在我看来,灰色背景可以减损实际数据,并且具有主线和次线的网格可能太密集。我也发现传说中的灰色方块令人困惑。
R 软件 ggplot2 在灰色背景上使用相当突出的白线背景网格推广了一种风格。图 23.7 显示了这种风格的一个例子。该图显示了 2012 年至 2017 年五个窗口期间四家主要科技公司的股价变化。向 ggplot2 作者 Hadley Wickham 道歉,我非常尊重他,我没有找到白色 - 灰色背景网格特别有吸引力。在我看来,灰色背景可以减损实际数据,并且具有主线和次线的网格可能太密集。我也发现图例中的灰色方块令人困惑。
![](img/60714a756abe6972b7984c1793e9934d.jpg)
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册