提交 6346390c 编写于 作者: W wizardforcel

2020-04-27 12:00:55

上级 810b0c54
......@@ -2,17 +2,17 @@
> 原文: [https://serialmentor.com/dataviz/balance-data-context.html](https://serialmentor.com/dataviz/balance-data-context.html)
我们可以将任何可视化中的图形元素大致细分为表示数据的元素和不表示数据的元素。前者是诸如散点图中的点,直方图或条形图中的条形或热图中的阴影区域等元素。后者是诸如绘图轴,轴刻度和标签,轴标题,图例和绘图注释等元素。这些元素通常为图的数据和/或视觉结构提供上下文。在设计绘图时,考虑用于表示数据和上下文的墨水量(章节 [17](proportional-ink.html#proportional-ink) )会很有帮助。一个常见的建议是减少非数据墨水的数量,遵循这些建议往往可以减少混乱和更优雅的可视化。同时,背景和视觉结构是重要的,过度地最小化提供它们的绘图元素可能导致难以阅读,混淆或根本没有引人注目的数字
我们可以将任何可视化中的图形元素,大致细分为表示数据的元素和不表示数据的元素。前者是诸如散点图中的点,直方图或条形图中的条形,或热图中的阴影区域等元素。后者是诸如绘图的轴,轴刻度和标签,轴标题,图例和绘图注解等元素。这些元素通常为图的数据和/或视觉结构提供上下文。在设计绘图时,考虑用于表示数据和上下文的墨水量(第 17 章)会很有帮助。一个常见的建议是减少非数据墨水量,遵循这些建议往往可以减少混乱,并产生更优雅的可视化。同时,背景和视觉结构是重要的,过度缩减提供它们的绘图元素,可能产生难以阅读,令人混淆或根本不引人注目的图形
## 23.1 提供适当数量的背景
Edward Tufte 在他的着作“定量信息的视觉显示”(Tufte [2001](#ref-TufteQuantDispl) )中推广了区分数据和非数据墨水可能有用的想法。 Tufte 引入了“数据 - 墨水比”的概念,他将其定义为“用于数据信息的非冗余显示的图形墨水的比例。”然后他写道(强调我的):
Edward Tufte 在他的着作“定量信息的视觉显示”(Tufte 2001)中推广了一个想法,即区分数据和非数据墨水可能是有用的。 Tufte 引入了“数据-墨水比”的概念,他将其定义为“用于数据信息的非冗余显示的图形墨水比例。”然后他写道(强调我的):
> 在合理范围内最大化数据墨水比率 _。_
> 在合理范围内最大化数据墨水比
我强调了“在合理范围内”这一短语,因为它很重要并经常被遗忘。事实上,我认为 Tufte 自己在他的书的其余部分中忘记了它,在那里他提倡过于简约的设计,在我看来,这些设计既不优雅也不容易破译。如果我们将“最大化数据墨水比率”这一短语解释为“消除混乱并努力获得干净和优雅的设计”,那么我认为这是合理的建议。但是,如果我们将其解释为“尽你所能去除非数据墨水”那么它将导致糟糕的设计选择。如果我们在任何一个方向走得太远,我们最终会得到丑陋的数字。然而,远离极端情况,有各种各样的设计都是可以接受的,并且可能适用于不同的环境。
我强调了“在合理范围内”这一短语,因为它很重要并经常被遗忘。事实上,我认为 Tufte 自己在他的书的其余部分中忘记了它,在那里他提倡过于简约的设计,在我看来,这些设计既不优雅也不容易破译。如果我们将“最大化数据墨水比”这一短语,解释为“消除混乱并努力获得干净和优雅的设计”,那么我认为这是合理的建议。但是,如果我们将其解释为“尽你所能去除非数据墨水”那么它将导致糟糕的设计选择。如果我们在任何一个方向走得太远,我们最终会得到丑陋的图形。然而,远离极端情况,有各种各样的设计都是可以接受的,并且可能适用于不同的环境。
为了探索极端,让我们考虑一个明显有太多非数据墨水的数字(图 23.1 )。绘图面板中的彩色点(包含数据点的框架中心区域)是数据墨水。其他一切都是非数据墨水。非数据墨水包括围绕整个图形的框架,围绕绘图面板的框架以及围绕图例的框架。这些帧都不是必需的。我们还看到一个突出且密集的背景网格,将注意力从实际数据点上移开。通过移除框架和次要网格线并通过以浅灰色绘制主要网格线,我们得到图 23.2 。在该版本的图中,实际数据点更加清晰,并且它们被认为是该图中最重要的组成部分。
为了探索极端情况,让我们考虑一个明显有太多非数据墨水的图形(图 23.1 )。绘图面板中的彩色点(包含数据点的方框中心区域)是数据墨水。其他一切都是非数据墨水。非数据墨水包括围绕整个图形的方框,围绕绘图面板的方框以及围绕图例的方框。这些方框都不是必需的。我们还看到一个突出且密集的背景网格,将注意力从实际数据点上移开。通过移除方框和次要网格线,并以浅灰色绘制主要网格线,我们得到图 23.2 。在该版本的图中,实际数据点更加清晰,并且它们被认为是该图中最重要的成分。
![](img/8ae2c6c49990fdea739bbe492b1b06aa.jpg)
......@@ -22,7 +22,7 @@ Edward Tufte 在他的着作“定量信息的视觉显示”(Tufte [2001](#re
图 23.2:澳大利亚职业男运动员的体脂百分比与身高的关系。该图是图 23.1 的清理版本。已删除不必要的帧,删除了较小的网格线,并且以浅灰色绘制了主要网格线以相对于数据点后退。数据来源:特尔福德和坎宁安( [1991](#ref-Telford-Cunningham-1991)
在另一个极端,我们可能会得到一个数字,如图 23.3 ,这是图 23.2 的极简版。在这个图中,轴刻度标签和标题已经变得如此微弱,以至于很难看到。如果我们只是看一下这个数字,我们就不会立即看到实际显示的数据。我们只看到漂浮在太空中的点。此外,图例注非常微弱,以至于图例中的点可能会被误认为是数据点。这种效果被放大,因为在绘图区域和图例之间没有明显的视觉分离。注意图 23.2 中的背景网格如何锚定空间中的点并从图例区域中引出数据区域。这些影响都已在图 23.3 中丢失。
在另一个极端,我们可能会得到一个数字,如图 23.3 ,这是图 23.2 的极简版。在这个图中,轴刻度标签和标题已经变得如此微弱,以至于很难看到。如果我们只是看一下这个数字,我们就不会立即看到实际显示的数据。我们只看到漂浮在太空中的点。此外,图例注非常微弱,以至于图例中的点可能会被误认为是数据点。这种效果被放大,因为在绘图区域和图例之间没有明显的视觉分离。注意图 23.2 中的背景网格如何锚定空间中的点并从图例区域中引出数据区域。这些影响都已在图 23.3 中丢失。
![](img/1862102b4886615e7b4a28847f7d89b3.jpg)
......
......@@ -2,9 +2,9 @@
> 原文: [https://serialmentor.com/dataviz/small-axis-labels.html](https://serialmentor.com/dataviz/small-axis-labels.html)
如果你只拿走本书中的一节课,那么就这样做:注意轴标签,轴刻度标签和其他各种绘图注。他们的机会太小了。根据我的经验,几乎所有的绘图库和图形软件都有很差的默认值。如果你使用默认值,你几乎肯定做出了糟糕的选择。
如果你只拿走本书中的一节课,那么就这样做:注意轴标签,轴刻度标签和其他各种绘图注。他们的机会太小了。根据我的经验,几乎所有的绘图库和图形软件都有很差的默认值。如果你使用默认值,你几乎肯定做出了糟糕的选择。
例如,考虑图 24.1 。我一直看到这样的数字。轴标签,轴刻度标签和图例标签都非常小。我们几乎看不到它们,我们可能需要放大页面来阅读图例中的注
例如,考虑图 24.1 。我一直看到这样的数字。轴标签,轴刻度标签和图例标签都非常小。我们几乎看不到它们,我们可能需要放大页面来阅读图例中的注
![](img/e7e8bd3460311860e6eaad196d30bb59.jpg)
......
......@@ -32,7 +32,7 @@
所有这些途径都是合理的。但是,我想提醒您不要在常规数据分析管道或科学出版物中手动修改数据。图形准备管道中的手动步骤使得重复或再现图形本身是困难且耗时的。根据我从事自然科学工作的经验,我们很少只做一次数字。在研究过程中,我们可能会重做实验,扩展原始数据集,或者在稍微改变条件的情况下重复几次实验。我在出版过程的后期已多次看到它,当我们认为一切都已完成并最终确定时,我们最终对我们如何分析数据进行了一些小修改,因此所有数字都必须重新绘制。我也看到,在类似的情况下,决定不重做分析或不重绘数字,无论是由于所涉及的努力还是因为制作原始人物的人已经移动并且不是'再也没用了。在所有这些场景中,不必要的复杂且不可重现的数据可视化管道会干扰产生最佳科学。
话虽如此,我对手工绘制的图形或手动后处理的图形没有任何原则性的关注,例如更改轴标签,添加注或修改颜色。这些方法可以产生美丽而独特的图形,这些图形无法以任何其他方式轻松制作。事实上,随着复杂和精致的计算机生成的可视化变得越来越普遍,我观察到手动绘制的数字正在复苏(参见图 28.2 的例子)。我认为情况就是这样,因为这些数字代表了一种独特的个性化视角,可能是一种有点无菌和常规的数据呈现。
话虽如此,我对手工绘制的图形或手动后处理的图形没有任何原则性的关注,例如更改轴标签,添加注或修改颜色。这些方法可以产生美丽而独特的图形,这些图形无法以任何其他方式轻松制作。事实上,随着复杂和精致的计算机生成的可视化变得越来越普遍,我观察到手动绘制的数字正在复苏(参见图 28.2 的例子)。我认为情况就是这样,因为这些数字代表了一种独特的个性化视角,可能是一种有点无菌和常规的数据呈现。
![](img/9bc184d6888e68d5e02fc604b3751200.jpg)
......
......@@ -82,7 +82,7 @@
对人类感知的研究表明,更具视觉复杂性和独特性的数字更令人难忘(Bateman 等 [2010](#ref-Bateman_et_al_2010) ; Borgo 等 [2012](#ref-Borgo_et_al_2012) )。然而,视觉独特性和复杂性不仅影响可记忆性,因为它们可能妨碍人们快速浏览信息或难以区分值的微小差异。在极端情况下,一个数字可能是非常令人难忘,但完全令人困惑。这样的数字不是一个好的数据可视化,即使它作为一个令人惊叹的艺术作品很好。在另一个极端,数字可能非常清楚,但是可以忘记和无聊,这些数字可能没有我们可能希望的影响。总的来说,我们希望在两个极端之间取得平衡,并使我们的数字既令人难忘又清晰。 (然而,目标读者也很重要。如果一个数字是用于技术科学出版物,我们通常会担心备忘录,而不是这个数字是用于广泛阅读的报纸或博客。)
通过添加反映数据特征的视觉元素,我们可以使图形更难忘,例如数据集所涉及的事物或对象的图形或象形图。通常采用的一种方法是以重复图像的形式显示数据值本身,使得图像的每个副本对应于所表示的变量的定义量。例如,我们可以将图 29.8 中的条形图替换为狗,猫,鱼和鸟的重复图像,绘制成一定比例,使每个完整的动物对应 500 万个住所(图 29.9 )。因此,在视觉上,图 29.9 仍然可以作为条形图,但我们现在增加了一些视觉复杂性,使图形更令人难忘,我们还使用直接反映数据意义的图像显示数据。只需快速浏览一下这个数字,您就可以记住,除了鱼或鸟之外,还有更多的狗和猫。重要的是,在这样的可视化中,我们希望使用图像来表示数据,而不是简单地使用图像来装饰可视化或注轴。在心理学实验中,后者的选择倾向于分散注意力而不是有用(Haroz,Kosara 和 Franconeri [2015](#ref-Haroz_et_al_2015) )。
通过添加反映数据特征的视觉元素,我们可以使图形更难忘,例如数据集所涉及的事物或对象的图形或象形图。通常采用的一种方法是以重复图像的形式显示数据值本身,使得图像的每个副本对应于所表示的变量的定义量。例如,我们可以将图 29.8 中的条形图替换为狗,猫,鱼和鸟的重复图像,绘制成一定比例,使每个完整的动物对应 500 万个住所(图 29.9 )。因此,在视觉上,图 29.9 仍然可以作为条形图,但我们现在增加了一些视觉复杂性,使图形更令人难忘,我们还使用直接反映数据意义的图像显示数据。只需快速浏览一下这个数字,您就可以记住,除了鱼或鸟之外,还有更多的狗和猫。重要的是,在这样的可视化中,我们希望使用图像来表示数据,而不是简单地使用图像来装饰可视化或注轴。在心理学实验中,后者的选择倾向于分散注意力而不是有用(Haroz,Kosara 和 Franconeri [2015](#ref-Haroz_et_al_2015) )。
![](img/ec36a1415ee03568416cbba943e37cdd.jpg)
......
# 30 带注的参考书目
# 30 带注的参考书目
> 原文: [https://serialmentor.com/dataviz/bibliography.html](https://serialmentor.com/dataviz/bibliography.html)
......
......@@ -26,7 +26,7 @@
由于上述所有原因,交互式绘图程序是一个坏主意。它们固有地迫使您手动准备您的图表。实际上,最好自动生成一个图表草稿并在 Illustrator 中修饰它,而不是在一些交互式绘图程序中手工制作整个图表。请注意,Excel 也是一个交互式绘图程序,不建议用于图表准备(或数据分析)。
数据可视化图书中的一个关键组成部分,是所提出的可视化的可行性。很高兴能够发明一些优雅的可视化新方法,但是如果没有人能够使用这种可视化轻松生成数据,那么就没有多大用处。例如,当 Tufte 首次提出迷你图时,没有人能够轻松制作它们。虽然我们需要有远见的人通过可能的方式来推动世界的发展,但我认为这本书是切实可行的,并直接适用于为其出版物准备数据的职业数据科学家。因此,我在后续章节中提出的可视化,可以通过几行 R 代码,通过 和随时可用的扩展包生成。事实上,本书中的几乎每一个图表,除了第 [26](no-3d.html#no-3d)[27](image-file-formats.html#image-file-formats)[28](choosing-visualization-software.html#choosing-visualization-software) 章中的一些图表外,都是完全自动生成的。
数据可视化图书中的一个关键分,是所提出的可视化的可行性。很高兴能够发明一些优雅的可视化新方法,但是如果没有人能够使用这种可视化轻松生成数据,那么就没有多大用处。例如,当 Tufte 首次提出迷你图时,没有人能够轻松制作它们。虽然我们需要有远见的人通过可能的方式来推动世界的发展,但我认为这本书是切实可行的,并直接适用于为其出版物准备数据的职业数据科学家。因此,我在后续章节中提出的可视化,可以通过几行 R 代码,通过 和随时可用的扩展包生成。事实上,本书中的几乎每一个图表,除了第 [26](no-3d.html#no-3d)[27](image-file-formats.html#image-file-formats)[28](choosing-visualization-software.html#choosing-visualization-software) 章中的一些图表外,都是完全自动生成的。
## 致谢
......
......@@ -10,7 +10,7 @@
## 2.1 美学和数据类型
美学描述了给定图形元素的每个方面。图 2.1 中提供了一些示例。每个图形元素的关键组成部分当然是它的位置,描述了元素的位置。在标准 2D 图形中,我们通过`x``y`值来描述位置,但是其他坐标系和一维或三维可视化也是可能的。接下来,所有图形元素都具有形状,尺寸和颜色。即使我们正在准备黑白图纸,图形元素也需要有可见的颜色,例如,如果背景为白色,则为黑色;如果背景为黑色,则为白色。最后,我们使用线条来可视化数据,这些线条可能具有不同的宽度或点划线图案。除了图 2.1 中显示的示例之外,我们在数据可视化中可能会遇到许多其他美学。例如,如果我们想要显示文本,我们可能必须指定字体系列,字体界面和字体大小,如果图形对象重叠,我们可能必须指定它们是否部分透明。
美学描述了给定图形元素的每个方面。图 2.1 中提供了一些示例。每个图形元素的关键分当然是它的位置,描述了元素的位置。在标准 2D 图形中,我们通过`x``y`值来描述位置,但是其他坐标系和一维或三维可视化也是可能的。接下来,所有图形元素都具有形状,尺寸和颜色。即使我们正在准备黑白图纸,图形元素也需要有可见的颜色,例如,如果背景为白色,则为黑色;如果背景为黑色,则为白色。最后,我们使用线条来可视化数据,这些线条可能具有不同的宽度或点划线图案。除了图 2.1 中显示的示例之外,我们在数据可视化中可能会遇到许多其他美学。例如,如果我们想要显示文本,我们可能必须指定字体系列,字体界面和字体大小,如果图形对象重叠,我们可能必须指定它们是否部分透明。
![](img/171cbd0fc5aa63677c7b342755b11199.jpg)
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册