提交 e5e94dcf 编写于 作者: W wizardforcel

2020-04-28 16:23:55

上级 1a3bae0e
......@@ -2,25 +2,25 @@
> 原文: [https://serialmentor.com/dataviz/choosing-visualization-software.html](https://serialmentor.com/dataviz/choosing-visualization-software.html)
在本书中,我有目的地避免了数据可视化的一个关键问题:我们如何实际生成数据?我们应该使用什么工具?这个问题可以产生激烈的讨论,因为许多人对他们熟悉的特定工具有强烈的情感纽带。我经常看到人们大力捍卫他们自己喜欢的工具,而不是花时间学习新的方法,即使新方法有客观的好处。我会说坚持使用你知道的工具并非完全不合理。学习任何新工具都需要时间和精力,而且你将不得不经历一个痛苦的过渡期,使用新工具完成任务比使用旧工具要困难得多。无论是经过这段时间还是值得付出努力,通常只有在人们投入资金来学习新工具之后才能回顾一下。因此,无论不同工具和方法的优缺点如何,最重要的原则是您需要选择适合您的工具。如果你能够制作想要制作的数字,而不需要过多的努力,那就重要了
在本书中,我有目的地避免了数据可视化的一个关键问题:我们如何实际生成数据?我们应该使用什么工具?这个问题可以产生激烈的讨论,因为许多人对他们熟悉的特定工具有强烈的情感纽带。我经常看到人们大力捍卫他们自己喜欢的工具,而不是花时间学习新的方法,即使新方法有客观的好处。我会说坚持使用你知道的工具并非完全不合理。学习任何新工具都需要时间和精力,而且你将不得不经历一个痛苦的过渡期,使用新工具完成任务比使用旧工具要困难得多。经历这段时间是否值得付出努力,通常只有在人们投入资金来学习新工具之后才能回顾一下。因此,无论不同工具和方法的优缺点如何,最重要的原则是您需要选择适合您的工具。你是否能够制作想要制作的图形,而不需要过多的努力,是最重要的
最好的可视化软件是允许您制作所需图形的软件。
话虽如此,我确实认为我们可以使用一般原则来评估不同方法产生可视化的相对优点。这些原则大致可分解的是可视化的可重现性,快速浏览数据的容易程度,以及输出的视觉外观可以调整到何种程度。
话虽如此,我确实认为我们可以使用一般原则,来评估不同方法产生可视化的相对优点。这些原则大致可分解为可视化的可复现性,快速浏览数据的容易程度,以及输出的视觉外观可以调整到何种程度。
## 28.1 重复性和重复性
## 28.1 可复现性和可重复性
在科学实验的背景下,如果不同的研究小组进行相同类型的研究,如果工作的总体科学发现将保持不变,我们将工作称为可重复的。例如,如果一个研究小组发现一种新的止痛药可以显着减轻感知的头痛,而不会引起明显的副作用,并且不同的小组随后在不同的患者组中研究相同的药物并且具有相同的发现,那么该工作是可重复的。相反,如果同一个人在同一设备上重复完全相同的测量程序可以获得非常相似或相同的测量结果,则工作是可重复的。例如,如果我称我的狗,并且发现她重 41 磅,然后我在相同的秤上再次称重她并再次发现她重 41 磅,那么这个测量是可重复的。
在科学实验的背景下,如果不同的研究小组进行相同类型的研究,且工作的总体科学发现将保持不变,我们将工作称为可复现的。例如,如果一个研究小组发现一种新的止痛药可以显着减轻所感知的头痛,而不会引起明显的副作用,并且不同的小组随后在不同的患者组中研究相同的药物并且具有相同的发现,那么该工作是可复现的。相反,如果通过在同一设备上重复完全相同的测量程序,同一个人可以获得非常相似或相同的测量结果,则工作是可重复的。例如,如果我称量我的狗,并且发现它重 41 磅,然后我在相同的秤上再次称重它并再次发现它重 41 磅,那么这个测量是可重复的。
通过微小的修改,我们可以将这些概念应用于数据可视化。如果绘制的数据可用并且可能已经应用的任何数据转换被精确指定,则可视化是可再现的。例如,如果你制作一个数字然后向我发送你绘制的确切数据,那么我可以制作一个看起来非常相似的数字。我们可能使用稍微不同的字体或颜色或点大小来显示相同​​的数据,因此这两个数字可能不完全相同,但您的数字和我的传达相同的信息,因此是彼此的复制品。另一方面,如果可以从原始数据重建完全相同的视觉外观(直到最后一个像素),则可视化是可重复的。严格来说,重复性要求即使图中有随机元素,例如抖动(章节 [18](overlapping-points.html#overlapping-points) ),这些元素也是以可重复的方式指定的,并且可以在将来的日期重新生成。对于随机数据,可重复性通常要求我们指定一个特定的随机数发生器,我们为其设置和记录种子。
通过微小的修改,我们可以将这些概念应用于数据可视化。如果绘制的数据可用,并且可能已经应用的任何数据转换是精确指定的,则可视化是可复现的。例如,如果你制作一个图形然后向我发送你绘制的确切数据,那么我可以制作一个看起来非常相似的图形。我们可能使用稍微不同的字体或颜色或点的大小,来显示相同​​的数据,因此这两个图形可能不完全相同,但您的和我的图形传达相同的信息,因此是彼此的复制品。另一方面,如果可以从原始数据重建完全相同的视觉外观(直到最后一个像素),则可视化是可重复的。严格来说,可重复性要求即使图中有随机元素,例如抖动(第 18 章),这些元素也是以可重复的方式指定的,并且可以在将来某一天重新生成。对于随机数据,可重复性通常要求我们指定一个特定的随机数发生器,我们为其设置和记录种子。
在本书中,我们已经看到许多重现但不重复其他数字的数字示例。例如,章 [25](avoid-line-drawings.html#avoid-line-drawings) 显示了几组图,其中每组中的所有数字显示相同的数据,但每组中的每个数字看起来有些不同。类似地,图 28.1 a 是图 9.7 的重复,直到应用于每个数据点的随机抖动,而图 28.1 b 只是一个再现这个数字。图 28.1 b 具有与图 9.7 不同的抖动,并且它还使用了完全不同的视觉设计,即使它们清楚地传达有关数据的相同信息,这两个数字看起来也非常不同。
在本书中,我们已经看到许多数字示例,它们复现但不重复其他图形。例如,第 25 章显示了几组图,其中每组中的所有图形显示相同的数据,但每组中的每个图形看起来有些不同。类似地,图 28.1a 是图 9.7 的重复,包括应用于每个数据点的随机抖动,而图 28.1b 只是这个图形的一个复现。图 28.1 b 具有与图 9.7 不同的抖动,并且它还使用了完全不同的视觉设计,即使它们清楚地传达数据的相同信息,这两个图形看起来也非常不同。
![](img/edb921e5dff02b6b5b91b3aeddde10bf.jpg)
图 28.1:重复和再现图形。 (a)部分重复图 9.7 。两个数字相同,直到应用于每个点的随机抖动。相比之下,(b)部分是复制而不是重复。特别是,(b)部分的抖动与(a)部分或图 9.7 中的抖动不同。
图 28.1:图形的重复和复现。部分(a)重复图 9.7 。两个图形相同,包括应用于每个点的随机抖动。相比之下,部分(b)是复现而不是重复。特别是,部分(b)的抖动与部分(a)或图 9.7 中的抖动不同。
当我们使用交互式绘图软件时,很难实现可重复性和可重复性。许多交互式程序允许您转换或以其他方式操纵数据,但不会跟踪您执行的每个单独的数据转换,而只跟踪最终产品。如果你使用这种程序制作一个图形,然后有人要求你重现图形或用不同的数据集创建类似的图形,你可能很难这样做。在我担任博士后和年轻的助理教授期间,我使用了一个交互式程序来完成我所有的科学可视化,这个确切的问题在我身上发生了好几次。例如,我为科学手稿制作了几个数字。几个月之后,当我想要修改手稿并需要重现其中一个数字的略微修改版本时,我意识到我不太确定我是如何制作原始人物的。这种经历教会我尽可能远离互动节目。我现在以编程方式编写数字,编写从原始数据生成数字的代码(脚本)。任何能够访问生成脚本和编程语言以及使用的特定库的人通常都可以重复编程生成的数字
当我们使用交互式绘图软件时,很难实现可重复性和可复现性。许多交互式程序允许您转换或以其他方式操纵数据,但不会跟踪您执行的每个单独的数据转换,而只跟踪最终产品。如果你使用这种程序制作一个图形,然后有人要求你复现图形或用不同的数据集创建类似的图形,你可能很难这样做。在我担任博士后和年轻的助理教授期间,我使用了一个交互式程序来完成我所有的科学可视化,这个确切的问题在我身上发生了好几次。例如,我为科学手稿制作了几个图形。几个月之后,当我想要修改手稿,并需要复现其中一个图形的略微修改版本时,我意识到我不太确定我是如何制作原始图形的。这种经历教会我尽可能远离交互程序。我现在以编程方式制作图形,通过编写从原始数据生成图形的代码(脚本)。任何能够访问所使用的生成脚本、编程语言以及特定库的人,通常都可以重复通过编程生成的图形
## 28.2 数据探索与数据表示
......@@ -30,13 +30,13 @@
一旦我们确定了我们想要可视化数据的确切程度,我们想要进行哪些数据转换以及使用什么类型的绘图,我们通常都希望制作一个高质量的数据用于发布。在这一点上,我们有几种不同的途径可以追求。首先,我们可以使用我们用于初步探索的相同软件平台来确定数字。其次,我们可以将平台切换到一个可以让我们更好地控制最终产品的平台,即使该平台更难以探索。第三,我们可以使用可视化软件生成草图,然后使用图像处理或插图程序(如 Photoshop 或 Illustrator)手动后处理。第四,我们可以手动重绘整个图形,使用笔和纸或使用插图程序。
所有这些途径都是合理的。但是,我想提醒您不要在常规数据分析管道或科学出版物中手动修改数据。图形制作管道中的手动步骤使得重复或再现图形本身是困难且耗时的。根据我从事自然科学工作的经验,我们很少只做一次数字。在研究过程中,我们可能会重做实验,扩展原始数据集,或者在稍微改变条件的情况下重复几次实验。我在出版过程的后期已多次看到它,当我们认为一切都已完成并最终确定时,我们最终对我们如何分析数据进行了一些小修改,因此所有数字都必须重新绘制。我也看到,在类似的情况下,决定不重做分析或不重绘数字,无论是由于所涉及的努力还是因为制作原始人物的人已经移动并且不是'再也没用了。在所有这些场景中,不必要的复杂且不可重现的数据可视化管道会干扰产生最佳科学。
所有这些途径都是合理的。但是,我想提醒您不要在常规数据分析管道或科学出版物中手动修改数据。图形制作管道中的手动步骤使得重复或复现图形本身是困难且耗时的。根据我从事自然科学工作的经验,我们很少只做一次数字。在研究过程中,我们可能会重做实验,扩展原始数据集,或者在稍微改变条件的情况下重复几次实验。我在出版过程的后期已多次看到它,当我们认为一切都已完成并最终确定时,我们最终对我们如何分析数据进行了一些小修改,因此所有数字都必须重新绘制。我也看到,在类似的情况下,决定不重做分析或不重绘数字,无论是由于所涉及的努力还是因为制作原始人物的人已经移动并且不是'再也没用了。在所有这些场景中,不必要的复杂且不可复现的数据可视化管道会干扰产生最佳科学。
话虽如此,我对手工绘制的图形或手动后处理的图形没有任何原则性的关注,例如更改轴标签,添加注解或修改颜色。这些方法可以产生美丽而独特的图形,这些图形无法以任何其他方式轻松制作。事实上,随着复杂和精致的计算机生成的可视化变得越来越普遍,我观察到手动绘制的数字正在复苏(参见图 28.2 的例子)。我认为情况就是这样,因为这些数字代表了一种独特的个性化视角,可能是一种有点无菌和常规的数据呈现。
![](img/9bc184d6888e68d5e02fc604b3751200.jpg)
图 28.2:引入下一代测序方法后,每个基因组的测序成本下降得比摩尔定律预测的要快得多。这个手绘的图形现了由美国国立卫生研究院制作的广泛宣传的可视化。数据来源:国家人类基因组研究所
图 28.2:引入下一代测序方法后,每个基因组的测序成本下降得比摩尔定律预测的要快得多。这个手绘的图形现了由美国国立卫生研究院制作的广泛宣传的可视化。数据来源:国家人类基因组研究所
## 28.3 分离内容和设计
......@@ -50,4 +50,4 @@
内容和设计的分离使数据科学家和设计师能够专注于他们最擅长的事情。大多数数据科学家不是设计师,因此他们主要关注的是数据,而不是可视化的设计。同样,大多数设计师不是数据科学家,他们应该能够为数字提供独特而吸引人的视觉语言,而不必担心特定数据,适当的转换等。在书籍,杂志,报纸和网站的出版界,长期以来一直遵循分离内容和设计的相同原则,其中作者提供内容但不提供布局或设计。布局和设计由一组专门从事该领域的人员创建,他们确保出版物以视觉上一致和吸引人的风格出现。这个原则是合乎逻辑且有用的,但在数据可视化领域尚未普及。
总之,在选择可视化软件时,请考虑如何轻松地再现图形并使用更新或以其他方式更改的数据集重做它们,是否可以快速浏览相同数据的不同可视化,以及您可以在多大程度上单独调整视觉设计从生成图形内容。根据您的技能水平和编程的舒适度,在数据探索和数据展示阶段使用不同的可视化工具可能是有益的,您可能更愿意以交互方式或手动方式进行最终的视觉调整。如果您必须以交互方式制作数字,特别是使用不能跟踪所有数据转换和您已应用的视觉调整的软件,请考虑仔细记录您如何制作每个数字,以便所有工作都可以重现。
\ No newline at end of file
总之,在选择可视化软件时,请考虑如何轻松地复现图形并使用更新或以其他方式更改的数据集重做它们,是否可以快速浏览相同数据的不同可视化,以及您可以在多大程度上单独调整视觉设计从生成图形内容。根据您的技能水平和编程的舒适度,在数据探索和数据展示阶段使用不同的可视化工具可能是有益的,您可能更愿意以交互方式或手动方式进行最终的视觉调整。如果您必须以交互方式制作数字,特别是使用不能跟踪所有数据转换和您已应用的视觉调整的软件,请考虑仔细记录您如何制作每个数字,以便所有工作都可以复现。
\ No newline at end of file
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册