提交 6b721301 编写于 作者: W wizardforcel

2020-05-08 16:51:47

上级 ea0ae122
# 16 可视化不确定性
> 原文: [https://serialmentor.com/dataviz/visualizing-uncertainty.html](https://serialmentor.com/dataviz/visualizing-uncertainty.html)
> 原文: [16 Visualizing uncertainty](https://serialmentor.com/dataviz/visualizing-uncertainty.html)
> 校验:[飞龙](https://github.com/wizardforcel)
> 自豪地采用[谷歌翻译](https://translate.google.cn/)
数据可视化最具挑战性的方面之一是不确定性的可视化。当我们看到在特定位置绘制的数据点时,我们倾向于将其解释为真实数据值的精确表示。很难想象数据点实际上可能位于尚未绘制的某个位置。然而,这种情况在数据可视化中无处不在。几乎我们使用的每个数据集都有一些不确定性,我们选择表示这种不确定性的方式,对我们的受众多么准确地感知数据的含义,可能产生重大影响。
......@@ -144,40 +148,42 @@
![](img/f3878e9124ea6ea3f4fe1a0ef220f4de.jpg)
图 16.18:32 辆汽车(1973-74 型号)的燃油效率与排量的关系。每个点代表一辆汽车,通过拟合 5 节的立方回归样条获得平滑线。 (a)最佳拟合样条和置信带。 (b)从后验分布中得出的等可能的替代拟合。数据来源:Motor Trend,1974。
图 16.18:32 辆汽车(1973-74 型号)的燃油效率与排量的关系。每个点代表一辆汽车,通过拟合 5 节的立方回归样条获得平滑线。 (a)最佳拟合样条和置信带。 (b)从后验分布中抽取的等可能的替代拟合。数据来源:Motor Trend,1974。
## 16.4 假设结果图
所有不确定性的静态可视化都受到以下问题的困扰:读者可能将不确定性可视化的某些方面解释为数据的确定性特征(确定性构造误差)。我们可以通过动画可视化不确定性,通过循环通过许多不同但同样可能的绘图来避免这个问题。这种可视化被称为假设结果图(Hullman,Resnick 和 Adar [2015](#ref-Hullman_et_al_2015) )或 HOP。虽然在打印介质中不可能有 HOP,但它们在可以以 GIF 或 MP4 视频形式提供动画可视化的在线设置中非常有效。 HOP 在口头陈述的背景下也可以很好地运作。
所有不确定性的静态可视化都受到以下问题的困扰:读者可能将不确定性可视化的某些方面,解释为数据的确定性特征(确定性构造误差)。我们可以通过动画来可视化不确定性,通过循环通过许多不同但等可能的绘图来避免这个问题。这种可视化被称为假设结果图(Hullman,Resnick 和 Adar 2015)或 HOP。虽然在打印介质中不可能有 HOP,但它们在在线设置中非常有效,其中动画可视化可以以 GIF 或 MP4 视频形式提供。 HOP 在口头陈述的背景下也可以很好地运作。
为了说明 HOP 的概念,让我们再回到巧克力棒评级。当您站在杂货店考虑购买一些巧克力时,您可能不关心某些巧克力棒组的平均风味评级和相关的不确定性。相反,你可能想知道一个更简单的问题的答案,例如:如果我随机拿起一个加拿大和美国制造的巧克力棒,我应该期望哪两个更好?为了得到这个问题的答案,我们可以从数据集中随机选择加拿大和美国的条形,比较他们的评级,记录结果,然后多次重复这个过程。如果我们这样做,我们会发现在大约 53%的情况下,加拿大条形将排名更高,47%的情况下美国条形排名更高或两个条形并列。我们可以通过在这些随机抽取中的几个之间循环显示这个过程,并显示每个抽取的两个柱的相对排名(图 16.19 /图 16.20 )。
为了说明 HOP 的概念,让我们再回到巧克力棒评级。当您站在杂货店考虑购买一些巧克力时,您可能不关心某些巧克力棒组的平均风味评级,和相关的不确定性。相反,你可能想知道一个更简单的问题的答案,例如:如果我随机拿起一个加拿大和美国制造的巧克力棒,我应该期望哪个更好?为了得到这个问题的答案,我们可以从数据集中随机选择加拿大和美国的巧克力棒,比较他们的评级,记录结果,然后多次重复这个过程。如果我们这样做,我们会发现在大约 53% 的情况下,加拿大巧克力棒将排名更高,47% 的情况下美国巧克力棒排名更高或两个并列。我们可以通过在这几个随机采样中循环,在视觉上显示这个过程,并显示每次抽取的两个巧克力棒的相对评级(图 16.19/16.20)。
![](img/e7a7c48f55cf9475d7920ead20e64ee9.jpg)
图 16.19 :(用于印刷版)加拿大和美国制造棒材的巧克力棒评级的假设结果图示意图。每个垂直绿条表示一个条的评级,每个面板显示两个随机选择的条的比较,每个条来自加拿大制造商和美国制造商。在实际的假设结果图中,显示将在不同的绘图面板之间循环,而不是并排显示它们。
图 16.19 :(用于印刷版)加拿大和美国巧克力棒评级的假设结果图示意图。每个垂直的绿条表示一个巧克力棒的评级,每个面板显示两个随机选择的巧克力棒的比较,每个巧克力棒来自加拿大制造商和美国制造商。在实际的假设结果图中,界面将在不同的绘图面板之间循环,而不是并排显示它们。
![](img/eac8829bb2cc77d700d00d7557f36a45.jpg)
图 16.20 :(对于在线版本)加拿大和美国制造的棒材的巧克力棒评级的假设结果图。每个垂直绿色条表示一个条形的评级。动画循环通过两个随机选择的条形图的不同情况,每个条形图来自加拿大制造商和美国制造商。
图 16.20 :(对于在线版本)加拿大和美国的巧克力棒评级的假设结果图。每个垂直的绿条表示一个巧克力棒的评级。动画在两个随机选择的巧克力棒的不同情况之间循环,每个来自加拿大制造商和美国制造商。
作为第二个例子,考虑图 16.18 b 中同样可能的趋势线之间的形状变化。由于所有趋势线都是相互重叠绘制的,因此我们主要感知趋势线覆盖的整体区域,这类似于置信区间。理解各个趋势线很困难。通过将此图转换为 HOP,我们可以一次突出显示各个趋势线(图 16.21 /图 16.22 )。
作为第二个例子,考虑图 16.18b 中等可能的趋势线中的形状变化。由于所有趋势线都是相互重叠绘制的,因此我们主要感知趋势线覆盖的整体区域,这类似于置信区间。理解各个趋势线很困难。通过将此图转换为 HOP,我们可以一次突出显示一个趋势线(图 16.21/16.22)。
![](img/994986644a6cbf571494197a4f32c6a4.jpg)
图 16.21 :(用于印刷版)燃料效率与位移的假设结果图示意图。每个点代表一辆汽车,通过拟合 5 节的立方回归样条获得平滑线。每个面板中的每条线代表一个替代的拟合结果,从拟合参数的后验分布中得出。在实际的假设结果图中,显示将在不同的绘图面板之间循环,而不是并排显示它们。
图 16.21 :(用于印刷版)燃料效率与排量的假设结果图示意图。每个点代表一辆汽车,通过拟合 5 节的立方回归样条获得平滑线。每个面板中的每条线代表一个替代的拟合结果,从拟合参数的后验分布中抽取。在实际的假设结果图中,界面将在不同的绘图面板之间循环,而不是并排显示它们。
![](img/fa34f85123cffee14c317a568b01ad80.jpg)
图 16.22 :(对于在线版本)燃料效率与排量的假设结果图。每个点代表一辆汽车,通过拟合 5 节的立方回归样条获得平滑线。动画循环通过从拟合参数的后验分布得出的不同替代拟合结果
图 16.22 :(对于在线版本)燃料效率与排量的假设结果图。每个点代表一辆汽车,通过拟合 5 节的立方回归样条获得平滑线。界面在不同替代拟合结果之间循环,它们从拟合参数的后验分布抽取
在制作 HOP 时,您可能想知道在不同结果之间进行硬切换是否更好(如在幻灯片投影仪中)或者从一个结果到下一个结果的平滑动画(例如,为了一个结果慢慢变形趋势线直到它看起来喜欢另一个结果的趋势线)。虽然这在某种程度上是一个持续研究的开放性问题,但一些证据表明,平滑过渡使得更难判断所代表的概率(Kale 等 [2018](#ref-Kale_et_al_2018) )。如果您考虑在结果之间制作动画,您可能希望至少快速制作这些动画,或者选择一种动画样式,其中结果淡入淡出而不是从一个变为另一个。
在制作 HOP 时,您可能想知道在不同结果之间进行硬切换(如在幻灯片投影仪中),或者从一个结果平滑过渡到下一个结果(例如,将一个结果的趋势线慢慢变形直到它看起来像另一个结果的趋势线)是否更好。虽然这在某种程度上是一个需要继续研究的开放性问题,但一些证据表明,平滑过渡使得更难判断所代表的概率(Kale 等 [2018](#ref-Kale_et_al_2018) )。如果您考虑在结果之间制作动画,您可能希望至少使这些动画很快,或者选择一种动画样式,其中结果淡入淡出而不是从一个变为另一个。
在制作 HOP 时,我们需要注意一个关键方面:我们需要确保我们所展示的结果能够代表可能结果的真实分布。否则,我们的 HOP 可能会产生误导。例如,回到巧克力评级的情况下,如果我随机选择十对结果巧克力棒,其中美国条形在七种情况下被评为高于加拿大条形,那么 HOP 会错误地产生美国条形的印象往往比加拿大条形评级更高。我们可以通过选择大量结果来预防这个问题,因此不太可能采样偏差,或者通过某种形式验证所显示的结果是否合适。在制作图 16.19 /图 16.20 时,我确认加拿大条形获胜的次数接近 53%的真实百分比。
在制作 HOP 时,我们需要注意一个关键方面:我们需要确保我们所展示的结果能够代表可能结果的真实分布。否则,我们的 HOP 可能会产生误导。例如,回到巧克力评级的情况下,如果我随机选择十对结果巧克力棒,其中美国巧克力棒在七种情况下被评为高于加拿大巧克力棒,那么 HOP 会产生错误印象:美国巧克力棒的往往比加拿大巧克力棒评级更高。我们可以通过选择大量结果来防止这个问题,或者通过某种形式验证所展示的结果是否合适,因此采样偏差是不太可能的。在制作图 16.19/16.20 时,我确认加拿大巧克力棒的获胜次数接近 53% 的真实百分比。
### 参考
Kay,M.,T。Kola,J。Hullman 和 S. Munson。 2016.“何时(Ish)是我的公共汽车?以用户为中心的日常不确定性可视化,移动预测系统。“ _CHI 计算系统中的人为因素会议 _,5092-5103。 doi: [10.1145 / 2858036.2858558](https://doi.org/10.1145/2858036.2858558)
```
Kay, M., T. Kola, J. Hullman, and S. Munson. 2016. “When (Ish) Is My Bus? User-centered Visualizations of Uncertainty in Everyday, Mobile Predictive Systems.” CHI Conference on Human Factors in Computing Systems, 5092–5103. doi:10.1145/2858036.2858558.
Hullman,J.,P。Resnick 和 E. Adar。 “假设结果图形优于误差条和小提琴图,用于推断变量排序的可靠性。” _PLOS ONE_ 10:e0142444。 doi: [10.1371 / journal.pone.0142444](https://doi.org/10.1371/journal.pone.0142444)
Hullman, J., P. Resnick, and E. Adar. 2015. “Hypothetical Outcome Plots Outperform Error Bars and Violin Plots for Inferences About Reliability of Variable Ordering.” PLOS ONE 10: e0142444. doi:10.1371/journal.pone.0142444.
Kale,A.,F。Nguyen,M。Kay 和 J. Hullman。 2018.“假设结果图帮助未经训练的观察者判断模糊数据的趋势。” _IEEE 可视化与计算机图形学交易 _。 doi: [10.1109 / TVCG.2018.2864909](https://doi.org/10.1109/TVCG.2018.2864909)
\ No newline at end of file
Kale, A., F. Nguyen, M. Kay, and J. Hullman. 2018. “Hypothetical Outcome Plots Help Untrained Observers Judge Trends in Ambiguous Data.” IEEE Transactions on Visualization and Computer Graphics. doi:10.1109/TVCG.2018.2864909.
```
\ No newline at end of file
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册