提交 87d4916a 编写于 作者: W wizardforcel

2020-04-17 21:00:13

上级 2db7e39b
# 13 可视化自变量的时间序列和其他函数
> 原文: [https://serialmentor.com/dataviz/time-series.html](https://serialmentor.com/dataviz/time-series.html)
> 原文: [13 Visualizing time series and other functions of an independent variable](https://serialmentor.com/dataviz/time-series.html)
前一章讨论了散点图,其中我们根据一个定量变量绘制了另一个定量变量。当两个变量中的一个可以被认为是时间时会出现一种特殊情况,因为时间会对数据施加额外的结构。现在数据点具有固有的顺序;我们可以按照时间增加的顺序排列点,并为每个数据点定义前导和后继。我们经常希望用折线图来实现这个时间顺序。然而,线图不限于时间序列。只要数据可以按照一个变量排序,它们就是合适的。例如,在受控实验中也出现这种情况,其中治疗变量有目的地设定为一系列不同的值。如果我们有多个依赖于时间的变量,我们可以绘制单个折线图,也可以绘制规则的散点图,然后绘制直线来连接时间上相邻的点。
> 校验:[飞龙](https://github.com/wizardforcel)
> 自豪地采用[谷歌翻译](https://translate.google.cn/)
前一章讨论了散点图,其中我们根据一个定量变量绘制了另一个定量变量。当两个变量中的一个可以被认为是时间时会出现一种特殊情况,因为时间会对数据施加额外的结构。现在数据点具有固有的顺序;我们可以按照时间增加的顺序排列点,并为每个数据点定义前导和后继。我们经常希望用折线图来可视化这个时间顺序。然而,折线图不限于时间序列。只要数据可以按照一个变量排序,它们就是合适的。例如,在受控实验中也出现这种情况,其中治疗变量有目的地设定为一系列不同的值。如果我们有多个依赖于时间的变量,我们可以绘制单个折线图,也可以绘制规则的散点图,然后绘制直线来连接时间上相邻的点。
## 13.1 单个时间序列
......@@ -50,50 +54,52 @@
图 13.7:生物医学研究相关的三个预印本服务器的每月提交量。通过直接标记线条而不是提供图例,我们减少了读取图形所需的认知负担。消除图例消除了对不同形状点的需求。因此,我们可以通过消除点来进一步简化图表。数据来源:Jordan Anaya, [www.prepubmed.org](http://www.prepubmed.org/)
折线图不限于时间序列。只要数据点具有沿 *x* 轴显示的变量反映的自然顺序,它们就是合适的,因此相邻点可以用线连接。例如,在剂量 - 反应曲线中出现这种情况,其中我们测量如何改变实验中的一些数值参数(剂量)影响感兴趣的结果(响应)。图 13.8 显示了这种类型的经典实验,根据增加的受精量来测量燕麦产量。折线图可视化突出了剂量 - 响应曲线如何对于所考虑的三种燕麦品种具有相似的形状,但在没有受精的情况下起点不同(即,一些品种具有比其他品种更高的产量)。
折线图不限于时间序列。只要数据点具有自然顺序,由沿 *x* 轴显示的变量反映,它们就是合适的,因此相邻点可以用线连接。例如,这种情况在剂量 - 反应曲线中出现,我们测量改变实验中的一些数值参数(剂量),如何影响感兴趣的结果(响应)。图 13.8 显示了这种类型的经典实验,根据增加的受精量来测量燕麦产量。折线图可视化突出了对于所考虑的三种燕麦品种,剂量 - 响应曲线如何具有相似的形状,但在没有受精的情况下起点不同(即一些品种具有比其他品种更高的产量)。
![](img/a6b520dbef396702178b39c2711f7eba.jpg)
图 13.8:剂量 - 反应曲线显示了粪肥施肥后燕麦品种的平均产量。粪便作为氮源,燕麦产量通常随着氮的增加而增加,无论种类多少。这里,粪肥施用量以每英亩(cwt(百)重)计。百分之一是一个旧的英制单位,等于 112 磅或 50.8 千克。数据源:耶茨( [1935](#ref-Yates1935)
图 13.8:剂量 - 反应曲线显示了粪肥施肥后燕麦品种的平均产量。有了粪肥作为氮源,燕麦产量通常随着氮的增加而增加,无论品种是什么。这里,粪肥施用量以英担(cwt)计。英担是一个旧的英制单位,等于 112 磅或 50.8 千克。数据源:Yates(1935
## 13.3 两个或多个响应变量的时间序列
在前面的例子中,我们只处理了一个响应变量的时间过程(例如,每月的预印本提交或燕麦产量)。但是,拥有多个响应变量并不罕见。这种情况通常出现在宏观经济学中。例如,我们可能对过去 12 个月房价的变化感兴趣,因为它与失业率有关。我们可以预期,当失业率较低时房价会上涨,反之亦然。
在前面的例子中,我们只处理了一个响应变量的时间过程(例如,每月的预印本提交或燕麦产量)。但是,拥有多个响应变量并不罕见。这种情况通常出现在宏观经济学中。例如,我们可能对过去 12 个月房价的变化感兴趣,因为它与失业率有关。我们可以预期,当失业率较低时房价会上涨,反之亦然。
鉴于前面小节中的工具,我们可以将这些数据可视化为两个相互叠加的独立折线图(图 13.9 )。该图直接显示了两个感兴趣的变量,并且可以直接解释。但是,因为这两个变量显示为单独的折线图,所以它们之间的绘图比较可能很麻烦。如果我们想要在两个变量在相同或相反的方向上移动时识别时间区域,我们需要在两个图形之间来回切换并比较两条曲线的相对斜率。
鉴于前面小节中的工具,我们可以将这些数据可视化为两个相互叠加的独立折线图(图 13.9 )。该图直接显示了两个感兴趣的变量,并且可以直接解释。但是,因为这两个变量显示为单独的折线图,所以它们之间的绘图比较可能很麻烦。在两个变量在相同或相反的方向上移动时,如果我们想要识别时间区域,我们需要在两个图形之间来回切换并比较两条曲线的相对斜率。
![](img/dcb938024116761938bb357560d9d94c.jpg)
图 13。9:2001 年 1 月至 2017 年 12 月房价(a)和失业率(b)随时间变化 12 个月。数据来源:美国劳工统计局 Freddie Mac 房价指数。
图 13.9:2001 年 1 月至 2017 年 12 月房价(a)和失业率(b)12 个月的随时间的变化。数据来源:美国劳工统计局 Freddie Mac 房价指数。
作为显示两个单独的折线图的替代方法,我们可以将两个变量相互绘制,绘制从最早的时间点到最晚的路径(图 13.10 )。这种可视化被称为 _ 连接散点图 _,因为我们在技术上将两个变量的散点图相互对比,然后连接相邻点。物理学家和工程师经常将其称为 _ 相位图 _,因为在他们的学科中,它通常用于表示相空间中的运动。我们之前在章节 [3](coordinate-systems-axes.html#coordinate-systems-axes) 中遇到了连接的散点图,其中我们绘制了休斯顿,TX 的日常温度法线与加利福尼亚州圣地亚哥的日常温度法线(图 3.3 )。
作为显示两个单独的折线图的替代方法,我们可以将两个变量相互绘制,绘制从最早的时间点到最晚的时间点的路径(图 13.10)。这种可视化被称为连通散点图,因为我们在技术上在汇智两个变量间的散点图,然后连接相邻点。物理学家和工程师经常将其称为相位图,因为在他们的学科中,它通常用于表示相位空间中的运动。我们之前在第三章中遇到了连通散点图,其中我们绘制了休斯顿,TX 的日常温度法线,与加利福尼亚州圣地亚哥的日常温度法线(图 3.3)。
![](img/aff3d3eaba799a0fee30d8212b99acaf.jpg)
图 13。10:2001 年 1 月至 2017 年 12 月房价与失业率的 12 个月变化,显示为连通散点图。较暗的色调代表最近几个月。图 13.9 中看到的房价和失业率之间的反相关导致连通的散点图形成两个逆时针圆。数据来源:美国劳工统计局 Freddie Mac 房价指数。原始图概念:Len Kiefer
图 13.10:2001 年 1 月至 2017 年 12 月房价与失业率的 12 个月变化,显示为连通散点图。较暗的色调代表最近几个月。图 13.9 中看到的房价和失业率之间的负相关,导致连通散点图形成两个逆时针圆。数据来源:美国劳工统计局 Freddie Mac 房价指数。原始图概念:Len Kiefer
在连通的散点图中,从左下角到右上角的方向上的线表示两个变量之间的相关运动(当一个变量增长时,另一个变量增长),并且从左上角开始沿垂直方向前进的线在右下方,表示反相关运动(随着一个变量增长,另一个变量收缩)。如果两个变量具有某种循环关系,我们将在连接的散点图中看到圆或螺旋。在图 13.10 中,我们看到 2001 年至 2005 年的一个小圆圈和剩余时间路线的一个大圆圈。
在连通散点图中,从左下角到右上角的方向上的线表示两个变量之间的相关运动(当一个变量增长时,另一个变量增长),并且从左上角到右下方沿垂直方向的线,表示负相关运动(随着一个变量增长,另一个变量收缩)。如果两个变量具有某种循环关系,我们将在连通散点图中看到圆或螺旋。在图 13.10 中,我们看到 2001 年至 2005 年的一个小圆圈和剩余时间过程的一个大圆圈。
绘制连接的散点图时,重要的是我们指示数据的方向和时间尺度。如果没有这样的提示,情节可能变成毫无意义的涂鸦(图 13.11 )。我在这里使用(在图 13.10 中)颜色逐渐变暗以指示方向。或者,可以沿着路径绘制箭头。
绘制连通散点图时,重要的是我们指明数据的方向和时间刻度。如果没有这样的提示,绘图可能变成毫无意义的涂鸦(图 13.11)。(在图 13.10 中)我在这里使用逐渐变暗的颜色来指示方向。或者,可以沿着路径绘制箭头。
![](img/0e61b293acc027b6fc5ef8549da4ac84.jpg)
图 13。11:从 2001 年 1 月到 2017 年 12 月,房价与失业率的 12 个月变化。这个数字被标记为“坏”,因为没有图 13.10 的日期标记和颜色阴影,我们可以既不看数据的方向也不看速度。数据来源:美国劳工统计局房地美价格指数。
图 13.11:从 2001 年 1 月到 2017 年 12 月,房价与失业率的 12 个月变化。这个绘图被标记为“不好”,因为没有图 13.10 的日期标记和颜色渐变,我们既看不到数据的方向也看不到数据变化速度。数据来源:美国劳工统计局 Freddie Mac 价格指数。
使用连接的散点图或两个单独的折线图是否更好?单独的线图往往更容易阅读,但是一旦人们习惯连接散点图,他们就可以提取某些模式(例如具有一些不规则性的循环行为),这些模式很难在线图中找到。事实上,对我来说,房价变化和失业率之间的周期性关系很难在图 13.9 中看到,但图 13.10 中的逆时针螺旋清楚地表明了这一点。研究报告说,读者更容易混淆连通散点图中的顺序和方向而不是折线图,并且不太可能报告相关性(Haroz,Kosara 和 Franconeri [2016](#ref-Haroz_et_al_2016) )。另一方面,连接的散点图似乎导致更高的参与度,因此这些图可能是吸引读者进入故事的有效工具(Haroz,Kosara 和 Franconeri [2016](#ref-Haroz_et_al_2016) )。
使用连通散点图或两个单独的折线图哪个更好?单独的折线图往往更容易阅读,但是一旦人们习惯连通散点图,他们就可以提取某些模式(例如具有一些不规则性的循环行为),这些模式很难在折线图中找到。事实上,对我来说,房价变化和失业率之间的周期性关系很难在图 13.9 中看到,但图 13.10 中的逆时针螺旋清楚地表明了这一点。研究报告说,读者更容易混淆连通散点图,而不是折线图中的顺序和方向,并且不太可能看出相关性(Haroz,Kosara 和 Franconeri 2016)。另一方面,连通散点图似乎导致更高的参与度,因此这些图可能是吸引读者进入故事的有效工具(Haroz,Kosara 和 Franconeri 2016)。
即使连接的散点图一次只能显示两个变量,我们也可以使用它们来可视化更高维的数据集。诀窍是首先应用降维(见章节 [12](visualizing-associations.html#visualizing-associations) )。然后,我们可以在尺寸减小的空间中绘制连接的散点图。作为这种方法的一个例子,我们将可视化由圣路易斯联邦储备银行提供的 100 多个宏观经济指标的月度观察数据库。我们对所有指标进行主成分分析(PCA),然后绘制 PC 2 与 PC 1 的连通散点图(图 13.12 a)和 PC 3(图 13.12 b) )
即使连通散点图一次只能显示两个变量,我们也可以使用它们来可视化更高维的数据集。技巧是首先应用降维(见第 12 章)。然后,我们可以在低维空间中绘制连通散点图。作为这种方法的一个例子,我们将可视化由圣路易斯联邦储备银行提供的 100 多个宏观经济指标的月度观测的数据库。我们对所有指标进行主成分分析(PCA),然后绘制 PC2 与 PC1(图 13.12a),以及 PC2 与 PC3(图 13.12b)的连通散点图
![](img/7cfe5c9037c7a540d7c92a88101e77c9.jpg)
图 13.12:将高维时间序列可视化为主成分空间中的连通散点图。该路径表明 1990 年 1 月至 2017 年 12 月期间 100 多个宏观经济指标的联合运动。经济衰退和复苏的时间以颜色表示,三次经济衰退的终点(1991 年 3 月,2001 年 11 月和 2009 年 6 月)也被标记。 (a)PC 2 与 PC 1.(b)PC 2 与 PC 3.数据来源:M。W. McCracken,St. Louis Fed
图 13.12:将高维时间序列可视化为主成分空间中的连通散点图。该绘图展示了 1990 年 1 月至 2017 年 12 月期间的 100 多个宏观经济指标的联合运动。经济衰退和复苏的时间以颜色表示,三次经济衰退的终点(1991 年 3 月,2001 年 11 月和 2009 年 6 月)也被标记。(a)PC2 与 PC1,(b)PC2 与 PC3。数据来源:M. W. McCracken,St. Louis Fed
值得注意的是,图 13.12 a 看起来几乎像一个常规折线图,时间从左到右。这种模式是由 PCA 的一个共同特征引起的:第一个组件通常测量系统的整体大小。在这里,PC 1 大致衡量经济的总体规模,这种规模很少随着时间的推移而减少。
值得注意的是,图 13.12a 看起来几乎像一个常规折线图,时间从左到右递增。这种模式是由 PCA 的一个共同特征引起的:第一个成分通常测量系统的总体规模。在这里,PC1 大致衡量经济的总体规模,这种规模很少随着时间的推移而减少。
通过衰退和恢复时间对连通的散点图进行着色,我们可以看到衰退与 PC 2 下降有关,而回收率与 PC 1 或 PC 2 中的明显特征无关(图 13.12 ] 一个)。然而,回收率似乎与 PC 3 的下降相对应(图 13.12 b)。此外,在 PC 2 与 PC 3 图中,我们看到该线遵循顺时针螺旋的形状。这种模式强调了经济的周期性,经济复苏后出现衰退,反之亦然。
通过按照衰退和复苏时间,对连通散点图进行着色,我们可以看到衰退与 PC2 下降有关,而复苏与 PC1 或 PC2 中的明显特征无关(图 13.12a)。然而,复苏似乎与 PC3 的下降相对应(图 13.12b)。此外,在 PC2 与 PC3 的图中,我们看到该线遵循顺时针螺旋的形状。这种模式突出了经济的周期性,经济复苏后出现衰退,反之亦然。
### 参考
Yates,F。1935.“复杂实验。”_“皇家统计学会期刊”_ 2:181-247 的补充。 doi: [10.2307 / 2983638](https://doi.org/10.2307/2983638)
```
Yates, F. 1935. “Complex Experiments.” Supplement to the Journal of the Royal Statistical Society 2: 181–247. doi:10.2307/2983638.
Haroz,S.,R。Kosara 和 S. Franconeri。 2016.“用于呈现成对时间序列的连通散点图。” _IEEE 可视化和计算机图形学交易 _ 22:2174-86。 doi: [10.1109 / TVCG.2015.2502587](https://doi.org/10.1109/TVCG.2015.2502587)
\ No newline at end of file
Haroz, S., R. Kosara, and S. Franconeri. 2016. “The Connected Scatterplot for Presenting Paired Time Series.” IEEE Transactions on Visualization and Computer Graphics 22: 2174–86. doi:10.1109/TVCG.2015.2502587.
```
\ No newline at end of file
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册