提交 9fc9d6fc 编写于 作者: W wizardforcel

2020-04-10 11:14:58

上级 284eb55a
......@@ -2,41 +2,41 @@
> 原文: [https://serialmentor.com/dataviz/visualizing-associations.html](https://serialmentor.com/dataviz/visualizing-associations.html)
许多数据集包含两个或更多个定量变量,我们可能对这些变量如何相互关联感兴趣。例如,我们可能有一个不同动物的量化测量数据集,例如动物的身高,体重,身高和日常能量需求。仅绘制两个这样的变量的关系,例如:高度和重量,我们通常会使用散点图。如果我们想一次显示两个以上的变量,我们可能会选择气泡图,散点图矩阵或相关图。最后,对于非常高维的数据集,执行降维可能是有用的,例如以主成分分析的形式。
许多数据集包含两个或更多个定量变量,我们可能对这些变量如何相互关联感兴趣。例如,我们可能有一个不同动物的量化测量数据集,例如动物的身高,体重,长度和日常能量需求。仅绘制两个这样的变量的关系,例如:身高和体重,我们通常会使用散点图。如果我们想一次显示两个以上的变量,我们可能会选择气泡图,散点图矩阵或相关图。最后,对于非常高维的数据集,执行降维可能是有用的,例如以主成分分析的形式。
## 12.1 散点图
我将使用在 123 只蓝色杰伊鸟上进行的测量数据集来演示基本散点图及其若干变体。数据集包含诸如头部长度(从头部的尖端到头部后部测量),头骨尺寸(头部长度减去纸币长度)以及每只鸟的体重等信息。我们希望这些变量之间存在关系。例如,具有较长钞票的鸟类预计具有较大的颅骨尺寸,具有较高体重的鸟类应具有比具有较低体重的鸟类更大的钞票和头骨。
我将使用在 123 只蓝色杰伊鸟上进行的测量数据集,来演示基本散点图及其若干变体。数据集包含每只鸟的头部长度(从头部的尖端到头部后部测量),头骨尺寸(头部长度减去喙部长度)以及体重等信息。我们希望这些变量之间存在关系。例如,具有较长喙部的鸟类预计具有较大的头骨尺寸,具有较大体重的鸟类应具有比具有较小体重的鸟类更大的喙部和头骨。
为了探索这些关系,我先从头部长度与体重的关系图开始(图 12.1 )。在该图中,沿 *y* 轴显示头长度,沿 *x* 轴显示体重,每只鸟用一个点表示。 (注意术语:我们说我们绘制沿 *y* 轴显示的变量与 *x* 轴上显示的变量。)点形成一个分散的云(因此术语 _ 散点图 _),但毫无疑问,体重较高的鸟类有更长的头部趋势。头部最长的鸟接近观察到的最大体重,头部最短的鸟接近观察到的最小体重。
为了探索这些关系,我先从头部长度与体重的关系图开始(图 12.1)。在该图中,头长度沿 *y* 轴显示,体重沿 *x* 轴显示,每只鸟用一个点表示。 (注意术语:我们说,我们根据沿 *x* 轴显示的变量绘制沿 *y* 轴显示的变量。)点形成一个分散的云(因此术语是散点图),但毫无疑问,一个趋势是,体重较大的鸟类有更长的头部。头部最长的鸟接近观察到的最大体重,头部最短的鸟接近观察到的最小体重。
![](img/3a88b5fb070c01fd0ea5b2d85dd5a792.jpg)
图 12.1:头部长度(从钞票尖端到头部后部测量,单位为 mm)与体重(以克为单位),123 蓝色标记。每个点对应一只鸟。较重的鸟类有较长的头部倾向。数据来源:欧柏林学院的 Keith Tarvin
图 12.1:头部长度(从喙部尖端到头部后部测量,单位为 mm)与体重(以克为单位),123 个蓝色标记。每个点对应一只鸟。倾向是较重的鸟类有较长的头部。数据来源:欧柏林学院的 Keith Tarvin
蓝色杰伊数据集包含雄鸟和雌鸟,我们可能想知道每个性别的头长和体重之间的总体关系是否分别保持。为了解决这个问题,我们可以通过鸟的性别对散点图中的点进行着色(图 12.2 )。该图显示头部长度和体重的总体趋势至少部分是由鸟类的性别驱动的。在相同的体重下,女性的头部往往比男性短。与此同时,女性平均比男性轻。
蓝色杰伊数据集鸟包含雄鸟和雌鸟,我们可能想知道头长和体重之间的总体关系是否对每个性别分别成立。为了解决这个问题,我们可以按照鸟的性别对散点图中的点进行着色(图 12.2 )。该图显示头部长度和体重的总体趋势,至少部分是由鸟类的性别驱动的。在相同的体重下,雌性的头部往往比雄性短。与此同时,雌性平均比雄性轻。
![](img/6d94df1e5ef5317812dc8d6f1f5cd673.jpg)
图 12.2:123 只蓝鸟的头长与体重的关系。鸟的性别用颜色表示。在相同的体重下,雄鸟往往比雌鸟具有更长的头(特别是更长的纸币)。数据来源:欧柏林学院的 Keith Tarvin
图 12.2:123 只蓝鸟的头长与体重的关系。鸟的性别用颜色表示。在相同的体重下,雄鸟往往比雌鸟头更长(特别是更长的喙部)。数据来源:欧柏林学院的 Keith Tarvin
因为头部长度被定义为从喙尖到头部后部的距离,所以较大的头部长度可能意味着较长的喙,较大的颅骨或两者。我们可以通过查看数据集中的另一个变量(头骨大小)来解开账单长度和头骨大小,这与头长相似但不包括账单。由于我们已经将 *x* 位置用于体重,头部长度的 *y* 位置和鸟类性别的点颜色,我们需要另一种美学我们可以绘制头骨大小。一种选择是使用点的大小,产生称为 _ 气泡图 _ 的可视化(图 12.3 )。
因为头部长度被定义为从喙尖到头部后部的距离,所以较大的头部长度可能意味着较长的喙,较大的头骨或两者。我们可以通过查看数据集中的另一个变量(头骨大小)来理清喙部长度和头骨大小,这与头长相似但不包括喙部。由于我们已经将 *x* 位置用于体重,*y* 位置用于头部长度 和点的颜色用于鸟类性别,我们需要另一种美学来绘制头骨大小。一种选择是使用点的大小,产生称为气泡图的可视化(图 12.3)。
![](img/84084034e6d8c8568893964f261f0de0.jpg)
图 12.3:123 只蓝鸟的头长与体重的关系。鸟的性别用颜色表示,鸟的头骨大小用符号大小表示。头部长度测量包括账单的长度,而头骨尺寸测量则不包括。头部长度和头骨大小往往是相关的,但是有些鸟类的头骨尺寸非常长或短。数据来源:欧柏林学院的 Keith Tarvin
图 12.3:123 只蓝鸟的头长与体重的关系。鸟的性别用颜色表示,鸟的头骨大小用标记大小表示。头部长度测量包括喙部的长度,而头骨尺寸测量则不包括。头部长度和头骨大小往往是相关的,但是有些鸟类的头骨尺寸非常长或短。数据来源:欧柏林学院的 Keith Tarvin
气泡图的缺点是它们显示相同类型的变量,定量变量,具有两种不同类型的比例,位置和大小。这使得难以在视觉上确定各种变量之间的关联强度。此外,编码为气泡大小的数据值之间的差异比编码为位置的数据值之间的差异更难以察觉。因为即使最大的气泡与总的图形尺寸相比也需要稍微小一些,即使最大和最小气泡之间的尺寸差异也必然很小。因此,数据值的较小差异将对应于实际上不可能看到的非常小的尺寸差异。在图 12.3 中,我使用了一个尺寸映射,可以直观地放大最小的头骨(大约 28mm)和最大的头骨(大约 34mm)之间的差异,但很难确定头骨之间的关系。尺寸和体重或头部长度
气泡图的缺点是它们显示相同类型的变量,定量变量,具有两种不同类型的比例,位置和大小。这使得难以在视觉上确定各种变量之间的关联强度。此外,编码为气泡大小的数据值之间的差异,比编码为位置的数据值之间的差异更难以察觉。因为即使最大的气泡与总的图形尺寸相比也需要稍微小一些,即使最大和最小气泡之间的尺寸差异也必然很小。因此,数据值的较小差异将对应于实际上不可能看到的非常小的尺寸差异。在图 12.3 中,我使用了一个尺寸映射,可以直观地放大最小的头骨(大约 28mm)和最大的头骨(大约 34mm)之间的差异,但很难确定头骨尺寸和体重或头部长度之间的关系
作为气泡图的替代方案,最好显示一个反对所有的散点图矩阵,其中每个单独的图显示两个数据维度(图 12.4 )。该图清楚地表明,除了雌鸟往往稍微小一些之外,雌性和雄性鸟的头骨大小和体重之间的关系是相当的。然而,头部长度和体重之间的关系也是如此。性别明显分离。雄性鸟类比雌性鸟类的长度往往更长,其他条件相同。
作为气泡图的替代方案,最好显示一个根据全部变量的散点图矩阵,其中每个单独的图显示两个数据维度(图 12.4 )。该图清楚地表明,除了雌鸟往往稍微小一些之外,雌性和雄性鸟的头骨大小和体重之间的关系是相似的。然而,头部长度和体重之间的关系也是如此。不同性别有着显著的差异。雄性鸟类的喙部通常比雌性鸟类更长,其他变量相同。
![](img/cd5570e84980f15e49b34585d88a39b4.jpg)
图 12.4:123 种蓝鸟的头部长度,体重和头骨大小的全反对散点图矩阵。该图显示了与图 12.2 完全相同的数据。然而,因为我们在判断位置方面比符号大小更好,所以在成对散点图中,头骨大小和其他两个变量之间的相关性比图 12.2 更容易察觉。数据来源:欧柏林学院的 Keith Tarvin
图 12.4:123 只蓝鸟的头部长度,体重和头骨大小的散点图矩阵。该图显示了与图 12.2 完全相同的数据。然而,因为我们更善于判断位置而不是标记大小,所以在成对散点图中,头骨大小和其他两个变量之间的相关性比图 12.2 更容易察觉。数据来源:欧柏林学院的 Keith Tarvin
## 12.2 Correlograms
## 12.2 相关图
当我们有超过三到四个量化变量时,全对抗散点图矩阵很快变得难以处理。在这种情况下,量化变量对之间的关​​联量并使该数量可视化而不是原始数据更有用。一种常见的方法是计算 _ 相关系数 _。相关系数 *r* 是介于-1 和 1 之间的数字,用于衡量两个变量的变化程度。 *r* = 0 的值意味着没有任何关联,并且值 1 或-1 表示完美关联。相关系数的符号表示变量是 _ 相关 _(一个变量中的较大值与另一个变量中的较大值一致)或 _ 反相关 _(一个变量中的较大值与较小值一致)在另一个)。为了提供不同相关强度的可视化示例,在图 12.5 中,我显示了随机生成的点集,这些点在 *x* 和 _y 的程度上有很大差异 _ 值是相关的
当我们有超过三到四个量化变量时,散点图矩阵很快变得难以处理。在这种情况下,量化变量对之间的关​​联量并使该数量可视化而不是原始数据更有用。一种常见的方法是计算相关系数。相关系数 *r* 是介于 -1 和 1 之间的数字,用于衡量两个变量的变化程度。 *r = 0* 的值意味着没有任何关联,并且值 1 或 -1 表示完美关联。相关系数的符号表示变量是正相关(一个变量中的较大值与另一个变量中的较大值一致)或负相关(一个变量中的较大值与另一个中的较小值一致)。为了提供不同相关强度的可视化示例,在图 12.5 中,我显示了随机生成的点集,这些点在 *x**y* 的相关程度上有很大差异
![](img/331e25256c717f6ef78c32a1dbb9e705.jpg)
......@@ -62,7 +62,7 @@
## 12.3 尺寸减小
维度减少依赖于关键洞察力,即大多数高维数据集由多个相关变量组成,这些变量传达重叠信息。这样的数据集可以减少到较少数量的关键维度,而不会丢失太多关键信息。作为一个简单直观的例子,考虑一个人的多种身体特征的数据集,包括每个人的身高和体重,手臂和腿的长度,腰部,臀部和胸部的周长等数量。我们可以理解立即所有这些数量将首先与每个人的总体规模相关。在其他条件相同的情况下,较大的人会更高,体重更重,手臂和腿更长,腰围,臀部和胸围更大。下一个重要的方面是人的性别。男性和女性的测量值对于相当大小的人来说是显着不同的。例如,女人的臀围往往比男人高,其他一切都是平等的。
维度减少依赖于关键洞察力,即大多数高维数据集由多个相关变量组成,这些变量传达重叠信息。这样的数据集可以减少到较少数量的关键维度,而不会丢失太多关键信息。作为一个简单直观的例子,考虑一个人的多种身体特征的数据集,包括每个人的身高和体重,手臂和腿的长度,腰部,臀部和胸部的周长等数量。我们可以理解立即所有这些数量将首先与每个人的总体规模相关。在其他条件相同的情况下,较大的人会更高,体重更重,手臂和腿更长,腰围,臀部和胸围更大。下一个重要的方面是人的性别。雄性和雌性的测量值对于相当大小的人来说是显着不同的。例如,女人的臀围往往比男人高,其他一切都是平等的。
有许多减少尺寸的技术。我将在这里讨论一种最常用的技术,称为 _ 主成分分析 _(PCA)。 PCA 通过数据中原始变量的线性组合引入一组新的变量(称为主成分,PC),标准化为零均值和单位方差(参见图 12.8 ,用于二维玩具示例) 。选择 PC 使得它们不相关,并且对它们进行排序,使得第一组件捕获数据中尽可能大的变化量,并且随后的组件捕获越来越少。通常,只能从前两台或三台 PC 看到数据中的关键功能。
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册