未验证 提交 d1b22f32 编写于 作者: 布客飞龙 提交者: GitHub

Merge pull request #8 from liuyixi520/master

Update. 10.md-14.md
......@@ -14,7 +14,7 @@
## 9.1 零假设统计检验(NHST)
我们将要讨论的假设检验,具体来说是*零假设统计检验* (NHST)。如果随手翻本关于科学或生物医学研究出版物,你都会看到 NHST 被用来测试假设,在心理学入门教科书中,格里克&津巴多(2002)将 NHST 称为“心理学研究的支柱”。因此,学习如何使用和解释假设检验的结果对于理解许多研究领域的结果是至关重要的。
我们将要讨论的假设检验,具体来说是*零假设统计检验* (NHST)。如果随手翻看几本关于科学或生物医学研究出版物,你都会看到 NHST 被用来测试假设,在心理学入门教科书中,格里克&津巴多(2002)将 NHST 称为“心理学研究的支柱”。因此,学习如何使用和解释假设检验的结果对于理解许多研究领域的结果是至关重要的。
然而,同时也一定要让你知道NHST也有很多不足之处,许多统计学家和研究人员(包括我自己)认为这是科学中严重问题的原因,我们将在第 18 章讨论。50 多年来,一直有人呼吁放弃 NHST 而采用其他方法(比如我们将在以下章节中讨论的方法):
......@@ -29,11 +29,11 @@ NHST 也被广泛误解,主要是因为它违背了我们关于统计假设检
## 9.2 零假设统计检验:一个例子
人们对警察使用随身携带的相机很感兴趣,认为这可以减少武力的使用,避免警察的暴力执法。然而,为了证明这一点,我们需要实验证据来支撑,而政府使用随机对照试验来检验这些想法已经变得越来越普遍。2015/2016 年,华盛顿州、DC政府和DC大都会警察局进行了一项关于体戴相机有效性的随机对照试验。警察们被随机分配佩戴或不佩戴随身摄像机,然后对他们随后执法行为进行了一段时间的跟踪调查,以确定摄像机是否导致更少使用武力和更少的平民对警察暴力执法行为的投诉。
大家对警察使用便携式相机很感兴趣,认为这可以减少武力的使用,避免警察的暴力执法。然而,为了证明这一点,我们需要实验证据来支撑,而政府使用随机对照试验来检验这些想法已经变得越来越普遍。2015/2016 年,华盛顿州、DC政府和DC大都会警察局进行了一项关于体戴相机有效性的随机对照试验。警察们被随机分配佩戴或不佩戴随身摄像机,然后对他们随后执法行为进行了一段时间的跟踪调查,以确定摄像机是否导致更少使用武力和更少的平民对警察暴力执法行为的投诉。
在我们得到结果之前,让我们问一下你认为统计分析工作具体该如何开展。比方说,我们想具体验证佩戴摄像头是否会减少使用武力的假设。随机对照试验为我们提供了检验假设的数据——即被分配到摄像机组或对照组的警察使用武力的比率。然后明显的步骤是查看数据,并确定它们是否为这一假设提供了令人信服的证据。那就是:给定数据和我们所知道的一切,随身携带的相机减少武力使用的可能性有多大?
这是**反证法**零假设检验的工作方式。相反,我们首先采用我们感兴趣的假设(即,体戴式相机减少使用武力),并将其颠倒过来,创建一个*无效假设*——在这种情况下,假设是相机不会减少使用武力。重要的是,我们假设零假设是真的。然后,我们查看数据,并确定如果零假设为真,数据的可能性有多大。如果数据在零假设下不太可能,我们可以拒绝零假设,而选择另一个假设*作为我们感兴趣的假设。如果没有足够的证据来拒绝零,那么我们说我们保留(或“未能拒绝”)零,坚持我们最初的假设,即零是真实的。*
这是**反证法**零假设检验的工作方式。相反,我们首先采用我们感兴趣的假设(即,体戴式相机减少使用武力),并将其颠倒过来,创建一个*假设*——在这种情况下,假设是相机不会减少使用武力。重要的是,我们假设零假设是真的。然后,我们查看数据,并确定如果零假设为真,数据的可能性有多大。如果数据在零假设下不太可能,我们可以拒绝零假设,而选择另一个假设*作为我们感兴趣的假设。如果没有足够的证据来拒绝零,那么我们说我们保留(或“未能拒绝”)零,坚持我们最初的假设,即零是真实的。*
理解 NHST 的一些概念,尤其是臭名昭著的“p 值”,在你第一次遇到它们时总是充满挑战,因为它们太反直觉了。正如我们将在后面看到的,还有其他方法提供了一种更直观的方法来处理假设检验(但是有它们自己的复杂性)。然而,在我们讨论这些之前,对你来说,深入了解假设检验的工作原理是很重要的,这些理论知识不会随时间而消逝。
......@@ -46,9 +46,9 @@ NHST 也被广泛误解,主要是因为它违背了我们关于统计假设检
我们可以将零假设检验的过程分为几个步骤:
1. 制定一个体现我们预测的假设(*在看到数据*之前)
2. 指定无效假设和替代假设
3. 收集一些与假设相关的数据Ijjjkk
4. 根据代表替代假设的数据拟合模型,并计算检验统计量
2. 指定零假设和备选假设
3. 收集一些与假设相关的数据
4. 根据代表备选假设的数据拟合模型,并计算检验统计量
5. 假设零假设为真,计算该统计的观察值的概率
6. 评估结果的“统计显著性”
......@@ -65,15 +65,15 @@ NHST 也被广泛误解,主要是因为它违背了我们关于统计假设检
### 9.3.2 步骤 2:指定无效假设和替代假设
### 9.3.2 步骤 2:指定零假设和备选假设
对于步骤 2,我们需要指定我们的零假设(我们称之为H0)和我们的替代假设(我们称之为HA)。H0是我们测试我们感兴趣的假设的基线:也就是说,如果没有影响,我们会期望数据看起来像什么?零假设总是涉及到某种等式(等于、大于等于、小于等于)。HA描述了如果确实存在一种效果,我们所期望的。总是涉及到某种不等式(不等于、大于、小于)。重要的是,零假设检验是在假设零假设为真的情况下进行的,除非证据显示并非如此。
对于步骤 2,我们需要指定我们的零假设(我们称之为H0)和我们的备选假设(我们称之为HA)。H0是我们测试我们感兴趣的假设的基线:也就是说,如果没有影响,我们会期望数据看起来像什么?零假设总是涉及到某种等式(等于、大于等于、小于等于)。HA描述了如果确实存在一种效果,我们所期望的。总是涉及到某种不等式(不等于、大于、小于)。重要的是,零假设检验是在假设零假设为真的情况下进行的,除非证据显示并非如此。
我们还必须决定是否要测试一个*方向性**无方向性*假设。一个无方向性的假设,只是简单的预测会有差异,而没有预测会往哪个方向走。对于身体质量指数/活动的例子,无方向性的零假设是:
![h0](img/h0.png)
相应的无方向性替代假设是:
相应的无方向性备选假设是:
![ha](img/ha.png)
......@@ -104,7 +104,7 @@ NHST 也被广泛误解,主要是因为它违背了我们关于统计假设检
![Box plot of BMI data from a sample of adults from the NHANES dataset, split by whether they reported engaging in regular physical activity.](img/file47.png)
图 9.1:来自 NHANES 数据集的成年人样本的身体质量指数数据的箱线图,根据他们是否报告参加定期身体活动来划分。
图 9.1:来自 NHANES 数据集的成年人样本的体脂比数据的箱线图,根据他们是否报告参加定期身体活动来划分。
......@@ -112,7 +112,7 @@ NHST 也被广泛误解,主要是因为它违背了我们关于统计假设检
### 9.3.4 步骤 4:根据数据拟合模型,并计算测试统计量
接下来,我们想用这些数据来计算一个统计量,最终让我们决定是否拒绝零假设。要做到这一点,模型需要量化相对于数据可变性的支持替代假设的证据数量。因此,我们可以认为检验统计量提供了与数据可变性相比的效果大小的度量。一般来说,这个检验统计量会有一个与之相关的概率分布,因为这允许我们确定我们的统计量的观察值在零假设下的可能性有多大。
接下来,我们想用这些数据来计算一个统计量,最终让我们决定是否拒绝零假设。要做到这一点,模型需要量化相对于数据可变性的支持备选假设的证据数量。因此,我们可以认为检验统计量提供了与数据可变性相比的效果大小的度量。一般来说,这个检验统计量会有一个与之相关的概率分布,因为这允许我们确定我们的统计量的观察值在零假设下的可能性有多大。
在身体质量指数的例子中,我们需要一个检验统计量来检验两个均值之间的差异,因为假设是以每组的身体质量指数均值来表述的。经常用来比较两个平均值的一个统计数据是统计学家威廉·西利·戈塞特(William Sealy Gossett)首先提出的 *t* 统计数据,他为都柏林的吉尼斯啤酒厂工作,并以“学生”为笔名写作——因此,它通常被称为“学生的 *t* 统计数据”。当样本量相对较小且总体标准差未知时, *t* 统计量适用于比较两组的平均值。用于比较两个独立组的 *t* 统计量计算如下:
![t-student](img/t-student.png)
......@@ -133,7 +133,7 @@ NHST 也被广泛误解,主要是因为它违背了我们关于统计假设检
### 9.3.5 第五步:确定零假设下观察结果的概率
NHST 开始违背我们直觉的一步。我们不是确定给定数据的零假设为真的可能性,而是确定在零假设下观察到的统计数据至少与我们观察到的统计数据一样极端的可能性,因为我们一开始就假设零假设为真!要做到这一点,我们需要知道在零假设下统计的期望概率分布,这样我们就可以问在该分布下结果的可能性有多大。注意,当我说“结果会有多可能”时,我真正的意思是“观察到的结果或一个更极端的结果会有多可能”。(至少)有两个原因让我们特别小心。首先,当我们谈论连续值时,任何特定值的概率都是零(如果你上过微积分课,你可能还记得)。更重要的是,我们试图确定如果零假设是真的,我们的结果会有多奇怪,任何更极端的结果都会更奇怪,所以当我们计算零假设下的结果的概率时,我们希望计算所有这些更奇怪的可能性。
NHST 开始违背我们直觉的一步。我们不是确定给定数据的零假设为真的可能性,而是确定在零假设下观察到的统计数据至少与我们观察到的统计数据一样极端的可能性,因为我们一开始就假设零假设为真!要做到这一点,我们需要知道在零假设下统计的期望概率分布,这样我们就可以问在该分布下结果的可能性有多大。注意,当我说“结果会有多可能”时,我真正的意思是“观察到的结果或一个更极端的结果会有多可能”。(至少)有两个原因让我们特别小心。首先,当我们谈论连续值时,任何特定值的概率都是零(如果你上过微积分课,你可能还记得)。更重要的是,我们试图确定如果零假设是真的,我们的结果会有多奇怪,任何更极端的结果都会更奇怪,所以当我们计算零假设下的结果的概率时,我们希望计算所有这些更奇怪的可能性。
我们可以使用理论分布(如 *t* 分布)或使用随机化来获得这个“零分布”。在我们转到身体质量指数的例子之前,让我们从一些更简单的例子开始。
......@@ -377,7 +377,7 @@ NHST 也被广泛误解,主要是因为它违背了我们关于统计假设检
## 9.5 学习目标
* 确定假设检验的组成部分,包括感兴趣的参数、无效假设和替代假设,以及检验统计量。
* 确定假设检验的组成部分,包括感兴趣的参数、零假设和备选假设,以及检验统计量。
* 描述 p 值的正确解释以及常见的误解
* 区分假设检验中的两种错误,以及决定它们的因素。
* 描述如何使用重采样来计算 p 值。
......@@ -388,7 +388,7 @@ NHST 也被广泛误解,主要是因为它违背了我们关于统计假设检
## 9.6 建议
## 9.6 建议读物
* [Gerd Gigerenzer编写的 《统计之禅》](https://library.mpib-berlin.mpg.de/ft/gg/GG_Mindless_2004.pdf)
......
此差异已折叠。
此差异已折叠。
# 12 建模分类关系
# 12 分类关系模型
到目前为止,我们已经讨论了统计建模和假设检验的一般概念,并将其应用于一些简单的分析;现在我们将转向如何在我们的数据中对特定类型的关系建模的问题。在本章中,我们将重点关注*分类*关系的建模,我们指的是定性测量的变量之间的关系。这些数据通常用计数来表示;也就是说,对于变量的每个值(或多个变量的值的组合),有多少个观测值取该值?例如,当我们计算我们班每个专业有多少人时,我们是在为数据拟合一个分类模型。
到目前为止,我们已经讨论了统计建模和假设检验的基础概念,并将其应用于一些简单的分析;现在我们将转向如何在我们的数据中对特定类型的关系建模的问题。在本章中,我们将重点关注*分类*关系的建模,我们指的是定性测量的变量之间的关系。这些数据通常用计数来表示;也就是说,对于变量的每个值(或多个变量的值的组合),有多少个观测值取该值?例如,当我们计算我们班每个专业有多少人时,我们是在为数据拟合一个分类模型。
## 12.1 示例:糖果色
比方说,我购买了一袋 100 颗糖果,标签上标明有 1/3 巧克力、1/3 巧克力糖和 1/3 口香糖。当我数袋子里的糖果时,我们得到了下面的数字:30 块巧克力,33 块巧克力糖和 37 块口香糖球。因为比起甘草糖或口香糖,我更喜欢巧克力,所以我觉得有点被骗了,我想知道这是否只是一个偶然事件。要回答这个问题,我需要知道:如果每种糖果类型的真实概率是每种糖果的 1/3 的平均比例,那么计数结果是这样的可能性有多大?
比方说,我购买了一袋 100 颗糖果,标签上标明有 1/3 巧克力、1/3 巧克力糖和 1/3 口香糖。当我数袋子里的糖果时,我们得到了下面的数字:30 块巧克力,33 块巧克力糖和 37 块口香糖。因为比起巧克力糖或口香糖,我更喜欢巧克力,所以我觉得有点被骗了,我想知道这是否只是一个偶然事件。要回答这个问题,我需要知道:如果每种糖果类型的真实概率是每种糖果的 1/3 的平均比例,那么计数结果是这样的可能性有多大?
......@@ -16,18 +16,19 @@
## 12.2 皮尔森卡方检验
Pearson 卡方检验为我们提供了一种方法来检验一组观察计数是否不同于定义零假设的某些特定期望值:
皮尔森卡方检验为我们提供了一种方法来检验一组观察计数是否不同于定义零假设的某些特定期望值:
<semantics><mrow><mo>=</mo> <msub><mi><mi>【I】</mi></mi></msub><mo stretchy="true" form="postfix">)</mo></mrow><mrow><mi></mi></mrow></semantics>
![chi](img/chi.png)
在我们的糖果例子中,零假设是每种糖果的比例相等。为了计算卡方统计量,我们首先需要在零假设下得出我们的预期计数:因为零假设是它们都是相同的,那么这就是跨三个类别的总计数(如表 [12.1](#tab:candyDf) 所示)。然后,我们取每个计数与其在零假设下的期望值之间的差,将它们平方,除以零期望值,然后将它们相加,得到卡方统计量。
<caption>Table 12.1: Observed counts, expectations under the null hypothesis, and squared differences in the candy data</caption>
| 糖果型 | 数数 | null 期望 | 平方差 |
| 糖果型 | 实际数量 | 期望数量 | 平方差 |
| --- | --- | --- | --- |
| 巧克力 | Thirty | Thirty-three | Eleven point one one |
| 欧亚甘草 | Thirty-three | Thirty-three | Zero point one one |
| 球形口香糖 | Thirty-seven | Thirty-three | Thirteen point four four |
| 巧克力糖 | Thirty-three | Thirty-three | Zero point one one |
| 口香糖 | Thirty-seven | Thirty-three | Thirteen point four four |
此分析的卡方统计结果为 0.74,这本身是不可解释的,因为它取决于不同值相加的数量。但是,我们可以利用卡方统计量是根据零假设下的特定分布分布的这一事实,这种分布称为*卡方*分布。这个分布被定义为一组标准正态随机变量的平方和;它的自由度数量等于变量相加的数量。分布的形状取决于自由度的数量。图 [12.1](#fig:chisqDist) 的左图显示了几个不同自由度的分布示例。
......@@ -45,27 +46,28 @@ Pearson 卡方检验为我们提供了一种方法来检验一组观察计数是
## 12.3 列联表和双向检验
我们经常使用卡方检验的另一种方法是询问两个分类变量是否彼此相关。作为一个更现实的例子,让我们来看看这样一个问题:与白人司机相比,黑人司机在被警察拦下时是否更容易被搜查。斯坦福开放警务项目([https://openpolicing.stanford.edu/](https://openpolicing.stanford.edu/))对此进行了研究,并提供了我们可以用来分析这个问题的数据。我们将使用康涅狄格州的数据,因为它们相小,因此更容易分析。
我们经常使用卡方检验的另一种方法是询问两个分类变量是否彼此相关。作为一个更现实的例子,让我们来看看这样一个问题:与白人司机相比,黑人司机在被警察拦下时是否更容易被搜查。斯坦福开放警务项目([https://openpolicing.stanford.edu/](https://openpolicing.stanford.edu/))对此进行了研究,并提供了我们可以用来分析这个问题的数据。我们将使用康涅狄格州的数据,因为它们相对较小,因此更容易分析。
表示分类分析数据的标准方式是通过*列联表*,该表显示了落入每个变量的每个可能值组合中的观察值的数量或比例。下表 [12.2](#tab:policeCT) 显示了警方搜索数据的列联表。使用比例而不是原始数字来查看列联表也是有用的,因为它们更容易直观地比较,所以我们在这里包括绝对数字和相对数字。
<caption>Table 12.2: Contingency table for police search data</caption>
| 搜查 | 黑色 | 白色的 | 黑色(相对) | 白色(相对) |
| --- | --- | --- | --- | --- |
| 错误的 | Thirty-six thousand two hundred and forty-four | Two hundred and thirty-nine thousand two hundred and forty-one | Zero point one three | Zero point eight six |
| 真实的 | One thousand two hundred and nineteen | Three thousand one hundred and eight | Zero | Zero point zero one |
皮尔逊卡方检验允许我们测试观察到的频率是否与预期的频率不同,因此我们需要确定如果搜索和种族不相关,我们在每个细胞中预期的频率是多少——我们可以定义为*独立。*记住概率一章,如果 X 和 Y 是独立的,那么:
皮尔逊卡方检验允许我们测试观察到的频率是否与预期的频率不同,因此我们需要确定如果搜索和种族不相关,我们在每个单元格中预期的频率是多少——我们可以定义为*独立。*记住概率一章,如果 X 和 Y 是独立的,那么:
<math xmlns:epub="http://www.idpf.org/2007/ops" display="block"><semantics><mrow><mi>P</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>X</mi><mi>Y</mi><mo stretchy="true" form="postfix">)</mo></mrow><mo>=</mo><mi>P</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi><mo stretchy="true" form="postfix">)</mo></mi></mrow><mo>*</mo><mi>P</mi><mrow><mrow><mo stretchy="true" form="prefix">边际概率就是不管其他事件如何,每个事件发生的概率。我们可以计算出那些边际概率,然后把它们相乘得到独立情况下的期望比例。</mo></mrow></mrow></mrow></semantics></math>
| | 黑色 | 白色的 | |
| --- | --- | --- | --- |
| 未搜索 | 页:1 | 页:1 | 生理盐水 |
| 搜查 | P(S)*P(B) | P(S)*P(W) | P(S) |
| | P(B) | P(W) | |
![bw.png](img/bw.png)
然后,我们计算卡方统计,得出 828.3。要计算 p 值,我们需要将其与零卡方分布进行比较,以确定我们的卡方值与零假设下的预期值相比有多极端。这种分布的自由度是
![free](img/free.png)
然后,我们计算卡方统计,得出 828.3。要计算 p 值,我们需要将其与零卡方分布进行比较,以确定我们的卡方值与零假设下的预期值相比有多极端。这种分布的自由度是<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mi>d</mi><mi>f</mi><mo>=</mo><mrow><mo stretchy="true" form="prefix">(</mo><mi>n</mi><mi>R</mi><mi>o</mi><mi>w</mi><mi>s</mi><mn>1</mn></mrow><mo>*</mo> <mrow><mo stretchy="true" form="prefix">(</mo><mi>n</mi><mi>C</mi><mi>o</mi><mi>l</mi><mi>u</mi><mi>m</mi><mi>n</mi><mi>s</mi><mo>-</mo></mrow><annotation encoding="application/x-tex">df =(nRows-1)*(nColumns-1) <math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mi>d</mi><mi>f</mi><mo>=</mo><mrow><mo stretchy="true" form="prefix">(</mo><mn>2</mn><mo></mo>—T78】1</mrow><mo>*</mo><mrow><mo stretchy="true" form="prefix">(</mo><mn>2</mn> 这里的直觉是,计算预期频率需要我们使用三个值:观察的总数和两个变量的边际概率。因此,一旦计算出这些值,只有一个数字可以自由变化,因此有一个自由度。考虑到这一点,我们可以计算卡方统计的 p 值,它几乎接近于零:<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mn>3.79</mn><mo>×</mo><msup><mn>10</mn><mrow><mo></mo><mn>182</mn></mrow></msup></mrow><annotation encoding="application/x-tex">3.79 \次 10^{-182}<annotation encoding="application/x-tex">这表明,如果种族和警察搜查之间真的没有关系,观察到的数据将是极不可能的,因此我们应该拒绝独立性的零假设。</annotation></annotation></semantics></math></mrow></mrow></semantics></math></annotation></mrow></semantics></math>
这里的直觉是,计算预期频率需要我们使用三个值:观察的总数和两个变量的边际概率。因此,一旦计算出这些值,只有一个数字可以自由变化,因此有一个自由度。考虑到这一点,我们可以计算卡方统计的 p 值,它几乎接近于零:<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mn>3.79</mn><mo>×</mo><msup><mn>10</mn><mrow><mo></mo><mn>182</mn></mrow></msup></mrow><annotation encoding="application/x-tex">3.79 \次 10^{-182}<annotation encoding="application/x-tex">这表明,如果种族和警察搜查之间真的没有关系,观察到的数据将是极不可能的,因此我们应该拒绝独立性的零假设。</annotation></annotation></semantics></math></mrow></mrow></semantics></math></annotation></mrow></semantics></math>
我们还可以使用我们的统计软件轻松执行该测试:
......@@ -83,20 +85,15 @@ Pearson 卡方检验为我们提供了一种方法来检验一组观察计数是
## 12.4 标准化残差
当我们发现卡方检验有显著影响时,这告诉我们数据在零假设下不太可能,但它没有告诉我们*数据如何*不同。为了更深入地了解数据与我们在零假设下的预期有何不同,我们可以检查模型的残差,它反映了每个像元中数据(即观察到的频率)与模型(即预期的频率)的偏差。与其查看原始残差(其变化仅取决于数据中的观测值数量),不如查看*标准化残差*(有时也称为*皮尔逊残差*),其计算方法如下:
当我们发现卡方检验有显著影响时,这告诉我们数据在零假设下不太可能,但它没有告诉我们*数据如何*不同。为了更深入地了解数据与我们在零假设下的预期有何不同,我们可以检查模型的残差,它反映了每个数据(即观察到的频率)与模型(即预期的频率)的偏差。与其查看原始残差(其变化仅取决于数据中的观测值数量),不如查看*标准化残差*(有时也称为*皮尔逊残差*),其计算方法如下:
<math xmlns:epub="http://www.idpf.org/2007/ops" display="block"><semantics><mrow><mi>s</mi><mi>t</mi><mi>a</mi><mi>n</mi><mi>d</mi><mi>a</mi><mi>r</mi><mi>d</mi><mi>I</mi><mi>z</mi><mi>e</mi><mi>d</mi>r<mi>e</mi><mi>s</mi> <mi>b</mi><mi>s</mi><mi>e</mi><mi>r</mi><mi>v</mi><mi>e</mi><msub><mi>d</mi><mrow><mi>I</mi><mi>j</mi></mrow></msub><mi>e</mi> <mi><mi>e</mi><mi>c</mi><mi>t</mi><mi>e</mi><msub><mi>d</mi><mrow><mi>I</mi><mi>j</mi></mrow></msub></mi></mrow><annotation encoding="application/x-tex">标准化\残差 _{ij} = \frac{observed_{ij} -预期</annotation></semantics></math>
![stand](img/stand.png)
[12.3](#tab:stdRes) 显示了这些警察停车数据。这些标准化的残差可以解释为 Z 分数——在这种情况下,我们看到黑人个体的搜索次数大大高于基于独立性的预期,白人个体的搜索次数大大低于预期。这为我们提供了解释显著的卡方检验结果所需的背景。
<caption>Table 12.3: Summary of standardized residuals for police stop data</caption>
| 搜查 | 车手 _ 比赛 | 标准化残差 |
| --- | --- | --- |
| 错误的 | 黑色 | -3.3 |
| 真实的 | 黑色 | Twenty-six point six |
| 错误的 | 白色的 | One point three |
| 真实的 | 白色的 | -10.4 |
![search](img/search.png)
......@@ -105,10 +102,7 @@ Pearson 卡方检验为我们提供了一种方法来检验一组观察计数是
为了更好地理解影响的大小,我们还可以在列联表中用我们前面介绍的比值比来表示不同结果的相对可能性。首先,我们表示每场比赛被停止的几率,然后我们计算它们的比率:
<semantics><mrow><mi></mi> <mi><mi><msub><mi><mi>b</mi><mi>l</mi><mi>a</mi><mo>= <mo><mi><mspace width="0.222em"><mi>【s】</mi>【e】<mi>【a】</mi>【r】<mi>【c】</mi></mspace></mi></mo></mo></mi></msub></mi></mi></mrow></semantics>
<semantics><mrow><mi></mi><mi><mi><msub><mi><mi><mi>【h】<mi><mi>【我】</mi></mi><mi><mo>=</mo></mi><mi><mspace width="0.222em"><mi>【s】</mi>【e】</mspace></mi><mi>【a】</mi>【r】</mi><mi>【c】</mi> 已搜索\ cap white } } = \ frac { 3108 } { 239241 } = 0.013<math xmlns:epub="http://www.idpf.org/2007/ops" display="block"><semantics><mi><mi><mi><mi><mi>【T1148】</mi> <mi>【b】</mi><mi>【l】</mi><mi>【a】</mi>【c】</mi><mi>【k】</mi></mi></mi></mi></semantics></math></mi></mi></msub></mi></mi></mrow></semantics>
![sbw](img/sbw.png)
根据这个数据集,赔率显示,黑人司机被搜索的几率是白人司机的 2.59 倍。
......@@ -140,14 +134,15 @@ Pearson 卡方检验为我们提供了一种方法来检验一组观察计数是
类别分析也可以应用于列联表,其中每个变量有两个以上的类别。
例如,让我们看看 NHANES 的数据,并比较变量*抑郁*,它表示“参与者自我报告感到情绪低落、抑郁或绝望的天数”。该变量编码为`None``Several``Most`。让我们来测试这个变量是否与 *SleepTrouble* 变量相关,后者表示个人是否向医生报告了睡眠问题。
例如,让我们看看 NHANES 的数据,并比较变量*抑郁*,它表示“参与者自我报告感到情绪低落、抑郁或绝望的天数”。该变量编码为`None``Several``Most`。让我们来测试这个变量是否与 *SleepTrouble* 变量相关,后者表示个人是否向医生报告了睡眠问题。
<caption>Table 12.4: Relationship between depression and sleep problems in the NHANES dataset</caption>
| 沮丧的 | 无睡眠问题 | 是睡眠问题 |
| 情绪情况 | 无睡眠问题 | 有睡眠问题 |
| --- | --- | --- |
| 没有人 | Two thousand six hundred and fourteen | Six hundred and seventy-six |
| 几个 | Four hundred and eighteen | Two hundred and forty-nine |
| | One hundred and thirty-eight | One hundred and forty-five |
| 情绪低落 | Two thousand six hundred and fourteen | Six hundred and seventy-six |
| 抑郁 | Four hundred and eighteen | Two hundred and forty-nine |
| 绝望 | One hundred and thirty-eight | One hundred and forty-five |
仅仅通过查看这些数据,我们就可以知道这两个变量之间很可能存在关系;值得注意的是,虽然有睡眠问题的总人数比没有睡眠问题的人少得多,但对于大多数时间都感到抑郁的人来说,有睡眠问题的人数比没有睡眠问题的人多。我们可以使用卡方检验直接对此进行量化:
......@@ -182,13 +177,10 @@ Pearson 卡方检验为我们提供了一种方法来检验一组观察计数是
上面给出的列联表代表了大量观察结果的汇总,但汇总有时会产生误导。让我们举一个棒球的例子。下表显示了德瑞克·基特和大卫·贾斯蒂斯在 1995-1997 年间的击球数据(击球次数和平均击球率):
<colgroup><col style="width: 12%"> <col style="width: 12%"> <col style="width: 8%"> <col style="width: 12%"> <col style="width: 8%"> <col style="width: 12%"> <col style="width: 8%"> <col style="width: 14%"> <col style="width: 8%"></colgroup>
| 运动员 | One thousand nine hundred and ninety-five | | One thousand nine hundred and ninety-six | | One thousand nine hundred and ninety-seven | | 结合的 | |
| --- | --- | --- | --- | --- | --- | --- | --- | --- |
| 德瑞克·基特 | 12/48 | .250 | 183/582 | .314 | 190/654 | .291 | 385/1284 | **.300** |
| 大卫·贾斯蒂斯 | 104/411 | **.253** | 45/140 | **.321** | 163/495 | **.329** | 312/1046 | .298 |
![paradox](img/paradox.png)
如果你仔细观察,你会发现一些奇怪的事情正在发生:在每一年,正义的平均打击率都比杰特高,但当我们把三年的数据结合起来,杰特的平均打击率实际上比正义的高!这是一个被称为*辛普森悖论*的现象的例子,在这种现象中,出现在组合数据集中的模式可能不会出现在任何数据子集中。当另一个变量可能在不同的子集之间发生变化时,就会出现这种情况——在这种情况下,击球次数会随着年份的变化而变化,正义在 1995 年击球次数要多得多(当时击球率很低)。我们称之为*潜伏变量*,每当我们检查分类数据时,关注这些变量总是很重要的。
如果你仔细观察,你会发现一些奇怪的事情正在发生:在每一年,杜瑞科的平均打击率都比杰特高,但当我们把三年的数据结合起来,杰特的平均打击率实际上比杜瑞科的高!这是一个被称为*辛普森悖论*的现象的例子,在这种现象中,出现在组合数据集中的模式可能不会出现在任何数据子集中。当另一个变量可能在不同的子集之间发生变化时,就会出现这种情况——在这种情况下,击球次数会随着年份的变化而变化,正义在 1995 年击球次数要多得多(当时击球率很低)。我们称之为*潜伏变量*,每当我们检查分类数据时,关注这些变量总是很重要的。
......@@ -204,7 +196,7 @@ Pearson 卡方检验为我们提供了一种方法来检验一组观察计数是
## 12.10 附加读
## 12.10 附加读
* 心理科学中的辛普森悖论:实用指南
......
# 13 建模连续关系
# 13 连续关系模型
大多数人都很熟悉*相关性*这个概念,在本章中我们将为这个常用且容易被误解的概念提供一个更正式的理解
大多数人都很熟悉*相关性*这个概念,在本章中我们将为这个常用且容易被误解的概念提供一个更官方的解释
## 一个例子:仇恨犯罪和收入不平等
## 一个例子:仇恨犯罪和收入不平等关系
2017 年,Fivethirtyeight.com 网站发表了一篇名为 [*的报道,仇恨犯罪的高发生率与收入不平等有关*](https://fivethirtyeight.com/features/higher-rates-of-hate-crimes-are-tied-to-income-inequality/) ,该报道讨论了 2016 年总统大选后仇恨犯罪的流行与收入不平等之间的关系。这篇报道报道了美国联邦调查局和南方贫困法律中心对仇恨犯罪数据的分析,在此基础上,他们报告说:
> “我们发现,收入不平等是美国各地人口调整后的仇恨犯罪和仇恨事件的最重要决定因素”。
> “我们发现,收入不平等是造成美国各地仇恨犯罪事件增加的最重要因素”。
用于这种分析的数据可以作为 R 统计软件的`fivethirtyeight`包的一部分获得,这使得我们很容易访问它们。报道中的分析集中在收入不平等(由一个叫做*基尼指数*的数量定义——更多细节见附录)和各州仇恨犯罪流行率之间的关系。
分析这个数据,我们使用的是R统计软件的`fivethirtyeight`这个包,这个包用起来非常方便,推荐大家使用。报道中的分析集中在收入不平等(由一个叫做*基尼指数*的数量定义——更多细节见附录)和各州仇恨犯罪流行率之间的关系。
......@@ -40,20 +40,17 @@
<semantics><mrow><mi>【c】</mi><mi>【o】</mi><mi>【v】</mi><mi>【a】<mi>【r】</mi><mi>【I】 )</mi></mi></mrow><mrow><mo stretchy="true" form="prefix"><mi><mi>【我】</mi></mi></mo></mrow></semantics>
当单个数据点偏离其各自平均值的量相似时,该值将远离零;如果它们在相同的方向上偏离,那么协方差是正的,而如果它们在相反的方向上偏离,那么协方差是负的。我们先来看一个玩具的例子。表 [13.1](#tab:covTable) 中显示了这些数据,以及它们与平均值的个别偏差和它们的叉积。
当单个数据点偏离其各自平均值的量相似时,该值将远离零;如果它们在相同的方向上偏离,那么协方差是正的,而如果它们在相反的方向上偏离,那么协方差是负的。我们先来看一个简单的例子。表 [13.1](#tab:covTable) 中显示了这些数据,以及它们与平均值的个别偏差和它们的叉积。
<caption>Table 13.1: Data for toy example of covariance</caption>
| x | y | y _ 开发 | x _ 开发 | 交叉乘积 |
| --- | --- | --- | --- | --- |
| three | five | -3.6 | -4.6 | Sixteen point five six |
| five | four | -4.6 | -2.6 | Eleven point nine six |
| eight | seven | -1.6 | Zero point four | -0.64 |
| Ten | Ten | One point four | Two point four | Three point three six |
| Twelve | Seventeen | Eight point four | Four point four | Thirty-six point nine six |
![table1](img/table1.png)
协方差就是叉积的平均值,在本例中为 17.05。我们通常不使用协方差来描述变量之间的关系,因为它随数据的总体方差水平而变化。相反,我们通常会使用*相关系数*(通常被称为*皮尔逊相关*,以统计学家卡尔·皮尔逊命名)。相关性是通过用两个变量的标准偏差缩放协方差来计算的:
<math xmlns:epub="http://www.idpf.org/2007/ops" display="block"><semantics><mrow><mi>r</mi><mo>=</mo><mfrac><mrow><mi>c</mi><mi>o</mi><mi>v</mi><mi>a</mi><mi>r</mi><mi>I</mi><mi>a</mi><mi>n</mi><mi>c</mi><mi>e</mi></mrow><mrow><msub><mi>s</mi> <mi><mi>n</mi><mrow><mo stretchy="true" form="prefix">(</mo><msub><mi>x</mi><mi>I</mi></msub><mo></mo><mover><mi>x</mi><mo accent="true">【‾</mo></mover></mrow><mrow><mo stretchy="true" form="prefix">(</mo><msub><mi>y</mi></msub></mrow><msub><mi>s</mi><mi>x</mi></msub><msub><mi>s</mi><mi>y</mi></msub></mi></msub></mrow></mfrac></mrow><annotation encoding="application/x-tex">r = \ frac {协方差} { s _ xs _ y } = \frac{\sum_{i=1}^n(x _ I-\ bar { x })(y _ I-\ bar { y })} {(n-n 相关系数是有用的,因为不管数据的性质如何,它都在-1 和 1 之间变化。事实上,我们在前面讨论效应大小时已经讨论过相关系数。正如我们在前一章中看到的,相关性为 1 表示完全线性关系,相关性为-1 表示完全负相关,相关性为零表示没有线性关系。</annotation></semantics></math>
![s2](img/s2.png)
(相关系数是有用的,因为不管数据的性质如何,它都在-1 和 1 之间变化。事实上,我们在前面讨论效应大小时已经讨论过相关系数。正如我们在前一章中看到的,相关性为 1 表示完全线性关系,相关性为-1 表示完全负相关,相关性为零表示没有线性关系。
......@@ -61,7 +58,7 @@
仇恨犯罪和收入不平等之间的相关值为 0.42,这似乎表明两者之间有相当强的关系,但我们也可以想象,即使没有关系,这也可能是偶然发生的。我们可以使用一个简单的等式将相关值转换成一个 *t* 统计量,来测试相关性为零的零假设:
<math xmlns:epub="http://www.idpf.org/2007/ops" display="block"><semantics><mrow><msub><mtext mathvariant="italic">【hoshi】</mtext><mi>【r】</mi></msub><mo>=<mfrac><mi>【r】</mi></mfrac></mo></mrow></semantics></math>
![tr](img/tr.png)
在零假设下<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><msub><mi>H</mi><mn>0</mn></msub><mo>:</mo><mi>r</mi><mo>=</mo><mn>0</mn></mrow><annotation encoding="application/x-tex">H _ 0:r = 0</annotation></semantics></math>,这个统计量分布为一个带有<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mi>N</mi><mo><mn>2</mn>的 t 分布我们可以用我们的统计软件来计算:</mo></mrow></semantics></math>
......@@ -95,7 +92,7 @@
### 13.3.2 稳健相关性
您可能已经注意到图 [13.1](#fig:hateCrimeGini) 中有些奇怪的地方——其中一个数据点(哥伦比亚特区的数据点)似乎与其他数据点完全不同。我们称之为*异常*,标准相关系数对异常值非常敏感。例如,在图 [13.3](#fig:outlierCorr) 中,我们可以看到一个孤立的数据点如何导致非常高的正相关值,即使其他数据点之间的实际关系完全是负的。
您可能已经注意到图 [13.1](#fig:hateCrimeGini) 中有些奇怪的地方——其中一个数据点(哥伦比亚特区的数据点)似乎与其他数据点完全不同。我们称之为*异常*,标准相关系数对异常值非常敏感。例如,在图 [13.3](#fig:outlierCorr) 中,我们可以看到一个孤立的数据点如何导致非常高的正相关值,即使其他数据点之间的实际关系完全是负的。
![An simulated example of the effects of outliers on correlation. Without the outlier the remainder of the datapoints have a perfect negative correlation, but the single outlier changes the correlation value to highly positive.](img/file69.png)
......@@ -117,7 +114,7 @@
## 0.033
```
现在我们看到相关性不再显著(事实上非常接近于零),这表明由于异常值的影响,FiveThirtyEight 博客帖子的说法可能是不正确的。
现在我们看到相关性不再显著(事实上非常接近于零),这表明由于异常值的影响,这也说明FiveThirtyEight 博客帖子的说法可能是不正确的。
......@@ -127,13 +124,13 @@
## 13.4 关联和因果关系
当我们说一件事*引起另一件事*时,我们指的是什么?在哲学中,关于因果关系的意义的讨论有很长的历史,但是在统计学中,我们通常认为因果关系的一种方式是根据实验控制。也就是说,如果我们认为因素 X 导致因素 Y,那么操纵 X 的值也应该改变 Y 的值
当我们说一件事*引起另一件事*时,我们指的是什么?在哲学中,关于因果关系的意义的讨论有很长的历史,但是在统计学中,我们通常认为因果关系的一种方式是根据实验控制。也就是说,如果我们认为因素 X 导致因素 Y,那么 X 的值改变也应该导致 Y 值的改变
在医学上,有一套被称为 [*科赫公设*](https://en.wikipedia.org/wiki/Koch%27s_postulates) 的想法,历史上曾被用于确定某一特定生物体是否会引发疾病。基本思想是,这种微生物应该存在于患病人群中,而不存在于未患病人群中——因此,消除这种微生物的治疗也应该消除疾病。此外,用这种有机体感染某人会导致他们感染这种疾病。这方面的一个例子见于 Barry Marshall 博士的工作,他假设胃溃疡是由细菌引起的(*幽门螺杆菌*)。为了证明这一点,他用这种细菌感染了自己,此后不久,他的胃部出现了严重的炎症。然后他用抗生素治疗自己,他的胃很快就恢复了。他后来因为这项工作获得了诺贝尔医学奖。
在医学上,有一套被称为 [*科赫公设*](https://en.wikipedia.org/wiki/Koch%27s_postulates) 的想法,历史上曾被用于确定某一特定生物体是否会引发疾病。基本思想是,这种微生物应该存在于患病人群中,而不存在于未患病人群中——因此,消除这种微生物后也该应该治疗相应的疾病。此外,用这种有机体感染某人会导致他们感染这种疾病。这方面的一个例子见于 Barry Marshall 博士的工作,他假设胃溃疡是由细菌引起的(*幽门螺杆菌*)。为了证明这一点,他用这种细菌感染了自己,此后不久,他的胃部出现了严重的炎症。然后他用抗生素治疗自己,他的胃很快就恢复了。他后来因为这项工作获得了诺贝尔医学奖。
我们经常想测试因果假设,但我们不能实际做实验,因为这是不可能的(“人类碳排放和地球气候之间有什么关系?”)或者不道德(“严重虐待对孩子大脑发育有什么影响?”).然而,我们仍然可以收集可能与这些问题相关的数据。例如,我们可以从受虐待和未受虐待的儿童那里收集数据,然后我们可以询问他们的大脑发育是否不同。
我们经常想测试因果假设,但我们常常么有条件做实际实验,因为这往往是不可能的(比如说“人类碳排放和地球气候之间有什么关系?”)或者(“严重虐待对孩子大脑发育有什么影响?”).然而,我们仍然可以收集可能与这些问题相关的数据。例如,我们可以从受虐待和未受虐待的儿童那里收集数据,然后我们可以询问他们的大脑发育是否不同。
假设我们做了这样一个分析,我们发现受虐儿童的大脑发育比非受虐儿童差。这能证明虐待导致大脑发育不良吗?不。每当我们观察两个变量之间的统计关联时,这两个变量中的一个必然会导致另一个。然而,也有可能两个变量都受到第三个变量的影响;在这个例子中,虐待儿童可能与家庭压力有关,家庭压力也可能通过智力参与较少、食物压力或许多其他可能的途径导致大脑发育不良。关键是,两个变量之间的相关性通常会告诉我们,某个东西*可能*会导致其他东西,但它不会告诉我们什么会导致什么。
假设我们做了这样一个分析,我们发现受虐儿童的大脑发育比非受虐儿童差。这能证明虐待导致大脑发育不良吗?不。每当我们观察两个变量之间的统计关联时,这两个变量中的一个必然会导致另一个。然而,也有可能两个变量都受到第三个变量的影响;在这个例子中,虐待儿童可能与家庭压力有关,家庭压力也可能通过智力参与较少、食物压力或许多其他可能的因素导致大脑发育不良。关键是,两个变量之间的相关性通常会告诉我们,某个东西*可能*会导致其他东西,但它不会告诉我们什么会导致什么。
......@@ -145,7 +142,7 @@
![A graph showing causal relationships between three variables: study time, exam grades, and exam finishing time. A green arrow represents a positive relationship (i.e. more study time causes exam grades to increase), and a red arrow represents a negative relationship (i.e. more study time causes faster completion of the exam).](img/file70.png)
图 13.4:显示三个变量之间因果关系的图表:学习时间、考试成绩和考试结束时间。绿色箭头表示正相关关系(即更多的学习时间导致考试成绩提高),红色箭头表示负相关关系(即更多的学习时间导致更快完成考试)。
图 13.4:显示三个变量之间因果关系的图表:学习时间、考试成绩和考试用时。绿色箭头表示正相关关系(即更多的学习时间导致考试成绩提高),红色箭头表示负相关关系(即更多的学习时间导致更快完成考试)。
![A graph showing the same causal relationships as above, but now also showing the latent variable (knowledge) using a square box.](img/file71.png)
......@@ -153,9 +150,9 @@
这里我们可以说,知识*调节了*学习时间和成绩/完成时间之间的关系。这意味着,如果我们能够保持知识不变(例如,通过服用一种导致立即遗忘的药物),那么学习时间的长短就不再会对成绩和完成时间产生影响。
请注意,如果我们简单地测量考试成绩和完成时间,我们通常会看到它们之间的负相关关系,因为通常最快完成考试的人会得到最高的成绩。然而,如果我们将这种相关性解释为因果关系,这将告诉我们,为了取得更好的成绩,我们实际上应该更快地完成考试!这个例子显示了从非实验数据中推断因果关系是多么棘手
请注意,如果我们简单地测量考试成绩和完成时间,我们通常会看到它们之间的负相关关系,因为通常最快完成考试的人会得到最高的成绩。然而,如果我们将这种相关性解释为因果关系,这将告诉我们,为了取得更好的成绩,我们应该更快地完成考试!这个例子显示了从非实验数据中推断因果关系是多么困难
在统计学和机器学习领域,有一个非常活跃的研究团体,目前正在研究我们何时以及如何从非实验数据中推断因果关系的问题。然而,这些方法通常需要强有力的假设,并且通常必须非常谨慎地使用
在统计学和机器学习领域,有一个非常活跃的研究团体,目前正在研究我们何时以及如何从非实验数据中推断因果关系的问题。然而,这些方法通常需要强有力的假设,并且通常使用起来要非常谨慎
......@@ -169,14 +166,14 @@
* 描述相关系数的概念及其解释
* 计算两个连续变量之间的相关性
* 描述异常数据点的影响以及如何解决它们。
* 描述异常数据点对相关性的影响以及如何解决它们。
* 描述可能导致观察到的相关性的潜在因果影响。
## 13.6 建议读
## 13.6 建议读
* 朱迪亚·珀尔的《为什么》一书——对因果推理背后思想的极好介绍。
......@@ -192,8 +189,7 @@
在我们看这篇报道中的分析之前,首先有必要了解基尼指数是如何用来量化不平等的。基尼指数通常被定义为一条曲线,描述收入与收入等于或低于该水平的人口比例之间的关系,称为*洛伦茨曲线*。然而,另一种思考方式更直观:它是收入之间的相对平均绝对差除以二(来自 https://en.wikipedia.org/wiki/Gini_coefficient[):](https://en.wikipedia.org/wiki/Gini_coefficient)
<semantics><mrow><mi>【g】</mi><mo>=</mo><mrow><munderover><mi></mi></munderover></mrow></mrow> <mrow><mi><munderover><mo><mrow><mi>【I】</mi>【t】</mrow></mo></munderover></mi></mrow></semantics>
![gini](img/gini.png)
![Lorenz curves for A) perfect equality, B) normally distributed income, and C) high inequality (equal income except for one very wealthy individual).](img/file72.png)
图 13.6:洛伦茨曲线表示 A)完全平等,B)正常分配的收入,以及 C)高度不平等(除了一个非常富有的人之外,收入相等)。
......@@ -206,7 +202,7 @@
### 13.7.2 贝叶斯相关分析
我们还可以使用贝叶斯分析来分析 FiveThirtyEight 数据,这有两个优点。首先,它为我们提供了后验概率——在这种情况下,是相关值超过零的概率。第二,贝叶斯估计将观察到的证据与之前的*相结合,这具有*正则化*相关性估计的效果,有效地将其拉向零。这里我们可以用 r 中的 *BayesFactor* 包来计算*
我们还可以使用贝叶斯分析来分析 FiveThirtyEight 数据,这有两个好处。首先,它为我们提供了后验概率——在这种情况下,是相关值超过零的概率。第二,贝叶斯估计将观察到的证据与之前的*相结合,这具有*正则化*相关性估计的效果,有效地将其拉向零。这里我们可以用 r 中的 *BayesFactor* 包来计算*
*```
## Bayes factor analysis
......
此差异已折叠。
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册