未验证 提交 6226d822 编写于 作者: 布客飞龙 提交者: GitHub

Merge pull request #10 from liuyixi520/master

update 15.md-18.md
# 15 比较手段 # 15 比较均值
我们已经遇到了许多关注样本均值问题的案例。 在本章中,我们将更深入地研究比较不同组均值的各种方法。
我们已经遇到了一些情况,我们想问一些关于样本均值的问题。在这一章中,我们将更深入地研究各种方法来比较不同组的平均值。
## 15.1 测试单个平均值 ## 15.1 测试单个平均值
对于平均值,我们可能想问的最简单的问题是它是否有一个特定的值。假设我们想测试 NHANES 数据集中成年人的平均舒张压值是否高于 80,根据美国心脏病学会的规定,这是高血压的临界值。为了提出这个问题,我们选取了 200 名成年人作为样本;每个成年人都测量了三次血压,我们使用这些血压的平均值进行测试。 对于平均值,我们或许最想知道的是它是否有一个特定的值。假设我们想测试 NHANES 数据集中成年人的平均舒张压值是否高于 80,根据美国心脏病学会的规定,这是高血压的临界值。为了抛出这个问题,我们选取了 200 名成年人作为样本;每个成年人都测量了三次血压,我们使用这些血压的平均值进行测试。
测试这种差异的一种简单方法是使用一种称为*符号测试*的测试,它询问实际值和假设值之间的正差异比例是否与我们偶然预期的不同。为此,我们取每个数据点和假设平均值之间的差值,并计算它们的符号。如果数据是正态分布的,并且实际平均值等于假设平均值,那么高于(或低于)假设平均值的值的比例应该是 0.5,这样正差异的比例也应该是 0.5。在我们的样本中,我们看到 19.0%的人舒张压高于 80。然后,我们可以使用二项式测试来询问正差异的比例是否大于 0.5,使用我们统计软件中的二项式测试功能: 测试这种差异的一种简单方法是使用一种称为*符号测试*的测试,它关注实际值和假设值之间的差异是否是偶然性的。为此,我们取每个数据点和假设平均值之间的差值,并计算它们的符号。如果数据是正态分布的,并且实际平均值等于假设平均值,那么高于(或低于)假设平均值的值的比例应该是 0.5,这样正差异的比例也应该是 0.5。在我们的样本中,我们看到 19.0%的人舒张压高于 80。然后,我们可以使用二项式测试来询问正差异的比例是否大于 0.5,使用我们统计软件中的二项式测试功能:
``` ```
## ##
...@@ -26,15 +24,18 @@ ...@@ -26,15 +24,18 @@
## 0.19 ## 0.19
``` ```
这里我们看到,在<math display="inline"><semantics><mrow><mi>p</mi><mo></mo><mn>0.5</mn></mrow><annotation encoding="application/x-tex">p \ le 0.5</annotation></semantics></math>的零假设下,有阳性体征的个体比例并不十分令人惊讶,鉴于观测值实际上小于<math display="inline"><semantics><mn>0.5</mn><annotation encoding="application/x-tex">0.5</annotation></semantics></math>,这一点并不应该令我们感到惊讶。 这里我们看到,在$p \le 0.5$的零假设下,血压偏高的个体比例并不出乎我们的预期,鉴于观测值实际上小于$0.5$,这一点并不应该令我们感到惊讶。
我们也可以用学生的 t 检验来问这个问题,你在本书前面已经遇到过了。我们将平均数称为<math display="inline"><semantics><mover><mi>x</mi></mover><annotation encoding="application/x-tex">\ bar { x }</annotation></semantics></math>而假设的人口平均数称为<math display="inline"><semantics><mi>【μ</mi><annotation encoding="application/x-tex">\ mu</annotation></semantics></math>。然后,单个平均值的 t 检验为:
<math xmlns:epub="http://www.idpf.org/2007/ops" display="block"><semantics><mrow><mi>t</mi><mo>=</mo><mfrac><mrow><mover><mi>x</mi></mover><mi>μ</mi></mrow><mrow><mi>s</mi><mi>e</mi><mi>m</mi></mrow></mfrac></mrow><annotation encoding="application/x-tex">t = \ frac { \ bar { x }-\ mu } { SEM }</annotation></semantics></math> 我们也可以用学生的 t 检验来问这个问题,你在本书前面已经遇到过了。我们将平均数称为$\bar{X}$而假设的人口平均数称为$\mu$。然后,单个平均值的 t 检验为:
$$
t = \frac{\bar{X} - \mu}{SEM}
$$
SEM的简写为 Standard Error of Mean。使用下面的公式计算:
<semantics><mrow><mi>【s】</mi><mi>【e】</mi><mi>【m】</mi><mo>=<mfrac></mfrac></mo></mrow></semantics> $$
SEM = \frac{\hat{\sigma}}{\sqrt{n}}
本质上,t 统计量询问样本平均值与假设数量的偏差相对于平均值的抽样可变性有多大。 $$
本质上,t 统计量询问样本均值与假设数量的偏差相对于均值的抽样变异性有多大。
我们可以使用统计软件对 NHANES 数据集进行计算: 我们可以使用统计软件对 NHANES 数据集进行计算:
...@@ -54,7 +55,7 @@ ...@@ -54,7 +55,7 @@
这向我们表明,数据集中的平均舒张压(69.5)实际上远低于 80,因此我们对其是否高于 80 的测试远没有意义。 这向我们表明,数据集中的平均舒张压(69.5)实际上远低于 80,因此我们对其是否高于 80 的测试远没有意义。
请记住,大的 p 值不会为我们提供支持零假设的证据,因为我们已经假设零假设一开始就是正确的。然而,正如我们在贝叶斯分析一章中所讨论的,我们可以使用贝叶斯因子来量化支持或反对零假设的证据: 请记住,大的 p 值不会为我们提供支持零假设的证据,因为我们已经预计零假设一开始就是正确的。然而,正如我们在贝叶斯分析一章中所讨论的,我们可以使用贝叶斯因子来量化支持或反对零假设的证据:
``` ```
ttestBF(NHANES_sample$BPDiaAve, mu=80, nullInterval=c(-Inf, 80)) ttestBF(NHANES_sample$BPDiaAve, mu=80, nullInterval=c(-Inf, 80))
...@@ -72,7 +73,7 @@ ttestBF(NHANES_sample$BPDiaAve, mu=80, nullInterval=c(-Inf, 80)) ...@@ -72,7 +73,7 @@ ttestBF(NHANES_sample$BPDiaAve, mu=80, nullInterval=c(-Inf, 80))
## Bayes factor type: BFoneSample, JZS ## Bayes factor type: BFoneSample, JZS
``` ```
这里列出的第一个贝叶斯因子(<math display="inline"><semantics><mrow><mn>2.73</mn><mo>*</mo><msup><mn>10</mn><mn>16</mn></msup></mrow><annotation encoding="application/x-tex">2.73 * 10^{16}</annotation></semantics></math>)表示有极其有力的证据支持零假设而不是替代方案 这里列出的第一个贝叶斯因子($2.73 * 10^{16}$)表示有极其有力的证据支持零假设而不是替代假设
...@@ -80,17 +81,21 @@ ttestBF(NHANES_sample$BPDiaAve, mu=80, nullInterval=c(-Inf, 80)) ...@@ -80,17 +81,21 @@ ttestBF(NHANES_sample$BPDiaAve, mu=80, nullInterval=c(-Inf, 80))
## 15.2 比较两种方法 ## 15.2 比较两种方法
统计学中经常出现的一个更常见的问题是,两个不同组的均值之间是否存在差异。假设我们想知道经常吸食大麻的人是否看更多的电视,我们也可以使用 NHANES 数据集来询问这个问题。我们从数据集中抽取了 200 个样本,测试每天看电视的小时数是否与经常使用大麻有关。图 [15.1](#fig:PotTVViolin) 的左图使用小提琴图显示了这些数据 统计学中经常出现的一个更常见的问题是,两个不同组的均值之间是否存在差异。假设我们想知道经常吸食大麻的人是否看更多的电视,我们也可以使用 NHANES 数据集来询问这个问题。我们从数据集中抽取了 200 个样本,测试每天看电视的小时数是否与经常使用大麻有关。图 [15.1](#fig:PotTVViolin) 的左图使用小提琴图对这些数据进行了可视化操作
![Left: Violin plot showing distributions of TV watching separated by regular marijuana use. Right: Violin plots showing data for each group, with a dotted line connecting the predicted values for each group, computed on the basis of the results of the linear model.. ](img/file80.png) ![Left: Violin plot showing distributions of TV watching separated by regular marijuana use. Right: Violin plots showing data for each group, with a dotted line connecting the predicted values for each group, computed on the basis of the results of the linear model.. ](img/file80.png)
图 15.1:左图:小提琴图显示了定期吸食大麻对看电视的影响。右图:显示各组数据的 Violin 图,虚线连接各组的预测值,根据线性模型的结果进行计算.. 图 15.1:左图:小提琴图显示了定期吸食大麻对看电视的影响。右图:显示各组数据的小提琴图,虚线连接各组的预测值,根据线性模型的结果进行计算。
我们也可以使用学生 t 检验来检验两组独立观察值之间的差异(正如我们在前面章节中看到的);我们将在本章后面讨论观测值不独立的情况。提醒一下,比较两个独立组的 t 统计量计算如下: 我们也可以使用学生 t 检验来检验两组独立观察值之间的差异(正如我们在前面章节中看到的);我们将在本章后面讨论观测值不独立的情况。提醒一下,比较两个独立组的 t 统计量计算如下:
<semantics><mrow><mi><mo>=</mo> <mrow><mover><mi><mi><mn>n</mn></mi></mi></mover></mrow></mi></mrow><annotation encoding="application/x-tex">【t = \ frac】{ \ bar { x _ 1 }-\ bar { x _ 2 } } { \ sqrt }+\ frac { s _ 1 ^ 2 } { n _ 1 }+\ frac</annotation></semantics>
其中<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><msub><mover><mi>x</mi><mo accent="true"></mo></mover><mn>1</mn></msub><annotation encoding="application/x-tex">\ bar { x } _ 1</annotation></semantics></math><math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><msub><mover><mi>x</mi><mo accent="true"></mo></mover><mn>2</mn></msub><annotation encoding="application/x-tex">\ bar { x } _ 2</annotation></semantics></math>是两者的意思 <math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><msubsup><mi>s</mi><mn>1</mn><mn>2</mn></msubsup><annotation encoding="application/x-tex">s^2_1</annotation></semantics></math><math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><msubsup><mi>s</mi><mn>2</mn><mn>2</mn></msubsup><annotation encoding="application/x-tex">s^2_2</annotation></semantics></math>是每个组的方差,而 <math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><semantics><msub>在均值间无差异的零假设下,该统计量根据 t 分布进行分布,自由度使用 Welch 检验(如前所述)进行计算,因为两组之间的个体数量不同。在这种情况下,我们从特定的假设开始,即吸食大麻与更多地看电视有关,因此我们将使用单尾检验。以下是我们的统计软件得出的结果:</msub></semantics></semantics></math> $$
t = \frac{\bar{X_1} - \bar{X_2}}{\sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}}
$$
其中$\bar{X}_1$ 和 $\bar{X}_2$是两组的均值, $S^2_1$ and $S^2_2$是两组的方差,而在均值间无差异的零假设下,该统计量根据 t 分布进行分布,自由度使用 Welch 检验(如前所述)进行计算,因为两组之间的样本数量不同。在这种情况下,我们从特定的假设开始,即吸食大麻与更多地看电视有关,因此我们将使用单尾检验。以下是我们的统计软件得出的结果:
``` ```
## ##
...@@ -116,7 +121,10 @@ ttestBF(NHANES_sample$BPDiaAve, mu=80, nullInterval=c(-Inf, 80)) ...@@ -116,7 +121,10 @@ ttestBF(NHANES_sample$BPDiaAve, mu=80, nullInterval=c(-Inf, 80))
t 检验通常作为比较均值的专门工具,但它也可以被视为一般线性模型的应用。在这种情况下,模型将如下所示: t 检验通常作为比较均值的专门工具,但它也可以被视为一般线性模型的应用。在这种情况下,模型将如下所示:
<math xmlns:epub="http://www.idpf.org/2007/ops" display="block"><semantics><mrow><mover><mrow><mi>t</mi><mi>v</mi></mrow><mo accent="true">̂</mo></mover><mo>=</mo><mover><msub><mi>β</mi><mn>1</mn></msub><mo accent="true">̂</mo></mover><mo>*</mo><mi>m</mi><mi>a</mi><mi>r</mi><mi>I</mi><mi>j = \ hat { \ beta _ 1 } *大麻+ \hat{\beta_0}</mi></mrow></semantics></math> 由于吸烟是一个二元变量,我们将其视为一个*虚拟变量*,就像我们在上一章中讨论的那样,对于吸烟者将其值设置为 1,对于不吸烟者将其值设置为 0。 既然如此,<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mover><msub><mi><mn>β</mn></mi></msub><mo accent="true">̂</mo></mover><annotation encoding="application/x-tex">\ hat【beta _ 1】</annotation></semantics></math>简直就是两组的手段之差,<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mover><msub><mi>β</mi><mn>0</mn>我们可以使用统计软件中的一般线性模型函数来拟合该模型,并看到它给出了与上述 t 检验相同的 t 统计量,只是在这种情况下它是正的,这是因为我们的软件排列组的方式:</msub></mover></semantics></math> $$
\hat{TV} = \hat{\beta_1}*Marijuana + \hat{\beta_0}
$$
由于吸毒是一个二元变量,我们将其视为一个*虚拟变量*,就像我们在上一章中讨论的那样,对于吸烟者将其值设置为 1,对于不吸烟者将其值设置为 0。 既然如此,$\hat{\beta_1}$就是两组的均值之差,$\hat{\beta_0}$可以使用统计软件中的一般线性模型函数来拟合该模型,并看到它给出了与上述 t 检验相同的 t 统计量,只是在这种情况下它是正的,这是因为我们的软件排列组的方式:
``` ```
## ##
...@@ -139,7 +147,7 @@ t 检验通常作为比较均值的专门工具,但它也可以被视为一般 ...@@ -139,7 +147,7 @@ t 检验通常作为比较均值的专门工具,但它也可以被视为一般
## F-statistic: 11.4 on 1 and 198 DF, p-value: 0.000872 ## F-statistic: 11.4 on 1 and 198 DF, p-value: 0.000872
``` ```
我们也可以图形方式查看线性模型结果(参见图 [15.1](#fig:PotTVViolin) 的右侧面板)。在这种情况下,不吸烟者的预测值是<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mover><msub><mi>β</mi><mn>0</mn></msub><mo accent="true">̂</mo></mover><annotation encoding="application/x-tex">\帽子【beta _ 0】</annotation></semantics></math>(2.0),而吸烟者的预测值是<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mover><msub><mi>β</mi><mn>0</mn></msub><mo accent="true">̂</mo></mover></mrow></semantics></math> 我们也可以图形方式查看线性模型结果(参见图 [15.1](#fig:PotTVViolin) 的右侧面板)。在这种情况下,不吸烟者的预测值是$\hat{\beta_0}$,而吸烟者的预测值是$\hat{\beta_0} +\hat{\beta_1}$
为了计算这种分析的标准误差,我们可以使用与线性回归完全相同的方程,因为这实际上是线性回归的另一个例子。事实上,如果您将上述 t 检验的 p 值与大麻使用变量的线性回归分析中的 p 值进行比较,您会发现线性回归分析的 p 值恰好是 t 检验的两倍,因为线性回归分析正在执行双尾检验。 为了计算这种分析的标准误差,我们可以使用与线性回归完全相同的方程,因为这实际上是线性回归的另一个例子。事实上,如果您将上述 t 检验的 p 值与大麻使用变量的线性回归分析中的 p 值进行比较,您会发现线性回归分析的 p 值恰好是 t 检验的两倍,因为线性回归分析正在执行双尾检验。
...@@ -149,9 +157,11 @@ t 检验通常作为比较均值的专门工具,但它也可以被视为一般 ...@@ -149,9 +157,11 @@ t 检验通常作为比较均值的专门工具,但它也可以被视为一般
比较两个均值最常用的效应大小是科恩的 d,它(你可能记得第 [10](#ci-effect-size-power) 章)是用标准差单位表示的效应大小。对于使用上述一般线性模型(即,使用单个虚拟编码变量)估计的 t 检验,这表示为: 比较两个均值最常用的效应大小是科恩的 d,它(你可能记得第 [10](#ci-effect-size-power) 章)是用标准差单位表示的效应大小。对于使用上述一般线性模型(即,使用单个虚拟编码变量)估计的 t 检验,这表示为:
<math xmlns:epub="http://www.idpf.org/2007/ops" display="block"><semantics><mrow><mi>d</mi><mo>=</mo><mfrac><mover><msub><mi>β</mi></msub><mo accent="true">̂</mo></mover><msub><mi>σ</mi><mrow><mi>r</mi><mi>e</mi><mi>s</mi><mi>I</mi><mi>d</mi><mi>u</mi><mi>a</mi></mrow></msub></mfrac></mrow></semantics></math> $$
d = \frac{\hat{\beta_1}}{\sigma_{residual}}
$$
我们还可以计算出<math display="inline"><semantics><msup><mi>r</mi><mn>2</mn></msup><annotation encoding="application/x-tex">r^2</annotation></semantics></math>进行这种分析,它告诉我们吸食大麻在看电视的方差中占了多大比例。这个值(在上面的线性模型分析总结的底部报告)是 0.05,这告诉我们,虽然这种影响在统计上可能是显著的,但它在看电视的变化中占相对较小的比例。 我们还可以计算出$r^2$,然后进行分析,它告诉我们吸食大麻的人在看电视的人中占了多大比例。这个值(在上面的线性模型分析总结的底部报告)是 0.05,这告诉我们,虽然这种影响在统计上可能是显著的,但它在看电视的变化中占相对较小的比例。
...@@ -183,7 +193,7 @@ t 检验通常作为比较均值的专门工具,但它也可以被视为一般 ...@@ -183,7 +193,7 @@ t 检验通常作为比较均值的专门工具,但它也可以被视为一般
## 15.5 比较成对观察值 ## 15.5 比较成对观察值
在实验研究中,我们经常使用*受试者内*设计,在这种设计中,我们在多个测量值上比较同一个人。来自这种设计的测量通常被称为*重复测量*。例如,在 NHANES 数据集中,血压被测量三次。假设我们有兴趣测试样本中个体间第一次和第二次测量的平均收缩压是否存在差异(图 [15.2](#fig:BPfig) )。 在实验研究中,我们经常使用*受试者内*设计,在这种设计中,我们在多个测量值上比较同一个人。来自这种设计的测量通常被称为*重复测量*。例如,在 NHANES 数据集中,血压被测量三次。假设我们有兴趣测试样本中个体间第一次和第二次测量的平均收缩压存在差异(图 [15.2](#fig:BPfig) )。
![Left: Violin plot of systolic blood pressure on first and second recording, from NHANES. Right: Same violin plot with lines connecting the two data points for each individual.](img/file81.png) ![Left: Violin plot of systolic blood pressure on first and second recording, from NHANES. Right: Same violin plot with lines connecting the two data points for each individual.](img/file81.png)
...@@ -207,11 +217,11 @@ t 检验通常作为比较均值的专门工具,但它也可以被视为一般 ...@@ -207,11 +217,11 @@ t 检验通常作为比较均值的专门工具,但它也可以被视为一般
这一分析显示没有显著差异。然而,这种分析是不恰当的,因为它假设两个样本是独立的,而事实上它们不是,因为数据来自相同的个体。我们可以为每个人绘制一条线来显示这些数据(见图 [15.2](#fig:BPfig) 中的右图)。 这一分析显示没有显著差异。然而,这种分析是不恰当的,因为它假设两个样本是独立的,而事实上它们不是,因为数据来自相同的个体。我们可以为每个人绘制一条线来显示这些数据(见图 [15.2](#fig:BPfig) 中的右图)。
在这种分析中,我们真正关心的是每个人的血压在两次测量之间是否以系统的方式发生了变化,因此另一种表示数据的方法是计算每个人在两个时间点之间的差异,然后分析这些差异分数,而不是分析个体测量。在图 [15.3](#fig:BPDiffHist) 中,我们展示了这些差异分数的直方图,蓝色线条表示平均差异。 在这种分析中,我们真正关心的是每个人的血压在两次测量之间是否系统性的发生了变化,因此另一种表示数据的方法是计算每个人在两个时间点之间的差异,然后分析这些差异值,而不是分析个体测量。在图 [15.3](#fig:BPDiffHist) 中,我们展示了这些差异值的直方图,蓝色线条表示平均差异。
![Histogram of difference scores between first and second BP measurement. The vertical line represents the mean difference in the sample.](img/file82.png) ![Histogram of difference scores between first and second BP measurement. The vertical line represents the mean difference in the sample.](img/file82.png)
图 15.3:第一次和第二次血压测量的差值直方图。垂直线代表样本的平均差异。 图 15.3:第一次和第二次血压测量的差值直方图。垂直线代表样本的平均差异。
...@@ -233,7 +243,7 @@ t 检验通常作为比较均值的专门工具,但它也可以被视为一般 ...@@ -233,7 +243,7 @@ t 检验通常作为比较均值的专门工具,但它也可以被视为一般
## 0.48 ## 0.48
``` ```
这里我们看到在<math display="inline"><semantics><mrow><mi>p</mi><mo>=</mo><mn>0.5</mn></mrow><annotation encoding="application/x-tex">p = 0.5</annotation></semantics></math>的零假设下,有正符号的个体比例(0.48)并没有大到令人惊讶。然而,符号测试的一个问题是,它丢弃了关于差异大小的信息,因此可能会丢失一些东西 这里我们看到在$p=0.5$的零假设下,有正符号的个体比例(0.48)并没有大到离谱。然而,符号测试的一个问题是,它丢弃了关于差异大小的信息,因此可能会丢失一些信息
...@@ -241,7 +251,7 @@ t 检验通常作为比较均值的专门工具,但它也可以被视为一般 ...@@ -241,7 +251,7 @@ t 检验通常作为比较均值的专门工具,但它也可以被视为一般
### 15.5.2 配对 t 检验 ### 15.5.2 配对 t 检验
更常见的策略是使用*配对 t 检验*,这相当于对每个内部测量值之间的平均差异是否为零的单样本 t 检验。我们可以使用我们的统计软件进行计算,告诉它数据点是成对的: 更常见的策略是使用*配对 t 检验*,这相当于对每个样本内部测量值之间的平均差异是否为零的单样本 t 检验。我们可以使用我们的统计软件进行计算,告诉它数据点是成对的:
``` ```
## ##
...@@ -280,9 +290,9 @@ t 检验通常作为比较均值的专门工具,但它也可以被视为一般 ...@@ -280,9 +290,9 @@ t 检验通常作为比较均值的专门工具,但它也可以被视为一般
## 15.6 比较两个以上意味着 ## 15.6 比较两个以上均值
我们经常想要比较两个以上的平均数,以确定它们之间是否有任何不同。假设我们正在分析一项高血压治疗临床试验的数据。在这项研究中,志愿者被随机分配到三种情况中的一种:药物 1、药物 2 或安慰剂。让我们生成一些数据并绘制它们(见图 [15.4](#fig:DrugTrial) 我们经常想要比较两个以上的平均数,以确定它们之间是否有任何不同。假设我们正在分析一项高血压疗效的数据。在这项研究中,志愿者被随机分配到三种情况中的一种:药物1、药物2、安慰剂。让我们生成一些数据并绘制它们(见图 [15.4](#fig:DrugTrial)
![Box plots showing blood pressure for three different groups in our clinical trial.](img/file83.png) ![Box plots showing blood pressure for three different groups in our clinical trial.](img/file83.png)
...@@ -292,13 +302,17 @@ t 检验通常作为比较均值的专门工具,但它也可以被视为一般 ...@@ -292,13 +302,17 @@ t 检验通常作为比较均值的专门工具,但它也可以被视为一般
### 15.6.1 差异分析 ### 15.6.1 差异分析
我们首先要测试所有组的平均值相等的零假设,也就是说,与安慰剂相比,两种治疗都没有任何效果。我们可以使用一种叫做*方差分析* (ANOVA)的方法来做到这一点。这是心理统计学中最常用的方法之一,在这里我们只触及皮毛。方差分析背后的基本思想是我们在一般线性模型一章中已经讨论过的,事实上方差分析只是这种模型的一个特定版本的名称。 我们首先要测试所有组的平均值相等的零假设,也就是说,与安慰剂相比,两种高血压药都没有疗效。我们可以使用一种叫做*方差分析* (ANOVA)的方法来做到这一点。这是心理统计学中最常用的方法之一,在这里我们浅尝辄止。方差分析背后的基本思想是我们在一般线性模型一章中已经讨论过的,事实上方差分析只是这种模型的一个特定版本的名称。
记得上一章,我们可以将数据中的总方差($SS_{total}$)划分为两部分:模型解释的方差($SS_{model}$)和非模型解释的方差($SS_{ error}$)。 然后,我们可以让它们除以它们的自由度来计算它们中的每一个的*均方*; 对于错误,这是 $N - p$(其中 $p$ 是我们计算的均值数),对于模型,这是 $p - 1$,用公式表示为:
记得从上一章我们可以对数据中的总方差进行分区(<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mi>S</mi><msub><mi>S</mi><mrow><mi>t</mi><mi>o</mi><mi>t</mi><mi>a</mi><mi>l</mi></mrow></msub></mrow><annotation encoding="application/x-tex">SS _ { total }</annotation></semantics></math>) 入模型解释的方差(<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mi>S</mi><msub><mi>S</mi><mrow><mi>m</mi><mi>o<mi><mi>e</mi><mi>l</mi></mi></mi></mrow></msub></mrow><annotation encoding="application/x-tex">SS _ { model }</annotation></semantics></math>)和非模型解释的方差( <math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow>然后,我们可以通过将它们除以它们的自由度来计算它们的均方差;对于误差这是<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mi>N</mi><mo></mo><mi>p</mi></mrow><annotation encoding="application/x-tex">N-p</annotation></semantics></math>(其中<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mi>p</mi><annotation encoding="application/x-tex">p</annotation></semantics></math>是我们已经计算出来的平均数),对于模型这是</mrow></semantics></math>
<semantics><mrow><mi>【m】</mi><msub><mi>【s】</mi><mrow><mi>【m】 <mi><mi><mi><mi>l</mi></mi></mi></mi></mi></mrow></msub></mrow><mo>=</mo></semantics> $$
MS_{model} =\frac{SS_{model}}{df_{model}}= \frac{SS_{model}}{p-1}
$$
<semantics><mrow><mi>【m】</mi><msub><mi>【s】<mrow><mi>【e】<mi>【r】<mi>【r】 r</mi></mi></mi></mrow></mi></msub></mrow><mo>=</mo></semantics> $$
MS_{error} = \frac{SS_{error}}{df_{error}} = \frac{SS_{error}}{N - p}
$$
使用 ANOVA,我们希望在均值间无差异的零假设下,测试模型解释的方差是否大于我们随机预期的方差。而对于 t 分布,在零假设下期望值为零,但这里不是这样,因为平方和总是正数。幸运的是,有另一种理论分布描述了在零假设下平方和的比率是如何分布的:分布 *F* (见图 [15.5](#fig:FDist) )。这种分布有两个自由度,分别对应于分子(本例中为模型)和分母(本例中为误差)的自由度。 使用 ANOVA,我们希望在均值间无差异的零假设下,测试模型解释的方差是否大于我们随机预期的方差。而对于 t 分布,在零假设下期望值为零,但这里不是这样,因为平方和总是正数。幸运的是,有另一种理论分布描述了在零假设下平方和的比率是如何分布的:分布 *F* (见图 [15.5](#fig:FDist) )。这种分布有两个自由度,分别对应于分子(本例中为模型)和分母(本例中为误差)的自由度。
...@@ -306,7 +320,7 @@ t 检验通常作为比较均值的专门工具,但它也可以被视为一般 ...@@ -306,7 +320,7 @@ t 检验通常作为比较均值的专门工具,但它也可以被视为一般
图 15.5:不同自由度值的零假设下的 f 分布。 图 15.5:不同自由度值的零假设下的 f 分布。
为了创建 ANOVA 模型,我们扩展了您在上一章中遇到的*虚拟编码*的概念。请记住,对于比较两个平均值的 t 检验,我们创建了一个虚拟变量,其中一个条件的值为 1,其他条件的值为 0。在这里,我们通过创建两个虚拟变量来扩展这一思想,一个编码药物 1 的条件,另一个编码药物 2 的条件。就像在 t 检验中一样,我们将有一个条件(在这种情况下,安慰剂)没有虚拟变量,因此代表了与其他条件进行比较的基线;它的平均值定义了模型的截距。使用药品 1 和 2 的虚拟编码,我们可以使用与上一章相同的方法来拟合模型: 为了创建 ANOVA 模型,我们扩展了您在上一章中遇到的*虚拟编码*的概念。请记住,对于比较两个平均值的 t 检验,我们创建了一个虚拟变量,其中一个条件的值为 1,其他条件的值为 0。在这里,我们通过创建两个虚拟变量来扩展这一思想,一个编码药物 1 的条件,另一个编码药物 2 的条件。就像在 t 检验中一样,我们将有一个条件(在这种情况下,安慰剂)没有虚拟变量,因此代表了与其他条件进行比较的基线;它的平均值定义了模型的截距。使用药品1和药品2的虚拟编码,我们可以使用与上一章相同的方法来拟合模型:
``` ```
## ##
...@@ -330,7 +344,7 @@ t 检验通常作为比较均值的专门工具,但它也可以被视为一般 ...@@ -330,7 +344,7 @@ t 检验通常作为比较均值的专门工具,但它也可以被视为一般
## F-statistic: 10.7 on 2 and 105 DF, p-value: 5.83e-05 ## F-statistic: 10.7 on 2 and 105 DF, p-value: 5.83e-05
``` ```
这个命令的输出为我们提供了两件事。首先,它向我们展示了每个虚拟变量的 t 检验结果,这基本上告诉我们每个条件是否分别不同于安慰剂;似乎药物 1 有,而药物 2 没有。但是,请记住,如果我们想要解释这些测试,我们需要校正 p 值,以说明我们已经进行了多重假设测试的事实;我们将在下一章看到如何做到这一点的例子。 这个命令的输出为我们提供了两个信息。首先,它向我们展示了每个虚拟变量的 t 检验结果,这基本上告诉我们每个条件是否分别不同于安慰剂;似乎药物 1 有,而药物 2 没有。但是,请记住,如果我们想要解释这些测试,我们需要校正 p 值,以说明我们已经进行了多重假设测试的事实;我们将在下一章看到如何做到这一点的例子。
请记住,我们开始想要测试的假设是,任何条件之间是否有任何差异;我们称之为*综合*假设检验,它是由 F 统计提供的检验。F 统计量基本上告诉我们,我们的模型是否优于只包含截距的简单模型。在这种情况下,我们看到 f 检验非常显著,与我们的印象一致,即两组之间似乎确实存在差异(事实上我们知道存在差异,因为我们创建了数据)。 请记住,我们开始想要测试的假设是,任何条件之间是否有任何差异;我们称之为*综合*假设检验,它是由 F 统计提供的检验。F 统计量基本上告诉我们,我们的模型是否优于只包含截距的简单模型。在这种情况下,我们看到 f 检验非常显著,与我们的印象一致,即两组之间似乎确实存在差异(事实上我们知道存在差异,因为我们创建了数据)。
...@@ -357,9 +371,9 @@ t 检验通常作为比较均值的专门工具,但它也可以被视为一般 ...@@ -357,9 +371,9 @@ t 检验通常作为比较均值的专门工具,但它也可以被视为一般
### 15.8.1 作为线性模型的成对 t 检验 ### 15.8.1 作为线性模型的成对t检验
我们也可以根据一般的线性模型来定义配对 t 检验。为此,我们将每个受试者的所有测量结果作为数据点包含在内(在一个整洁的数据框内)。然后,我们在模型中包含一个变量,该变量对每个人的身份进行编码(在本例中,ID 变量包含每个人的主题 ID)。这被称为*混合模型*,因为它包括独立变量的影响以及个人的影响。标准的模型拟合过程`lm()`无法做到这一点,但我们可以使用一个流行的 R 包 *lme4* 中的`lmer()`函数来做到这一点,该包专门用于估计混合模型。公式中的`(1|ID)`告诉`lmer()``ID`变量的每个值(即数据集中的每个个体)估计一个单独的截距(这就是`1`所指的截距),然后估计一个与 BP 时间点相关的公共斜率。 我们也可以根据一般的线性模型来定义成对t检验。为此,我们将每个受试者的所有测量结果作为数据点包含在内(在一个整洁的数据框内)。然后,我们在模型中包含一个变量,该变量对每个人的身份进行编码(在本例中,ID 变量包含每个人的主题 ID)。这被称为*混合模型*,因为它包括独立变量的影响以及个人的影响。标准的模型拟合过程`lm()`无法做到这一点,但我们可以使用一个流行的 R 包 *lme4* 中的`lmer()`函数来做到这一点,该包专门用于估计混合模型。公式中的`(1|ID)`告诉`lmer()``ID`变量的每个值(即数据集中的每个个体)估计一个单独的截距(这就是`1`所指的截距),然后估计一个与 BP 时间点相关的公共斜率。
``` ```
# compute mixed model for paired test # compute mixed model for paired test
......
...@@ -2,25 +2,25 @@ ...@@ -2,25 +2,25 @@
# 16 多元统计 # 16 多元统计
术语*多元*指的是涉及一个以上随机变量的分析。虽然我们已经看到了之前的例子,其中模型包括多个变量(如线性回归),但在那些情况下,我们特别感兴趣的是如何用一个或多个通常由实验者指定而不是测量的*自变量*来解释*因变量*的变化。在多变量分析中,我们通常平等地对待所有变量,并试图理解它们作为一个整体是如何相互关联的。 术语*多元*指的是涉及一个以上随机变量的统计分析。虽然我们已经看到了之前的例子,其中模型包括多个变量(如线性回归),但在那些情况下,我们特别性知道的是如何用一个或多个由实验者指定而不是测量的*自变量*来解释*因变量*的变化。在多变量分析中,我们通常平等地对待所有变量,并试图理解它们作为一个整体是如何相互关联的。
多变量分析有许多不同的种类,但在这一章中我们将集中讨论两种主要的方法。首先,我们可能只是想理解和可视化数据中存在的结构,我们通常指的是哪些变量或观察值与其他变量或观察值相关。我们通常将“相关”定义为一些度量,这些度量表示变量之间的距离。属于这一类别的一个重要方法被称为*聚类*,其目的是找到变量或变量间相似的观察值的聚类。 多变量分析有许多不同的种类,但在这一章中我们主要讨论两种方法。首先,我们可能只是想理解和可视化数据中存在的结构,我们通常指的是哪些变量或观察值与其他变量或观察值相关。我们通常将“相关”定义为一些度量,这些度量表示变量之间的距离。属于这一类别的一个重要方法被称为*聚类*,其目的是找到变量或变量间相似的观察值的聚类。
第二,我们可能希望获取大量变量,并以尽可能保留更多信息的方式将它们减少到更少的变量。这被称为*维度缩减*,其中“维度”是指数据集中变量的数量。我们将讨论两种常用的降维技术,称为*主成分分析**因子分析* 第二,我们可能希望获取更多变量,并以尽可能保留更多信息的方式来减少变量。这被称为*降维*,其中“维度”是指数据集中变量的个数。我们将讨论两种常用的降维技术,称为*主成分分析**因子分析*
聚类和降维通常被归类为*无监督学习*的形式;这与*监督学习*形成了对比,监督学习描述了你目前所学的线性回归等模型的特征。我们认为线性回归是“受监督的”原因是,我们知道我们试图预测的事物(即因变量)的值,并且我们试图找到最佳预测这些值的模型。在非服务学习中,我们没有试图预测的特定值;相反,我们试图在数据中发现可能对理解正在发生的事情有用的结构,这通常需要一些关于我们想要找到哪种结构的假设。 聚类和降维通常被归类为*无监督学习*的形式;这与*监督学习*形成了对比,你目前接触到的线性回归模型是一种监督学习。我们认为线性回归是“受监督的”原因是,我们知道我们试图预测的事物(即因变量)的值,并且我们试图找到最佳预测这些值的模型。在非监督学习中,我们不知道预测值(因变量);相反,我们试图在数据中发现可能对理解正在发生的事情有用的结构,这通常需要一些关于我们想要找到哪种结构的假设。
在这一章中,你会发现,虽然在监督学习中通常有一个“正确”的答案(一旦我们就如何确定“最佳”模型达成一致,如误差平方和),但在无监督学习中通常没有一致同意的“正确”答案。不同的无监督学习方法可以对相同的数据给出非常不同的答案,并且通常在原则上没有办法确定其中哪个是“正确的”,因为它取决于分析的目标和人们愿意对产生数据的机制做出的假设。一些人觉得这令人沮丧,而另一些人觉得这令人振奋;这将由你来决定你属于哪一个阵营 在这一章中,你会发现,虽然在监督学习中通常有一个“正确”的答案(这让我们很容易来定义一个损失函数来评估模型,如误差平方和),但在无监督学习中通常没有所谓的“正确”答案。不同的无监督学习方法可以对相同的数据给出完全不同的答案,并且通常在原则上没有办法确定其中哪个是“正确的”,因为它取决于分析的目标和人们愿意对产生数据的机制做出的假设。一派人觉得这令人沮丧,而另一派人觉得这令人振奋;如何站队由你自己来决定
## 16.1 多元数据:一个例子 ## 16.1 多元数据:一个例子
作为多变量分析的一个例子,我们将看一个由我的小组收集并由艾森伯格等人发表的数据集 ( [**艾森伯格:2019um?**](#ref-Eisenberg:2019um) ) 。这个数据集是有用的,因为它有大量有趣的变量,这些变量是从相对大量的个人身上收集的,也因为它可以在网上免费获得,所以你可以自己探索它。 作为多变量分析的一个例子,我们将看一个由我的小组收集并由艾森伯格等人发表的数据集 ( [**Eisenberg:2019um**](#ref-Eisenberg:2019um) ) 。这个数据集有大量有趣的变量,这些变量是从大量的样本中收集的,也由于它可以在网上免费获得,所以你可以自己探索它。
进行这项研究是因为我们有兴趣了解心理功能的几个不同方面是如何相互联系的,特别关注自我控制的心理测量和相关概念。参与者在一周的时间里进行了长达十小时的认知测试和调查;在第一个例子中,我们将关注与自我控制的两个具体方面相关的变量。*反应抑制*被定义为快速停止一个动作的能力,在这项研究中,使用一组被称为*停止信号任务*的任务进行测量。这些任务感兴趣的变量是对一个人停止自己需要多长时间的估计,称为*停止信号反应时间* ( *SSRT* ),在数据集中有四种不同的测量方法。*冲动性*定义为凭冲动做出决定的倾向,不考虑潜在后果和长期目标。这项研究包括许多测量冲动性的不同调查,但我们将重点关注 UPPS-P 调查,该调查评估了冲动性的五个不同方面。 进行这项研究是因为我们想了解心理功能的几个不同方面是如何相互联系的,特别关注自我控制的心理测量和相关概念。参与者在一周的时间里进行了长达十小时的认知测试和调查;在第一个例子中,我们将关注与自我控制的两个具体方面相关的变量。*反应抑制*被定义为快速停止一个动作的能力,在这项研究中,使用一组被称为*停止信号任务*的任务进行测量。这些任务相关的变量观测的是对一个人停止自己心里活动需要多长时间,称为*停止信号反应时间* ( *SSRT* ),在数据集中有四种不同的测量方法。*冲动性*定义为凭冲动做出决定的倾向,不考虑潜在后果和长期目标。这项研究包括许多测量冲动性的不同调查,但我们将重点关注 UPPS-P 调查,该调查评估了冲动性的五个不同方面。
在艾森伯格的研究中,计算了 522 名参与者的分数后,我们得出了每个人的 9 个数字。虽然多元数据有时可能有数千甚至数百万个变量,但先看看这些方法如何处理少量变量是很有用的 在艾森伯格的研究中,计算了 522 名参与者的分数后,我们仅仅使用了9个变量。虽然多元数据有时可能有数千甚至数百万个变量,但让我们先看看我们是如何处理少量变量情况的,然后再推广到一般的情况
...@@ -28,13 +28,13 @@ ...@@ -28,13 +28,13 @@
## 16.2 可视化多元数据 ## 16.2 可视化多元数据
多元数据的一个基本挑战是,人类的眼睛和大脑根本不具备可视化三维以上数据的能力。我们可以使用各种工具来尝试可视化多元数据,但随着变量数量的增加,所有这些工具都会失效。一旦变量的数量变得太大而不能直接可视化,一种方法是首先减少维度的数量(如下面进一步讨论的),然后可视化减少的数据集。 处理多元数据的一个基本挑战是,人类的眼睛和大脑根本不具备可视化三维以上数据的能力。我们可以使用各种工具来尝试可视化多元数据,但随着变量数量的增加,所有这些工具都会失效。一旦变量的数量变得太大而不能直接可视化,一种方法是首先减少维度的数量(如下面进一步讨论的),然后可视化减少的数据集。
### 16.2.1 矩阵分布图 ### 16.2.1 矩阵分布图
将少量变量可视化的一个有用方法是将每一对变量相对于另一个绘制成图,有时称为“矩阵散点图”;示例如图 [16.1](#fig:pairpanel) 所示。面板中的每一行/每一列指的是一个变量——在这个例子中,是我们在前面例子中的一个心理变量。图上的对角线元素以直方图的形式显示了每个变量的分布。对角线下方的元素显示了每对矩阵的散点图,上面覆盖了描述变量之间关系的回归线。对角线上方的元素显示每对变量的相关系数。当变量数量相对较少(约 10 或更少)时,这可能是深入了解多变量数据集的有效方法。 将少量变量可视化的一个有用方法是将每一对变量相对于另一个绘制成图,有时称为“矩阵散点图”;示例如图 [16.1](#fig:pairpanel) 所示。面板中的每一行/每一列指的是一个变量——在这个例子中,是我们在前面例子中的一个心理变量。图上的对角线元素以直方图的形式显示了每个变量的分布。对角线下方的元素显示了每对变量的散点图,红色线条描述变量之间关系的回归线。对角线上方的元素显示每对变量的相关系数。当变量数量相对较少(大约10个或更少)时,这可能是深入了解多变量数据集的一个有效方法。
![Scatterplot of matrices for the nine variables in the self-control dataset. The diagonal elements in the matrix show the histogram for each of the individual variables. The lower left panels show scatterplots of the relationship between each pair of variables, and the upper right panel shows the correlation coefficient for each pair of variables.](img/file85.png) ![Scatterplot of matrices for the nine variables in the self-control dataset. The diagonal elements in the matrix show the histogram for each of the individual variables. The lower left panels show scatterplots of the relationship between each pair of variables, and the upper right panel shows the correlation coefficient for each pair of variables.](img/file85.png)
...@@ -44,19 +44,19 @@ ...@@ -44,19 +44,19 @@
### 16 . 2 . 2 热 ### 16.2.2 热力
在某些情况下,我们希望一次可视化大量变量之间的关系,通常侧重于相关系数。一种有用的方法是将相关值绘制成*热图*,其中热图的颜色与相关值相关。图 [16.2](#fig:hmap) 显示了一个变量相对较少的例子,使用了我们上面的心理学例子。在这种情况下,热图有助于数据的结构向我们“突出”;我们看到 SSRT 变量和 UPPS 变量之间有很强的相关性,而两组变量之间的相关性相对较小。 在某些情况下,我们希望一次可视化大量变量之间的关系,通常侧重于变量之间的相关系数。一种有用的方法是将相关值绘制成*热力图*,其中热力图的颜色与相关值相关。图 [16.2](#fig:hmap) 显示了一个变量相对较少的例子,使用了我们上面的心理学例子。在这种情况下,热力图有助于发现数据的结构;我们看到 SSRT 变量和 UPPS 变量之间有很强的相关性,而其它变量之间的相关性相对较小。
![Heatmap of the correlation matrix for the nine self-control variables. The brighter yellow areas in the top left and bottom right highlight the higher correlations within the two subsets of variables.](img/file86.png) ![Heatmap of the correlation matrix for the nine self-control variables. The brighter yellow areas in the top left and bottom right highlight the higher correlations within the two subsets of variables.](img/file86.png)
图 16.2:九个自变量的相关矩阵热图。左上方和右下方较亮的黄色区域突出显示了这两个变量子集内较高的相关性。 图 16.2:九个自变量的相关矩阵热图。左上方和右下方较亮的黄色区域突出显示了这两个变量子集内较高的相关性。
图对于可视化大量变量之间的相关性变得特别有用。我们可以用脑成像数据作为例子。神经科学研究人员通常使用功能性磁共振成像(fMRI)从大脑中的大量位置收集关于大脑功能的数据,然后评估这些位置之间的相关性,以测量这些区域之间的“功能连接性”。例如,图 [16.3](#fig:parcelheatmap) 显示了一个大型相关矩阵的热图,该热图基于单个个体(你的真实)大脑中 300 多个区域的活动。只需查看热图,数据中清晰结构的存在就会显现出来。具体来说,我们看到有大量大脑区域的活动彼此高度相关(在沿着相关矩阵对角线的大黄色块中可见),而这些块也与其他块强烈负相关(在对角线外的大蓝色块中可见)。热图是一个强大的工具,可以轻松地可视化大型数据矩阵。 力图对于可视化大量变量之间的相关性变得特别有用。我们可以用脑成像数据作为例子。神经科学研究人员通常使用磁共振成像方法(fMRI)从大脑中的大量位置收集关于大脑功能的数据,然后评估这些位置之间的相关性,以测量这些区域之间的“连通性”。例如,图 [16.3](#fig:parcelheatmap) 显示了一个大型相关矩阵的热力图,该热力图基于单个个体(你的真实)大脑中 300 多个区域的活动。只需查看热力图,数据中清晰结构的存在就会显现出来。具体来说,我们看到有大量大脑区域的活动彼此高度相关(在沿着相关矩阵对角线的大黄色块中可见),而这些块也与其他块强烈负相关(在对角线外的大蓝色块中可见)。热力图是一个强大的工具,可以轻松地可视化大型数据矩阵。
![A heatmap showing the correlation coefficient of brain activity between 316 regions in the left hemisphere of a single individiual. Cells in yellow reflect strong positive correlation, whereas cells in blue reflect strong negative correlation. The large blocks of positive correlation along the diagonal of the matrix correspond to the major connected networks in the brain](img/file87.png) ![A heatmap showing the correlation coefficient of brain activity between 316 regions in the left hemisphere of a single individiual. Cells in yellow reflect strong positive correlation, whereas cells in blue reflect strong negative correlation. The large blocks of positive correlation along the diagonal of the matrix correspond to the major connected networks in the brain](img/file87.png)
图 16.3:显示一个人左半球 316 个区域之间大脑活动相关系数的热图。黄色单元反映了强正相关,而蓝色单元反映了强负相关。沿着矩阵对角线的大块正相关对应于大脑中的主要连接网络 图 16.3:显示一个人左半球 316 个区域之间大脑活动相关系数的热图。黄色单元反映了强正相关,而蓝色单元反映了强负相关。沿着矩阵对角线的大块正相关对应于大脑中的主要连接网络
...@@ -66,39 +66,43 @@ ...@@ -66,39 +66,43 @@
## 16.3 聚类 ## 16.3 聚类
聚类是指基于观察值的相似性来识别数据集中相关观察值或变量组的一方法。通常,这种相似性将根据多元值之间的*距离*的某种度量来量化。然后,聚类方法会找到成员间距离最小的组。 聚类是指基于观察值的相似性来识别数据集中相关观察值或变量组的一方法。通常,这种相似性将根据多元值之间的*距离*的某种度量来量化。然后,聚类方法会找到成员间距离最小的组。
一种常用的聚类距离度量是*欧几里德距离*,它基本上是连接两个数据点的线的长度。图 [16.4](#fig:eucdist) 显示了一个有两个数据点和两个维度(X 和 Y)的数据集的例子。这两点之间的欧几里得距离是连接空间中的点的虚线的长度。 一种常用的聚类距离度量是*欧几里德距离*,它基本上是连接两个数据点的线的长度。图 [16.4](#fig:eucdist) 显示了一个有两个数据点和两个维度(X 和 Y)的数据集的例子。这两点之间的欧几里得距离是连接空间中的点的虚线的长度。
![A depiction of the Euclidean distance between two points, (1,2) and (4,3). The two points differ by 3 along the X axis and by 1 along the Y axis.](img/file88.png) ![A depiction of the Euclidean distance between two points, (1,2) and (4,3). The two points differ by 3 along the X axis and by 1 along the Y axis.](img/file88.png)
图 16.4:两点(1,2)和(4,3)之间欧几里得距离的描述。这两个点沿 X 轴相差 3 °,沿 Y 轴相差 1° 图 16.4:两点(1,2)和(4,3)之间欧几里得距离的描述。这两个点在X轴方向相差3个单位,在Y轴方向相差1个单位
欧几里德距离的计算方法是,对每个维度上的点的位置差求平方,将这些平方差相加,然后求平方根。当有两个维度<math display="inline"><semantics><mi>x</mi><annotation encoding="application/x-tex">x</annotation></semantics></math><math display="inline"><semantics><mi>y</mi><annotation encoding="application/x-tex">y</annotation></semantics></math>时,这将被计算为: 欧几里德距离的计算方法是,对每个维度上的点的位置差求平方,将这些平方差相加,然后求平方根。当有两个维度$x$和$y$时,计算公式为:
<math xmlns:epub="http://www.idpf.org/2007/ops" display="block"><semantics><mrow><mi>【d】</mi><mrow><mo stretchy="true" form="prefix">(</mo><mo></mo> <mi></mi><mo stretchy="true" form="postfix">)</mo></mrow><mo>=</mo></mrow></semantics></math> $$
d(x, y) = \sqrt{(x_1 - x_2)^2 + (y_1 - y_2)^2}
$$
入我们示例数据中的值: 入我们示例数据中的值:
<semantics><mrow><mi>【d】</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>【x】</mi><mo></mo></mrow></mrow></semantics> $$
d(x, y) = \sqrt{(1 - 4)^2 + (2 - 3)^2} = 3.16
$$
如果欧几里得距离的公式看起来有点熟悉,这是因为它与我们大多数人在几何课上学到的*勾股定理*相同,勾股定理根据两条边的长度计算直角三角形斜边的长度。在这种情况下,三角形各边的长度对应于两个维度上各点之间的距离。虽然这个例子是二维的,但是我们经常会处理比二维多得多的数据,但是同样的想法可以扩展到任意数量的维度 你是不是觉得欧几里得距离的公式看起来有点眼熟,这是因为它与我们大多数人在几何课上学到的*勾股定理*相同,勾股定理根据两条边的长度计算直角三角形斜边的长度。在这种情况下,三角形各边的长度对应于两个维度上各点之间的距离。虽然这个例子是二维的,但是我们经常会处理比二维多得多的数据,但是同样的想法可以扩展到高位空间中去
欧几里德距离的一个重要特征是,它对数据的总体平均值和可变性很敏感。从这个意义上说,它不同于相关系数,相关系数以一种对总体均值或变异性不敏感的方式来衡量变量之间的线性关系。出于这个原因,通常在计算欧几里德距离之前对数据进行缩放,这相当于将每个变量转换成其 Z 得分版本。 欧几里德距离的一个重要特征是,它对数据的总体平均值和可变性很敏感。从这个意义上说,它不同于相关系数,相关系数以一种对总体均值或变异性不敏感的方式来衡量变量之间的线性关系。出于这个原因,通常在计算欧几里德距离之前对数据进行缩放,这相当于将每个变量转换成其 Z 得分版本。
### 16 . 3 . 1K-均值聚类 ### 16.3.1 K-均值聚类
一种常用的数据聚类方法是 *K-means 聚类*。该技术识别一组聚类中心,然后将每个数据点分配给其中心离该数据点最近(即,具有最低欧几里得距离)的聚类。举个例子,我们以全球多个国家的经纬度作为我们的数据点,看看 K-means 聚类是否能有效识别世界各大洲。 一种常用的数据聚类方法是 *K-means 聚类*。该技术识别一组聚类中心,然后将每个数据点分配给其中心离该数据点最近(即,最小化欧几里得距离)的聚类。举个例子,我们以全球多个国家的经纬度作为我们的数据点,看看 K-means 聚类是否能有效识别世界各大洲。
大多数统计软件包都有一个内置函数,可以使用一个命令来执行 K-means 聚类,但是一步一步地理解它是如何工作的是很有用的。我们必须首先确定一个特定的 K 值,即数据中的聚类数。需要指出的是,集群数量没有唯一的“正确”值;人们可以使用各种技术来尝试确定哪个解决方案是“最佳”的,但它们通常会给出不同的答案,因为它们包含不同的假设或权衡。尽管如此,聚类技术(如 K-means)是理解数据结构的重要工具,尤其是当数据变得高维时。 大多数统计软件包都有一个内置函数,可以使用一个命令来执行 K-means 聚类,但是一步一步地理解它是如何工作的是很有用的。我们必须首先确定一个超参数K,即数据中的聚类数。需要指出的是,聚类数没有唯一的标准答案;人们可以使用各种技术来尝试确定哪个解决方案是“最佳”的,但它们通常会给出不同的答案,因为它们包含不同的假设或权衡。尽管如此,聚类技术(如 K-means)是理解数据结构的重要工具,尤其是当数据在高位空间中时。
在选择了我们希望找到的聚类数( *K* )之后,我们必须得出 K 个位置,这将是我们对聚类中心的开始猜测(因为我们最初不知道中心在哪里)。一种简单的开始方式是随机选择 K 个实际数据点,并使用它们作为我们的起点,它们被称为*质心*。然后,我们计算每个数据点到每个质心的欧几里德距离,并根据每个点最近的质心将其分配到一个聚类中。使用这些新的聚类分配,我们通过平均分配给该聚类的所有点的位置来重新计算每个聚类的质心。然后重复这一过程,直到找到稳定的解决方案;我们称之为*迭代*过程,因为它会迭代直到答案不变,或者直到达到某种其他限制,比如最大可能迭代次数。 在选择了我们希望找到的聚类数( *K* )之后,我们必须初始化K个位置,最开始我们对聚类质心随机初始化(因为我们最初不知道质心在哪里)。一种简单的开始方式是随机选择K个实际数据点,并使用它们作为我们的起点,它们被称为*质心*。然后,我们计算每个数据点到每个质心的欧几里德距离,并根据每个点最近的质心将其分配到一个聚类中。使用这些新的聚类分配,我们通过平均分配给该聚类的所有点的位置来重新计算每个聚类的质心。然后重复这一过程,直到找到稳定的解决方案;我们称之为*迭代*过程,因为它最终会收敛,或者直到达到某种边界条件,比如最大可能迭代次数。
![A two-dimensional depiction of clustering on the latitude and longitude of countries across the world. The square black symbols show the starting centroids for each cluster, and the lines show the movement of the centroid for that cluster across the iterations of the algorithm.](img/file89.png) ![A two-dimensional depiction of clustering on the latitude and longitude of countries across the world. The square black symbols show the starting centroids for each cluster, and the lines show the movement of the centroid for that cluster across the iterations of the algorithm.](img/file89.png)
图 16.5:世界各国纬度和经度聚类的二维描述。黑色方形符号显示每个聚类的起始质心,线条显示该聚类的质心在算法迭代过程中的移动。 图 16.5:世界各国纬度和经度聚类的二维描述。黑色方形符号显示每个聚类的起始质心,线条显示该聚类的质心在算法迭代过程中的移动轨迹
将 K-means 聚类应用于纬度/经度数据(图 [16.5](#fig:kmeans) ),我们看到得到的聚类和大陆之间有合理的匹配,尽管没有一个大陆与任何聚类完全匹配。我们可以通过绘制一个表来进一步检验这一点,该表将每个聚类的成员与每个国家的实际大陆进行比较;这种表格通常被称为*混淆矩阵* 将 K-means 聚类应用于纬度/经度数据(图 [16.5](#fig:kmeans) ),我们看到得到的聚类和大陆之间有合理的匹配,尽管没有一个大陆与任何聚类完全匹配。我们可以通过绘制一个表来进一步检验这一点,该表将每个聚类的成员与每个国家的实际大陆进行比较;这种表格通常被称为*混淆矩阵*
...@@ -116,17 +120,17 @@ ...@@ -116,17 +120,17 @@
* 第一组包括所有欧洲国家,以及北非和亚洲国家。 * 第一组包括所有欧洲国家,以及北非和亚洲国家。
* 第二组包括亚洲国家和几个非洲国家。 * 第二组包括亚洲国家和几个非洲国家。
* 第三组包括南美洲南部的国家。 * 第三组包括南美洲南部的国家。
* 聚类 4 包含所有北美国家以及南美北部国家。 * 第四组包括所有北美国家以及南美北部国家。
* 5 组包括大洋洲和几个亚洲国家 *组包括大洋洲和几个亚洲国家
* 6 组包括所有其余的非洲国家。 *组包括所有其余的非洲国家。
虽然在这个例子中我们知道实际的聚类(即世界的大陆),但一般来说,我们实际上不知道无监督学习问题的基本事实,所以我们只能相信聚类方法已经在数据中找到了有用的结构。然而,关于 K-means 聚类和迭代过程的一个要点是,它们不能保证每次运行时都给出相同的答案。使用随机数来确定起点意味着起点每次都可能不同,并且根据数据,这有时会导致找到不同的解决方案。对于这个例子,K-means 聚类有时会找到包含北美和南美的单个聚类,有时会找到两个聚类(就像这里使用的随机种子的特定选择一样)。每当使用涉及迭代解决方案的方法时,使用不同的随机种子多次重新运行该方法是很重要的,以确保运行之间的答案不会相差太大。如果是这样,那么我们应该避免根据不稳定的结果做出强有力的结论。事实上,在更普遍的聚类结果的基础上避免强有力的结论可能是一个好主意;它们主要用于直观地了解数据集中可能存在的结构。 虽然在这个例子中我们知道实际的聚类(即世界的大陆版图分布情况),但一般来说,我们实际上不知道无监督学习问题的答案,所以我们只能相信聚类方法已经在数据中找到了有用的结构。然而,关于 K-means 聚类和迭代过程的一个要点是,它们不能保证每次运行时都给出相同的答案。使用随机数来确定起点意味着起点每次都可能不同,并且根据数据,这有时会导致找到不同的解决方案。对于这个例子,K-means 聚类有时会找到包含北美和南美的单个聚类,有时会找到两个聚类(就像这里使用的随机种子的特定选择一样)。每当使用涉及迭代解决方案的方法时,使用不同的随机种子多次重新运行该方法是很重要的,以确保运行之间的答案不会相差太大。如果是这样,那么我们应该避免根据不稳定的结果做出强有力的结论。事实上,在更普遍的聚类结果的基础上避免强有力的结论可能是一个好主意;它们主要用于直观地了解数据集中可能存在的结构。
![A visualization of the clustering results from 10 runs of the K-means clustering algorithm with K=3\. Each row in the figure represents a different run of the clustering algorithm (with different random starting points), and variables sharing the same color are members of the same cluster.](img/file90.png) ![A visualization of the clustering results from 10 runs of the K-means clustering algorithm with K=3\. Each row in the figure represents a different run of the clustering algorithm (with different random starting points), and variables sharing the same color are members of the same cluster.](img/file90.png)
图 16.6:K = 3 的 K 均值聚类算法的 10 次运行的聚类结果的可视化。图中的每一行代表聚类算法的不同运行(具有不同的随机起点),共享相同颜色的变量是同一聚类的成员。 图 16.6:K = 3 的 K 均值聚类算法的 10 次运行的聚类结果的可视化。图中的每一行代表聚类算法的不同运行(具有不同的随机起点),共享相同颜色的变量是同一聚类的成员。
我们可以将 K-means 聚类应用于自变量,以确定哪些变量彼此关系最密切。对于 K=2,K-means 算法始终挑选出一个包含 SSRT 变量的聚类和一个包含冲动性变量的聚类。K 值越高,结果越不一致;例如,当 K=3 时,该算法有时会识别出仅包含 UPPS 感觉寻求变量的第三个聚类,而在其他情况下,它会将 SSRT 变量分成两个独立的聚类(如图 [16.6](#fig:kmeansSro) 所示)。K=2 的聚类的稳定性表明,这可能是这些数据的最稳健的聚类,但这些结果也突出了多次运行算法以确定任何特定聚类结果是否稳定的重要性。 我们可以将 K-means 聚类应用于自变量,以确定哪些变量彼此关系最密切。对于 K=2,K-means 算法始终挑选出一个包含 SSRT 变量的聚类和一个包含冲动性变量的聚类。K 值越高,结果越不一致;例如,当 K=3 时,该算法有时会识别出仅包含 UPPS 感觉寻求变量的第三个聚类,而在其他情况下,它会将 SSRT 变量分成两个独立的聚类(如图 [16.6](#fig:kmeansSro) 所示)。K=2 的聚类的稳定性表明,这可能是这些数据的最稳健的聚类,但这些结果也突出了多次运行算法以确定任何特定聚类结果是否稳定的重要性。
...@@ -134,9 +138,9 @@ ...@@ -134,9 +138,9 @@
### 16.3.2 层次聚类 ### 16.3.2 层次聚类
检查多变量数据集结构的另一种有用方法称为*层次聚类*。这种技术也使用数据点之间的距离来确定聚类,它也提供了一种以树状结构(称为*树状图*)来可视化数据点之间关系的方法。 检查多变量数据集结构的另一种有用方法称为*层次聚类*。这种技术也使用数据点之间的距离来确定聚类,它也提供了一种以树状结构(称为*树状图*)来可视化数据点之间关系的方法。
最常用的层次聚类过程被称为*凝聚聚类*。该过程首先将每个数据点视为其自己的聚类,然后通过组合两个聚类之间距离最小的两个聚类来逐步创建新的聚类。它继续这样做,直到只剩下一个集群。这需要计算集群之间的距离,有许多方法可以做到这一点;在本例中,我们将使用*平均关联*方法,该方法简单地取两个聚类中每个数据点之间所有距离的平均值。例如,我们将检查上述自控变量之间的关系。 最常用的层次聚类过程被称为*凝聚聚类*。该过程首先将每个数据点视为其自己的聚类,然后通过组合两个聚类之间距离最化来逐步创建新的聚类。它一直这样做下去,直到只剩下一个集群。这需要计算类之间的距离,有许多方法可以做到这一点;在本例中,我们将使用*平均关联*方法,该方法简单地取两个聚类中每个数据点之间所有距离的平均值。例如,我们将检查上述自控变量之间的关系。
![A dendrogram depicting the relative similarity of the nine self-control variables. The three colored vertical lines represent three different cutoffs, resulting in either two (blue line), three (green line), or four (red line) clusters.](img/file91.png) ![A dendrogram depicting the relative similarity of the nine self-control variables. The three colored vertical lines represent three different cutoffs, resulting in either two (blue line), three (green line), or four (red line) clusters.](img/file91.png)
...@@ -162,11 +166,11 @@ ...@@ -162,11 +166,11 @@
### 16.4.1 主成分分析 ### 16.4.1 主成分分析
主成分分析背后的思想是找到一组变量的低维描述,该描述说明了完整数据集中最大可能的信息量。深入理解主成分分析需要对线性代数有所了解,这不在本书范围内;请参阅本章末尾的参考资料,获取有关该主题的有用指南。在这一节中,我将概述这个概念,希望能激起你学习更多的兴趣。 主成分分析背后的思想是找到一组变量的低维描述,该描述进可能的保留原始数据集的信息量。深入理解主成分分析需要对线性代数有所了解,这不在本书范围内;请参阅本章末尾的参考资料,获取有关该主题的有用指南。在这一节中,我将概述这个概念,希望能激起你学习更多的兴趣。
我们将从一个只有两个变量的简单例子开始,以便直观地了解它是如何工作的。首先,我们为变量 X 和 Y 生成一些合成数据,这两个变量之间的相关性为 0.7。主成分分析的目标是找到数据集中观察变量的线性组合,它将解释最大的方差;这里的想法是,数据中的方差是信号和噪声的组合,我们希望找到变量之间最强的共同信号。第一个主成分是解释最大方差的组合。第二个分量解释了最大剩余方差,同时也与第一个分量无关。有了更多的变量,我们可以继续这个过程,以获得与变量一样多的分量(假设观测值多于变量),尽管在实践中,我们通常希望找到少量的分量来解释大部分的方差。 我们将从一个只有两个变量的简单例子开始,以便直观地了解它是如何工作的。首先,我们为变量 X 和 Y 生成一些合成数据,这两个变量之间的相关性为 0.7。主成分分析的目标是找到数据集中自变量的线性组合,它将解释最大的方差;这里的想法是,数据中的方差是信号和噪声的组合,我们希望找到变量之间最强的共同信号。第一个主成分是解释最大方差的组合。第二个分量解释了最大剩余方差,同时也与第一个分量正交。有了更多的变量,我们可以继续这个过程,以获得与变量一样多的分量(假设观测值多于变量),尽管在实践中,我们通常希望找到少量的分量来解释大部分的方差。
在我们的二维例子中,我们可以计算主成分,并将它们绘制在数据上(图 [16.8](#fig:pcaPlot) )。我们看到的是,第一个主成分(显示为绿色)遵循最大方差的方向。这条线与线性回归线相似,但不完全相同;当线性回归解决方案最小化在相同 X 值的每个数据点和回归线之间的距离(即垂直距离)时,主成分最小化数据点和表示该成分的线之间的欧几里德距离(即垂直于该成分的距离)。第二个分量指向与第一个分量垂直的方向(相当于不相关)。 在我们的二维例子中,我们可以计算主成分,并将它们绘制在数据上(图 [16.8](#fig:pcaPlot) )。我们看到的是,第一个主成分(显示为绿色)遵循最大方差的方向。这条线与线性回归线相似,但不完全相同;当线性回归意在解决最小化在相同 X 值的每个数据点和回归线之间的距离(即垂直距离)时,主成分最小化数据点和表示该成分的线之间的欧几里德距离(即垂直于该成分的距离)。第二个分量指向与第一个分量垂直的方向(相当于不相关)。
![A plot of synthetic data, with the first principal component plotted in green and the second in red.](img/file92.png) ![A plot of synthetic data, with the first principal component plotted in green and the second in red.](img/file92.png)
...@@ -210,29 +214,40 @@ ...@@ -210,29 +214,40 @@
### 16.4.2 因分析 ### 16.4.2 因分析
虽然主成分分析可用于将数据集减少到较少数量的复合变量,但 PCA 的标准方法有一些局限性。最重要的是,它确保组件是不相关的;虽然这有时很有用,但在很多情况下,我们希望提取可能相互关联的维度。第二个限制是 PCA 不考虑被分析变量的测量误差,这会导致难以解释部件上的最终载荷。虽然 PCA 的修改可以解决这些问题,但在一些领域(如心理学)更常见的是使用一种称为*探索性因子分析*(或 EFA)的技术来降低数据集的维度。 [1](#fn1) 虽然主成分分析可用于将数据集减少到较少数量的复合变量,但 PCA 的标准方法有一些局限性。最重要的是,它确保组成成分是不相关的;虽然这有时很有用,但在很多情况下,我们希望尽可能的提取相互关联的维度。第二个限制是PCA不考虑被分析变量的测量误差,这会导致难以解释组成成分上的最终载荷。虽然PCA的升级版可以解决这些问题,但在一些领域(如心理学)更常见的是使用一种称为*探索性因子分析*(或EFA)的技术来降低数据集的维度。 [1](#fn1)
全民教育背后的想法是,每个观察到的变量都是通过一组潜在变量(即无法直接观察到的变量)的贡献组合而成的,同时每个变量都有一定的测量误差。出于这个原因,全民教育模型通常被称为属于一类被称*潜在变量模型*的统计模型。 探索性因子分析背后的想法是,每个观察到的变量都是通过一组潜在变量(即无法直接观察到的变量)来组合而成的,同时每个变量都有一定的测量误差。出于这个原因,探索性因子分析模型通常被称为属于所谓*潜在变量模型*的统计模型。
例如,假设我们想要了解几个不同变量的度量与产生这些度量的潜在因素之间的关系。我们将首先生成一个合成数据集来展示这可能是如何工作的。我们将产生一组个体,我们将对他们假装我们知道几个潜在的心理变量的值:冲动性、工作记忆能力和流畅的推理。我们将假设工作记忆能力和流畅的推理是相互关联的,但两者都不与冲动性相关。然后,我们将从这些潜在变量中为每个个体生成一组八个观察变量,这些变量是潜在变量与随机噪声的简单线性组合,随机噪声用于模拟测量误差。 例如,假设我们想要了解几个不同变量的度量与产生这些度量的潜在因素之间的关系。我们将首先生成一个合成数据集来展示可能存在的关系。我们将产生一组个体,假设我们知道几个潜在的心理变量的值:冲动性、工作记忆能力和流畅的推理。假设工作记忆能力和流畅的推理是相互关联的,但两者都与冲动性不相关。然后,我们将从这些潜在变量中为每个个体生成一组八个观察变量,这些变量是潜在变量与随机噪声的简单线性组合,随机噪声用于模拟测量误差。
我们可以通过显示与所有这些变量相关的关联矩阵的热图来进一步检查数据(图 [16.7](#fig:dendro) )。我们由此看到,有三组变量对应我们的三个潜变量,这是理所应当的。 我们可以通过显示与所有这些变量相关的关联矩阵的热力图来进一步检查数据(图 [16.7](#fig:dendro) )。我们由此看到,有三组变量对应我们的三个潜变量,这是情理之中的。
![A heatmap showing the correlations between the variables generated from the three underlying latent variables.](img/file96.png) ![A heatmap showing the correlations between the variables generated from the three underlying latent variables.](img/file96.png)
(#fig:efa_cor_hmap)热图显示了从三个潜在变量生成的变量之间的相关性。 (#fig:efa_cor_hmap)热图显示了从三个潜在变量生成的变量之间的相关性。
我们可以认为 EFA 是一次性估计一组线性模型的参数,其中每个模型将每个观察变量与潜在变量相关联。对于我们的例子,这些方程看起来如下。在这些等式中,<math display="inline"><semantics><annotation encoding="application/x-tex">\ beta</annotation></semantics></math>字符有两个下标,一个表示任务,另一个表示潜在变量,还有一个变量<math display="inline"><semantics><mi>【ϵ】</mi><annotation encoding="application/x-tex"></annotation></semantics></math>表示误差。这里我们将假设一切都有一个零均值,所以我们不需要为每个方程包括一个额外的截距项。 我们可以认为EFA是一次性估计一组线性模型的参数,其中每个模型将每个观察变量与潜在变量相关联。在我们的这个例子,这些方程看起来如下。在这些等式中,$\beta$字符有两个下标,一个表示任务,另一个表示潜在变量,还有一个变量$\epsilon$表示误差。这里我们将假设一切都有一个零均值,所以我们不需要为每个方程添加一个额外的截距项。
<math display="block"><semantics><mtable><mtr><mtd columnalign="left"><mi>n</mi><mi>b</mi><mi>a</mi><mi>c</mi><mi>k</mi></mtd><mtd columnalign="center"><mo>=</mo></mtd><mtd columnalign="left"><mi>b</mi><mi>e</mi><mi>t</mi><msub><mi>a</mi><mrow><mo stretchy="true" form="prefix">[</mo><mn>1</mn><mo>,</mo><mn>1</mn><mo stretchy="true" form="postfix">]</mo></mrow></msub><mo>*</mo><mi>W</mi><mi>M</mi><mo>+</mo><msub><mi>β</mi><mrow><mo stretchy="true" form="prefix">[</mo><mn>1</mn><mo>,</mo><mn>2</mn><mo stretchy="true" form="postfix">]</mo></mrow></msub><mo>*</mo><mi>F</mi><mi>R</mi><mo>+</mo><msub><mi>β</mi><mrow><mo stretchy="true" form="prefix">[</mo><mn>1</mn><mo>,</mo><mn>3</mn><mo stretchy="true" form="postfix">]</mo></mrow></msub><mo>*</mo><mi>I</mi><mi>M</mi><mi>P</mi><mo>+</mo><mi>ϵ</mi></mtd></mtr><mtr><mtd columnalign="left"><mi>d</mi><mi>s</mi><mi>p</mi><mi>a</mi><mi>n</mi></mtd><mtd columnalign="center"><mo>=</mo></mtd><mtd columnalign="left"><mi>b</mi><mi>e</mi><mi>t</mi><msub><mi>a</mi><mrow><mo stretchy="true" form="prefix">[</mo><mn>2</mn><mo>,</mo><mn>1</mn><mo stretchy="true" form="postfix">]</mo></mrow></msub><mo>*</mo><mi>W</mi><mi>M</mi><mo>+</mo><msub><mi>β</mi><mrow><mo stretchy="true" form="prefix">[</mo><mn>2</mn><mo>,</mo><mn>2</mn><mo stretchy="true" form="postfix">]</mo></mrow></msub><mo>*</mo><mi>F</mi><mi>R</mi><mo>+</mo><msub><mi>β</mi><mrow><mo stretchy="true" form="prefix">[</mo><mn>2</mn><mo>,</mo><mn>3</mn><mo stretchy="true" form="postfix">]</mo></mrow></msub><mo>*</mo><mi>I</mi><mi>M</mi><mi>P</mi><mo>+</mo><mi>ϵ</mi></mtd></mtr><mtr><mtd columnalign="left"><mi>o</mi><mi>s</mi><mi>p</mi><mi>a</mi><mi>n</mi></mtd><mtd columnalign="center"><mo>=</mo></mtd><mtd columnalign="left"><mi>b</mi><mi>e</mi><mi>t</mi><msub><mi>a</mi><mrow><mo stretchy="true" form="prefix">[</mo><mn>3</mn><mo>,</mo><mn>1</mn><mo stretchy="true" form="postfix">]</mo></mrow></msub><mo>*</mo><mi>W</mi><mi>M</mi><mo>+</mo><msub><mi>β</mi><mrow><mo stretchy="true" form="prefix">[</mo><mn>3</mn><mo>,</mo><mn>2</mn><mo stretchy="true" form="postfix">]</mo></mrow></msub><mo>*</mo><mi>F</mi><mi>R</mi><mo>+</mo><msub><mi>β</mi><mrow><mo stretchy="true" form="prefix">[</mo><mn>3</mn><mo>,</mo><mn>3</mn><mo stretchy="true" form="postfix">]</mo></mrow></msub><mo>*</mo><mi>I</mi><mi>M</mi><mi>P</mi><mo>+</mo><mi>ϵ</mi></mtd></mtr><mtr><mtd columnalign="left"><mi>r</mi><mi>a</mi><mi>v</mi><mi>e</mi><mi>n</mi><mi>s</mi></mtd><mtd columnalign="center"><mo>=</mo></mtd><mtd columnalign="left"><mi>b</mi><mi>e</mi><mi>t</mi><msub><mi>a</mi><mrow><mo stretchy="true" form="prefix">[</mo><mn>4</mn><mo>,</mo><mn>1</mn><mo stretchy="true" form="postfix">]</mo></mrow></msub><mo>*</mo><mi>W</mi><mi>M</mi><mo>+</mo><msub><mi>β</mi><mrow><mo stretchy="true" form="prefix">[</mo><mn>4</mn><mo>,</mo><mn>2</mn><mo stretchy="true" form="postfix">]</mo></mrow></msub><mo>*</mo><mi>F</mi><mi>R</mi><mo>+</mo><msub><mi>β</mi><mrow><mo stretchy="true" form="prefix">[</mo><mn>4</mn><mo>,</mo><mn>3</mn><mo stretchy="true" form="postfix">]</mo></mrow></msub><mo>*</mo><mi>I</mi><mi>M</mi><mi>P</mi><mo>+</mo><mi>ϵ</mi></mtd></mtr><mtr><mtd columnalign="left"><mi>c</mi><mi>r</mi><mi>t</mi></mtd><mtd columnalign="center"><mo>=</mo></mtd><mtd columnalign="left"><mi>b</mi><mi>e</mi><mi>t</mi><msub><mi>a</mi><mrow><mo stretchy="true" form="prefix">[</mo><mn>5</mn><mo>,</mo><mn>1</mn><mo stretchy="true" form="postfix">]</mo></mrow></msub><mo>*</mo><mi>W</mi><mi>M</mi><mo>+</mo><msub><mi>β</mi><mrow><mo stretchy="true" form="prefix">[</mo><mn>5</mn><mo>,</mo><mn>2</mn><mo stretchy="true" form="postfix">]</mo></mrow></msub><mo>*</mo><mi>F</mi><mi>R</mi><mo>+</mo><msub><mi>β</mi><mrow><mo stretchy="true" form="prefix">[</mo><mn>5</mn><mo>,</mo><mn>3</mn><mo stretchy="true" form="postfix">]</mo></mrow></msub><mo>*</mo><mi>I</mi><mi>M</mi><mi>P</mi><mo>+</mo><mi>ϵ</mi></mtd></mtr><mtr><mtd columnalign="left"><mi>U</mi><mi>P</mi><mi>P</mi><mi>S</mi></mtd><mtd columnalign="center"><mo>=</mo></mtd><mtd columnalign="left"><mi>b</mi><mi>e</mi><mi>t</mi><msub><mi>a</mi><mrow><mo stretchy="true" form="prefix">[</mo><mn>6</mn><mo>,</mo><mn>1</mn><mo stretchy="true" form="postfix">]</mo></mrow></msub><mo>*</mo><mi>W</mi><mi>M</mi><mo>+</mo><msub><mi>β</mi><mrow><mo stretchy="true" form="prefix">[</mo><mn>6</mn><mo>,</mo><mn>2</mn><mo stretchy="true" form="postfix">]</mo></mrow></msub><mo>*</mo><mi>F</mi><mi>R</mi><mo>+</mo><msub><mi>β</mi><mrow><mo stretchy="true" form="prefix">[</mo><mn>6</mn><mo>,</mo><mn>3</mn><mo stretchy="true" form="postfix">]</mo></mrow></msub><mo>*</mo><mi>I</mi><mi>M</mi><mi>P</mi><mo>+</mo><mi>ϵ</mi></mtd></mtr><mtr><mtd columnalign="left"><mi>B</mi><mi>I</mi><mi>S</mi><mn>11</mn></mtd><mtd columnalign="center"><mo>=</mo></mtd><mtd columnalign="left"><mi>b</mi><mi>e</mi><mi>t</mi><msub><mi>a</mi><mrow><mo stretchy="true" form="prefix">[</mo><mn>7</mn><mo>,</mo><mn>1</mn><mo stretchy="true" form="postfix">]</mo></mrow></msub><mo>*</mo><mi>W</mi><mi>M</mi><mo>+</mo><msub><mi>β</mi><mrow><mo stretchy="true" form="prefix">[</mo><mn>7</mn><mo>,</mo><mn>2</mn><mo stretchy="true" form="postfix">]</mo></mrow></msub><mo>*</mo><mi>F</mi><mi>R</mi><mo>+</mo><msub><mi>β</mi><mrow><mo stretchy="true" form="prefix">[</mo><mn>7</mn><mo>,</mo><mn>3</mn><mo stretchy="true" form="postfix">]</mo></mrow></msub><mo>*</mo><mi>I</mi><mi>M</mi><mi>P</mi><mo>+</mo><mi>ϵ</mi></mtd></mtr><mtr><mtd columnalign="left"><mi>d</mi><mi>i</mi><mi>c</mi><mi>k</mi><mi>m</mi><mi>a</mi><mi>n</mi></mtd><mtd columnalign="center"><mo>=</mo></mtd><mtd columnalign="left"><mi>b</mi><mi>e</mi><mi>t</mi><msub><mi>a</mi><mrow><mo stretchy="true" form="prefix">[</mo><mn>8</mn><mo>,</mo><mn>1</mn><mo stretchy="true" form="postfix">]</mo></mrow></msub><mo>*</mo><mi>W</mi><mi>M</mi><mo>+</mo><msub><mi>β</mi><mrow><mo stretchy="true" form="prefix">[</mo><mn>8</mn><mo>,</mo><mn>2</mn><mo stretchy="true" form="postfix">]</mo></mrow></msub><mo>*</mo><mi>F</mi><mi>R</mi><mo>+</mo><msub><mi>β</mi><mrow><mo stretchy="true" form="prefix">[</mo><mn>8</mn><mo>,</mo><mn>3</mn><mo stretchy="true" form="postfix">]</mo></mrow></msub><mo>*</mo><mi>I</mi><mi>M</mi><mi>P</mi><mo>+</mo><mi>ϵ</mi></mtd></mtr></mtable> <annotation encoding="application/x-tex">\begin{array}{lcl} nback & = &beta_{[1, 1]} * WM + \beta_{[1, 2]} * FR + \beta_{[1, 3]} * IMP + \epsilon \\ dspan & = &beta_{[2, 1]} * WM + \beta_{[2, 2]} * FR + \beta_{[2, 3]} * IMP + \epsilon \\ ospan & = &beta_{[3, 1]} * WM + \beta_{[3, 2]} * FR + \beta_{[3, 3]} * IMP + \epsilon \\ ravens & = &beta_{[4, 1]} * WM + \beta_{[4, 2]} * FR + \beta_{[4, 3]} * IMP + \epsilon \\ crt & = &beta_{[5, 1]} * WM + \beta_{[5, 2]} * FR + \beta_{[5, 3]} * IMP + \epsilon \\ UPPS & = &beta_{[6, 1]} * WM + \beta_{[6, 2]} * FR + \beta_{[6, 3]} * IMP + \epsilon \\ BIS11 & = &beta_{[7, 1]} * WM + \beta_{[7, 2]} * FR + \beta_{[7, 3]} * IMP + \epsilon \\ dickman & = &beta_{[8, 1]} * WM + \beta_{[8, 2]} * FR + \beta_{[8, 3]} * IMP + \epsilon \\ \end{array}</annotation></semantics></math> $$
\begin{array}{lcl}
nback & = &beta_{[1, 1]} * WM + \beta_{[1, 2]} * FR + \beta_{[1, 3]} * IMP + \epsilon \\
dspan & = &beta_{[2, 1]} * WM + \beta_{[2, 2]} * FR + \beta_{[2, 3]} * IMP + \epsilon \\
ospan & = &beta_{[3, 1]} * WM + \beta_{[3, 2]} * FR + \beta_{[3, 3]} * IMP + \epsilon \\
ravens & = &beta_{[4, 1]} * WM + \beta_{[4, 2]} * FR + \beta_{[4, 3]} * IMP + \epsilon \\
crt & = &beta_{[5, 1]} * WM + \beta_{[5, 2]} * FR + \beta_{[5, 3]} * IMP + \epsilon \\
UPPS & = &beta_{[6, 1]} * WM + \beta_{[6, 2]} * FR + \beta_{[6, 3]} * IMP + \epsilon \\
BIS11 & = &beta_{[7, 1]} * WM + \beta_{[7, 2]} * FR + \beta_{[7, 3]} * IMP + \epsilon \\
dickman & = &beta_{[8, 1]} * WM + \beta_{[8, 2]} * FR + \beta_{[8, 3]} * IMP + \epsilon \\
\end{array}
$$
实际上,我们使用 EFA 想要做的是估计系数(betas)的*矩阵*,该矩阵将潜在变量映射到观察变量。对于我们正在生成的数据,我们知道这个矩阵中的大多数贝塔系数为零,因为我们是这样创建它们的;对于每个任务,只有一个权重设置为 1,这意味着每个任务是单个潜在变量的有噪声的测量。 实际上,我们使用 EFA 想要做的是估计系数(betas)的*矩阵*,该矩阵将潜在变量映射到观察变量。对于我们正在生成的数据,我们知道这个矩阵中的大多数贝塔系数为零,因为我们是这样创建它们的;对于每个任务,只有一个权重设置为 1,这意味着每个任务是单个潜在变量的有噪声的测量。
我们可以将 EFA 应用于我们的合成数据集来估计这些参数。除了提到重要的一点之外,我们不会详细讨论全民教育实际上是如何实施的。本书中之前的大多数分析都依赖于试图最小化观测数据值和模型预测值之间差异的方法。用于估计 EFA 参数的方法试图最小化观察变量间的观察到的*协方差*和模型参数隐含的协方差之间的差异。为此,这些方法通常被称为*协方差结构模型* 我们可以将 EFA 应用于我们的合成数据集来估计这些参数。除了提到重要的一点之外,我们不会详细讨论探索性因子分析实际上是如何使用的。本书中之前的大多数分析都依赖于试图最小化观测数据值和模型预测值之间差异的方法。用于估计 EFA 参数的方法试图最小化观察变量间的观察到的*协方差*和模型参数隐含的协方差之间的差异。为此,这些方法通常被称为*协方差结构模型*
让我们对我们的综合数据进行探索性因素分析。与聚类方法一样,我们需要首先确定我们想要在模型中包含多少潜在因素。在这种情况下,我们知道有三个因素,所以让我们从这一点开始;稍后,我们将研究直接从数据中估计因子数量的方法。这是我们的统计软件对此模型的输出: 让我们对综合数据进行探索性因素分析。与聚类方法一样,首先需要我们确定想要在模型中包含多少潜在因子。在这种情况下,我们知道有三个因子,所以让我们从这一点开始;稍后,我们将研究直接从数据中估计因子数量的方法。这是我们的统计软件对此模型的输出:
``` ```
## ##
...@@ -255,7 +270,7 @@ ...@@ -255,7 +270,7 @@
## MR3 0.47 0.03 1.00 ## MR3 0.47 0.03 1.00
``` ```
我们想问的一个问题是,我们的模型实际上有多符合数据。这个问题没有单一的答案;相反,研究人员开发了许多不同的方法,为模型与数据的拟合程度提供了一些见解。例如,一个常用的标准是基于近似的 (RMSEA)统计的*均方根误差,其量化了预测的协方差与实际协方差有多远;小于 0.08 的 RMSEA 值通常被认为反映了充分适合的模型。在这里的例子中,RMSEA 值是 0.026,这表明模型非常适合。* 我们想问的一个问题是,我们的模型实际上有多符合数据。这个问题没有维一的答案;相反,研究人员开发了许多不同的方法,为模型与数据的拟合程度提供了一些见解。例如,一个常用的标准是基于近似的 (RMSEA)统计的均方根误差,其量化了预测的协方差与实际协方差有多远;当RMSEA小于0.08时,我们说这个模型基本上反映了数据的生成规则。在这里的例子中,RMSEA值是0.026,说明这是一个比较好的模型。
我们还可以检查参数估计,以查看模型是否恰当地识别了数据中的结构。通常将其绘制成图表,从潜在变量(表示为椭圆)指向观察变量(表示为矩形),其中箭头表示潜在变量上观察变量的实际负载;这种图形通常被称为*路径图*,因为它反映了与变量相关的路径。如图 [16.11](#fig:faDiagram) 所示。在这种情况下,EFA 程序正确地识别了数据中存在的结构,既识别了哪些观察变量与每个潜在变量相关,又识别了潜在变量之间的相关性。 我们还可以检查参数估计,以查看模型是否恰当地识别了数据中的结构。通常将其绘制成图表,从潜在变量(表示为椭圆)指向观察变量(表示为矩形),其中箭头表示潜在变量上观察变量的实际负载;这种图形通常被称为*路径图*,因为它反映了与变量相关的路径。如图 [16.11](#fig:faDiagram) 所示。在这种情况下,EFA 程序正确地识别了数据中存在的结构,既识别了哪些观察变量与每个潜在变量相关,又识别了潜在变量之间的相关性。
...@@ -267,11 +282,11 @@ ...@@ -267,11 +282,11 @@
### 16.4.3 确定因的数量 ### 16.4.3 确定因的数量
应用全民教育的主要挑战之一是确定因素的数量。一种常见的方法是在改变因素数量的同时检查模型的拟合度,然后选择给出最佳拟合度的模型。这不是万无一失的,有多种方法可以量化模型的拟合度,有时会给出不同的答案。 应用探索性因子分析的主要挑战之一是确定因子的数量。一种常见的方法是在改变因子数量的同时检查模型的拟合度,然后选择给出最佳拟合度的模型。这不是万无一失的,有多种方法可以量化模型的拟合度,有时会给出不同的答案。
有人可能会认为,我们可以简单地看看模型的拟合程度,然后挑选出最拟合的因素数量,但这是行不通的,因为更复杂的模型总是会更好地拟合数据(正如我们在前面关于过度拟合的讨论中看到的)。出于这个原因,我们需要使用一个模型拟合的度量标准,它对模型中的参数数量进行惩罚。出于这个例子的目的,我们将选择一种用于量化模型拟合的常用方法,它被称为*样本大小调整贝叶斯信息标准*(或 *SABIC* )。这种方法量化了模型与数据的拟合程度,同时还考虑了模型中的参数数量(在这种情况下与因子数量相关)以及样本大小。虽然 SABIC 的绝对值是不可解释的,但当使用相同的数据和相同类型的模型时,我们可以使用 SABIC 来比较模型,以确定哪个模型最适合该数据。关于 SABIC 和类似的其他指标(被称为*信息标准*)需要知道的一件重要事情是,较低的值代表模型更好的拟合,因此在这种情况下,我们希望找到具有最低 SABIC 的因子的数量。在图 [16.12](#fig:sabicPlot) 中,我们看到具有最低 SABIC 的模型有三个因子,这表明这种方法能够准确地确定用于生成数据的因子的数量。 有人可能会认为,我们可以简单地看看模型的拟合程度,然后挑选出最拟合的因子数量,但这是行不通的,因为更复杂的模型总是会更好地拟合数据(正如我们在前面关于过拟合的讨论中所看到的)。出于这个原因,我们需要使用一个标准来量化模型的拟合程度,它对模型中的参数数量进行惩罚。出于这个例子的目的,我们将选择一种用于量化模型拟合的常用方法,它被称为*样本大小调整贝叶斯信息标准*(或 *SABIC* )。这种方法量化了模型与数据的拟合程度,同时还考虑了模型中的参数数量(在这种情况下与因子数量相关)以及样本大小。虽然 SABIC 的绝对值是不可解释的,但当使用相同的数据和相同类型的模型时,我们可以使用 SABIC 来比较模型,以确定哪个模型最适合该数据。关于 SABIC 和类似的其他指标(被称为*信息标准*)需要知道的一件重要事情是,较低的值代表模型更好的拟合,因此在这种情况下,我们希望找到具有最低 SABIC 的因子的数量。在图 [16.12](#fig:sabicPlot) 中,我们看到具有最低 SABIC 的模型有三个因子,这表明这种方法能够准确地确定用于生成数据的因子的数量。
![Plot of SABIC for varying numbers of factors.](img/file98.png) ![Plot of SABIC for varying numbers of factors.](img/file98.png)
...@@ -283,7 +298,7 @@ ...@@ -283,7 +298,7 @@
图 16.13:艾森伯格等人数据的三因素模型的路径图。 图 16.13:艾森伯格等人数据的三因素模型的路径图。
绘制路径图(图 [16.13](#fig:faDiagramSro) )我们看到,真实数据展示了一个与模拟数据非常相似的因结构。这并不奇怪,因为模拟数据是基于对这些不同任务的了解而生成的,但令人欣慰的是,人类行为足够系统化,我们可以可靠地识别这些类型的关系。主要区别在于工作记忆因子(MR3)和流畅推理因子(MR1)之间的相关性甚至比模拟数据中的更高。这一结果在科学上是有用的,因为它向我们表明,虽然工作记忆和流畅推理密切相关,但将它们分开建模是有用的。 绘制路径图(图 [16.13](#fig:faDiagramSro) )我们看到,真实数据展示了一个与模拟数据非常相似的因结构。这并不奇怪,因为模拟数据是基于对这些不同任务的了解而生成的,但令人欣慰的是,人类行为足够系统化,我们可以可靠地识别这些类型的关系。主要区别在于工作记忆因子(MR3)和流畅推理因子(MR1)之间的相关性甚至比模拟数据中的更高。这一结果在科学上是有用的,因为它向我们表明,虽然工作记忆和流畅推理密切相关,但将它们分开建模是有用的。
...@@ -296,7 +311,7 @@ ...@@ -296,7 +311,7 @@
阅读完本章后,您应该能够: 阅读完本章后,您应该能够:
* 描述监督学习和非监督学习的区别。 * 描述监督学习和非监督学习的区别。
* 采用包括热图在内的可视化技术来可视化多元数据的结构。 * 采用包括热图在内的可视化技术来可视化多元数据的结构。
* 理解聚类的概念以及如何用它来识别数据中的结构。 * 理解聚类的概念以及如何用它来识别数据中的结构。
* 理解降维的概念。 * 理解降维的概念。
* 描述如何使用主成分分析和因子分析进行降维。 * 描述如何使用主成分分析和因子分析进行降维。
...@@ -305,18 +320,8 @@ ...@@ -305,18 +320,8 @@
## 16.6 建议读 ## 16.6 建议读
* 托马斯·威肯斯的《多元统计的几何学》 * 托马斯·威肯斯的《多元统计的几何学》
* 伊凡·萨沃夫所著的《线性代数指南》 * 伊凡·萨沃夫所著的《线性代数指南》
* * *
1. 因子分析的另一个应用被称为*验证性因子分析*(或 CFA),我们在此不做讨论;在实践中,它的应用可能会有问题,最近的工作已经开始转向修改全民教育,可以回答经常使用综合行动框架解决的问题。 ( [**马什:2014?**](#ref-Marsh:2014th) ) [↩︎](#fnref1)
...@@ -2,29 +2,28 @@ ...@@ -2,29 +2,28 @@
# 17 实用统计建模 # 17 实用统计建模
在这一章中,我们将把我们所学的知识运用到一个实际的例子中。2007 年,Christopher Gardner 和来自 Stanford 的同事在美国医学协会杂志上发表了一项名为“Atkins,Zone,Ornish 和 LEARN 饮食对绝经前超重妇女体重变化和相关风险因素的比较——A 到 Z 减肥研究:随机试验”的研究 ( [Gardner 等人,2007 年](ch020.xhtml#ref-gard:kiaz:alha:2007) ) 。我们将通过这项研究来展示如何从头到尾分析一个实验数据集。 在这一章中,让我们将所学的知识运用到一个实际的例子中。2007 年,斯坦福大学的克里斯托弗·加德纳 (Christopher Gardner) 及其同事在 * 美国医学协会杂志 * 上发表了一项研究,题为“Atkins, Zone, Ornish, LEARN四种饮食对超重绝经前女性体重变化和相关风险因素的比较—— A TO Z 减肥研究:随机试验”[@gard:kiaz:alha:2007]。 我们将使用这项研究来展示一个端到端的数据分析过程。
## 17.1 统计建模的过程 ## 17.1 统计建模的过程
当我们想要使用我们的统计模型来检验一个科学假设时,我们通常会经历一系列步骤: 当我们想要使用我们的统计模型来检验一个科学假设时,我们通常会经历以下步骤:
1. 请具体说明您感兴趣的问题 1. 明确问题
2. 识别或收集适当的数据 2. 识别或收集适当的数据
3. 为分析准备数据 3. 为分析工作准备相应的数据
4. 确定合适的型号 4. 确定合适的模型
5. 使模型符合数据 5. 使模型符合数据
6. 批评模型以确保它合适 6. 惩罚模型以确保它拟合数据
7. 测试假设并量化影响大小 7. 测试假设并量化影响大小
### 17.1.1 1:说明您感兴趣的问题 ### 17.1.1 1:明确问题
根据作者的说法,他们研究的目标是: 根据作者的说法,他们研究的目标是:
> 比较代表从低到高碳水化合物摄入范围的 4 种减肥食谱对减肥和相关代谢变量的影响。 > 比较代表4种从低到高碳水化合物摄入对减肥和相关代谢变量的影响。
...@@ -32,7 +31,7 @@ ...@@ -32,7 +31,7 @@
### 17.1.2 2:识别或收集适当的数据 ### 17.1.2 2:识别或收集适当的数据
为了回答他们的问题,研究人员将 311 名超重/肥胖女性随机分配到四种不同饮食中的一种(阿特金斯、Zone、Ornish 或 LEARN),并随着时间的推移测量她们的体重和许多其他健康指标。作者记录了大量的变量,但对于感兴趣的主要问题,让我们专注于一个变量:身体质量指数(身体质量指数)。此外,由于我们的目标是测量身体质量指数的持久变化,我们将只关注饮食开始后 12 个月的测量。 为了回答他们的问题,研究人员将311名超重/肥胖女性随机分配到四种不同饮食中的一种(Atkins、Zone、Ornish、LEARN),并随着时间的推移测量她们的体重和许多其他健康指标。作者记录了大量的变量,但对于感兴趣的主要问题,让我们专注于一个变量:身体质量指数(体脂比)。此外,由于我们的目标是测量身体质量指数的持久变化,我们将只关注饮食开始后 12 个月的测量。
...@@ -44,15 +43,15 @@ ...@@ -44,15 +43,15 @@
图 17.1:每种情况下的箱线图,第 50 个百分位数(即中位数)显示为每组的黑线。 图 17.1:每种情况下的箱线图,第 50 个百分位数(即中位数)显示为每组的黑线。
A 到 Z 研究的实际数据是不公开的,所以我们将使用他们论文中报告的汇总数据来生成一些合成数据,这些数据大致与他们研究中获得的数据相匹配,每组的均值和标准差都相同。一旦我们有了数据,我们可以将它们可视化,以确保没有异常值。箱线图有助于观察分布的形状,如图 [17.1](#fig:AtoZBMIChangeDensity) 所示。这些数据看起来相当合理——在单个组中有几个异常值(由方框图外的点表示),但对于其他组来说,它们似乎并不极端。我们还可以看到,这些分布的方差似乎有点不同,阿特金斯比其他人显示出更大的可变性。这意味着任何假设组间方差相等的分析都可能是不合适的。幸运的是,我们计划使用的方差分析模型对此相当稳健。 A到Z研究的实际数据是不公开的,所以我们将使用他们论文报告中的汇总数据来模拟一些合成数据,这些数据与他们研究中的数据差不多,每组的均值和标准差都相同。一旦我们有了数据,我们可以将它们可视化,以确保没有异常值。箱线图有助于观察分布的形状,如图 [17.1](#fig:AtoZBMIChangeDensity) 所示。这些数据看起来相当合理——在每个组中有几个异常值(由方框图外的点表示),但对于其他组来说,异常值并不多。我们还可以看到,这些分布的方差似乎有点不同,Atkins比其他组显示出更大的可变性。这意味着任何假设组间方差相等的分析都可能是不合适的。幸运的是,我们计划使用的方差分析模型对此相当稳健。
### 17.1.4 4。确定合适的型号 ### 17.1.4 4。确定合适的模型
为了给我们的分析确定合适的统计模型,我们需要问几个问题。 为了选择合适的统计模型,我们需要问几个问题。
* 什么样的因变量? * 什么样的因变量?
* 身体质量指数:连续,大致正态分布 * 身体质量指数:连续,大致正态分布
...@@ -70,12 +69,15 @@ ...@@ -70,12 +69,15 @@
### 17.1.5 5。使模型符合数据 ### 17.1.5 5。使模型符合数据
让我们对身体质量指数变化进行方差分析,以比较这四种饮食。大多数统计软件会自动将一个名义变量转换成一组虚拟变量。指定统计模型的一种常见方式是使用*公式符号*,其中使用以下形式的公式指定模型: 让我们对身体质量指数变化进行方差分析,以比较这四种饮食。大多数统计软件会自动将一个名义变量转换成一组虚拟变量。指定统计模型的一种常见方式是使用*公式符号*,其中使用以下形式的公式指定模型:
$$
\text{dependent variable} \sim \text{independent variables}
$$
<math display="block"><semantics><mrow><mtext mathvariant="normal">因变量</mtext><mo></mo><mtext mathvariant="normal">自变量</mtext></mrow><annotation encoding="application/x-tex">\ text {因变量} \ sim \ text {自变量}</annotation></semantics></math> 在这种情况下,我们希望将身体质量指数的变化(存储在名为 *BMIChange12Months* 的变量中)视为饮食(存储在名为diet 的变量中)的函数,因此我们使用如下公式:
在这种情况下,我们希望将身体质量指数的变化(存储在名为 *BMIChange12Months* 的变量中)视为饮食(存储在名为*diet 的变量中)的函数,因此我们使用公式:
<semantics><mrow>【B3】【b】<mi>【m】</mi><mi>【I】<mi>【c】<mi><mi>【a】</mi></mi></mi></mi></mrow></semantics> $$
BMIChange12Months \sim diet
$$
大多数统计软件(包括 R)会在模型包含一个名义变量时自动创建一组哑变量(比如 *diet* 变量,包含每个人接受的饮食名称)。以下是该模型与我们的数据相吻合的结果: 大多数统计软件(包括 R)会在模型包含一个名义变量时自动创建一组哑变量(比如 *diet* 变量,包含每个人接受的饮食名称)。以下是该模型与我们的数据相吻合的结果:
...@@ -102,15 +104,15 @@ ...@@ -102,15 +104,15 @@
## F-statistic: 3.58 on 3 and 307 DF, p-value: 0.0143 ## F-statistic: 3.58 on 3 and 307 DF, p-value: 0.0143
``` ```
请注意,软件自动生成了与四种饮食中的三种相对应的虚拟变量,使得阿特金斯饮食没有虚拟变量。这意味着截距代表阿特金斯饮食组的平均值,其他三个变量模拟了每种饮食的平均值与阿特金斯饮食的平均值之间的差异。选择 Atkins 作为未建模的基线变量仅仅是因为它在字母顺序中是第一个。 请注意,软件自动生成了与四种饮食中的三种相对应的虚拟变量,使得Atkins饮食没有虚拟变量。这意味着截距代表阿特金斯饮食组的平均值,其他三个变量模拟了每种饮食的平均值与阿特金斯饮食的平均值之间的差异。选择 Atkins 作为未建模的基线变量仅仅是因为它在字母顺序中是第一个。
### 17.1.6 6。批评模型以确保它合适 ### 17.1.6 6。惩罚模型以确保它拟合数据
我们要做的第一件事是评这个模型,以确保它是合适的。我们可以做的一件事是查看模型的残差。在图 [17.2](#fig:residualPlot) 中,我们绘制了按饮食分组的每个人的残差。不同条件下的残差分布没有明显的差异,我们可以继续分析。 我们要做的第一件事是评这个模型,以确保它是合适的。我们可以做的一件事是查看模型的残差。在图 [17.2](#fig:residualPlot) 中,我们绘制了按饮食分组的每个人的残差。不同条件下的残差分布没有明显的差异,我们可以继续分析。
![Distribution of residuals for for each condition](img/file101.png) ![Distribution of residuals for for each condition](img/file101.png)
...@@ -146,8 +148,7 @@ ...@@ -146,8 +148,7 @@
## because they show NON-findings rather than findings. ## because they show NON-findings rather than findings.
## Consider using 'pairs()', 'pwpp()', or 'pwpm()' instead. ## Consider using 'pairs()', 'pwpp()', or 'pwpm()' instead.
``` ```
最右边一栏中的字母显示了哪些组彼此不同,使用的方法是根据正在进行的比较次数进行调整;共享一个字母的条件彼此之间没有显著差异。这表明Atkins饮食法和LEARN饮食法彼此没有区别(因为它们共享字母 a),LEARN饮食法、Ornish饮食法和Zone饮食法彼此没有区别(因为它们共享字母 b),但是Atkins饮食法不同于Ornish饮食法和Zone饮食法(因为它们没有共享字母)。
最右边一栏中的字母显示了哪些组彼此不同,使用的方法是根据正在进行的比较次数进行调整;共享一个字母的条件彼此之间没有显著差异。这表明阿特金斯饮食法和学习饮食法彼此没有区别(因为它们共享字母 a),学习饮食法、欧尼斯饮食法和区域饮食法彼此没有区别(因为它们共享字母 b),但是阿特金斯饮食法不同于欧尼斯饮食法和区域饮食法(因为它们没有共享字母)。
...@@ -158,18 +159,19 @@ ...@@ -158,18 +159,19 @@
如果我们更仔细地看看加德纳的论文,我们会发现他们还报告了每组中有多少人被诊断患有*代谢综合征*的统计数据,这是一种以高血压、高血糖、腰部脂肪过多和胆固醇水平异常为特征的综合征,与心血管问题的风险增加有关。加德纳论文的数据在表 [17.1](#tab:metsymData) 中列出。 如果我们更仔细地看看加德纳的论文,我们会发现他们还报告了每组中有多少人被诊断患有*代谢综合征*的统计数据,这是一种以高血压、高血糖、腰部脂肪过多和胆固醇水平异常为特征的综合征,与心血管问题的风险增加有关。加德纳论文的数据在表 [17.1](#tab:metsymData) 中列出。
<caption>Table 17.1: Presence of metabolic syndrome in each group in the AtoZ study.</caption> <caption>Table 17.1: Presence of metabolic syndrome in each group in the AtoZ study.</caption>
| 规定饮食 | 普通 | 代谢综合征 |
| 饮食类型 | 普通 | 代谢综合征 |
| --- | --- | --- | | --- | --- | --- |
| 任何组织的基层人员 | Seventy-seven | Zero point two nine | | Atkins | Seventy-seven | Zero point two nine |
| 学习 | Seventy-nine | Zero point two five | | LEARN | Seventy-nine | Zero point two five |
| 奥尼什语 | Seventy-six | Zero point three eight | | Ornish | Seventy-six | Zero point three eight |
| 地区 | Seventy-nine | Zero point three four | | Zone | Seventy-nine | Zero point three four |
从数据来看,似乎各组之间的比率略有不同,在 Ornish 和 Zone 饮食中有更多的代谢综合征病例——这正是结果较差的饮食。假设我们对测试各组之间代谢综合征的发生率是否有显著差异感兴趣,因为这可能会使我们担心这些差异可能会影响饮食结果的结果。 从数据来看,似乎各组之间的比率略有不同,在 Ornish 和 Zone 饮食中有更多的代谢综合征病例——这正是结果较差的饮食。假设我们对测试各组之间代谢综合征的发生率是否有显著差异感兴趣,因为这可能会使我们担心这些差异可能会影响饮食结果的结果。
#### 17.1.8.1 确定合适的型号 #### 17.1.8.1 确定合适的模型
* 什么样的因变量? * 什么样的因变量?
* 比例 * 比例
...@@ -187,7 +189,7 @@ ...@@ -187,7 +189,7 @@
## X-squared = 4, df = 3, p-value = 0.3 ## X-squared = 4, df = 3, p-value = 0.3
``` ```
该测试表明,平均值之间没有显著差异。然而,它并没有告诉我们有多确定没有差别;请记住,在 NHST 理论下,我们总是在假设零为真的情况下工作,除非数据向我们展示了足够的证据,使我们拒绝零假设。 该测试表明,平均值之间没有显著差异。然而,它并没有告诉我们有多确定没有差别;请记住,在 NHST 理论下,我们总是在假设零为真的情况下开展工作,除非数据向我们展示了足够的证据,让我们拒绝零假设。
如果我们想量化支持或反对零的证据呢?我们可以用贝叶斯因子来做这件事。 如果我们想量化支持或反对零的证据呢?我们可以用贝叶斯因子来做这件事。
...@@ -214,7 +216,7 @@ ...@@ -214,7 +216,7 @@
## 17.2 求助 ## 17.2 求助
每当分析真实数据时,与训练有素的统计学家一起检查你的分析计划是有用的,因为真实数据中可能出现许多潜在的问题。事实上,在你开始这个项目之前,最好和统计学家谈谈,因为他们关于研究的设计或实施的建议可以让你在今后省去很多麻烦。大多数大学都有统计咨询办公室,为大学社团成员提供免费帮助。理解这本书的内容不会阻止你在某些时候需要他们的帮助,但它会帮助你与他们进行更明智的对话,并更好地理解他们提供的建议。 每当分析真实数据时,与训练有素的统计学家一起检查你的分析计划是有用的,因为真实数据中可能出现许多潜在的问题。事实上,在你开始这个项目之前,最好和统计学家谈谈,因为他们关于研究的设计或实施的建议可以让你在今后省去很多麻烦。大多数大学都有统计咨询办公室,为大学社团成员提供免费帮助。理解这本书的内容某些时候需要他们的帮助,但它会帮助你与他们进行更明智的对话,并更好地理解他们提供的建议。
# 18 进行可重复的研究
大多数人认为科学是解决现实问题的有效方法。当医生给我们制定一个治疗方案时,我们相信它已经被研究证明是有效的,我们也同样相信我们乘坐的飞机不会从天上掉下来。然而,自 2005 年以来,越来越多的人担心,科学或许并不总是像我们长期以来预期的那样有效。在这一章中,我们将讨论这些关于科学研究可再现性的问题,并阐述确保我们的统计结果尽可能可再现的步骤。
# 18 做可重复的研究
大多数人认为科学是回答世界问题的可靠方法。当我们的医生开出一种疗法时,我们相信它已经被研究证明是有效的,我们也同样相信我们乘坐的飞机不会从天上掉下来。然而,自 2005 年以来,越来越多的人担心,科学可能并不总是像我们长期以来认为的那样有效。在这一章中,我们将讨论这些关于科学研究可再现性的问题,并概述确保我们的统计结果尽可能可再现的步骤。
## 我们认为科学应该如何运作 ## 我们认为科学应该如何运作
假设我们对一个关于儿童如何选择吃什么的研究项目感兴趣。这是知名饮食研究者布莱恩·万辛克及其同事在 2012 年的一项研究中提出的问题。标准的(我们将看到,有些天真的)观点是这样的: 假设我们目前在研究一个关于儿童如何选择吃什么的项目。这是知名饮食研究者布莱恩·万辛克及其同事在 2012 年的一项研究中提出的问题。标准的(我们将看到,有些理想化的)观点是这样的:
* 从一个假设开始 * 从一个假设开始
* 用受欢迎的人物做品牌应该会让孩子们更经常地选择“健康”食品 * 用受欢迎的人物做品牌应该会让孩子们更频繁地选择“健康”食品
* 收集一些数据 * 收集一些数据
* 让孩子们在贴有 Elmo 品牌标签或对照标签的饼干和苹果之间进行选择,并记录他们的选择 * 让孩子们在贴有 Elmo 品牌标签或对照标签的饼干和苹果之间进行选择,并记录他们的选择
* 做统计来检验零假设 * 做统计来检验零假设
* “预先计划的比较显示,Elmo 品牌的苹果与儿童选择苹果而不是饼干的比例增加有关,从 20.7%增加到 33.8%(<math display="inline"><semantics><msup><mi>χ</mi><mn>2</mn></msup><annotation encoding="application/x-tex">\chi^2</annotation></semantics></math>= 5.158;p = . 02)([Wansink,Just,and Payne 2012](ch020.xhtml#ref-wans:just:payn:2012) ) * “预先计划的比较显示,Elmo 品牌的苹果与儿童选择苹果而不是饼干的比例增加有关,从 20.7%增加到 33.8%($\chi^2$=5.158; P=.02)
* 你根据数据做出结论 * 根据数据推出结论
* “这项研究表明,使用品牌或吸引人的品牌人物对健康食品的益处可能大于对放纵的、高度加工的食品的益处。就像有吸引力的名字可以增加学校餐厅健康食品的选择一样,品牌和卡通人物也可以对幼儿产生同样的效果。 ( [万辛克刚和佩恩 2012](ch020.xhtml#ref-wans:just:payn:2012) ) * “这项研究表明,使用品牌或明星代言的食品对健康食品的益处可能大于对泛滥的、高度加工的食品的益处。就像有吸引力的名字可以增加学校餐厅健康食品的选择一样,品牌和卡通人物也可以对幼儿产生同样的效果。 ( [万辛克刚和佩恩 2012](ch020.xhtml#ref-wans:just:payn:2012) )
...@@ -25,11 +23,11 @@ ...@@ -25,11 +23,11 @@
## 科学(有时)实际上是如何运作的 ## 科学(有时)实际上是如何运作的
布莱恩·万辛克因他的《无意识饮食》一书而闻名,他在公司演讲的费用一度高达数万美元。2017 年,一组研究人员开始仔细审查他发表的一些研究,从一组关于人们在自助餐吃了多少披萨的论文开始。研究人员要求 Wansink 分享研究数据,但他拒绝了,因此他们深入研究了他发表的论文,并在论文中发现了大量的不一致和统计问题。围绕这一分析的公开报道导致许多其他人挖掘 Wansink 的过去,包括获得 Wansink 和他的合作者之间的电子邮件。正如斯蒂芬妮·李在 Buzzfeed 上报道的那样,这些电子邮件显示了 Wansink 的实际研究实践离天真的模型有多远: 布莱恩·万辛克因他的《无意识饮食》一书而闻名,他在公司演讲的费用一度高达数万美元。2017 年,一组研究人员开始仔细审查他发表的一些研究,从一组关于人们在自助餐吃了多少披萨的论文开始。研究人员要求 Wansink 分享研究数据,但他拒绝了,因此他们深入研究了他发表的论文,并在论文中发现了大量的不一致和统计问题。围绕这一分析的公开报道导致许多其他人挖掘 Wansink 的过去,包括获得 Wansink 和他的合作者之间的电子邮件。正如斯蒂芬妮·李在 Buzzfeed 上报道的那样,这些电子邮件显示了 Wansink 的实际研究实践离理想的模型有多远:
> …早在 2008 年 9 月,当佩恩在数据收集后不久查看数据时,他没有发现苹果和埃尔默之间有强有力的联系——至少目前没有。…“我已经将儿童研究的一些初步结果附在你的报告中,”佩恩给他的合作者写道。“不要绝望。看起来水果上的贴纸可能会有用(更神奇一点)。”… Wansink 也承认这篇论文很薄弱,因为他正准备向期刊投稿。p 值为 0.06,略低于 0.05 的黄金标准临界值。正如他在 2012 年 1 月 7 日的电子邮件中所说,这是一个“症结”。…“在我看来应该更低,”他写道,并附上了一份草稿。“你要不要看一看,看看你有什么想法。如果你能得到数据,而且它需要一些调整,那么最好能得到一个低于 0.05 的值。”…2012 年晚些时候,这项研究发表在著名的 JAMA Pediatrics 杂志上,p 值为 0.06。但在 2017 年 9 月,它被收回,并被一个列出 p 值为 0.02 的版本所取代。一个月后,它又因为一个完全不同的原因被收回:万辛克承认,该实验并没有像他最初声称的那样在 8 至 11 岁的儿童身上进行,而是在学龄前儿童身上进行。 > …早在 2008 年 9 月,当佩恩在收集数据后查看时,他没有发现苹果和埃尔默之间有强有力的联系——至少目前没有。…“我已经将儿童研究的一些初步结果附在你的报告中,”佩恩给他的合作者写道。“不要绝望。看起来水果上的贴纸可能会有用(更神奇一点)。”… Wansink 也承认这篇论文很薄弱,因为他正准备向期刊投稿。p 值为 0.06,略差于 0.05 的黄金标准临界值。正如他在 2012 年 1 月 7 日的电子邮件中所说,这是一个“症结”。…“在我看来应该更低,”他写道,并附上了一份草稿。“你要不要看一看,看看你有什么想法。如果你能得到数据,而且它需要一些调整,那么最好能得到一个低于 0.05 的值。”…2012 年晚些时候,这项研究发表在著名的 JAMA Pediatrics 杂志上,p 值为 0.06。但在 2017 年 9 月,它被收回,并被一个列出 p 值为 0.02 的版本所取代。一个月后,它又因为一个完全不同的原因被收回:万辛克承认,该实验并没有像他最初声称的那样在 8 至 11 岁的儿童身上进行,而是在学龄前儿童身上进行。
这种行为终于赶上了万辛克;他的 15 项研究被撤回,2018 年,他辞去了康奈尔大学的教职。 万辛克的这种行为被石锤了;他的 15 项研究被撤回,2018 年,他辞去了康奈尔大学的教职。
...@@ -37,35 +35,47 @@ ...@@ -37,35 +35,47 @@
## 18.3 科学中的再现性危机 ## 18.3 科学中的再现性危机
虽然我们认为 Wansink 案例中的欺诈行为相对罕见,但越来越清楚的是,重复性问题在科学界比以前想象的要普遍得多。这在 2015 年变得尤为明显,当时一大群研究人员在杂志 *Science* 上发表了一项研究,题为“估计心理科学的可重复性” ( [开放科学合作 2015](ch020.xhtml#ref-open:2015) ) 。在这篇论文中,研究人员选取了 100 项已发表的心理学研究,并试图重现论文中最初报道的结果。他们的发现令人震惊:尽管 97%的原始论文报告了具有统计学意义的发现,但在重复研究中,只有 37%的效果具有统计学意义。尽管心理学中的这些问题受到了极大的关注,但它们似乎存在于几乎每个科学领域,从癌症生物学 ( [Errington 等人 2014](ch020.xhtml#ref-erri:iorn:gunn:2014) ) 和化学 ( [Baker 2017](ch020.xhtml#ref-bake:2017) ) 到经济学 ( [Christensen 和 Miguel 2016](19.html#ref-NBERw22989) ) 和社会科学 ( [Camerer 等人 2017)](19.html#ref-Camerer2018EvaluatingTR) 虽然我们认为 Wansink 案例中的欺诈行为相对罕见,但越来越清楚的是,重复性问题在科学界比以前想象的要普遍得多。这在 2015 年变得尤为明显,当时一大群研究人员在杂志 *Science* 上发表了一项研究,题为“估计心理科学的可重复性” ( [开放科学合作 2015](ch020.xhtml#ref-open:2015) ) 。在这篇论文中,研究人员选取了 100 项已发表的心理学研究,并试图重现论文中最初报道的结果。他们的研究结果令人震惊:尽管 97%的原始论文报告了具有统计学意义的发现,但在重复研究中,只有 37%的效果具有统计学意义。尽管心理学中的这些问题受到了极大的关注,但它们似乎存在于几乎每个科学领域,从癌症生物学 ( [Errington 等人 2014](ch020.xhtml#ref-erri:iorn:gunn:2014) ) 和化学 ( [Baker 2017](ch020.xhtml#ref-bake:2017) ) 到经济学 ( [Christensen 和 Miguel 2016](19.html#ref-NBERw22989) ) 和社会科学 ( [Camerer 等人 2017)](19.html#ref-Camerer2018EvaluatingTR)
2010 年后出现的再现性危机实际上是由约翰·约安尼迪斯预测的,他是一位来自斯坦福的医生,在 2005 年写了一篇题为“为什么大多数发表的研究结果都是假的”的论文。在这篇文章中,约安尼迪斯认为,在现代科学的背景下使用零假设统计测试必然会导致高水平的错误结果。 2010 年后出现的再现性危机实际上是由约翰·约安尼迪斯预测的,他是一位来自斯坦福的医生,在 2005 年写了一篇题为“为什么大多数发表的研究结果都是假的”的论文。在这篇文章中,约安尼迪斯认为,在现代科学的背景下使用零假设统计测试必然会导致高水平的错误结果。
### 18.3.1 阳性预测值和统计显著性 ### 18.3.1 阳性预测值和统计显著性
Ioannidis 的分析集中在一个被称为*阳性预测值*的概念上,它被定义为正确的阳性结果(通常转化为“具有统计意义的发现”)的比例:
Ioannidis 的分析侧重于一个被称为*阳性预测值*的概念,它被定义为真实的阳性结果(通常被翻译为“具有统计显著性的发现”)的比例: $$
PPV = \frac{p(true\ positive\ result)}{p(true\ positive\ result) + p(false\ positive\ result)}
<math xmlns:epub="http://www.idpf.org/2007/ops" display="block"><semantics><mrow><mi>P</mi><mi>P</mi><mi>V</mi><mo>=</mo><mfrac><mrow><mi>P</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>t</mi><mi>r</mi><mi>u</mi><mi>e</mi><mi>P</mi><mi>s</mi><mi>I</mi> )</mrow></mrow><mrow><mi>p</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>t</mi><mi>r</mi><mi><mi>e</mi><mspace width="0.222em"><mi>p</mi><mi>o</mi><mi>I</mi><mi>t</mi></mspace></mi></mrow><mo>+</mo><mi>p</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>f</mi><mi>a</mi><mi>l</mi><mi>s</mi><mi>e</mi><mi>p</mi><mi>o</mi><mi>s</mi></mrow></mrow></mfrac></mrow><annotation encoding="application/x-tex">PPV = \ frac { p(true \ positive \ result)} { p(true \ positive \ result)+p(false \ positive \ result)}</annotation></semantics></math>假设我们知道我们的假设为真的概率(<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mi>p</mi><mrow><mo stretchy="true" form="prefix">(</mo> <mi>那么一个真阳性结果的概率简单来说就是<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mi>p</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>h</mi><mi>I</mi><mi>s</mi><mi>T</mi><mi>r</mi><mi>u</mi><mi>e</mi></mrow></mrow></semantics></math></mi></mrow></mrow></semantics></math> $$
假设我们知道我们的假设为真的概率 ($p(hIsTrue)$),那么真阳性结果的概率只是 $p(hIsTrue)$ 乘以研究的统计功效:
<math xmlns:epub="http://www.idpf.org/2007/ops" display="block"><semantics><mrow><mi>p</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>t</mi><mi>r</mi><mi>u</mi><mi>e</mi><mi>p</mi><mi>o</mi>s<mi>I</mi><mi>t</mi>T27】I<mi>v</mi><mi>e</mi><mi>r</mi></mrow> <mo>=</mo><mi>p</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>h</mi><mi>I</mi><mi>s</mi><mi>T</mi><mi>r</mi><mi>e</mi></mrow><mo>*</mo> 假阳性结果的概率由<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mi>p</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>h</mi><mi>I</mi><mi>s</mi><mi>T</mi><mi>r</mi><mi>u</mi><mi>e</mi><mo stretchy="true" form="postfix">)</mo></mrow></mrow></semantics></math></mrow></semantics></math> $$
p(true\ positive\ result) = p(hIsTrue) * (1 - \beta)
$$
$\beta$ 是假阴性率。假阳性结果的概率由 $p(hIsTrue)$ 和假阳性率 $\alpha$ 决定:
<semantics><mrow><mi>【p】</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>【f】</mi><mi>【l13】</mi></mrow><mo>=</mo><mrow><mo stretchy="true" form="prefix"><mn><semantics></semantics></mn></mo></mrow></mrow></semantics> $$
p(假\正\结果) = (1 - p(hIsTrue)) * \alpha
$$
PPV 的定义是: PPV 则定义为:
<semantics><mrow><mi>【p】</mi><mi>【p】</mi><mi>【v】</mi><mo>=<mfrac><mi>p</mi></mfrac></mo></mrow> <mrow><mi><mrow><mo stretchy="true" form="prefix"><mi><mi>【I】</mi></mi></mo></mrow><mo>+</mo><mrow><mo stretchy="true" form="prefix"><mn><semantics></semantics></mn></mo></mrow></mi></mrow></semantics> $$
PPV = \frac{p(hIsTrue) * (1 - \beta)}{p(hIsTrue) * (1 - \beta) + (1 - p(hIsTrue)) * \alpha}
$$
让我们首先举一个例子,假设为真的概率很高,比如说 0.8——尽管注意,一般来说我们实际上无法知道这个概率。假设我们用<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mi>α</mi><mo>=</mo><mn>0.05</mn></mrow><annotation encoding="application/x-tex">\ alpha = 0.05</annotation></semantics></math><math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mi>β</mi><mo>=</mo></mrow><annotation encoding="application/x-tex">\ beta = 0.2</annotation></semantics></math>的标准值进行一项研究。我们可以将 PPV 计算为: 让我们首先举一个例子,假设我们的假设为真的概率很高,比如 0.8 - 尽管请注意,通常我们实际上无法知道这个概率。假设我们使用标准值 $\alpha=0.05$ 和 $\beta=0.2$ 进行研究。我们可以将 PPV 计算为:
<math xmlns:epub="http://www.idpf.org/2007/ops" display="block"><semantics><mrow><mi>P</mi><mi>P</mi><mi>V</mi><mo>=</mo><mfrac><mrow><mn>0.8</mn><mo>*</mo><mrow><mo stretchy="true" form="prefix">(</mo><mn>1</mn><mo>—</mo><mn>0.2</mn></mrow></mrow><mrow><mn>0.8</mn><mo>*</mo></mrow><mo>+</mo><mrow><mo stretchy="true" form="prefix">(</mo><mn>1</mn>—T56】0.8<mo stretchy="true" form="postfix">)</mo></mrow><mo>*</mo><mn>0.05</mn></mfrac></mrow><mo>=</mo><mn>0.98</mn> <annotation encoding="application/x-tex">然而,请注意,假设为真的可能性如此之高的研究领域可能不是一个非常有趣的研究领域;当研究告诉我们意想不到的事情时,它是最重要的!</annotation></semantics></math> $$
PPV = \frac{0.8 * (1 - 0.2)}{0.8 * (1 - 0.2) + (1 - 0.8) * 0.05} = 0.98
$$
这意味着,如果我们在假设可能为真且功效很高的研究中发现阳性结果,那么其为真的可能性就很高。但是请注意,假设具有如此高可能性为真的研究领域可能不是一个非常有趣的研究领域;当它告诉我们一些意想不到的事情时,研究是最重要的!
让我们对一个字段做同样的分析,其中<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mi>p</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>h</mi><mi>I</mi><mi>s</mi><mi>T</mi><mi>r</mi><mi>u</mi><mi>e</mi>【T22)</mrow><mo>=</mo><mn>0.1</mn></mrow><annotation encoding="application/x-tex">p(hIsTrue)在这种情况下,PPV 是:</annotation></semantics></math> 让我们对 $p(hIsTrue)=0.1$ 的字段进行相同的分析——也就是说,大多数被测试的假设都是错误的。在这种情况下,PPV 是:
<semantics><mrow><mi>【p】</mi><mi>【p】</mi><mi>【v】</mi><mo>=<mfrac><mn>【0.1】</mn></mfrac></mo></mrow> <mo>+</mo><mrow><mo stretchy="true" form="prefix">(</mo><mn><semantics></semantics></mn><mo><mn>【0.1】</mn><mo stretchy="true" form="postfix">)】</mo></mo></mrow></semantics> $$
PPV = \frac{0.1 * (1 - 0.2)}{0.1 * (1 - 0.2) + (1 - 0.1) * 0.05} = 0.307
这意味着在一个大多数假设都可能是错误的领域(也就是说,一个有趣的科学领域,研究人员正在测试有风险的假设),即使我们发现一个积极的结果,它也更有可能是假的而不是真的!事实上,这只是我们在假设检验的背景下讨论的基础利率效应的另一个例子——当一个结果不太可能发生时,那么几乎可以肯定的是,大多数积极的结果都将是假阳性。 $$
我们可以对此进行模拟,以显示 PPV 如何与统计功效相关,作为假设为真的先验概率的函数(见图 [18.1](#fig:PPVsim) ) 我们可以对此进行模拟,以显示 PPV 如何与统计功效相关,作为假设为真的先验概率的函数(见图 [18.1](#fig:PPVsim) )
...@@ -83,15 +93,15 @@ Jonathan Schoenfeld 和 John Ioannidis 在一篇题为“我们吃的所有东 ...@@ -83,15 +93,15 @@ Jonathan Schoenfeld 和 John Ioannidis 在一篇题为“我们吃的所有东
### 18.3.2 胜利者的诅咒 ### 18.3.2 胜利者的诅咒
当统计能力较低时,还会出现另一种错误:我们对效应大小的估计会被夸大。这种现象通常被称为“赢家的诅咒”,它来自经济学,指的是这样一个事实,即对于某些类型的拍卖(价值对每个人来说都是一样的,就像一罐 25 美分的硬币,出价是私人的),赢家肯定会支付高于商品价值的价格。在科学中,赢家的诅咒指的是这样一个事实,即从重大结果(即赢家)估计的效应大小几乎总是对真实效应大小的高估。 当统计能力较低时,还会出现另一种错误:我们对效应大小的估计会被夸大。这种现象通常被称为“胜利者的诅咒”,它来自经济学,指的是这样一个事实,即对于某些类型的评估(价值对每个人来说都是一样的,就像一罐 25 美分的硬币,出价是私人的),赢家肯定会支付高于商品价值的价格。在科学中,胜利者的诅咒指的是这样一个事实,即从重大结果(即赢家)估计的效应大小几乎总是对真实效应大小的高估。
我们可以对此进行模拟,以了解显著结果的估计效应大小与实际潜在效应大小之间的关系。让我们生成真实效应大小为 d = 0.2 的数据,并估计那些检测到显著效应的结果的效应大小。图 [18.2](#fig:CurseSim) 的左图显示,当功率较低时,与实际效果大小相比,显著结果的估计效果大小可能被大大夸大。 我们可以对此进行模拟,以了解显著结果的估计效应大小与实际潜在效应大小之间的关系。让我们生成真实效应大小为d=0.2的数据,并估计那些检测到显著效应的结果的效应大小。图 [18.2](#fig:CurseSim) 的左图显示,当功率较低时,与实际效果大小相比,显著结果的估计效果大小可能被大大夸大。
![Left: A simulation of the winner's curse as a function of statistical power (x axis). The solid line shows the estimated effect size, and the dotted line shows the actual effect size. Right: A histogram showing effect size estimates for a number of samples from a dataset, with significant results shown in blue and non-significant results in red. ](img/file104.png) ![Left: A simulation of the winner's curse as a function of statistical power (x axis). The solid line shows the estimated effect size, and the dotted line shows the actual effect size. Right: A histogram showing effect size estimates for a number of samples from a dataset, with significant results shown in blue and non-significant results in red. ](img/file104.png)
图 18.2:左图:作为统计能力(x 轴)函数的赢家诅咒的模拟。实线表示估计的效果大小,虚线表示实际的效果大小。右图:一个直方图,显示了数据集内多个样本的效应大小估计值,显著结果显示为蓝色,不显著结果显示为红色。 图 18.2:左图:作为统计能力(x 轴)函数的赢家诅咒的模拟。实线表示估计的效果大小,虚线表示实际的效果大小。右图:一个直方图,显示了数据集内多个样本的效应大小估计值,显著结果显示为蓝色,不显著结果显示为红色。
我们可以通过单模拟来了解为什么会出现这种情况。在图 [18.2](#fig:CurseSim) 的右侧面板中,您可以看到 1000 个样本的估计效应大小的直方图,根据测试是否具有统计显著性来区分。从图中可以清楚地看出,如果我们只根据显著的结果来估计效果的大小,那么我们的估计就会被夸大;只有当大多数结果是显著的(即功率高,效应相对大)时,我们的估计才会接近实际的效应大小。 我们可以通过单模拟来了解为什么会出现这种情况。在图 [18.2](#fig:CurseSim) 的右侧面板中,您可以看到 1000 个样本的估计效应大小的直方图,根据测试是否具有统计显著性来区分。从图中可以清楚地看出,如果我们只根据显著的结果来估计效果的大小,那么我们的估计就会被夸大;只有当大多数结果是显著的(即功率高,效应相对大)时,我们的估计才会接近实际的效应大小。
...@@ -101,21 +111,23 @@ Jonathan Schoenfeld 和 John Ioannidis 在一篇题为“我们吃的所有东 ...@@ -101,21 +111,23 @@ Jonathan Schoenfeld 和 John Ioannidis 在一篇题为“我们吃的所有东
## 18.4 可疑的研究实践 ## 18.4 可疑的研究实践
一本由美国心理学协会 ( [Darley、Zanna 和 Roediger 2004](ch020.xhtml#ref-darl:zann:roed:2004) ) 出版的名为《完整的学术:职业指南》的畅销书,旨在为有抱负的研究人员提供如何建立职业生涯的指导。在著名社会心理学家 Daryl Bem 题为“撰写实证期刊文章”的一章中,Bem 提供了一些关于如何撰写研究论文的建议。不幸的是,他建议的实践存在很大问题,并被称为*有问题的研究实践* (QRPs)。 一本由美国心理学协会 ( [Darley、Zanna 和 Roediger 2004](ch020.xhtml#ref-darl:zann:roed:2004) ) 出版的名为《完整的学术:职业指南》的畅销书,旨在为有抱负的研究人员规划自己的职业生涯提供指导。在著名社会心理学家 Daryl Bem 题为“撰写实证期刊文章”的一章中,Bem 提供了一些关于如何撰写研究论文的建议。不幸的是,他建议的实践存在很大问题,并被称为*有问题的研究实践* (QRPs)。
> 你应该写哪篇文章?您可以写两篇文章:(1)您在设计研究时计划写的文章,或者(2)您看到结果后最有意义的文章。它们很少相同,正确答案是(2)。 > 你应该写哪篇文章?您可以写两篇文章:
> (1)您在设计研究时计划写的文章
> (2)您看到结果后最有意义的文章。
> 它们很少相同,正确答案是(2)。
贝姆在这里建议的被称为*倾听*(在结果已知后的假设) ( [克尔 1998](ch020.xhtml#ref-kerr:1998) ) 。这可能看起来无伤大雅,但有问题,因为它允许研究人员将事后结论(我们应该持保留态度)重新框定为先验预测(我们会对此更有信心)。从本质上讲,它允许研究人员根据事实改写他们的理论,而不是使用理论做出预测,然后进行测试——类似于移动球门柱,使球到达任何地方。因此,消除不正确的想法变得非常困难,因为目标总是可以移动以匹配数据。贝姆继续说道: 贝姆在这里建议的被称为*倾听*(在结果已知后的假设) ( [克尔 1998](ch020.xhtml#ref-kerr:1998) ) 。这可能看起来无伤大雅,但有问题,因为它允许研究人员将事后结论(我们应该持保留态度)重新框定为先验预测(我们会对此更有信心)。从本质上讲,它允许研究人员根据事实改写他们的理论,而不是使用理论做出预测,然后进行测试——类似于移动球门柱,使球到达任何地方。因此,消除不正确的想法变得非常困难,因为目标总是可以移动以匹配数据。贝姆继续说道:
> **分析数据**从各个角度检查数据。分别分析性别。组成新的综合指数。如果一个数据提出了一个新的假设,试着在数据的其他地方找到进一步的证据。如果你看到有趣模式的模糊痕迹,尝试重新组织数据,使它们更加清晰。如果有你不喜欢的参与者,或者试验,观察者,或者给你异常结果的面试官,放弃他们(暂时)。为一些有趣的事情——任何事情——进行一次钓鱼探险。不,这不是不道德的。 > **分析数据**从各个角度检查它们。 分别分析性别。 组成新的综合特征。 如果数据表明了一个新假设,请尝试在数据的其他地方找到进一步的证据。 如果您看到有趣模式的模糊痕迹,请尝试重新组织数据以使它们更加醒目。 如果有你不喜欢的参与者,或者给你异常结果的试验、观察者或面试官,请(暂时)放弃。 去放飞你的思维,寻找一些有趣的东西——任何东西。 不要被职业道德所约束。
Bem 在这里建议的被称为 *p-hacking* ,指的是尝试许多不同的分析,直到发现一个重要的结果。贝姆是正确的,如果一个人要对自己的数据分析工作做一次报告,那么这种方法就不是“不讲武德的”。然而,很少看到论文讨论对数据集进行的所有分析;更确切地说,论文经常只呈现*起作用*的分析——这通常意味着他们发现了一个具有统计学意义的结果。有许多不同的方法可以用来破解:
Bem 在这里建议的被称为 *p-hacking* ,指的是尝试许多不同的分析,直到发现一个重要的结果。贝姆是正确的,如果一个人要报告对数据进行的每一次分析,那么这种方法就不是“不道德的”。然而,很少看到论文讨论对数据集进行的所有分析;更确切地说,论文经常只呈现*起作用*的分析——这通常意味着他们发现了一个具有统计学意义的结果。有许多不同的方法可以用来破解:
* 每次受试后分析数据,一旦 p < .05,停止收集数据 * 每次受试者后分析数据,一旦 p < 0.05,停止收集数据
* 分析许多不同的变量,但只报告那些 p < .05 的变量 * 分析许多不同的变量,但只报告那些 p < 0.05 的变量
* 收集许多不同的实验条件,但只报告那些 p<.05/> * 收集许多不同的实验条件,但只报告那些 p<0.05
* 排除参与者以获得 p<.05/> * 排除参与者以获得 p<0.05
* 转换数据以获得 p<.05/> * 转换数据以获得 p<0.05
由 Simmons、Nelson 和 Simonsohn ( [2011](ch020.xhtml#ref-simm:nels:simo:2011) ) 撰写的一篇著名论文显示,使用这类 p-hacking 策略会大大增加实际的假阳性率,导致大量的假阳性结果。 由 Simmons、Nelson 和 Simonsohn ( [2011](ch020.xhtml#ref-simm:nels:simo:2011) ) 撰写的一篇著名论文显示,使用这类 p-hacking 策略会大大增加实际的假阳性率,导致大量的假阳性结果。
...@@ -125,7 +137,7 @@ Bem 在这里建议的被称为 *p-hacking* ,指的是尝试许多不同的分 ...@@ -125,7 +137,7 @@ Bem 在这里建议的被称为 *p-hacking* ,指的是尝试许多不同的分
2011 年,同样是达里尔·贝姆发表了一篇文章 ( [贝姆 2011](ch020.xhtml#ref-bem:2011) ) ,声称发现了超感知觉的科学证据。该文章指出: 2011 年,同样是达里尔·贝姆发表了一篇文章 ( [贝姆 2011](ch020.xhtml#ref-bem:2011) ) ,声称发现了超感知觉的科学证据。该文章指出:
> 这篇文章报道了 9 个实验,涉及 1,000 多名参与者,通过“时间反转”公认的心理效应来测试追溯影响,以便在假定的因果刺激事件发生之前获得个体的反应。…在所有 9 个实验中,psi 性能的平均效应大小(d)为 0.22,除一个实验外,所有实验都产生了具有统计学意义的结果。 > 这篇文章报道了 9 个实验,涉及 1,000 多名参与者,通过“时间反转”公认的心理效应来测试追溯影响,以便在假定的因果刺激事件发生之前获得个体的反应。在全部的9个实验中,psi 性能的平均效应大小(d)为 0.22,除一个实验外,所有实验都产生了具有统计学意义的结果。
随着研究人员开始检查 Bem 的文章,很明显他已经参与了他在上面讨论的章节中推荐的所有快速反应程序。正如 Tal Yarkoni 在一篇研究文章的博客文章中指出的: 随着研究人员开始检查 Bem 的文章,很明显他已经参与了他在上面讨论的章节中推荐的所有快速反应程序。正如 Tal Yarkoni 在一篇研究文章的博客文章中指出的:
...@@ -144,13 +156,13 @@ Bem 在这里建议的被称为 *p-hacking* ,指的是尝试许多不同的分 ...@@ -144,13 +156,13 @@ Bem 在这里建议的被称为 *p-hacking* ,指的是尝试许多不同的分
## 18.5 进行可重复研究 ## 18.5 进行可重复研究
在再现性危机出现后的几年里,出现了一个强大的运动来开发工具,以帮助保护科学研究的再现性。 在再现性危机出现后的几年里,出现了一个强大的动力来开发工具,以帮助保护科学研究的再现性。
### 18.5.1 预注册 ### 18.5.1 预注册
获得最大牵引力的一个想法是*预注册*,其中一个人将一项研究的详细描述(包括所有数据分析)提交给一个可信的存储库(如[开放科学框架](http://osf.io)或【AsPredicted.org】T4)。通过在分析数据之前详细说明自己的计划,预注册提供了更大的信,即分析不会受到 p-hacking 或其他有问题的研究实践的影响。 获得最大牵引力的一个想法是*预注册*,其中一个人将一项研究的详细描述(包括所有数据分析)提交给一个可信的存储库(如[开放科学框架](http://osf.io)或【AsPredicted.org】T4)。通过在分析数据之前详细说明自己的计划,预注册提供了更大的信,即分析不会受到 p-hacking 或其他有问题的研究实践的影响。
预注册在医学临床试验中的作用是惊人的。2000 年,美国国家心肺血液研究所(NHLBI)开始要求所有的临床试验在 ClinicalTrials.gov 使用该系统进行预注册。这为观察研究预注册的效果提供了一个自然的实验。当卡普兰和欧文( [2015](ch020.xhtml#ref-kapl:irvi:2015) ) 随着时间的推移检查临床试验结果时,他们发现 2000 年后临床试验的阳性结果数量与之前相比大大减少。虽然有许多可能的原因,但似乎有可能在研究注册之前,研究人员能够改变他们的方法或假设,以便找到阳性结果,这在要求注册后变得更加困难。 预注册在医学临床试验中的作用是惊人的。2000 年,美国国家心肺血液研究所(NHLBI)开始要求所有的临床试验在 ClinicalTrials.gov 使用该系统进行预注册。这为观察研究预注册的效果提供了一个自然的实验。当卡普兰和欧文( [2015](ch020.xhtml#ref-kapl:irvi:2015) ) 随着时间的推移检查临床试验结果时,他们发现 2000 年后临床试验的阳性结果数量与之前相比大大减少。虽然有许多可能的原因,但似乎有可能在研究注册之前,研究人员能够改变他们的方法或假设,以便找到阳性结果,这在要求注册后变得更加困难。
...@@ -162,7 +174,7 @@ Bem 在这里建议的被称为 *p-hacking* ,指的是尝试许多不同的分 ...@@ -162,7 +174,7 @@ Bem 在这里建议的被称为 *p-hacking* ,指的是尝试许多不同的分
由 Simmons、Nelson 和 Simonsohn ( [2011](ch020.xhtml#ref-simm:nels:simo:2011) ) 撰写的论文列出了一套使研究更具可重复性的建议实践,所有这些都应该成为研究人员的标准: 由 Simmons、Nelson 和 Simonsohn ( [2011](ch020.xhtml#ref-simm:nels:simo:2011) ) 撰写的论文列出了一套使研究更具可重复性的建议实践,所有这些都应该成为研究人员的标准:
> 作者必须在数据收集开始前决定终止数据收集的规则,并在文章中报告该规则。* The author must collect at least 20 observations per cell, otherwise provide a convincing proof of data collection cost.* The author must list all variables collected in the study. The author must report all the experimental conditions, including the failed operation.* If the observations are deleted, the author must also report the statistical results if they are included.* If the analysis contains covariates, the author must report the statistical results of the analysis without covariates.T13】 > 作者必须在数据收集开始前决定终止数据收集的规则,并在文章中报告该规则。 作者必须为每个单元收集至少 20 个观察值,否则提供所收集数据令人信服的证明。 作者必须列出研究中收集的所有变量。 作者必须报告所有的实验条件,包括失败的操作。如果观察被删除,作者还必须报告统计结果。如果分析包含协变量,作者还必须报告统计结果无协变量分析结果。
...@@ -170,11 +182,11 @@ Bem 在这里建议的被称为 *p-hacking* ,指的是尝试许多不同的分 ...@@ -170,11 +182,11 @@ Bem 在这里建议的被称为 *p-hacking* ,指的是尝试许多不同的分
### 18.5.3 复制 ### 18.5.3 复制
科学的标志之一是*复制*的理念——也就是说,其他研究人员应该能够进行相同的研究并获得相同的结果。不幸的是,正如我们在前面讨论的复制项目的结果中看到的,许多发现是不可复制的。确保一个人的研究的可复制性的最好方法是首先自己复制它;对于一些研究来说,这是不可能的,但只要有可能,就应该确保自己的发现在新的样本中成立。该新样本应该有足够的能量来找到感兴趣的效应大小;在许多情况下,这实际上需要比原来更大的样本。 科学的标志之一是*复制*的理念——也就是说,其他研究人员应该能够进行相同的研究并获得相同的结果。不幸的是,正如我们在前面讨论的复制项目的结果中看到的,许多发现是不可复制的。确保一个人的研究的可复制性的最好方法是首先自己复制它;对于一些研究来说,这是不可能的,但只要有可能,就应该确保自己的研究成果在新的样本中同样成立。该新样本应该有足够的能量来找到感兴趣的效应大小;在许多情况下,这实际上需要比原来更大的样本。
关于复制,记住几件事很重要。首先,复制尝试失败的事实并不一定意味着最初的发现是错误的;请记住,在 80%能量的标准水平下,即使真的有影响,结果仍有五分之一的可能不显著。出于这个原因,在我们决定是否相信之前,我们通常希望看到任何重要发现的多次重复。不幸的是,包括心理学在内的许多领域过去都没有遵循这个建议,导致“教科书”上的发现很可能是错误的。关于 Daryl Bem 对 ESP 的研究,一项涉及 7 项研究的大型复制尝试未能复制他的发现 ( [Galak et al. 2012](ch020.xhtml#ref-gala:lebo:nels:2012) ) 。 关于复制,记住几件事很重要。首先,如果复制失败,并不一定意味着最初的发现是错误的;请记住,在80%能量的标准水平下,即使真的有影响,结果仍有五分之一的可能不显著。出于这个原因,在我们决定是否相信之前,我们通常希望看到任何重要发现的多次重复。不幸的是,包括心理学在内的许多领域过去都没有遵循这个建议,导致“教科书”上的发现很可能是错误的。关于 Daryl Bem 对 ESP 的研究,一项涉及 7 项研究的大型复制尝试未能复制他的发现 ( [Galak et al. 2012](ch020.xhtml#ref-gala:lebo:nels:2012) ) 。
第二,请记住,p 值并没有为我们提供一个发现复制可能性的度量。正如我们之前所讨论的,p 值是在特定的零假设下关于一个人的数据的可能性的陈述;它没有告诉我们任何关于该发现实际上为真的概率(正如我们在贝叶斯分析一章中所学的)。为了知道复制的可能性,我们需要知道发现为真的概率,而我们通常不知道 第二,请记住,p 值并没有为我们提供一个发现复制可能性的度量。正如我们之前所讨论的,p 值是在特定的零假设下关于一个人的数据的可能性的陈述;它没有告诉我们任何关于该发现实际上为真的概率(正如我们在贝叶斯分析一章中所学的)。为了知道复制的可能性,我们需要知道发现为真的概率,而这通常我们无法获知
...@@ -188,7 +200,7 @@ Bem 在这里建议的被称为 *p-hacking* ,指的是尝试许多不同的分 ...@@ -188,7 +200,7 @@ Bem 在这里建议的被称为 *p-hacking* ,指的是尝试许多不同的分
重现分析的能力是我们强烈提倡使用脚本化分析(例如使用 R 的分析)而不是使用“点击式”软件包的一个原因。这也是我们提倡使用自由和开源软件(如 R)而不是商业软件包的原因,商业软件包需要其他人购买软件才能复制任何分析。 重现分析的能力是我们强烈提倡使用脚本化分析(例如使用 R 的分析)而不是使用“点击式”软件包的一个原因。这也是我们提倡使用自由和开源软件(如 R)而不是商业软件包的原因,商业软件包需要其他人购买软件才能复制任何分析。
有许多方法可以共享代码和数据。共享代码的一种常见方式是通过支持软件版本控制的网站,如 T2 Github T3。小型数据集也可以通过这些相同的网站共享;更大的数据集可以通过数据共享门户共享,如[芝诺多](https://zenodo.org/),或通过特定类型数据的专门门户共享(如[神经影像数据的 OpenNeuro](http://openneuro.org) )。 有许多方法可以共享代码和数据。共享代码的一种常见方式是通过支持软件版本控制的网站,如Github。小型数据集也可以通过这些相同的网站共享;更大的数据集可以通过数据共享门户共享,如[芝诺多](https://zenodo.org/),或通过特定类型数据的专门门户共享(如[神经影像数据的 OpenNeuro](http://openneuro.org) )。
...@@ -212,7 +224,7 @@ Bem 在这里建议的被称为 *p-hacking* ,指的是尝试许多不同的分 ...@@ -212,7 +224,7 @@ Bem 在这里建议的被称为 *p-hacking* ,指的是尝试许多不同的分
## 18.9 建议读 ## 18.9 建议读
* 《尸僵:草率的科学如何创造无用的疗法,粉碎希望,浪费数十亿》,作者理查德·哈里斯 * 《尸僵:草率的科学如何创造无用的疗法,粉碎希望,浪费数十亿》,作者理查德·哈里斯
* [提高你的统计推断](https://www.coursera.org/learn/statistical-inferences) -一个关于如何做更好的统计分析的在线课程,包括本章提出的许多观点。 * [提高你的统计推断](https://www.coursera.org/learn/statistical-inferences) -一个关于如何做更好的统计分析的在线课程,包括本章提出的许多观点。
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册