提交 ff6fc601 编写于 作者: W wizardforcel

2022-07-08 12:35:46

上级 ed66fd66
# 零、前言
## 0.1 本书为什么存在?
2018 年,我开始在斯坦福大学教授统计学本科课程(psych 10/stats 60)。我以前从未教过统计学,这是一个振作起来的机会。我对心理学的本科统计教育越来越不满意,我想把一些新的想法和方法带到课堂上。特别是,我希望采用 21 世纪实际统计实践中越来越多使用的方法。正如 Brad Efron 和 Trevor Hastie 在他们的《计算机时代统计推断:算法、证据和数据科学》一书中所阐述的那样,这些方法利用了当今日益增强的计算能力,以远远超出标准方法的方式解决统计问题。E 通常在心理学本科生的统计学课程中教授。
在我教这门课的第一年,我用安迪·菲尔德的令人惊叹的图形小说《统计学的冒险》作为教科书。这本书有许多我真正喜欢的东西——特别是,我喜欢它围绕模型的构建构建构建统计实践的框架,并以足够的谨慎对待无效假设测试(在我看来,尽管没有足够的轻蔑)。不幸的是,我的大多数学生都讨厌这本书,主要是因为它涉及到大量的故事,以获得统计知识。我还发现它是想要的,因为有很多主题(特别是那些来自人工智能领域,被称为机器学习(htg0)的主题),我想包括但没有在他的书中讨论。我最终感觉到学生们最好能得到一本跟我讲课很近的书,所以我开始把我的讲课写进一套计算笔记本,最终成为这本书。这本书的提纲大致遵循菲尔德书的提纲,因为讲课最初大部分是基于这本书的流程,但内容却大不相同(而且也不那么有趣和聪明)。
## 0.2 你不是统计学家-我们为什么要听你的?
我受过心理学家和神经科学家的训练,而不是统计学家。然而,我过去 20 年对脑成像的研究需要使用复杂的统计和计算工具,这需要我自学许多统计学的基本概念。因此,我认为我有一个坚实的感觉,什么样的统计方法是重要的科学战壕。几乎可以肯定的是,这本书中有些东西会让一个真正的统计学家恼火(例如,我确信有些地方我应该在变量上放一个![](img/4fdfcc4c22892cfa15494d9d626fc389.jpg)但没有)。
尽管如此,我欢迎拥有比我更专业的统计知识的读者的意见。
## 0.3 为什么是 R?
在我的课程中,学生学习使用 R 语言实际分析数据。“为什么是 R?”可以解释为“为什么 R 而不是像(在这里插入名称)这样的图形软件包?”毕竟,我班上的大多数学生以前从来没有编程过,所以把他们教给编程将使他们从统计学概念的教学中脱离出来。我的答案是,我认为学习统计工具的最佳方法是直接使用数据,而使用图形包会使人与数据和方法隔离开来,从而阻碍真正的理解。此外,对于我班的许多学生来说,这可能是他们接触编程的唯一课程;鉴于编程在越来越多的学术领域中是必不可少的能力,我认为为这些学生提供基本的编程知识对他们的学习至关重要。未来的成功,并希望能激励他们中的至少一些人学习更多。
这个问题也可以解释为“为什么 R 而不是(在这里插入语言)”。在这个问题上,我更加矛盾,因为我非常不喜欢 R 作为编程语言(我非常喜欢 Python)。那我为什么要用它?这个问题的第一个答案是实际的——几乎所有潜在的助教(大部分是我们系的研究生)都有 R 方面的经验,因为我们的研究生统计课程使用 R。事实上,他们中的大多数人在 R 方面的技能比我强得多!另一方面,他们中相对较少的人拥有 Python 方面的专业知识。因此,如果我想要一支技能熟练的助教队伍,使用 R 是有意义的。
另一个原因是免费的 rstudio 软件使新用户使用 r 相对容易。特别是,我喜欢 Rmarkdown 笔记本功能,它允许将叙述性代码和可执行代码与集成输出混合在一起。它在精神上类似于我们许多人在 Python 编程中使用的 Jupyter 笔记本,但我发现它更容易处理,因为您将其编辑为纯文本文件,而不是通过 HTML 接口。在我的课上,我给学生一个问题集的框架 rmarkdown 文件,他们提交文件并添加解决方案,然后我使用一组自动评分脚本评分。
## 0.4 数据的黄金时代
在这本书中,我尽可能使用真实数据中的例子。这现在很容易,因为我们正在开放数据集中游泳,因为政府、科学家和公司越来越多地免费提供数据。我认为使用真实数据集很重要,因为它让学生准备好使用真实数据而不是玩具数据集,我认为这应该是统计培训的主要目标之一。它还帮助我们认识到(正如我们将在书中的不同点看到的那样),数据并不总是会出现在我们准备分析的地方,而且常常需要 _ 争论 _ 来帮助它们成形。使用真实数据还表明,通常在统计方法中假定的理想化统计分布并不总是适用于真实世界——例如,正如我们将在第[4 章](#summarizing-data)中看到的,一些真实世界数量的分布(如 Facebook 上的朋友数)可能非常长的尾巴可以打破许多标准假设。
## 0.5 开源书籍
这本书是一个活生生的文件,这就是为什么它的来源可以在[https://github.com/poldrack/psych10-book](https://github.com/poldrack/psych10-book)在线获得的原因。如果您在本书中发现任何错误或想提出改进建议,请在 Github 网站上打开一个问题。更好的方法是,提交一个请求,其中包含您建议的更改。
本书根据[Creative Commons 属性非商业 2.0 通用(CC BY-NC 2.0)许可证](https://creativecommons.org/licenses/by-nc/2.0/)获得许可。有关详细信息,请参阅该许可证的条款。
## 0.6 确认
我首先要感谢苏珊·福尔摩斯,她首先激励我考虑写我自己的统计书。露西金提供了整本书的详细评论和编辑,并帮助清理代码,使之与 tidyverse 一致。迈克尔·亨利·泰斯勒对贝叶斯分析一章提供了非常有用的评论。特别感谢 Bookdown 软件包的创建者谢一辉(音译)改进了书籍对 Bookdown 功能的使用(包括用户通过编辑按钮直接生成编辑的功能)。
我还要感谢其他提供了有益的评论和建议的人:阿塔纳西奥斯的原爸爸,韦斯利·坦西,杰克·范·霍恩。
感谢以下 Twitter 用户提供的有用建议:@noriverbend
感谢以下个人/用户名通过 Github 或电子邮件提交编辑或问题:Mehdi Rahim、Shanathanan Modchalingam、Alan He、Wenjin Tao、Martijn Stegeman、Dan Kessler、Philipp Kuhnke、James Kent、Michael Waskom、Alexander Wang、Isis Anderson、Albane Valenzuela、Chuanji Gao、JA 萨里·里科·赫雷拉、巴斯克维奇、嘉明港、卡洛西瓦尔、香港唐、特维尔、埃佩森、布雷特利扎贝特。
\ No newline at end of file
<section id="preface" class="level1 unnumbered">
# 前言
这本书的目标是讲述统计的故事,因为它今天被全世界的研究人员使用。这与大多数统计学入门书籍讲述的故事不同,后者侧重于教授如何使用一套工具来实现非常具体的目标。这本书侧重于理解*统计思维*的基本思想——一种关于我们如何描述世界和使用数据做出决策和预测的系统思维方式,所有这些都是在现实世界中存在的固有不确定性的背景下进行的。它还带来了当前的方法,这些方法只有在过去几十年计算能力惊人增长的情况下才变得可行。在20世纪50年代可能需要几年时间的分析现在可以在标准的笔记本电脑上几秒钟内完成,这种能力释放了使用计算机模拟以新的和强大的方式提出问题的能力。
这本书也是在自2010年以来席卷许多科学领域的再现性危机之后写的。这场危机的一个重要根源在于研究人员使用(和滥用)统计假设检验的方式(正如我在本书最后一章详述的那样),这与统计教育直接相关。因此,这本书的一个目标是强调当前的统计方法可能有问题的方式,并提出替代方案。
<section id="why-does-this-book-exist" class="level2" data-number="0.1">
## 0.1 这本书为什么会存在?
2018年,我开始在斯坦福大学教授本科统计学课程(Psych 10/Stats 60)。我以前从未教过统计学,这是一个改变现状的机会。我对心理学本科统计教育越来越不满意,我想给班级带来一些新的想法和方法。特别是,我想利用在21世纪的实际统计实践中日益广泛使用的方法。正如Brad Efron和Trevor Hastie在他们的书《计算机时代的统计推断:算法、证据和数据科学》中所描述的那样,这些方法利用了当今日益增长的计算能力来解决统计问题,远远超出了通常在心理学学生的本科统计学课程中教授的更标准的方法。
我教这门课的第一年,我使用了安迪·菲尔德令人惊叹的图形小说《统计学的冒险》作为教材。这本书有很多地方是我非常喜欢的——特别是,我喜欢它围绕模型的构建来构建统计实践的方式,并且非常谨慎地对待零假设检验。不幸的是,我的许多学生不喜欢这本书(除了英语专业的学生,他们喜欢这本书!),主要是因为它涉及涉水通过大量的故事,以获得统计知识。我还发现它不够全面,因为有许多主题(特别是那些来自人工智能新兴领域的主题,被称为*机器学习*)我想包括在内,但没有在他的书中讨论。我最终觉得,学生们最好读一本与我的讲座紧密相关的书,所以我开始把我的讲座写在一套计算笔记本上,这些笔记本最终成为了这本书。这本书的大纲大致遵循菲尔德的书,因为讲座最初在很大程度上是基于那本书的流程,但内容是本质上不同的(几乎可以肯定的是,少得多的乐趣和聪明)。我还为我们在斯坦福使用的10周季度系统量身定制了这本书,这比大多数统计教科书建立的16周学期提供的时间更少。
</section>
<section id="the-golden-age-of-data" class="level2" data-number="0.2">
## 0.2 数据的黄金时代
在本书中,我尽可能使用真实数据中的例子。这现在非常容易,因为我们正在开放的数据集中游泳,因为政府、科学家和公司越来越多地免费提供数据。我认为使用真实数据集很重要,因为它让学生准备好使用真实数据而不是玩具数据集,我认为这应该是统计培训的主要目标之一。它还帮助我们认识到(正如我们将在整本书的不同地方看到的),数据并不总是随时可供我们分析,通常需要*争论*来帮助它们成形。使用真实数据还表明,统计方法中经常假设的理想化统计分布在现实世界中并不总是成立的——例如,正如我们将在第 [3](#summarizing-data) 章中看到的,一些现实世界数量的分布(如脸书上的朋友数量)可能有非常长的尾部,可以打破许多标准假设。
我首先道歉,数据集严重以美国为中心。这主要是因为许多演示的最佳数据集是作为R包提供的国家健康和营养检查调查(NHANES)数据集,还因为R包中包含的许多其他复杂数据集(如`fivethirtyeight`包中的数据集)也位于美国。如果你对其他地区的数据集有什么建议,请告诉我!
</section>
<section id="the-importance-of-doing-statistics" class="level2" data-number="0.3">
## 0.3 做统计的重要性
真正学好统计学的唯一方法就是*做*统计。虽然历史上许多统计课程是使用点击式统计软件教授的,但统计教育越来越多地使用开源语言,学生可以用这些语言编写自己的分析。我认为,能够对自己的分析进行编码对于深入理解统计分析是至关重要的,这就是为什么我在斯坦福大学的课程中的学生除了从本书中学到的理论知识之外,还应该学习使用R统计编程语言来分析数据。
这本教科书有两个在线伙伴,可以帮助读者开始学习编程;[一个专注于R编程语言](https://statsthinking21.github.io/statsthinking21-R-site/)[另一个专注于Python语言](https://statsthinking21.github.io/statsthinking21-python/)。两者都是目前正在进行中的工作-请随时贡献!
</section>
<section id="an-open-source-book" class="level2" data-number="0.4">
## 0.4 一本开源的书
这本书旨在成为一份活的文件,这也是为什么它的来源可以在https://github.com/statsthinking21/statsthinking21-core网上找到。如果您发现书中有任何错误,或者想提出如何改进的建议,请在Github网站上发表。更好的是,提交一个包含您建议的更改的拉请求。
这本书是根据[知识共享署名-非商业性2.0通用(CC BY-NC 2.0)许可](https://creativecommons.org/licenses/by-nc/2.0/)授权的。有关详细信息,请参阅该许可的条款。
</section>
<section id="acknowledgements" class="level2" data-number="0.5">
## 0.5 致谢
我首先要感谢苏珊·霍尔曼,是他第一次激励我考虑写一本自己的统计学书籍。Anna Khazenzon提供了早期的评论和灵感。Lucy King对整本书提供了详细的评论和编辑,并帮助清理代码,使其与Tidyverse保持一致。迈克尔·亨利·特斯勒在贝叶斯分析一章中提供了非常有用的评论。还要特别感谢Bookdown软件包的创建者Yihui Xie,他改进了Bookdown功能的使用(包括用户通过编辑按钮直接生成编辑内容的能力)。最后,珍妮特·芒福德为整本书提供了非常有用的建议。
我还要感谢提供了有益的意见和建议的其他人:Athanassios Protopapas,Wesley Tansey,Jack Van Horn,Thor Aspelund。
感谢以下推特用户的有益建议:@enoriverbend
感谢通过Github或电子邮件提供编辑或问题的以下个人:Isis Anderson、Larissa Bersh、Isil Bilgin、Forrest Dollins、Gao、Nate Guimond、Alan He、吴、、Dan Kessler、Philipp Kuhnke、Leila Madeleine、Lee Matos、Ryan McCormick、Jarod Meng、Kirsten Mettler、Shanaathanan Modchalingam、Martijn Stegeman、Mehdi Rahim、Jassary Rico-Herrera、Mingquian Tan、Tao、Laura Tobar、Albane
特别感谢Isil Bilgin帮助修复了其中的许多问题。
</section>
</section>
\ No newline at end of file
<section id="introduction" class="level1" data-number="1">
# 1 简介
"总有一天,统计思维会像读写能力一样成为高效公民的必要条件."赫伯特·乔治·威尔斯
<section id="what-is-statistical-thinking" class="level2" data-number="1.1">
## 1.1 什么是统计思维?
统计思维是一种理解复杂世界的方式,它用相对简单的术语描述复杂的世界,但仍能捕捉到其结构或功能的基本方面,并让我们知道我们对这些知识有多不确定。统计思维的基础主要来自数学和统计学,但也来自计算机科学、心理学和其他研究领域。
我们可以将统计思维与其他不太可能准确描述世界的思维形式区分开来。特别是,人类的直觉经常试图回答我们使用统计思维可以回答的相同问题,但经常得到错误的答案。例如,近年来大多数美国人报告说,他们认为暴力犯罪比前一年更严重。然而,对实际犯罪数据的统计分析表明,事实上自20世纪90年代以来,暴力犯罪已经稳步*下降*。直觉让我们失望,因为我们依赖最佳猜测(心理学家称之为*试探法*),而这往往会出错。例如,人类经常使用*可用性试探法*来判断某个事件(如暴力犯罪)的流行程度——也就是说,我们可以多么容易地想到一个暴力犯罪的例子。由于这个原因,我们对犯罪率上升的判断可能更多地反映了新闻报道的增加,尽管犯罪率实际上是下降了。统计思维为我们提供了更准确地理解世界和克服人类判断偏见的工具
</section>
<section id="dealing-with-statistics-anxiety" class="level2" data-number="1.2">
## 1.2 应对统计焦虑
许多人带着许多恐惧和焦虑来到他们的第一堂统计学课,尤其是当他们听说为了分析数据他们还必须学习编码时。在我的课堂上,我在第一节课之前给学生做了一个调查,以测量他们对统计数据的态度,要求他们按照1(非常不同意)到7(非常同意)的等级对一些陈述进行评级。调查中有一项是“一想到要参加统计学课程,我就紧张”。在最近的一堂课上,几乎三分之二的学生给出了五分或更高的答案,大约四分之一的学生表示他们非常赞同这一说法。所以如果你对开始学习统计学感到紧张,你并不孤单。
焦虑让人感觉不舒服,但心理学告诉我们,这种情绪唤醒实际上可以通过集中我们的注意力,帮助我们在许多任务上做得更好。因此,如果你开始对本书中的内容感到焦虑,提醒自己许多其他读者也有类似的感觉,这种情绪激发实际上可以帮助你更好地学习材料(即使看起来不像!).
</section>
<section id="what-can-statistics-do-for-us" class="level2" data-number="1.3">
## 1.3 统计能为我们做什么?
我们可以利用统计数据做三件主要的事情:
* *描述*:世界是复杂的,我们往往需要用一种我们能理解的简化方式来描述。
* *决策*:我们经常需要根据数据做出决策,通常是在面临不确定性的情况下。
* 预测:我们经常希望根据我们对以前情况的了解来预测新的情况。
让我们来看一个例子,围绕一个我们很多人都感兴趣的问题:我们如何决定吃什么是健康的?有许多不同的指导来源;政府饮食指南,饮食书籍,博客,仅举几例。让我们关注一个具体的问题:我们饮食中的饱和脂肪是一件坏事吗?
我们可以用常识来回答这个问题。如果我们吃脂肪,那么它会直接转化为我们体内的脂肪,对吗?而且我们都看过动脉被脂肪堵塞的照片,所以吃脂肪会堵塞我们的动脉,对吧?
我们回答这个问题的另一种方式是听权威人士的意见。美国美国食品药品监督管理局的膳食指南将“健康的饮食模式限制饱和脂肪”作为其主要建议之一。你可能希望这些指南基于良好的科学,在某些情况下确实如此,但正如尼娜·泰科尔兹在她的书《大惊喜》中概述的那样,这一建议似乎更多地基于营养研究人员的长期教条,而不是实际证据。
最后,我们可以看看实际的科学研究。让我们先来看看一项名为PURE study的大型研究,该研究调查了来自18个不同国家的13.5万多人的饮食和健康结果(包括死亡)。在对这个数据集的分析之一中(发表于2017年*The Lancet*; Dehghan等人( [2017](ch020.xhtml#ref-dehg:ment:zhan:2017) ) ),纯粹的调查者报告了一项分析,分析了在人们被跟踪的时间内,各种类型的宏量营养素(包括饱和脂肪和碳水化合物)的摄入与死亡可能性之间的关系。人们被随访的中位时间为7.4年,这意味着研究中一半的人被随访的时间更短,另一半被随访超过7.4年。图 [1.1](#fig:PureDeathSatFat) 绘制了该研究的一些数据(摘自论文),显示了饱和脂肪和碳水化合物的摄入与任何原因导致的死亡风险之间的关系。
![A plot of data from the PURE study, showing the relationship between death from any cause and the relative intake of saturated fats and carbohydrates.](../media/file0.png)
图1.1:PURE研究的数据图,显示了任何原因导致的死亡与饱和脂肪和碳水化合物的相对摄入量之间的关系。
这个图是基于十个数字。为了获得这些数据,研究人员将135,335名研究参与者(我们称之为“样本”)分成5组(“五分位数”),根据他们对任一种营养物质的摄入量进行排序;第一个五分位数包含摄入量最低的20%的人,第五个五分位数包含摄入量最高的20%的人。然后,研究人员计算了在他们被跟踪期间,每一组中的人死亡的频率。该图通过与最低五分之一人口相比的相对死亡风险来表达这一点:如果该数字大于1,则意味着该群体中的人比最低五分之一人口更有可能死亡,而如果该数字小于1,则意味着该群体中的人更有可能死亡。数据非常清楚:在研究过程中,摄入更多饱和脂肪的人死亡的可能性更小,死亡率最低的是第四个五分之一人口(也就是说,他们摄入的脂肪比最低的60%多,但比最高的20%少)。碳水化合物则相反;一个人吃的碳水化合物越多,在研究过程中死亡的可能性就越大。这个例子展示了我们如何使用统计数据来用一组简单得多的数字描述复杂的数据集;如果我们必须同时查看来自每个研究参与者的数据,我们将会数据超载,并且很难看到当他们被更简单地描述时出现的模式。
[1.1](#fig:PureDeathSatFat) 中的数字似乎表明,死亡随着饱和脂肪的减少而减少,随着碳水化合物的摄入而增加,但我们也知道,数据中存在很大的不确定性;有些人虽然吃了低碳水化合物食物,但还是过早死亡,同样,有些人吃了大量的碳水化合物,却活到了很老。鉴于这种可变性,我们希望*决定*我们在数据中看到的关系是否足够大,如果饮食和长寿之间没有真正的关系,我们不会期望它们随机发生。统计为我们提供了做出这种决定的工具,通常外界的人认为这是统计的主要目的*。但正如我们将在整本书中看到的那样,这种基于模糊证据的黑白决策的需求经常会让研究人员误入歧途。*
基于这些数据,我们还想对未来的结果做出预测。例如,一家人寿保险公司可能希望使用关于特定人的脂肪和碳水化合物摄入量的数据来预测他们可能会活多久。预测的一个重要方面是,它要求我们从已有的数据中归纳出一些其他情况,通常是在未来;如果我们的结论仅限于特定时间研究中的特定人群,那么这项研究就不会很有用。一般来说,研究人员必须假设他们的特定样本代表了更大的*人口*,这要求他们以一种提供人口无偏图像的方式获得样本。例如,如果PURE研究招募了所有来自实践素食主义的宗教派别的参与者,那么我们可能不想将结果推广到遵循不同饮食标准的人。
</section>
<section id="the-big-ideas-of-statistics" class="level2" data-number="1.4">
## 1.4 统计学的大思想
有许多非常基本的观点贯穿了统计思维的几乎所有方面。斯蒂格勒( [2016](19.html#ref-stig) ) 在其杰出的著作《统计智慧的七大支柱》中概述了其中几个,我在这里对其进行了补充。
<section id="learning-from-data" class="level3" data-number="1.4.1">
### 1.4.1 数据学习
一种看待统计的方式是将它视为一套工具,使我们能够从数据中学习。在任何情况下,我们都是从一系列想法或假设开始的。在纯粹的研究中,考虑到关于饱和脂肪的普遍负面教条,研究人员可能已经开始预期吃更多的脂肪会导致更高的死亡率。在本课程的后面,我们将介绍*先验知识*的概念,这意味着反映我们对某一情况的了解。这种先验知识的强度可能不同,通常基于我们的经验量;如果我第一次去一家餐馆,我很可能会对它有多好有一个微弱的预期,但如果我去一家我以前吃过十次的餐馆,我的预期会强烈得多。类似地,如果我在一个餐馆评论网站上看到一家餐馆的平均四星评级仅仅基于三个评论,那么我的期望会比基于300个评论时更弱。
统计学为我们提供了一种方法来描述新数据如何被最好地用来更新我们的信念,这样统计学和心理学之间就有了很深的联系。事实上,许多来自心理学的人类和动物学习理论都与来自新领域*机器学习*的想法密切相关。机器学习是统计学和计算机科学交界处的一个领域,它专注于如何构建可以从经验中学习的计算机算法。虽然统计学和机器学习经常试图解决相同的问题,但这些领域的研究人员经常采取非常不同的方法;著名的统计学家Leo Breiman曾经称他们为“两种文化”,以反映他们的方法是多么的不同 ( [Breiman 2001](19.html#ref-breiman2001) ) 。在本书中,我将尝试将两种文化融合在一起,因为这两种方法都为思考数据提供了有用的工具。
</section>
<section id="aggregation" class="level3" data-number="1.4.2">
### 1.4.2 聚合
另一种思考统计学的方式是“丢弃数据的科学”。在上面纯研究的例子中,我们取了100,000多个数字,浓缩成10个。这种聚合是统计学中最重要的概念之一。当它第一次被提出时,这是革命性的:如果我们抛开每个参与者的所有细节,那么我们怎么能确定我们没有遗漏重要的东西呢?
正如我们将看到的,统计学为我们提供了表征数据集合结构的方法,并提供了解释为什么这种方法通常很有效的理论基础。然而,同样重要的是要记住,聚合可能会走得太远,以后我们会遇到这样的情况,汇总可能会提供非常误导性的数据汇总情况。
</section>
<section id="uncertainty" class="level3" data-number="1.4.3">
### 1.4.3 不确定性
世界是一个不确定的地方。我们现在知道吸烟会导致肺癌,但这种因果关系是概率性的:一名68岁的男子在过去50年里每天抽两包烟,并继续吸烟,他患肺癌的风险为15%(7分之一),远远高于不吸烟者患肺癌的风险。然而,这也意味着将有许多人一生都在吸烟,却从未患过肺癌。统计学为我们提供了描述不确定性的工具,在不确定性下做出决策,并做出我们可以量化其不确定性的预测。
人们经常看到记者写道,科学研究人员已经“证明”了一些假设。但是统计分析永远不能“证明”一个假设,也就是证明它一定是真的(就像逻辑或数学证明那样)。统计数据可以为我们提供证据,但它总是试探性的,并受制于现实世界中始终存在的不确定性。
</section>
<section id="sampling-from-a-population" class="level3" data-number="1.4.4">
### 1.4.4 从人群中取样
聚合的概念意味着我们可以通过压缩数据来获得有用的见解——但是我们需要多少数据呢?*抽样*的想法是,只要这些样本是以正确的方式获得的,我们就可以根据人口中的少量样本来总结整个人口。例如,PURE研究招募了约135,000人的样本,但其目标是提供关于构成这些人样本的数十亿人的见解。正如我们上面已经讨论过的,获取研究样本的方式至关重要,因为它决定了我们能够在多大程度上概括研究结果。关于抽样的另一个基本观点是,虽然样本越大越好(就其准确代表整个人口的能力而言),但随着样本越大,回报也越小。事实上,较大样本的好处减少的速度遵循一个简单的数学规则,随着样本大小的平方根增长,因此为了使我们的估计精度加倍,我们需要将样本大小增加四倍。
</section>
</section>
<section id="causality-and-statistics" class="level2" data-number="1.5">
## 1.5 因果关系和统计
这项纯粹的研究似乎为吃饱和脂肪和长寿之间的积极关系提供了非常有力的证据,但这并没有告诉我们真正想知道的事情:如果我们吃更多的饱和脂肪,会导致我们长寿吗?这是因为我们不知道吃饱和脂肪和长寿之间是否有直接的因果关系。这些数据与这种关系是一致的,但它们同样与导致更高饱和脂肪和更长寿命的一些其他因素一致。例如,人们可能会想象,更富有的人吃更多的饱和脂肪,更富有的人往往更长寿,但他们更长寿不一定是因为脂肪的摄入——相反,这可能是因为更好的医疗保健,心理压力的减轻,更好的食品质量或许多其他因素。纯研究调查人员试图解释这些因素,但我们不能确定他们的努力完全消除了其他变量的影响。其他因素可能解释饱和脂肪摄入和死亡之间的关系,这一事实是为什么统计学导论课经常教授“相关性并不意味着因果关系”的一个例子,尽管著名的数据可视化专家爱德华·塔夫特补充说,“但它肯定是一个提示。”
虽然观察性研究(像纯研究)不能最终证明因果关系,我们通常认为因果关系可以通过实验控制和操纵特定因素的研究来证明。在医学上,这样的研究被称为*随机对照试验* (RCT)。比方说,我们想做一个RCT来检验增加饱和脂肪摄入量是否会延长寿命。为了做到这一点,我们将对一组人进行抽样,然后将他们分配到治疗组(他们将被告知增加饱和脂肪的摄入量)或对照组(他们将被告知保持和以前一样的饮食)。重要的是,我们要随机地将个人分配到这些组中。否则,选择治疗的人可能在某些方面与选择对照组的人不同——例如,他们可能也更有可能从事其他健康的行为。然后我们会跟踪这些参与者一段时间,看看每组中有多少人死亡。因为我们将参与者随机分配到治疗组或对照组,所以我们有理由相信两组之间没有其他差异会*混淆*治疗效果;然而,我们仍然不能确定,因为有时随机分组产生的治疗组与对照组相比*在某些重要方面有所不同。研究人员经常试图使用统计分析来解决这些混杂因素,但从数据中消除混杂因素的影响可能非常困难。*
许多随机对照试验研究了改变饱和脂肪摄入量是否会导致更健康和更长寿的问题。这些试验集中于减少饱和脂肪,因为营养研究人员强烈认为饱和脂肪是致命的;这些研究人员中的大多数可能会争辩说,让人们吃更多的饱和脂肪是不道德的!然而,随机对照试验显示了一个非常一致的模式:总体而言,减少饱和脂肪摄入对死亡率没有明显的影响。
</section>
<section id="learning-objectives" class="level2" data-number="1.6">
## 1.6 学习目标
阅读完本章后,您应该能够:
* 描述统计的中心目标和基本概念
* 描述实验研究和观察研究在因果关系推断方面的区别
* 解释随机化如何提供对因果关系进行推断的能力。
</section>
<section id="suggested-readings" class="level2" data-number="1.7">
## 1.7 建议读数
* 统计智慧的七大支柱
* 《品茶的女士:统计学如何在二十世纪革新科学》,作者大卫·萨尔斯堡
* 查尔斯·惠兰的《赤裸裸的统计:从数据中剥离恐惧》
</section>
</section>
\ No newline at end of file
<section id="working-with-data" class="level1" data-number="2">
# 2 处理数据
<section id="what-are-data" class="level2" data-number="2.1">
## 2.1 什么是数据?
关于数据的第一个要点是,数据*是*——这意味着“数据”这个词是复数(尽管有些人不同意我的观点)。你可能还想知道如何读“数据”——我说“day-tah”,但我知道许多人说“dah-tah”,尽管如此,我还是能和他们保持朋友关系。现在,如果我听到他们说“数据是”,那么这将是一个更大的问题…
<section id="qualitative-data" class="level3" data-number="2.1.1">
### 2.1.1 定性数据
数据由*个变量*组成,其中一个变量反映了一个独特的度量或数量。一些变量是*定性的*,这意味着它们描述的是质量而不是数字量。例如,在我的统计学课程中,我通常会做一个介绍性的调查,既为了获取课堂上使用的数据,也为了更多地了解学生。我问的一个问题是“你最喜欢的食物是什么?”答案是:蓝莓、巧克力、玉米粉蒸肉、意大利面、披萨和芒果。这些数据本质上不是数字;我们可以给每一个分配数字(1 =蓝莓,2 =巧克力,等等),但是我们只是把数字作为标签,而不是真正的数字。这也限制了我们应该如何处理这些数字;例如,计算这些数字的平均值是没有意义的。然而,我们通常会使用数字对定性数据进行编码,以使它们更容易处理,稍后您将会看到这一点。
</section>
<section id="quantitative-data" class="level3" data-number="2.1.2">
### 2.1.2 定量数据
更常见的是,在统计学中,我们将使用*定量*数据,即数字数据。例如,这里的表格 [2.1](#tab:WhyTakingClass) 显示了我在介绍性课程中提出的另一个问题的结果,即“你为什么要上这门课?”
<caption>Table 2.1: Counts of the prevalence of different responses to the question “Why are you taking this class?”</caption> <colgroup><col style="width: 73%"> <col style="width: 26%"></colgroup>
| 你为什么要上这门课? | 学生人数 |
| --- | --- |
| 它满足学位计划的要求 | One hundred and five |
| 它满足了一般教育的广度要求 | Thirty-two |
| 这不是必需的,但我对这个话题感兴趣 | Eleven |
| 其他的 | four |
请注意,学生的答案是定性的,但是我们通过计算每个答案有多少学生给出,生成了定量的总结。
<section id="types-of-numbers" class="level4" data-number="2.1.2.1">
#### 2.1.2.1数字的种类
在统计学中,我们使用几种不同类型的数字。理解这些差异很重要,部分原因是统计分析语言(比如R)经常区分它们。
**二进制数字**。最简单的是二进制数,即0或1。我们会经常用二进制数来表示某事物是真还是假,是存在还是不存在。例如,我可能会问10个人他们是否经历过偏头痛,记录他们的回答是“是”还是“不是”。使用*逻辑*值通常是有用的,它接受`TRUE``FALSE`的值。当我们开始使用像R这样的编程语言来分析我们的数据时,这可能特别有用,因为这些语言已经理解了真和假的概念。事实上,大多数编程语言都同等对待真值和二进制数。数字1等于逻辑值`TRUE`,数字0等于逻辑值`FALSE`
**整数**。整数是没有分数或小数部分的整数。我们在计数时最常遇到整数,但它们也经常出现在心理测量中。例如,在我的介绍性调查中,我提出了一系列关于对统计学的态度的问题(例如“统计学对我来说似乎很神秘。”),学生们用1(“强烈反对”)到7(“强烈同意”)之间的数字来回答。
**实数**。在统计学中,我们最常见的是处理实数,它有一个分数/小数部分。例如,我们可以测量某人的体重,这可以测量到任意精度水平,从千克到微克。
</section>
</section>
</section>
<section id="discrete-versus-continuous-measurements" class="level2" data-number="2.2">
## 2.2 离散与连续测量
*离散*测量是取特定值的有限集合中的一个。这些可以是定性值(例如,不同品种的狗)或数值(例如,一个人在脸书上有多少朋友)。重要的是,在测量之间没有中间地带;说一个人有33.7个朋友没有意义。
*连续*测量是根据实数定义的测量。它可以落在特定值范围内的任何地方,尽管通常我们的测量工具会限制我们测量它的精度;例如,尽管理论上可以更精确地测量重量,但地秤可能会精确到千克。
在统计学课程中,更详细地介绍不同的测量“尺度”是很常见的,这将在本章的附录中更详细地讨论。由此得出的最重要的一点是,某些类型的统计对某些类型的数据没有意义。例如,假设我们要从许多个人那里收集邮政编码数据。这些数字被表示为整数,但它们实际上并不表示一个数值范围;每个邮政编码基本上是不同地区的标签。因此,举例来说,谈论平均邮政编码是没有意义的。
</section>
<section id="what-makes-a-good-measurement" class="level2" data-number="2.3">
## 2.3 什么是好的测量?
在心理学等许多领域,我们测量的东西不是一个物理特征,而是一个不可观测的理论概念,我们通常称之为*结构*。例如,假设我想测试你对上述不同类型的数字之间的区别的理解程度。我可以给你一个突击测验,问你几个关于这些概念的问题,然后数你答对了几个。这个测试可能是也可能不是一个很好的测量你实际知识的方法——例如,如果我以一种混乱的方式写测试或者使用你不理解的语言,那么这个测试可能会暗示你不理解这些概念,而实际上你是理解的。另一方面,如果我给了一个有明显错误答案的选择题,那么即使你实际上并不理解材料,你也可能在测试中表现良好。
通常不可能测量一个结构而没有一定的误差。在上面的例子中,你可能知道答案,但你可能会错意了问题,答错了。在其他情况下,被测量的事物存在固有误差,例如当我们测量一个人在一个简单的反应时间测试中需要多长时间做出反应时,由于许多原因,每次测试都会有所不同。我们通常希望我们的测量误差尽可能低,这可以通过提高测量质量(例如,使用更好的时间来测量反应时间)或通过对大量的个体测量进行平均来实现。
有时有一个标准可以用来测试其他测量,我们可能会称之为“黄金标准”——例如,睡眠的测量可以使用许多不同的设备来完成(如测量床上运动的设备),但它们通常被认为不如多导睡眠图的黄金标准(使用脑电波的测量来量化一个人在每个睡眠阶段花费的时间)。通常情况下,金本位制执行起来更困难或更昂贵,尽管可能会有更大的误差,还是会使用更便宜的方法。
当我们思考什么是好的度量时,我们通常区分好的度量的两个不同方面:它应该是*可靠的*,它应该是*有效的*
<section id="reliability" class="level3" data-number="2.3.1">
### 2.3.1 可靠性
可靠性是指我们测量的一致性。一种常见的可靠性形式,被称为“测试-再测试可靠性”,衡量如果相同的测量被执行两次,测量结果有多一致。例如,我可能今天给你一份关于你对统计的态度的问卷,明天重复这份相同的问卷,并比较两天的答案;我们希望它们彼此非常相似,除非在两个测试之间发生了一些事情,改变了你对统计学的看法(比如阅读这本书!).
另一种评估可靠性的方法是在数据包含主观判断的情况下。例如,假设一名研究人员想要确定一种治疗是否会改变自闭症儿童与其他儿童的互动,这是通过让专家观察儿童并对他们与其他儿童的互动进行评级来衡量的。在这种情况下,我们希望确保答案不依赖于单个评定者,也就是说,我们希望有较高的*评定者间可靠性*。这可以通过让一个以上的评定者进行评定,然后比较他们的评定,以确保他们彼此一致。
如果我们想要将一个测量值与另一个测量值进行比较,可靠性是很重要的,因为两个不同变量之间的关系不会比任何一个变量与其自身之间的关系(即其可靠性)更强。这意味着一个不可靠的度量永远不会与任何其他度量有很强的统计关系。出于这个原因,研究人员在开发一种新的测量方法(比如一项新的调查)时,通常会不遗余力地建立和提高其可靠性。
![A figure demonstrating the distinction between reliability and validity, using shots at a bullseye. Reliability refers to the consistency of location of shots, and validity refers to the accuracy of the shots with respect to the center of the bullseye. ](../media/file1.png)
图2.1:一个展示信度和效度区别的图,使用靶心射击。可靠性指的是射击位置的一致性,而有效性指的是射击相对于靶心中心的准确性。
</section>
<section id="validity" class="level3" data-number="2.3.2">
### 2.3.2 有效期
可靠性很重要,但光靠它是不够的:毕竟,我可以通过使用相同的数字对每个答案重新编码来创建一个完全可靠的人格测试测量,而不管这个人实际上是如何回答的。我们希望我们的度量也是*有效的*——也就是说,我们希望确保我们确实在度量我们认为我们正在度量的结构(图 [2.1](#fig:ReliabilityValidity) )。通常讨论的有效性有许多不同的类型;我们将集中讨论其中的三种。
*票面有效期*。从表面上看,这种测量有意义吗?如果我告诉你,我要通过观察一个人舌头的颜色来测量他的血压,你可能会认为从表面上看这不是一个有效的测量方法。另一方面,使用血压袖带将具有面部有效性。在我们深入更复杂的有效性方面之前,这通常是第一个现实检查。
*结构效度*。该测量是否以适当的方式与其他测量相关联?这往往细分为两个方面。*收敛有效性*意味着测量应该与被认为反映相同结构的其他测量密切相关。比方说,我感兴趣的是用问卷或面试来衡量一个人的外向程度。如果这两种不同的测量方法彼此密切相关,就可以证明收敛的有效性。另一方面,被认为反映不同结构的测量应该是不相关的,被称为*差异效度*。如果我的人格理论说外向性和责任心是两个不同的概念,那么我也应该看到我对外向性的测量与责任心的测量是不相关的。
*预测效度*。如果我们的测量真的有效,那么它们也应该可以预测其他结果。例如,假设我们认为寻求感觉的心理特质(对新体验的渴望)与现实世界中的冒险有关。为了测试感觉寻求测量的预测有效性,我们将测试该测试的分数在多大程度上预测另一项测量现实世界冒险行为的调查的分数。
</section>
</section>
<section id="learning-objectives-1" class="level2" data-number="2.4">
## 2.4 学习目标
阅读完本章后,您应该能够:
* 区分不同类型的变量(定量/定性、二进制/整数/实数、离散/连续),并给出每种变量的例子
* 区分可靠性和有效性的概念,并将每个概念应用于特定的数据集
</section>
<section id="suggested-readings-1" class="level2" data-number="2.5">
## 2.5 建议读数
* 心理测量理论介绍及其在R 中的应用——关于心理测量的免费在线教材
</section>
<section id="appendix" class="level2" data-number="2.6">
## 2.6 附录
<section id="scales-of-measurement" class="level3" data-number="2.6.1">
### 2.6.1 测量尺度
所有变量必须至少有两个不同的可能值(否则它们将是一个*常数*而不是一个变量),但是变量的不同值可以以不同的方式相互关联,我们称之为*度量尺度*。变量的不同值有四种不同的方式。
* *恒等式*:变量的每个值都有唯一的意义。
* *量级*:变量的值反映了不同的量级,并且彼此之间具有有序的关系——也就是说,一些值较大,一些值较小。
* *等间距*:测量刻度上的单位彼此相等。这意味着,例如,1和2之间的差在数量上等于19和20之间的差。
* *绝对零点*:秤有一个真正有意义的零点。例如,对于许多物理量的测量,如身高或体重,这是完全没有被测量的东西。
有四种不同的测量尺度,伴随着变量值的不同方式。
*标称刻度*。名义变量满足恒等式的标准,因此变量的每个值都代表不同的东西,但是数字只是作为上面讨论的定性标签。例如,我们可能会询问人们的政党归属,然后用数字编码:1 =“共和党”,2 =“民主党”,3 =“自由主义者”,等等。然而,不同的数字彼此之间没有任何有序的关系。
*序数刻度*。序数变量满足同一性和大小的标准,因此值可以根据它们的大小排序。例如,我们可能会要求一个患有慢性疼痛的人每天填写一份表格,使用1-7的数字量表评估他们的疼痛程度。请注意,虽然人们在报告6分的一天比报告3分的一天可能感觉到更多的疼痛,但说他们在前一天比后一天疼痛两倍是没有意义的;排序为我们提供了关于相对大小的信息,但是值之间的差异不一定在大小上相等。
*区间刻度*。区间标尺具有顺序标尺的所有特征,但是除此之外,度量标尺上单位之间的区间可以被视为相等。一个标准的例子是用摄氏度或华氏度测量的物理温度;10度和20度之间的物理差异与90度和100度之间的物理差异相同,但是每个标度也可以取负值。
*比例刻度*。比率标度变量具有上述所有四个特征:同一性、量值、等间隔和绝对零度。比率标度变量和间隔标度变量的区别在于比率标度变量有一个真正的零点。比例变量的例子包括身体高度和体重,以及以开尔文测量的温度。
有两个重要的原因使我们必须注意衡量一个变量的尺度。首先,标度决定了我们可以对数据应用什么样的数学运算(见表 [2.2](#tab:MeasurementTypes) )。一个名义变量只能进行相等性比较;也就是说,对那个变量的两次观察有相同的数值吗?对一个名义变量应用其他数学运算是没有意义的,因为它们在名义变量中并不真正起到数字的作用,而是起到标签的作用。对于顺序变量,我们也可以测试一个值是大于还是小于另一个值,但是我们不能做任何算术。区间和比值变量允许我们进行算术运算;对于区间变量,我们只能加或减数值,而对于比值变量,我们还可以乘或除数值。
<caption>Table 2.2: Different scales of measurement admit different types of numeric operations</caption>
| | 相等/不相等 | >/< | +/- | 乘/除 |
| --- | --- | --- | --- | --- |
| 名义上的 | 好 | | | |
| 序数 | 好 | 好 | | |
| 间隔 | 好 | 好 | 好 | |
| 比例 | 好 | 好 | 好 | 好 |
这些限制也意味着我们可以对每种类型的变量计算某些种类的统计数据。简单地涉及不同值的计数的统计(例如最常见的值,称为*模式*),可以在任何变量类型上计算。其他统计基于值的排序或排名(如*中值*,当所有值按大小排序时,它是中间值),这些要求值至少在序数范围内。最后,涉及累加值的统计(如平均值,或*均值*),要求变量至少在一个区间尺度上。话虽如此,我们应该注意到,研究人员计算只有序数的变量的平均值是很常见的(如个性测试的回答),但这有时会有问题。
</section>
</section>
</section>
\ No newline at end of file
此差异已折叠。
<section id="data-visualization" class="level1" data-number="4">
# 4 数据可视化
1986年1月28日,挑战者号航天飞机在起飞后73秒爆炸,机上7名宇航员全部遇难。正如任何此类灾难发生时一样,官方对事故原因进行了调查,发现连接固体火箭助推器两段的O形环泄漏,导致接头失效和大型液体燃料箱爆炸(见图 [4.1](#fig:srbLeak) )。
![An image of the solid rocket booster leaking fuel, seconds before the explosion. The small flame visible on the side of the rocket is the site of the O-ring failure. By NASA (Great Images in NASA Description) [Public domain], via Wikimedia Commons](../media/file9.jpg)
图4.1:爆炸前几秒钟,固体火箭助推器泄漏燃料的图像。火箭侧面可见的小火焰就是O型圈失效的地方。由NASA(NASA描述中的伟大图像)[公共领域],通过维基共享
调查发现,美国宇航局决策过程的许多方面都存在缺陷,并特别关注美国宇航局工作人员与建造固体火箭助推器的承包商Morton Thiokol的工程师之间的会议。这些工程师特别担心,因为预计发射当天早上的温度会非常低,而且他们从以前的发射中获得的数据显示,O形圈的性能在较低的温度下会受到影响。在发射前一天晚上的一次会议上,工程师们向美国国家航空航天局的管理人员展示了他们的数据,但无法说服他们推迟发射。他们的证据是一组手写的幻灯片,显示了过去各次发射的数据。
可视化专家爱德华·塔夫特认为,如果恰当地展示所有数据,工程师们会更有说服力。特别是,他们可以展示类似于图 [4.2](#fig:challengerTemps) 中的图,这突出了两个重要的事实。首先,它表明O形环的损坏程度(由在以前的飞行中从海洋中回收固体火箭助推器后在环外发现的腐蚀和烟灰的数量来定义)与起飞时的温度密切相关。第二,它显示了1月28日早晨的预测温度范围(显示在阴影区域)远远超出了所有先前发射的范围。虽然我们不能确定,但至少看起来这可能更有说服力。
![A replotting of Tufte's damage index data. The line shows the trend in the data, and the shaded patch shows the projected temperatures for the morning of the launch.](../media/file10.png)
图4.2:Tufte损坏指数数据的重新绘制。这条线显示了数据的趋势,阴影部分显示了发射当天早上的预计温度。
<section id="anatomy-of-a-plot" class="level2" data-number="4.1">
## 4.1 剧情剖析
绘制数据的目的是以二维(有时是三维)形式呈现数据集的摘要。我们将尺寸称为*轴*——横轴称为 *X轴*,纵轴称为 *Y轴*。我们可以沿着轴排列数据,突出显示数据值。这些值可以是连续的,也可以是分类的。
有许多不同类型的情节,我们可以使用,它们有不同的优点和缺点。假设我们对NHANES数据集中描述男女身高差异感兴趣。图 [4.3](#fig:plotHeight) 显示了绘制这些数据的四种不同方式。
1. 面板A中的条形图显示了平均值的差异,但没有向我们显示这些平均值周围的数据分布有多大——正如我们稍后将看到的,了解这一点对于确定我们是否认为两组之间的差异足够大而重要是至关重要的。
2. 第二张图显示了所有数据点重叠的条形图——这使得男性和女性的身高分布重叠变得更加清晰,但由于数据点的数量很大,仍然很难看到。
总的来说,我们更喜欢使用一种绘图技术,这种技术可以提供数据点分布的更清晰的视图。
3. 在面板C中,我们看到一个*小提琴图*的例子,它绘制了每种条件下的数据分布(稍微平滑后)。
4. 另一个选项是面板D中显示的*盒图*,它显示了中位数(中心线)、可变性的度量(盒的宽度,基于称为四分位距的度量)和任何异常值(由线末端的点标注)。这些都是显示数据的有效方法,为数据的分布提供了良好的感觉。
![Four different ways of plotting the difference in height between men and women in the NHANES dataset. Panel A plots the means of the two groups, which gives no way to assess the relative overlap of the two distributions. Panel B shows the same bars, but also overlays the data points, jittering them so that we can see their overall distribution. Panel C shows a violin plot, which shows the distribution of the datasets for each group. Panel D shows a box plot, which highlights the spread of the distribution along with any outliers (which are shown as individual points).](../media/file11.png)
图4.3:绘制NHANES数据集中男女身高差异的四种不同方法。图A绘出了两组的平均值,这没有给出评估两个分布的相对重叠的方法。图B显示了相同的条形,但也覆盖了数据点,使它们抖动,以便我们可以看到它们的总体分布。面板C显示了小提琴图,其显示了每个组的数据集的分布。图D显示了一个箱形图,该图突出显示了分布范围以及任何异常值(显示为单个点)。
</section>
<section id="principles-of-good-visualization" class="level2" data-number="4.2">
## 4.2 良好可视化的原则
许多书籍都是关于数据的有效可视化。有一些原则是大多数作者都同意的,而另一些则更有争议。这里我们总结了一些主要原则;如果你想了解更多,那么本章末尾的*建议阅读*部分列出了一些好的资源。
<section id="show-the-data-and-make-them-stand-out" class="level3" data-number="4.2.1">
### 4.2.1 显示数据并使其突出
假设我进行了一项研究,调查了牙齿健康和使用牙线时间之间的关系,我想将我的数据可视化。图 [4.4](#fig:dentalFigs) 显示了这些数据的四种可能呈现方式。
1. 在面板A中,我们实际上没有显示数据,只是用一条线来表示数据之间的关系。这显然不是最优的,因为我们实际上看不到底层数据是什么样的。
面板B-D显示了绘制实际数据的三种可能的结果,其中每个图显示了数据可能出现的不同方式。
2. 如果我们看到面板B中的图,我们可能会怀疑——真实数据很少遵循如此精确的模式。
3. 另一方面,C图中的数据看起来像真实的数据——它们显示了总体趋势,但它们是杂乱的,就像世界上的数据通常是这样。
4. 面板D中的数据向我们展示了这两个变量之间的明显关系完全是由一个个体引起的,我们称这个个体为*异常值*,因为他们远远落在群体中其他人的模式之外。应该清楚的是,我们可能不想从一个数据点驱动的效应中得出太多结论。这个数字强调了为什么*总是*在过于相信任何数据摘要之前查看原始数据是重要的。
![Four different possible presentations of data for the dental health example. Each point in the scatter plot represents one data point in the dataset, and the line in each plot represents the linear trend in the data.](../media/file12.png)
图4.4:牙齿健康示例的四种不同的可能数据表示。散点图中的每个点代表数据集中的一个数据点,每个图中的线条代表数据中的线性趋势。
</section>
<section id="maximize-the-dataink-ratio" class="level3" data-number="4.2.2">
### 4.2.2 最大化数据/油墨比
爱德华·塔夫特提出了一个叫做数据/墨水比率的想法:
<math xmlns:epub="http://www.idpf.org/2007/ops" display="block"><semantics><mrow>T3】dT5】a<mi>t</mi><mi>a</mi><mi>/</mi> <mi>I</mi><mi>n<mi>k</mi><mspace width="0.222em"><mi>r</mi><mi>a</mi><mi>t</mi><mi>I</mi><mi>o</mi><mo>=</mo><mfrac><mrow><mi>a</mi><mi>m</mi><mi>o<mi><mi>n</mi> <mi>o</mi><mi>n</mi><mspace width="0.167em"><mi>d</mi><mi>a</mi><mi>t</mi><mi>a</mi></mspace></mi></mi></mrow><mrow><mi>t</mi><mi>o</mi><mi>t</mi><mi>a</mi><mi>l</mi><mspace width="0.167em"><mi>a</mi> <mi>used\,on\,data}{total\,amount\,of\,ink}</mi></mspace></mrow></mfrac></mspace></mi></mrow></semantics></math> 这样做的目的是尽量减少视觉上的杂乱,让数据透显出来。 例如,以图 [4.5](#fig:dataInkExample) 中牙齿健康数据的两个展示为例。两个面板显示相同的数据,但面板A更容易理解,因为它的数据/油墨比率相对较高。
![An example of the same data plotted with two different data/ink ratios.](../media/file13.png)
图4.5:用两种不同的数据/油墨比例绘制的相同数据的示例。
</section>
<section id="avoid-chartjunk" class="level3" data-number="4.2.3">
### 避免图表垃圾
在流行媒体上看到的数据展示中,有许多与内容主题相关但与实际数据无关的视觉元素,这种情况尤其常见。这就是所谓的 *chartjunk* ,应该不惜一切代价避免。
避免图表垃圾的一个好方法是避免使用流行的电子表格程序来绘制数据。例如,图 [4.6](#fig:chartJunk) (使用Microsoft Excel创建)中的图表绘制了不同宗教在美国的相对受欢迎程度。这个数字至少有三个问题:
* 它有图形覆盖在每个条上,与实际数据无关
* 它有一个令人分心的背景纹理
* 它使用三维条形图,这会扭曲数据
![An example of chart junk.](../media/file14.png)
图4.6:图表垃圾的一个例子。
</section>
<section id="avoid-distorting-the-data" class="level3" data-number="4.2.4">
### 避免扭曲数据
通常可以使用可视化来扭曲数据集的信息。一个非常常见的方法是使用不同的轴缩放来放大或隐藏数据模式。例如,我们想知道美国的暴力犯罪率是否发生了变化。在图 [4.7](#fig:crimePlotAxes) 中,我们可以看到这些数据的绘制方式要么让犯罪率看起来保持不变,要么让犯罪率直线下降。同样的数据,却能说出截然不同的两个故事!
![Crime data from 1990 to 2014 plotted over time. Panels A and B show the same data, but with different ranges of values along the Y axis. Data obtained from https://www.ucrdatatool.gov/Search/Crime/State/RunCrimeStatebyState.cfm](../media/file15.png)
图4.7:1990年至2014年的犯罪数据随时间的变化。图A和B显示了相同的数据,但是沿Y轴的数值范围不同。数据来源于[https://www . ucrdatool . gov/Search/Crime/State/runcrimestatebystate . cfm](https://www.ucrdatatool.gov/Search/Crime/State/RunCrimeStatebyState.cfm)
统计数据可视化中的一个主要争议是如何选择Y轴,特别是它是否应该总是包含零。在他的名著《如何用统计数据撒谎》中,达雷尔·赫夫强烈主张人们应该总是把零点放在Y轴上。另一方面,爱德华·塔夫特对此进行了反驳:
> “一般来说,在时间序列中,使用显示数据的基线,而不是零点;不要以隐藏数据线本身的情况为代价,花费大量空的垂直空间试图向下到达零点。”(来自[https://qz . com/418083/its-ok-not-to-start-your-y-axis-at-zero/](https://qz.com/418083/its-ok-not-to-start-your-y-axis-at-zero/))
肯定有使用零点毫无意义的情况。假设我们对绘制一段时间内个体的体温感兴趣。在图 [4.8](#fig:bodyTempAxis) 中,我们绘制了Y轴上有零或没有零的相同(模拟)数据。显而易见的是,通过将这些数据标绘为Y轴上的零点(图A ),我们在图中浪费了大量的空间,因为一个活人的体温不可能达到零点!通过将零度包括在内,我们也使第21-30天的温度明显上升变得不那么明显。一般来说,我倾向于使用线图和散点图中的所有空间,除非零点真的非常重要。
![Body temperature over time, plotted with or without the zero point in the Y axis.](../media/file16.png)
图4.8:体温随时间的变化,在Y轴上有或没有零点的情况下绘制。
爱德华·塔夫特引入了*寿命因子*的概念来描述可视化中的物理差异对应于数据差异的程度。如果图形的李氏因子接近1,那么它可以恰当地表示数据,而李氏因子远离1则反映了基础数据的失真。
在许多情况下,谎言因素支持应该在条形图中包含零点的论点。在图 [4.9](#fig:barCharLieFactor) 中,我们绘制了Y轴上有无零点的相同数据。在图A中,两个条形之间的面积比例差与数值之间的面积比例差完全相同(即lie因子= 1),而在图B中(其中不包括零),两个条形之间的面积比例差大约是数值比例差的2.8倍,因此在视觉上夸大了差异的大小。
![Two bar charts with associated lie factors.](../media/file17.png)
图4.9:两个带有相关寿命因子的条形图。
</section>
</section>
<section id="accommodating-human-limitations" class="level2" data-number="4.3">
## 4.3 适应人的局限性
人类在感知和认知方面都有局限性,这使得一些可视化变得非常难以理解。在构建可视化时,记住这些总是很重要的。
<section id="perceptual-limitations" class="level3" data-number="4.3.1">
### 4.3.1 感知限制
许多人(包括我自己)都有一个重要的感知限制,那就是色盲。这使得在元素之间只有颜色对比而没有亮度对比的图形(如图 [4.10](#fig:badColors) 中的图形)中很难感知信息。除了颜色之外,使用亮度和/或纹理差异很大的图形元素总是很有帮助的。还有[“色盲友好”调色板](http://www.cookbook-r.com/Graphs/Colors_(ggplot2)/#a-colorblind-friendly-palette)可用于许多可视化工具。
![Example of a bad figure that relies solely on color contrast.](../media/file18.png)
图4.10:仅仅依靠颜色对比的坏图的例子。
即使是色觉完美的人,也有感知上的局限,可以让一些情节失效。这就是为什么统计学家从不使用饼状图的原因之一:人类很难准确感知形状体积的差异。图 [4.11](#fig:pieChart) 中的饼状图(展示了我们上面展示的相同的宗教信仰数据)显示了这有多棘手。
![An example of a pie chart, highlighting the difficulty in apprehending the relative volume of the different pie slices.](../media/file19.png)
图4.11:一个饼图的例子,突出了理解不同饼图切片的相对体积的困难。
这个情节很可怕,有几个原因。首先,它需要从图形底部非常小的斑块中区分大量的颜色。第二,视觉视角扭曲了相对数字,因此天主教的饼图楔形看起来比无的饼图楔形大得多,而事实上无的数字略大(22.8%比20.8%),如图 [4.6](#fig:chartJunk) 所示。第三,通过将图例从图形中分离出来,它要求观察者将信息保存在他们的工作记忆中,以便在图形和图例之间进行映射,并且进行许多“表格查找”,以便持续地将图例标签与可视化相匹配。最后,它使用的文本太小,不放大就无法阅读。
使用更合理的方法绘制数据(图 [4.12](#fig:religionBars) ),我们可以更清楚地看到模式。该图可能看起来不像使用Excel生成的饼图那样华丽,但它是更有效、更准确的数据表示。
![A clearer presentation of the religious affiliation data (obtained from http://www.pewforum.org/religious-landscape-study/).](../media/file20.png)
图4.12:宗教归属数据的更清晰展示(从[http://www.pewforum.org/religious-landscape-study/](http://www.pewforum.org/religious-landscape-study/)获得)。
该图允许观察者基于沿公共刻度(y轴)的条形长度进行比较。当基于这些感知元素解码差异时,人类往往比基于面积或颜色更准确。
</section>
</section>
<section id="correcting-for-other-factors" class="level2" data-number="4.4">
## 4.4 其他因素校正
通常我们感兴趣的是绘制数据,其中感兴趣的变量受我们感兴趣的因素之外的其他因素影响。例如,假设我们想了解汽油价格是如何随着时间的推移而变化的。图 [4.13](#fig:gasPrices) 显示了历史天然气价格数据,绘制时考虑或不考虑通货膨胀调整。虽然未经调整的数据显示了巨大的增长,但调整后的数据显示这主要只是通货膨胀的反映。需要根据其他因素调整数据的其他例子包括人口规模和不同季节收集的数据。
![The price of gasoline in the US from 1930 to 2013 (obtained from http://www.thepeoplehistory.com/70yearsofpricechange.html) with or without correction for inflation (based on Consumer Price Index).](../media/file21.png)
图4.13:1930年至2013年美国汽油价格(从[http://www.thepeoplehistory.com/70yearsofpricechange.html](http://www.thepeoplehistory.com/70yearsofpricechange.html)获得),有无通货膨胀修正(基于消费者价格指数)。
</section>
<section id="learning-objectives-3" class="level2" data-number="4.5">
## 4.5 学习目标
阅读完本章后,您应该能够:
* 描述区分好图和坏图的原则,并用它们来区分好图和坏图。
* 理解为了制作有效的图表而必须适应的人类局限性。
* 承诺永远不创建饼图。*曾经*
</section>
<section id="suggested-readings-and-videos" class="level2" data-number="4.6">
## 4.6 建议阅读和视频
* [](https://serialmentor.com/dataviz/)*数据可视化基础,Claus Wilke*
** 视觉解说,爱德华·塔夫特* *可视化数据*,作者威廉·s·克利夫兰* Stephen M. Kosslyn的《眼睛和心灵的图形设计》* [*人类如何看待数据*](https://www.youtube.com/watch?v=fSgEeI2Xpdc&feature=youtu.be) ,作者约翰·劳瑟*
</section>
</section>
\ No newline at end of file
此差异已折叠。
此差异已折叠。
<section id="sampling" class="level1" data-number="7">
# 7 采样
统计学中的一个基本思想是,我们可以根据总体中相对较小的个体样本,对整个总体做出推断。在这一章中,我们将介绍统计抽样的概念,并讨论它的工作原理。
任何生活在美国的人都会熟悉从政治民意调查中取样的概念,这已经成为我们选举过程的一个核心部分。在某些情况下,这些民意调查在预测选举结果时会非常准确。最著名的例子来自2008年和2012年美国总统选举,当时民调专家内特·西尔弗(Nate Silver)正确预测了2008年49/50个州和2012年全部50个州的选举结果。西尔弗是通过综合21个不同民调的数据得出这一结论的,这些数据在倾向于共和党或民主党的程度上有所不同。每一项民意调查都包括来自大约1000名潜在选民的数据——这意味着Silver能够利用仅来自大约21,000人的数据以及其他知识(如这些州过去的投票情况)几乎完美地预测超过1 . 25亿选民的投票模式。
<section id="how-do-we-sample" class="level2" data-number="7.1">
## 7.1 我们如何采样?
我们抽样的目的是确定感兴趣的整个人口的统计值,只使用人口的一个小子集。我们这样做主要是为了节省时间和精力——当仅仅一个小样本就足以准确估计感兴趣的统计数据时,为什么还要费事去测量群体中的每个个体呢?
在选举示例中,人口是被调查区域中的所有注册选民,样本是由投票组织选择的1000个人的集合。我们选择样本的方式对于确保样本能够代表整个人口是至关重要的,这也是统计抽样的一个主要目标。很容易想象一个不具有代表性的样本;如果民意测验专家只打电话给他们从当地民主党那里得到名字的个人,那么民意测验的结果就不可能代表全体人口。一般来说,我们将代表性投票定义为人口中的每个成员都有平等的机会被选中。当这失败时,我们就不得不担心我们对样本计算的统计数据是否有*偏差*——也就是说,它的值是否系统地不同于总体值(我们称之为*参数*)。请记住,我们通常不知道这个总体参数,因为如果我们知道,那么我们就不需要采样!但是我们会用例子来说明一些关键的观点,在这些例子中我们可以接触到整个人群。
区分两种不同的采样方式也很重要:有替换和没有替换。在使用替换的采样*中,在群体的一个成员被采样后,他们被放回池中,以便他们可能被再次采样。在*无替换抽样*中,成员一旦被抽样,就没有资格再次被抽样。最常见的是使用无替换采样,但是在某些情况下我们会使用有替换采样,比如我们在第 [8](#resampling-and-simulation) 章中讨论一种叫做*引导*的技术。*
</section>
<section id="samplingerror" class="level2" data-number="7.2">
## 7.2 采样误差
不管我们的样本有多有代表性,我们从样本中计算出的统计数据很可能会与总体参数略有不同。我们称之为*采样误差*。如果我们取多个样本,我们的统计估计值也会因样本而异;我们将样本间的统计分布称为*抽样分布*
抽样误差直接关系到我们测量人口的质量。显然,我们希望从样本中获得的估计值尽可能接近总体参数的真实值。然而,即使我们的统计是无偏的(即,我们期望它具有与总体参数相同的值),任何特定估计的值都将不同于总体值,并且当抽样误差较大时,这些差异将会较大。因此,减少采样误差是提高测量质量的重要一步。
我们将使用NHANES数据集作为例子;我们将假设NHANES数据集是感兴趣的整个人群,然后我们将从该人群中抽取随机样本。我们将在下一章详细讲述在计算机中如何产生“随机”样本。
在本例中,我们知道成人人口身高的平均值(168.35)和标准差(10.16),因为我们假设NHANES数据集*是人口的*。表 [7.1](#tab:sampleExample) 显示了从NHANES人群的50个个体的几个样本计算的统计数据。
<caption>Table 7.1: Example means and standard deviations for several samples of Height variable from NHANES.</caption>
| 采样平均 | 样品 |
| --- | --- |
| One hundred and sixty-seven | Nine point one |
| One hundred and seventy-one | Eight point three |
| One hundred and seventy | Ten point six |
| One hundred and sixty-six | Nine point five |
| One hundred and sixty-eight | Nine point five |
样本均值和标准差相似,但不完全等于总体值。现在,让我们从50个个体中抽取大量样本,计算每个样本的平均值,并查看平均值的抽样分布。为了很好地估计抽样分布,我们必须决定取多少样本——在这种情况下,我们将取5000个样本,这样我们对答案非常有信心。请注意,像这样的模拟有时需要几分钟才能运行,可能会让您的计算机气鼓鼓的。图 [7.1](#fig:samplePlot) 中的直方图显示,50个个体的每个样本的估计均值略有不同,但总体而言,它们以总体均值为中心。5000个样本平均值(168.3463)非常接近真实总体平均值(168.3497)。
![The blue histogram shows the sampling distribution of the mean over 5000 random samples from the NHANES dataset. The histogram for the full dataset is shown in gray for reference.](../media/file41.png)
图7.1:蓝色直方图显示了NHANES数据集中超过5000个随机样本的平均抽样分布。完整数据集的直方图以灰色显示,以供参考。
</section>
<section id="standard-error-of-the-mean" class="level2" data-number="7.3">
## 7.3 平均值的标准误差
在本书的后面,为了对样本统计数据进行推断,描述样本的可变性将变得至关重要。对于平均值,我们使用一个称为平均值(SEM)的*标准误差*的量来计算,可以将其视为平均值的采样分布的标准偏差。为了计算样本平均值的标准误差,我们将估计的标准偏差除以样本大小的平方根:
<semantics><mrow><mi>【s】</mi><mi>【e】</mi><mi>【m】</mi><mo>=<mfrac></mfrac></mo></mrow></semantics>
请注意,如果我们的样本很小(小于30),我们必须小心使用估计的标准偏差计算SEM。
因为我们有来自NHANES总体的许多样本,并且我们实际上知道总体SEM(我们通过将总体标准差除以总体大小来计算),所以我们可以确认,使用总体参数(1.44)计算的SEM非常接近我们从NHANES数据集(1.43)获取的样本的均值的观测标准差。
平均值的标准误差公式意味着我们测量的质量涉及两个量:总体可变性和样本大小。因为样本大小是SEM公式中的分母,所以在保持总体可变性不变的情况下,较大的样本大小将产生较小的SEM。我们无法控制人口的可变性,但是我们可以控制样本的大小。因此,如果我们希望改善我们的样本统计(通过减少他们的抽样可变性),那么我们应该使用更大的样本。然而,这个公式也告诉我们一些关于统计抽样的非常基本的东西——也就是说,较大样本的效用随着样本大小的平方根而减少。这意味着加倍样本量将*而不是*加倍统计数据的质量;而是将其提高一个<math display="inline"><semantics><msqrt><mn>2</mn></msqrt><annotation encoding="application/x-tex">\ sqrt { 2 }</annotation></semantics></math>的因子。在第 [10.3](#statistical-power) 节中,我们将讨论统计功效,它与这一概念密切相关。
</section>
<section id="the-central-limit-theorem" class="level2" data-number="7.4">
## 7.4 中心极限定理
中心极限定理告诉我们,随着样本量变大,均值的抽样分布将变成正态分布,*即使每个样本内的数据不是正态分布*
首先,我们来简单介绍一下正态分布。它也被称为*高斯*分布,以卡尔·弗里德里希·高斯的名字命名,这位数学家没有发明它,但在它的发展中发挥了作用。正态分布用两个参数来描述:平均值(可以认为是峰值的位置)和标准差(指定分布的宽度)。分布的钟形形状永远不会改变,只有它的位置和宽度会改变。正如我们已经在第3章中看到的,正态分布在现实世界中收集的数据中是常见的,中心极限定理给了我们一些关于为什么会发生这种情况的见解。
为了查看中心极限定理的作用,让我们使用NHANES数据集中的变量AlcoholYear,它是高度偏斜的,如图 [7.2](#fig:alcDist50) 的左图所示。由于没有更好的词来形容,这种分布是时髦的——而且肯定不是正态分布。现在让我们看看这个变量的均值的抽样分布。图 [7.2](#fig:alcDist50) 显示了该变量的抽样分布,通过从NHANES数据集中重复抽取50个样本并取平均值获得。尽管原始数据显然是非正态的,但抽样分布非常接近正态。
![Left: Distribution of the variable AlcoholYear in the NHANES dataset, which reflects the number of days that the individual drank in a year. Right: The sampling distribution of the mean for AlcoholYear in the NHANES dataset, obtained by drawing repeated samples of size 50, in blue. The normal distribution with the same mean and standard deviation is shown in red.](../media/file42.png)
图7.2:左:NHANES数据集中变量AlcoholYear的分布,它反映了个人一年中饮酒的天数。右图:NHANES数据集中酒精年份平均值的抽样分布,通过绘制50个蓝色重复样本获得。具有相同平均值和标准偏差的正态分布显示为红色。
中心极限定理对统计学很重要,因为它允许我们安全地假设在大多数情况下均值的抽样分布将是正态的。这意味着我们可以利用假设正态分布的统计技术,我们将在下一节中看到。它也很重要,因为它告诉我们为什么正态分布在现实世界中如此普遍;任何时候我们把许多不同的因素结合成一个单一的数字,结果很可能是一个正态分布。例如,任何成年人的身高都取决于他们的基因和经历的复杂混合;即使这些单独的贡献可能不是正态分布的,当我们将它们组合起来时,结果也是正态分布的。
</section>
<section id="learning-objectives-6" class="level2" data-number="7.5">
## 7.5 学习目标
阅读完本章后,您应该能够:
* 区分总体和样本,以及总体参数和样本统计
* 描述抽样误差和抽样分布的概念
* 计算平均值的标准误差
* 描述中心极限定理如何决定均值的抽样分布的性质
</section>
<section id="suggested-readings-4" class="level2" data-number="7.6">
## 7.6 建议读数
* Nate Silver的《信号与噪音:为什么这么多预测失败,但有些却没有》
</section>
</section>
\ No newline at end of file
<section id="resampling-and-simulation" class="level1" data-number="8">
# 8 重采样和模拟
计算机模拟的使用已经成为现代统计学的一个重要方面。例如,在实用计算机科学中最重要的一本书,叫做*数字配方*,这样写道:
> “如果让我们在精通五英尺厚的分析统计学书籍和中等水平的统计蒙特卡罗模拟能力之间做出选择,我们肯定会选择后者。”
在本章中,我们将介绍蒙特卡罗模拟的概念,并讨论如何用它来进行统计分析。
<section id="monte-carlo-simulation" class="level2" data-number="8.1">
## 8.1 蒙特卡洛模拟
蒙特卡洛模拟的概念是由数学家斯坦·乌拉姆和尼古拉斯·大都会提出的,作为曼哈顿计划的一部分,他们正在为美国开发一种原子武器。他们需要计算一个中子在与原子核碰撞之前在物质中传播的平均距离,但是他们不能用标准数学来计算。乌兰意识到这些计算可以用随机数来模拟,就像赌场游戏一样。在诸如轮盘赌之类的娱乐场游戏中,数字是随机产生的;为了估计一个特定结果的概率,一个人可以玩这个游戏几百次。乌兰的叔叔曾在摩纳哥的蒙特卡洛赌场赌博,这显然是这种新技术的名称来源。
执行蒙特卡洛模拟有四个步骤:
1. 定义一个可能值的域
2. 从概率分布生成该域内随机数
3. 使用随机数执行计算
4. 合并多次重复的结果
举个例子,假设我想算出课堂测验的时间。我们将假设我们知道测验完成时间的分布是正态分布,平均值为5分钟,标准差为1分钟。考虑到这一点,我们希望所有学生在99%的时间内完成考试需要多长时间?有两种方法可以解决这个问题。第一种是用一种叫做极值统计学的数学理论来计算答案。然而,这涉及到复杂的数学。或者,我们可以使用蒙特卡罗模拟。为此,我们需要从正态分布中生成随机样本。
</section>
<section id="randomness-in-statistics" class="level2" data-number="8.2">
## 8.2 统计学中的随机性
术语“随机”通常在口语中用来指奇怪或意想不到的事情,但在统计学中,该术语有一个非常具体的含义:如果一个过程不可预测,它就是*随机的*。例如,如果我掷一枚普通硬币10次,一次掷的结果值并不能为我提供任何信息来预测下一次掷的结果。重要的是要注意,某件事不可预测的事实并不一定意味着它不是确定的。例如,当我们抛硬币时,抛硬币的结果是由物理定律决定的;如果我们足够详细地了解所有的条件,我们应该能够预测翻转的结果。然而,许多因素结合在一起,使得掷硬币的结果在实践中不可预测。
心理学家表明,人类实际上有相当糟糕的随机感。首先,我们倾向于看到不存在的模式。在极端情况下,这导致了 *pareidolia* 现象,在这种现象中,人们会在随机模式中感知熟悉的物体(例如将一朵云感知为人脸或在一片烤面包中看到圣母玛利亚)。第二,人类倾向于认为随机过程是自我修正的,这导致我们在一场概率游戏中输掉许多回合后,认为自己“应该赢”,这种现象被称为“赌徒谬误”。
</section>
<section id="generating-random-numbers" class="level2" data-number="8.3">
## 8.3 生成随机数
运行蒙特卡罗模拟需要我们生成随机数。产生真正的随机数(即完全不可预测的数字)只有通过物理过程才有可能,如原子衰变或掷骰子,这些过程很难获得和/或太慢而无法用于计算机模拟(尽管它们可以从 [NIST随机性信标](https://www.nist.gov/programs-projects/nist-randomness-beacon%5D)中获得)。
一般来说,我们使用通过计算机算法产生的*伪随机数*,而不是真正的随机数;从很难预测的意义上来说,这些数字看起来是随机的,但实际上这一系列数字会在某个时候重复出现。例如,r中使用的随机数生成器会在<math display="inline"><semantics><mrow><msup><mn>2</mn><mn>19937</mn></msup><mo>-</mo><mn>1</mn></mrow><annotation encoding="application/x-tex">2^{19937}-1</annotation></semantics></math>数字后重复。这远远超过了宇宙历史中的秒数,我们通常认为这对于统计分析的大多数目的来说是没问题的。
大多数统计软件都包括为每个主要概率分布生成随机数的功能,例如均匀分布(0到1之间的所有值相等)、正态分布和二项式分布(例如掷骰子、掷硬币)。图 [8.1](#fig:rngExamples) 显示了从均匀分布函数和正态分布函数生成的数字示例。
![Examples of random numbers generated from a uniform (left) or normal (right) distribution.](../media/file43.png)
图8.1:从均匀分布(左)或正态分布(右)生成的随机数示例。
也可以使用分布的分位数函数为任何分布生成随机数。这是累积分布函数的倒数;分位数函数不是标识一组值的累积概率,而是标识一组累积概率的值。使用分位数函数,我们可以从均匀分布中生成随机数,然后通过分位数函数将它们映射到感兴趣的分布中。
默认情况下,统计软件中的随机数生成器每次运行时都会生成一组不同的随机数。然而,通过将所谓的*随机种子*设置为特定值,也可以生成完全相同的一组随机数。如果您要查看生成这些图的代码,我们将在本书的许多示例中这样做,以确保这些示例是可重复的。
</section>
<section id="using-monte-carlo-simulation" class="level2" data-number="8.4">
## 8.4 使用蒙特卡罗模拟
让我们回到考试结束时间的例子。假设我管理三次测验,并记录每个学生每次考试的完成时间,这可能看起来像图 [8.2](#fig:finishingTimes) 中呈现的分布。
![Simulated finishing time distributions.](../media/file44.png)
图8.2:模拟的结束时间分布。
要回答我们的问题,我们真正想知道的不是完成时间的分布是什么样的,而是每次测验的最长完成时间的分布是什么样的。为了做到这一点,我们可以模拟一个测验的结束时间,假设结束时间是正态分布的,如上所述;对于每个模拟测验,我们会记录最长的完成时间。我们大量重复这种模拟(5000次应该足够了)并记录完成次数的分布,如图 [8.3](#fig:finishTimeSim) 所示。
![Distribution of maximum finishing times across simulations.](../media/file45.png)
图8.3:模拟中最大完成时间的分布。
这表明完成时间分布的第99个百分位数为8.74,这意味着如果我们给测验那么多时间,那么每个人都应该完成99%的时间。记住我们的假设很重要,这一点很重要——如果假设是错误的,那么模拟的结果就是无用的。在这种情况下,我们假设结束时间分布正态分布,具有特定的平均值和标准偏差;如果这些假设是不正确的(它们几乎肯定是不正确的,因为运行时间很少是正态分布的),那么真实的答案可能会非常不同。
</section>
<section id="using-simulation-for-statistics-the-bootstrap" class="level2" data-number="8.5">
## 8.5 使用模拟进行统计:引导
到目前为止,我们已经使用模拟来演示统计原理,但我们也可以使用模拟来回答真正的统计问题。在这一节中,我们将介绍一个被称为 *bootstrap* 的概念,它让我们可以使用模拟来量化统计估计的不确定性。在本课程的后半部分,我们将会看到其他一些例子,说明如何经常使用模拟来回答统计问题,特别是当理论统计方法不可用或当它们的假设太难满足时。
<section id="computing-the-bootstrap" class="level3" data-number="8.5.1">
### 8.5.1 计算自举
在前一章中,我们使用了均值的抽样分布知识来计算均值的标准误差。但是如果我们不能假设估计值是正态分布的,或者我们不知道它们的分布,那该怎么办呢?bootstrap的想法是使用数据本身来估计答案。这个名字来源于自力更生的想法,表达了我们没有任何外部杠杆来源,所以我们必须依赖数据本身的想法。自举法是由斯坦福大学统计系的布拉德利·埃夫隆提出的,他是世界上最有影响力的统计学家之一。
bootstrap背后的想法是我们从实际的数据集中重复采样;重要的是,我们用替换的对*进行采样,这样同一个数据点通常会在一个样本中出现多次。然后,我们计算每个bootstrap样本的感兴趣的统计量,并使用这些估计值的分布作为我们的采样分布。在某种意义上,我们将特定的样本视为整个总体,然后用替换重复采样,以生成我们的分析样本。这使得我们的特定样本是总体的准确反映的假设,这对于较大的样本可能是合理的,但是当样本较小时可能会失效。*
让我们从使用bootstrap估计NHANES数据集中成人身高平均值的抽样分布开始,这样我们就可以将结果与我们之前讨论的平均值的标准误差(SEM)进行比较。
![An example of bootstrapping to compute the standard error of the mean adult height in the NHANES dataset. The histogram shows the distribution of means across bootstrap samples, while the red line shows the normal distribution based on the sample mean and standard deviation.](../media/file46.png)
图8.4:计算NHANES数据集中成人平均身高标准误差的自举示例。直方图显示了bootstrap样本的均值分布,而红线显示了基于样本均值和标准差的正态分布。
[8.4](#fig:bootstrapSEM) 显示自助样本的均值分布非常接近基于正态假设的理论估计值。我们通常不会使用bootstrap来计算均值的置信区间(因为我们通常可以假设正态分布适用于均值的抽样分布,只要我们的样本足够大),但这个示例显示了该方法如何给出与基于正态分布的标准方法大致相同的结果。在我们知道或怀疑正态分布不合适的情况下,bootstrap通常用于生成其他统计估计的标准误差。此外,在后面的章节中,你将看到我们如何使用bootstrap样本来生成样本统计中不确定性的估计。
</section>
</section>
<section id="learning-objectives-7" class="level2" data-number="8.6">
## 8.6 学习目标
阅读本章后,您应该能够:
* 描述蒙特卡罗模拟的概念。
* 描述统计学中随机性的含义
* 描述伪随机数是如何产生的
* 描述引导数据库的概念
</section>
<section id="suggested-readings-5" class="level2" data-number="8.7">
## 8.7 建议读数
* 计算机时代的统计推断:算法、证据和数据科学
</section>
</section>
\ No newline at end of file
此差异已折叠。
# 一、引言
“有朝一日,统计思维对于有效的公民身份和读写能力同样重要。”—H.G.威尔斯
## 1.1 什么是统计思维?
统计思维是理解一个复杂世界的一种方式,它用相对简单的术语来描述这个世界,尽管如此,它捕捉到了这个世界结构的基本方面,同时也为我们提供了一些关于我们的知识有多不确定的概念。统计思维的基础主要来自数学和统计学,也来自计算机科学、心理学和其他研究领域。
我们可以区分统计思维和其他不太可能准确描述世界的思维方式。特别是,人类的直觉经常试图回答我们可以用统计思维回答的相同问题,但往往得到错误的答案。例如,近年来,大多数美国人报告说,他们认为暴力犯罪比前一年更严重([pew 研究中心](http://www.pewresearch.org/fact-tank/2018/01/30/5-facts-about-crime-in-the-u-s/))。然而,对实际犯罪数据的统计分析表明,事实上,暴力犯罪自 20 世纪 90 年代以来一直在稳步下降(htg2)。直觉让我们失望,因为我们依赖于最好的猜测(心理学家称之为 _ 启发式 _),而这种猜测往往会出错。例如,人类通常使用 _ 可用性启发式 _ 来判断某些事件(如暴力犯罪)的流行率——也就是说,我们如何容易想到暴力犯罪的例子。因此,我们对提高犯罪率的判断可能更能反映新闻报道的增加,尽管犯罪率实际有所下降。统计思维为我们提供了更准确地理解世界和克服人类直觉错误的工具。
## 1.2 统计数据能为我们做什么?
我们可以用统计数据做三件主要的事情:
* _ 描述 _:这个世界是复杂的,我们经常需要用我们能够理解的简单方式来描述它。
* _ 决定 _:我们通常需要根据数据做出决定,通常是在面临不确定性的情况下。
* _ 预测 _:我们经常希望根据我们对以前情况的了解来预测新的情况。
让我们来看一个实际的例子,集中在一个我们很多人都感兴趣的问题上:我们如何决定吃什么是健康的?
有许多不同的指导来源,从政府饮食指南到饮食书籍,再到博客。
让我们专注于一个特定的问题:我们饮食中的饱和脂肪是不是一件坏事?
我们回答这个问题的一种方法是常识。
如果我们吃脂肪,那么它会在我们的身体里直接变成脂肪,对吗?
我们都看过脂肪堵塞动脉的照片,所以吃脂肪会阻塞动脉,对吗?
我们回答这个问题的另一种方法是听取权威人士的意见。美国食品药品监督管理局的饮食指南作为其关键建议之一,“健康的饮食模式限制饱和脂肪的摄入”。你可能希望这些指南是基于良好的科学,在某些情况下是这样的,但正如尼娜·泰克罗兹在她的书中概述的那样。”大脂肪惊喜”(Teicholz,2014 年),这一特别建议似乎更多地基于营养研究人员的教条,而不是实际证据。
最后,我们可以看看实际的科学研究。让我们先看一个名为“纯粹研究”的大型研究,该研究对 18 个不同国家的 135000 多人的饮食和健康结果(包括死亡)进行了调查。在该数据集的一项分析中(发表于 2017 年的《柳叶刀》(The Lancet)(HTG1));Dehghan 等人(2017 年)),纯研究人员报告了一项分析,分析了不同种类的宏量营养素(包括饱和脂肪和碳水化合物)的摄入与跟踪调查期间死亡的可能性之间的关系。对受试者进行了中位数为 7.4 年的跟踪调查,这意味着研究中一半受试者的跟踪调查时间不足,一半受试者的跟踪调查时间超过 7.4 年。图[1.1](#fig:PureDeathSatFat)描绘了研究中的一些数据(摘自论文),显示了饱和脂肪和碳水化合物摄入与任何原因死亡风险之间的关系。
![A plot of data from the PURE study, showing the relationship between death from any cause and the relative intake of saturated fats and carbohydrates.](img/file0.png)
图 1.1 纯研究的数据图,显示了任何原因导致的死亡与饱和脂肪和碳水化合物的相对摄入量之间的关系。
这个图是以十个数字为基础的。为了获得这些数据,研究人员将 135335 名研究参与者(我们称之为“样本”)分成 5 组(“五分位数”),根据他们对任何一种营养素的摄入量对其进行排序;第一个五分位数包含 20%的最低摄入量的人,第五个五分位数包含 20%的最低摄入量的人。五分位数含有最高摄入量的 20%。然后,研究人员计算了在被跟踪期间,每个研究小组中的人死亡的频率。这个数字用死亡的相对风险(与最低五分位数相比)来表示这一点:如果这个数字大于 1,这意味着这个群体中的人比最低五分位数中的人死亡的可能性高 _,而如果这个数字小于 1,这意味着死亡的可能性比最低五分位数中的人高 _。也就是说,小组中的人死亡的可能性要小一些。这个数字非常清楚:在研究过程中,摄入饱和脂肪越多的人死亡的可能性就越小,而且吃得越多,这种影响就越大。碳水化合物的情况正好相反,一个人吃的碳水化合物越多,他们在研究中死亡的可能性就越大。这个例子显示了我们如何使用统计数据来描述复杂的数据集,用一组简单得多的数字来描述;如果我们必须同时查看来自每个研究参与者的数据,我们将被数据超载,很难看到 EME 当它们被更简单地描述时。
[1.1](#fig:PureDeathSatFat)中的数字似乎表明,随着饱和脂肪的摄入,死亡人数减少,而随着碳水化合物的摄入,死亡人数增加,但我们也知道,数据中存在很多不确定性;有些人即使吃低碳水化合物的饮食,也会过早死亡,同样,有些人甚至会因摄入低碳水化合物的食物而死亡。他吃了很多碳水化合物,但活到了成熟的老年。考虑到这种变异性,我们想 _ 决定 _ 我们在数据中看到的关系是否足够大,如果饮食和寿命之间没有真正的关系,我们就不会期望它们随机发生。统计数据为我们提供了做出这些决定的工具,通常外界认为这是统计数据的主要目的。但正如我们将在书中看到的,基于模糊证据的黑白决策的需要常常导致研究人员误入歧途。
基于这些数据,我们还想对未来的结果做出预测。例如,一家人寿保险公司可能想利用某个人摄入脂肪和碳水化合物的数据来预测他们的寿命。预测的一个重要方面是,它要求我们将已有的数据归纳为其他情况,通常是在将来;如果我们的结论仅限于某一特定时间研究中的特定人员,那么该研究就不会非常有用。一般来说,研究人员必须假设他们的特定样本代表了更大的(htg0)群体(htg1),这要求他们以无偏见的方式获采样本。例如,如果纯研究从信奉素食主义的宗教派别中招募了所有参与者,那么我们可能不想将结果推广到遵循不同饮食标准的人身上。
## 1.3 统计学的基本概念
有许多非常基本的思想贯穿了统计思维的几乎所有方面。斯蒂格勒(2016)在他的杰出著作《统计智慧的七大支柱》中概述了其中的几点,我在这里对此进行了补充。
#
## 1.3.1 从数据中学习
统计的一种方法是作为一组工具,使我们能够从数据中学习。在任何情况下,我们都从一组关于可能发生的情况的想法或假设开始。在这项纯粹的研究中,研究人员可能已经开始期望,吃更多的脂肪会导致更高的死亡率,鉴于目前关于饱和脂肪的消极教条。在本课程的后面,我们将介绍 _ 先验知识 _ 的概念,它旨在反映我们所带来的知识。这种先前的知识可能在其强度上有所不同,通常是基于我们的经验;如果我第一次去一家餐馆,我可能对它有多好的期望值很低,但是如果我去一家以前吃过 10 次的餐馆,我的期望值会更高。同样地,如果我在一个餐馆评论网站上看到一家餐馆的平均四星级评价仅仅基于三个评论,那么我的期望就比基于 300 个评论的期望要弱。
统计学为我们提供了一种方法来描述如何最好地利用新的数据来更新我们的信仰,并且统计学和心理学之间有着深刻的联系。事实上,许多心理学中的人和动物学习理论与机器学习(htg0)这一新领域的思想紧密相连。机器学习是统计学和计算机科学的接口领域,主要研究如何建立可以从经验中学习的计算机算法。虽然统计和机器学习经常试图解决相同的问题,但来自这些领域的研究人员往往采取非常不同的方法;著名的统计学家 Leo Breiman 曾将它们称为“两种文化”,以反映它们的方法有多不同(Breiman 2001 年)。在这本书中,我将尝试将这两种文化融合在一起,因为这两种方法都为思考数据提供了有用的工具。
#
## 1.3.2 聚合
另一种统计方法是“丢弃数据的科学”。在上面的纯研究的例子中,我们取了 100000 多个数字并将它们压缩成 10 个。正是这种 _ 聚合 _ 是统计学中最重要的概念之一。当它第一次被推进时,这是革命性的:如果我们把每一个参与者的所有细节都抛开了,那么我们怎么能确定我们没有遗漏重要的东西呢?
正如我们将看到的,统计学为我们提供了描述数据集合结构的方法,并提供了解释为什么这种方法通常工作得很好的理论基础。但是,还必须记住,聚合可能会走得太远,稍后我们将遇到这样的情况:摘要可能会对正在汇总的数据提供误导性的图片。
#
## 1.3.3 不确定性
世界是一个不确定的地方。我们现在知道吸烟会导致肺癌,但这种原因是概率性的:在过去 50 年里,一个 68 岁的男人每天抽两包烟,并且继续吸烟,他患肺癌的风险是 15%(7 分之一),比不吸烟的人患肺癌的风险要高很多。然而,这也意味着会有很多人终生吸烟,永远不会得肺癌。统计学为我们提供了工具来描述不确定性,在不确定性下做出决定,并做出我们可以量化的不确定性预测。
人们经常看到记者写道,科学研究人员已经“证明”了一些假设。但是统计分析永远不能“证明”一个假设,在证明它一定是真的意义上(就像在数学证明中一样)。统计数据可以为我们提供证据,但它总是试探性的,并且受制于现实世界中总是存在的不确定性。
#
## 1.3.4 采样
聚合的概念意味着我们可以通过跨数据折叠来获得有用的洞察力——但是我们需要多少数据呢?(htg0)抽样(htg1)的思想是,只要以正确的方式获得样本,我们就可以根据人口中的少量样本来总结整个人口。例如,这项纯粹的研究招募了大约 13.5 万人的样本,但其目的是提供有关数十亿人的见解,这些人是从这些人中采样的。正如我们前面讨论过的,获得研究样本的方法是至关重要的,因为它决定了我们可以多广泛地概括结果。从有关抽样的统计数据中得出的另一个基本观点是,尽管较大的样本总是更好(就它们准确地代表整个群体的能力而言),但随着样本越来越大,回报会减少。事实上,大样本收益减少的速度遵循一个简单的数学规则,随着样本大小的平方根增长。
## 1.4 因果关系与统计
这项纯粹的研究似乎为摄入饱和脂肪和长寿之间的积极关系提供了有力的证据,但这并不能说明我们真正想知道的是:如果我们摄入更多的饱和脂肪,这会导致我们长寿吗?这是因为我们不知道吃饱和脂肪和长寿之间是否存在直接的因果关系。这些数据与这种关系是一致的,但它们与其他一些导致饱和脂肪含量高和寿命长的因素同样一致。例如,富有的人很可能吃更多饱和脂肪,富有的人往往寿命更长,但他们的长寿并不一定是因为脂肪的摄入——相反,这可能是由于更好的保健、心理压力的降低、更好的食物质量或许多其他因素。纯粹的研究人员试图解释这些因素,但我们不能确定他们的努力完全消除了其他变量的影响。其他因素可以解释饱和脂肪摄入与死亡之间的关系,这一事实就是为什么统计学入门课程经常教导“相关性并不意味着因果关系”,尽管著名的数据可视化专家 Edward Tufte 补充道,“但这确实是一个提示。”
虽然观察性研究(如纯研究)不能决定性地证明因果关系,但我们一般认为因果关系可以通过实验控制和操纵特定因素的研究来证明。在医学上,这种研究被称为 _ 随机对照试验 _(RCT)。假设我们想做一个随机对照试验来检验增加饱和脂肪摄入量是否会延长寿命。为了做到这一点,我们将对一组人进行抽样,然后将他们分配到一个治疗组(会被告知增加饱和脂肪摄入量)或一个对照组(会被告知保持和以前一样的饮食)。我们必须将个体随机分配给这些群体。否则,选择治疗的人可能在某种程度上与选择对照组的人有所不同——例如,他们也可能更倾向于从事其他健康行为。然后我们会随着时间的推移跟踪参与者,看看每组有多少人死亡。因为我们将受试者随机分为治疗组或对照组,我们可以合理地确信,两组之间没有其他会混淆治疗效果的差异;然而,我们仍然不能确定,因为有时随机分组会产生治疗效果。对照组 _ 确实 _ 在某些重要方面有所不同。研究人员经常试图通过统计分析来解决这些混淆问题,但从数据中消除混淆的影响可能非常困难。
许多随机对照试验研究了改变饱和脂肪摄入量是否能改善健康和延长寿命的问题。这些试验集中在减少(htg0)饱和脂肪,因为营养学研究人员认为饱和脂肪是致命的,这是一个强有力的教条;这些研究人员中的大多数可能会争辩说,让人们多吃(htg2)饱和脂肪是不道德的!然而,随机对照试验显示出一个非常一致的模式:总的来说,减少饱和脂肪摄入对死亡率没有明显的影响。
## 1.5 阅读建议
* _ 统计智慧的七大支柱 _,斯蒂芬·斯蒂格勒著
* _ 品尝女士茶:统计学如何在 20 世纪彻底改变科学 _,作者:大卫·萨尔斯堡
* _ 赤裸裸的统计:从数据中剥离恐惧 _,查尔斯·惠兰
\ No newline at end of file
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册