提交 13e968cc 编写于 作者: L liuyixi520

translate 00.md

上级 370e538a
......@@ -2,17 +2,17 @@
# 前言
这本书的目标是讲述统计的故事,因为它今天被全世界的研究人员使用。这与大多数统计学入门书籍讲述的故事不同,后者侧重于教授如何使用一套工具来实现非常具体的目标。这本书侧重于理解*统计思维*的基本思想——一种关于我们如何描述世界和使用数据做出决策和预测的系统思维方式,所有这些都是在现实世界中存在的固有不确定性的背景下进行的。它还带来了当前的方法,这些方法只有在过去几十年计算能力惊人增长的情况下才变得可行。在 20 世纪 50 年代可能需要几年时间的分析现在可以在标准的笔记本电脑上几秒钟内完成,这种能力释放了使用计算机模拟以新的和强大的方式提出问题的能力
这本书的目标是讲述统计学的故事,因为它今天被全世界的相关研究人员所使用。这本书与大多数统计学入门书籍所讲述的故事不同,后者侧重于教授如何使用一套工具来实现非常具体的目标。这本书侧重于理解*统计思维*的基本思想——一种关于我们如何使用统计思想描述这个世界,以及使用数据做出决策和预测的系统性的统计思维方式,所有这些都是在现实世界中存在的固有不确定性的背景下进行的。这本书同时还介绍了目前最前沿的相关方法,这些方法只有在过去几十年计算能力惊人增长的情况下才变得可行。在 20 世纪50年代可能需要几年时间的才能完成的数据分析工作,现在可以在普通的笔记本电脑上几秒钟内完成,算力的增强使得计算机能够用更加新颖和强大的方式去模拟提出问题
这本书也是在自 2010 年以来席卷许多科学领域的再现性危机之后写的。这场危机的一个重要根源在于研究人员使用(和滥用)统计假设检验的方式(正如我在本书最后一章详述的那样),这与统计教育直接相关。因此,这本书的一个目标是强调当前的统计方法可能有问题的方式,并提出替代方案。
这本书也是在自2010年以来席卷许多科学领域的再现性危机之后写的。这场危机的一个重要根源在于研究人员使用(和滥用)统计假设检验的方式(正如我在本书最后一章详述的那样),这与统计教育直接相关。因此,这本书的一个目标是强调当前的统计方法可能有问题的方式,并提出替代方案。
## 0.1 这本书为什么会存在?
2018 年,我开始在斯坦福大学教授本科统计学课程(Psych 10/Stats 60)。我以前从未教过统计学,这是一个改变现状的机会。我对心理学本科统计教育越来越不满意,我想给班级带来一些新的想法和方法。特别是,我想利用在 21 世纪的实际统计实践中日益广泛使用的方法。正如 Brad Efron 和 Trevor Hastie 在他们的书《计算机时代的统计推断:算法、证据和数据科学》中所描述的那样,这些方法利用了当今日益增长的计算能力来解决统计问题,远远超出了通常在心理学学生的本科统计学课程中教授的更标准的方法
2018 年,我开始在斯坦福大学教授本科统计学课程(Psych 10/Stats 60)。我以前从未教过统计学,对我来说这是一次很好的机会。我个人对本科阶段的统计教育理念越来越不满意,我打算用一些新的想法和方法教授统计学。特别是,在授课的过程中想穿插一些在21世纪的实际统计实践中的方法。正如 Brad Efron 和 Trevor Hastie 在他们的书《计算机时代的统计推断:算法、证据和数据科学》中所描述的那样,这些方法利用了当前益增长的计算能力来解决统计问题,以远远超出本科阶段所教授的标准的方式来解决统计问题
我教这门课的第一年,我使用了安迪·菲尔德令人惊叹的图形小说《统计学的冒险》作为教材。这本书有很多地方是我非常喜欢的——特别是,我喜欢它围绕模型的构建来构建统计实践的方式,并且非常谨慎地对待零假设检验。不幸的是,我的许多学生不喜欢这本书(除了英语专业的学生,他们喜欢这本书!),主要是因为它涉及涉水通过大量的故事,以获得统计知识。我还发现它不够全面,因为有许多主题(特别是那些来自人工智能新兴领域的主题,被称为*机器学习*)我想包括在内,但没有在他的书中讨论。我最终觉得,学生们最好读一本与我的讲座紧密相关的书,所以我开始把我的讲座写在一套计算笔记本上,这些笔记本最终成为了这本书。这本书的大纲大致遵循菲尔德的书,因为讲座最初在很大程度上是基于那本书的流程,但内容是本质上不同的(几乎可以肯定的是,少得多的乐趣和聪明)。我还为我们在斯坦福使用的 10 周季度系统量身定制了这本书,这比大多数统计教科书建立的 16 周学期提供的时间更少。
我教这门课的第一年,我使用了安迪·菲尔德的图形小说《统计学的冒险》作为教材,这本书真的很棒。这本书有很多地方是我非常喜欢的——特别是,我喜欢它围绕模型的来构建统计实践的方式,并且非常谨慎地对待零假设检验。不幸的是,我的许多学生不喜欢这本书(除了英语专业的学生,他们喜欢这本书!),主要是因为它通过大量讲故事的方式来传授统计学的知识。我还发现它不够全面,因为有许多主题(特别是那些来自人工智能新兴领域的主题,即*机器学习*)我也想教授这些东西,但遗憾的是这些知识点这本书中并没有涉猎。我最终觉得,学生们最好读一本与我的讲座紧密相关的书,所以我开始把我的讲座写在笔记本上,这些笔记本最终成为了这本书。这本书的大纲大致遵循菲尔德的书,因为讲座最初在很大程度上是基于那本书的流程,但内容是本质上不同的(几乎可以肯定的是,少了很多乐趣和智慧)。我还为我们在斯坦福使用的 10 周季度系统量身定制了这本书,这比大多数统计教科书建立的 16 周学期提供的时间更少。
......@@ -20,9 +20,9 @@
## 0.2 数据的黄金时代
在本书中,我尽可能使用真实数据中的例子。这现在非常容易,因为我们正在开放的数据集中游泳,因为政府、科学家和公司越来越多地免费提供数据。我认为使用真实数据集很重要,因为它让学生准备好使用真实数据而不是玩具数据集,我认为这应该是统计培训的主要目标之一。它还帮助我们认识到(正如我们将在整本书的不同地方看到的),数据并不总是随时可供我们分析,通常需要*争论*来帮助它们成形。使用真实数据还表明,统计方法中经常假设的理想化统计分布在现实世界中并不总是成立的——例如,正如我们将在第 [3](#summarizing-data) 章中看到的,一些现实世界数量的分布(如脸书上的朋友数量)可能有非常长的尾部,可以打破许多标准假设。
在本书中,我尽可能使用真实数据中的例子。这在当下这非常容易做到,因为我们可以在开放的数据集中自由的畅游,因为政府、科学家和公司越来越多地免费提供数据。我认为使用真实数据集很重要,因为它让学生使用真实数据,而不是玩具数据集,我认为这应该是统计培训的主要目标之一。它还帮助我们认识到(正如我们将在整本书的不同地方看到的),数据并不总是随时可供我们分析,通常需要先做*数据对齐*来帮助数据成形。使用真实数据还表明,统计方法中经常假设的理想化统计分布在现实世界中并不总是成立的——例如,正如我们将在第 [3](#summarizing-data) 章中看到的,一些现实世界数量的分布(如脸书上的朋友数量)可能有非常长的尾部,可以打破许多标准假设。
我首先道歉,数据集严重以美国为中心。这主要是因为许多演示的最佳数据集是作为 R 包提供的国家健康和营养检查调查(NHANES)数据集,还因为 R 包中包含的许多其他复杂数据集(如`fivethirtyeight`包中的数据集)也位于美国。如果你对其他地区的数据集有什么建议,请告诉我!
首先我很抱歉,书中的数据集以美国为中心。这主要是因为许多演示的最佳数据集是作为 R 包提供的国家健康和营养检查调查(NHANES)数据集,还因为 R 包中包含的许多其他复杂数据集(如`fivethirtyeight`包中的数据集)也位于美国。如果你对其他地区的数据集有什么建议,请告诉我!
......@@ -30,9 +30,9 @@
## 0.3 做统计的重要性
真正学好统计学的唯一方法就是*做*统计。虽然历史上许多统计课程是使用点击式统计软件教授的,但统计教育越来越多地使用开源语言,学生可以用这些语言编写自己的分析。我认为,能够对自己的分析进行编码对于深入理解统计分析是至关重要的,这就是为什么我在斯坦福大学的课程中的学生除了从本书中学到的理论知识之外,还应该学习使用 R 统计编程语言来分析数据。
真正学好统计学的唯一方法就是*做*统计。虽然以往许多统计课程是通过点击式统计软件教授的,但统计教育越来越多地使用开源语言,学生可以用这些语言编写自己的分析。我认为,能够对自己的分析进行编码对于深入理解统计分析是至关重要的,这就是为什么我在斯坦福大学的课程中的学生除了从本书中学到的理论知识之外,还应该学习使用 R 统计编程语言来分析数据。
这本教科书有两个在线伙伴,可以帮助读者开始学习编程;[一个专注于 R 编程语言](https://statsthinking21.github.io/statsthinking21-R-site/)[另一个专注于 Python 语言](https://statsthinking21.github.io/statsthinking21-python/)。两者都是目前正在进行中的工作-请随时贡献
这本教科书有两个在线资源,可以帮助读者开始学习编程;[一个专注于 R 编程语言](https://statsthinking21.github.io/statsthinking21-R-site/)[另一个专注于 Python 语言](https://statsthinking21.github.io/statsthinking21-python/)。两者都是目前正在进行中的项目-我们欢迎您也参与进来
......@@ -40,9 +40,9 @@
## 0.4 一本开源的书
这本书旨在成为一份活的文件,这也是为什么它的来源可以在 https://github.com/statsthinking21/statsthinking21-core 网上找到。如果您发现书中有任何错误,或者想提出如何改进的建议,请在 Github 网站上发表。更好的是,提交一个包含您建议的更改的拉请求
这本书旨在成为一份在线的文件,这也是为什么它的来源可以在 https://github.com/statsthinking21/statsthinking21-core 网上找到。如果您发现书中有任何错误,或者想提出如何改进的建议,请在 Github 上提一个issue。最好,您可以直接通过pull-request的方式提交您的建议
这本书是根据[知识共享署名-非商业性 2.0 通用(CC BY-NC 2.0)许可](https://creativecommons.org/licenses/by-nc/2.0/)授权的。有关详细信息,请参阅该许可的条款。
这本书是的licenses是[Commons Attribution-NonCommercial 2.0 Generic (CC BY-NC 2.0) License](https://creativecommons.org/licenses/by-nc/2.0/)授权的。有关详细信息,请参阅该许可的条款。
......@@ -50,13 +50,14 @@
## 0.5 致谢
我首先要感谢苏珊·霍尔曼,是他第一次激励我考虑写一本自己的统计学书籍。Anna Khazenzon 提供了早期的评论和灵感。Lucy King 对整本书提供了详细的评论和编辑,并帮助清理代码,使其与 Tidyverse 保持一致。迈克尔·亨利·特斯勒在贝叶斯分析一章中提供了非常有用的评论。还要特别感谢 Bookdown 软件包的创建者 Yihui Xie,他改进了 Bookdown 功能的使用(包括用户通过编辑按钮直接生成编辑内容的能力)。最后,珍妮特·芒福德为整本书提供了非常有用的建议。
我首先要感谢苏珊·霍尔曼,最初是她鼓励我考虑写一本统计学书籍。感谢安娜·可汗提供了最初的评论和灵感。感谢露西·金对整本书提供了详细的评论和编辑,并帮助清理代码,使其与 Tidyverse 保持一致。感谢迈克尔·亨利·特斯勒在贝叶斯分析一章中提供了非常有用的评论。还要特别感谢 Bookdown 软件包的创建者毅辉·谢,他改进了 Bookdown 功能的使用(包括用户通过编辑按钮直接生成编辑内容的能力)。最后,感谢珍妮特·芒福德为整本书提供了非常有用的建议。
我还要感谢提供了有益的意见和建议的其他人:Athanassios Protopapas,Wesley Tansey,Jack Van Horn,Thor Aspelund。
感谢以下推特用户的有益建议:@enoriverbend
感谢通过 Github 或电子邮件提供编辑或问题的以下个人:Isis Anderson、Larissa Bersh、Isil Bilgin、Forrest Dollins、Gao、Nate Guimond、Alan He、吴、、Dan Kessler、Philipp Kuhnke、Leila Madeleine、Lee Matos、Ryan McCormick、Jarod Meng、Kirsten Mettler、Shanaathanan Modchalingam、Martijn Stegeman、Mehdi Rahim、Jassary Rico-Herrera、Mingquian Tan、Tao、Laura Tobar、Albane
感谢通过 Github 或电子邮件提供帮助的以下个人:Isis Anderson、Larissa Bersh、Isil Bilgin、Forrest Dollins、Gao、Nate Guimond、Alan He、吴、、Dan Kessler、Philipp Kuhnke、Leila Madeleine、Lee Matos、Ryan McCormick、Jarod Meng、Kirsten Mettler、Shanaathanan Modchalingam、Martijn Stegeman、Mehdi Rahim、Jassary Rico-Herrera、Mingquian Tan、Tao、Laura Tobar、Albane
特别感谢 Isil Bilgin 帮助修复了其中的许多问题。
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册