提交 d308453c 编写于 作者: L liuyixi520

update 07.md-09.md

上级 3e228f53
......@@ -2,19 +2,19 @@
# 7 采样
统计学中的一个基本思想是,我们可以根据总体中相对较小的个体样本,对整个总体做出推断。在这一章中,我们将介绍统计抽样的概念,并讨论它的工作原理。
统计学中的一个基本思想是,我们可以根据部分来推断出整体。在这一章中,我们将介绍统计学中抽样的概念,并讨论它的工作原理。
任何生活在美国的人都会熟悉从政治民意调查中取样的概念,这已经成为我们选举过程的一个核心部分。在某些情况下,这些民意调查在预测选举结果时会非常准确。最著名的例子来自 2008 年和 2012 年美国总统选举,当时民调专家内特·西尔弗(Nate Silver)正确预测了 2008 年 49/50 个州和 2012 年全部 50 个州的选举结果。西尔弗是通过综合 21 个不同民调的数据得出这一结论的,这些数据在倾向于共和党或民主党的程度上有所不同。每一项民意调查都包括来自大约 1000 名潜在选民的数据——这意味着 Silver 能够利用仅来自大约 21,000 人的数据以及其他知识(如这些州过去的投票情况)几乎完美地预测超过 1 . 25 亿选民的投票模式
任何生活在美国的人都会熟悉从政治民意调查中取样的概念,这已经成为我们选举过程的一个核心部分。在某些情况下,这些民意调查在预测选举结果时会非常准确。最著名的例子来自 2008 年和 2012 年美国总统选举,当时民调专家内特·西尔弗(Nate Silver)正确预测了 2008 年 49/50 个州和 2012 年全部 50 个州的选举结果。西尔弗是通过综合了21个不同民调的数据得出这一结论的,这些民调结果在对共和党或民主党的倾向性上有所不同。每一项民意调查都包括来自大约1000名潜在选民的数据——这意味着Silver能够利用仅来自大约21,000人的数据以及其他知识(如这些州过去的投票情况)几乎完美地预测超过1.25亿选民的投票结果
## 7.1 我们如何采样?
我们抽样的目的是确定感兴趣的整个人口的统计值,只使用人口的一个小子集。我们这样做主要是为了节省时间和精力——当仅仅一个小样本就足以准确估计感兴趣的统计数据时,为什么还要费事去测量群体中的每个个体呢?
我们抽样的目的是确定感兴趣的总体的统计结果,只使用一个子集。我们这样做主要是为了节省时间和精力——当仅仅一个子集就足以准确估计感兴趣的统计数据时,为什么还要费事去观测整体中的每个样本呢?
在选举示例中,人口是被调查区域中的所有注册选民,样本是由投票组织选择的 1000 个人的集合。我们选择样本的方式对于确保样本能够代表整个人口是至关重要的,这也是统计抽样的一个主要目标。很容易想象一个不具有代表性的样本;如果民意测验专家只打电话给他们从当地民主党那里得到名字的个人,那么民意测验的结果就不可能代表全体人口。一般来说,我们将代表性投票定义为人口中的每个成员都有平等的机会被选中。当这失败时,我们就不得不担心我们对样本计算的统计数据是否有*偏差*——也就是说,它的值是否系统地不同于总体值(我们称之为*参数*)。请记住,我们通常不知道这个总体参数,因为如果我们知道,那么我们就不需要采样!但是我们会用例子来说明一些关键的观点,在这些例子中我们可以接触到整个人群
在选举示例中,总体是被调查区域中的所有注册选民,样本是由投票组织选择的1000个人的集合。我们选择样本的原则要确保部分能够代表整体,这一点是至关重要的,这也是统计抽样的一个主要目标。很容易想象一个不具有代表性的部分样本;如果民意测验专家只打电话给他们从当地民主党那里得到名字的个人,那么民意测验的结果就不可能代表整体。一般来说,我们抽样时要确保每个成员都有平等的机会被选中。当这一点无法保证时,我们就不得不担心我们所抽样出来的样本带有*偏见*——也就是说,抽样结果无法代表整体(我们称之为*参数*)。请记住,我们通常不知道这个总体参数,因为如果我们知道,那么我们就不需要采样!但是我们会用例子来说明一些关键的观点,在这些例子中我们可以接触到整体
区分两种不同的采样方式也很重要:有替换和没有替换。在使用替换的采样*中,在群体的一个成员被采样后,他们被放回池中,以便他们可能被再次采样。在*无替换抽样*中,成员一旦被抽样,就没有资格再次被抽样。最常见的是使用无替换采样,但是在某些情况下我们会使用有替换采样,比如我们在第 [8](#resampling-and-simulation) 章中讨论一种叫做*引导*的技术。*
区分两种不同的采样方式也很重要:有替换和没有替换。在使用**有替换的采样**中,在群体的一个样本被采样后,他们被放回池中,以便他们可能被再次采样。在**无替换的抽样**中,样本一旦被抽样,就没有资格再次被抽样。最常见的是使用无替换采样,但是在某些情况下我们会使用有替换采样,比如我们在第 [8](#resampling-and-simulation) 章中讨论一种叫做*引导*的技术。
......@@ -22,16 +22,17 @@
## 7.2 采样误差
不管我们的样本有多有代表性,我们从样本中计算出的统计数据很可能会与总体参数略有不同。我们称之为*采样误差*。如果我们取多个样本,我们的统计估计值也会因样本而异;我们将样本间的统计分布称为*抽样分布*
不管我们的抽样出来的样本有多有代表性,我们从样本中计算出的统计数据很可能会与总体参数略有不同。我们称之为*采样误差*。如果我们取多个样本,我们的统计估计值也会因样本而异;我们将样本间的统计分布称为*抽样分布*
抽样误差直接关系到我们测量人口的质量。显然,我们希望从样本中获得的估计值尽可能接近总体参数的真实值。然而,即使我们的统计是无偏的(即,我们期望它具有与总体参数相同的值),任何特定估计的值都将不同于总体值,并且当抽样误差较大时,这些差异将会较大。因此,减少采样误差是提高测量质量的重要一步。
抽样误差直接关系到我们预测整体统计结果的质量。显然,我们希望从样本中获得的估计值尽可能接近总体统计结果的真实值。然而,即使我们的统计是无偏见的(即,我们期望它具有与总体参数相同的值),任何特定估计的值都将不同于总体值,并且当抽样误差较大时,这些差异将会较大。因此,减少采样误差是提高测量质量的重要一步。
我们将使用 NHANES 数据集作为例子;我们将假设 NHANES 数据集是感兴趣的整个人群,然后我们将从该人群中抽取随机样本。我们将在下一章详细讲述在计算机中如何产生“随机”样本。
我们将使用 NHANES 数据集作为例子;我们将假设NHANES数据集的整体是现在我们需要统计的,然后我们将从该整体中随机抽取样本。我们将在下一章详细讲述在计算机中如何产生“随机”样本。
在本例中,我们知道成人人口身高的平均值(168.35)和标准差(10.16),因为我们假设 NHANES 数据集*是人口的*。表 [7.1](#tab:sampleExample) 显示了从 NHANES 人群的 50 个个体的几个样本计算的统计数据。
在本例中,我们知道成人身高的平均值(168.35)和标准差(10.16),因为我们假设NHANES数据集代表了全体。表 [7.1](#tab:sampleExample) 显示了从NHANES数据集中抽取50个样本的统计数据。
<caption>Table 7.1: Example means and standard deviations for several samples of Height variable from NHANES.</caption>
| 采样平均 | 样品 |
| 身高均值 | 采样数量 |
| --- | --- |
| One hundred and sixty-seven | Nine point one |
| One hundred and seventy-one | Eight point three |
......@@ -39,7 +40,7 @@
| One hundred and sixty-six | Nine point five |
| One hundred and sixty-eight | Nine point five |
样本均值和标准差相似,但不完全等于总体值。现在,让我们从 50 个个体中抽取大量样本,计算每个样本的平均值,并查看平均值的抽样分布。为了很好地估计抽样分布,我们必须决定取多少样本——在这种情况下,我们将取 5000 个样本,这样我们对答案非常有信心。请注意,像这样的模拟有时需要几分钟才能运行,可能会让您的计算机气鼓鼓的。图 [7.1](#fig:samplePlot) 中的直方图显示,50 个个体的每个样本的估计均值略有不同,但总体而言,它们以总体均值为中心。5000 个样本平均值(168.3463)非常接近真实总体平均值(168.3497)。
样本均值和标准差相似,但不绝对等于总体值。现在,让我们抽取比50样本更多的样本,来计算样本的平均值,并查看平均值的抽样分布。为了很好地估计抽样分布,我们必须决定取多少样本——在这种情况下,我们将取 5000 个样本,这样统计结果更加贴近与真实情况。请注意,像这样的模拟有时需要几分钟才能运行,可能会让您的计算机超负荷运作。图 [7.1](#fig:samplePlot) 中的直方图显示,50 个个体的每个样本的估计均值略有不同,但总体而言,它们以总体均值为中心。5000 个样本平均值(168.3463)非常接近真实总体平均值(168.3497)。
![The blue histogram shows the sampling distribution of the mean over 5000 random samples from the NHANES dataset. The histogram for the full dataset is shown in gray for reference.](img/file41.png)
......@@ -53,13 +54,13 @@
在本书的后面,为了对样本统计数据进行推断,描述样本的可变性将变得至关重要。对于平均值,我们使用一个称为平均值(SEM)的*标准误差*的量来计算,可以将其视为平均值的采样分布的标准偏差。为了计算样本平均值的标准误差,我们将估计的标准偏差除以样本大小的平方根:
<semantics><mrow><mi>【s】</mi><mi>【e】</mi><mi>【m】</mi><mo>=<mfrac></mfrac></mo></mrow></semantics>
![seg](img/seg.png)
请注意,如果我们的样本很小(小于 30),我们必须小心使用估计的标准偏差计算 SEM。
因为我们有来自 NHANES 总体的许多样本,并且我们实际上知道总体 SEM(我们通过将总体标准差除以总体大小来计算),所以我们可以确认,使用总体参数(1.44)计算的 SEM 非常接近我们从 NHANES 数据集(1.43)获取的样本的均值的观测标准差。
平均值的标准误差公式意味着我们测量的质量涉及两个量:总体可变性和样本大小。因为样本大小是 SEM 公式中的分母,所以在保持总体可变性不变的情况下,较大的样本大小将产生较小的 SEM。我们无法控制人口的可变性,但是我们可以控制样本的大小。因此,如果我们希望改善我们的样本统计(通过减少他们的抽样可变性),那么我们应该使用更大的样本。然而,这个公式也告诉我们一些关于统计抽样的非常基本的东西——也就是说,较大样本的效用随着样本大小的平方根而减少。这意味着加倍样本量将*而不是*加倍统计数据的质量;而是将其提高一个<math display="inline"><semantics><msqrt><mn>2</mn></msqrt><annotation encoding="application/x-tex">\ sqrt { 2 }</annotation></semantics></math>的因子。在第 [10.3](#statistical-power) 节中,我们将讨论统计功效,它与这一概念密切相关。
平均值的标准误差公式意味着我们测量的质量涉及两个量:总体可变性和样本大小。因为样本大小是 SEM 公式中的分母,所以在保持总体可变性不变的情况下,较大的样本大小将产生较小的 SEM。我们无法控制人口的可变性,但是我们可以控制样本的大小。因此,如果我们希望改善我们的样本统计(通过减少他们的抽样可变性),那么我们应该使用更多的样本。然而,这个公式也告诉我们一些关于统计抽样的非常基本的东西——也就是说,较大样本的效用随着样本大小的平方根而减少。这意味着加倍样本量将*而不是*加倍统计数据的质量;而是将其提高了根号2倍。在第 [10.3](#statistical-power) 节中,我们将讨论统计效率,它与这一概念密切相关。
......@@ -69,15 +70,15 @@
中心极限定理告诉我们,随着样本量变大,均值的抽样分布将变成正态分布,*即使每个样本内的数据不是正态分布*
首先,我们来简单介绍一下正态分布。它也被称为*高斯*分布,以卡尔·弗里德里希·高斯的名字命名,这位数学家没有发明它,但在它的发展中发挥了作用。正态分布用两个参数来描述:平均值(可以认为是峰值的位置)和标准差(指定分布的宽度)。分布的钟形形状永远不会改变,只有它的位置和宽度会改变。正如我们已经在第 3 章中看到的,正态分布在现实世界中收集的数据中是常见的,中心极限定理给了我们一些关于为什么会发生这种情况的见解
首先,我们来简单介绍一下正态分布。它也被称为*高斯*分布,以卡尔·弗里德里希·高斯的名字命名,虽然不是他发明的,但是高斯在推广正态分布的时候发挥了重要的作用。正态分布用两个参数来描述:平均值(可以认为是峰值的位置)和标准差(指定分布的宽度)。分布的钟形形状永远不会改变,只有它的位置和宽度会改变。正如我们已经在第 3 章中看到的,正态分布在现实世界中收集的数据中是常见的,中心极限定理解释了为什么会发生这种情况
为了查看中心极限定理的作用,让我们使用 NHANES 数据集中的变量 AlcoholYear,它是高度偏斜的,如图 [7.2](#fig:alcDist50) 的左图所示。由于没有更好的词来形容,这种分布是时髦的——而且肯定不是正态分布。现在让我们看看这个变量的均值的抽样分布。图 [7.2](#fig:alcDist50) 显示了该变量的抽样分布,通过从 NHANES 数据集中重复抽取 50 个样本并取平均值获得。尽管原始数据显然是非正态的,但抽样分布非常接近正态。
为了查看中心极限定理的作用,让我们使用NHANES数据集中的变量AlcoholYear,它是高度偏斜的,如图 [7.2](#fig:alcDist50) 的左图所示。由于没有更好的词来形容,暂且叫做时髦分布吧——可以肯定不是正态分布。现在让我们看看这个变量的均值的抽样分布。图 [7.2](#fig:alcDist50) 显示了该变量的抽样分布,通过从 NHANES 数据集中重复抽取 50 个样本并取平均值获得。尽管原始数据显然是非正态的,但抽样分布非常接近正态。
![Left: Distribution of the variable AlcoholYear in the NHANES dataset, which reflects the number of days that the individual drank in a year. Right: The sampling distribution of the mean for AlcoholYear in the NHANES dataset, obtained by drawing repeated samples of size 50, in blue. The normal distribution with the same mean and standard deviation is shown in red.](img/file42.png)
图 7.2:左:NHANES 数据集中变量 AlcoholYear 的分布,它反映了个人一年中饮酒的天数。右图:NHANES 数据集中酒精年份平均值的抽样分布,通过绘制 50 个蓝色重复样本获得。具有相同平均值和标准偏差的正态分布显示为红色。
中心极限定理对统计学很重要,因为它允许我们安全地假设在大多数情况下均值的抽样分布将是正态的。这意味着我们可以利用假设正态分布的统计技术,我们将在下一节中看到。它也很重要,因为它告诉我们为什么正态分布在现实世界中如此普遍;任何时候我们把许多不同的因素结合成一个单一的数字,结果很可能是一个正态分布。例如,任何成年人的身高都取决于他们的基因和经历的复杂混合;即使这些单独的贡献可能不是正态分布的,当我们将它们组合起来时,结果也是正态分布的。
中心极限定理对统计学很重要,因为它允许我们安全地假设在大多数情况下均值的抽样分布将是正态的。这意味着我们可以利用假设正态分布的统计技术,我们将在下一节中看到。它也很重要,因为它告诉我们为什么正态分布在现实世界中如此普遍;任何时候我们把许多不同的因素结合成一个单一的数字,结果很可能是一个正态分布。例如,任何成年人的身高都取决于他们的基因和经历的复杂混合;即使这些单独的影响可能不是正态分布的,当我们将它们组合起来时,结果也是正态分布的。
......@@ -96,7 +97,7 @@
## 7.6 建议读数
## 7.6 建议书籍
* Nate Silver 的《信号与噪音:为什么这么多预测失败,但有些却没有》
......
......@@ -2,7 +2,7 @@
# 8 重采样和模拟
计算机模拟的使用已经成为现代统计学的一个重要方面。例如,在实用计算机科学中最重要的一本书,叫做*数字配方*,这样写道:
使用计算机的模拟能力已经成为现代统计学的一个重要方面。例如,在实用计算机科学中最重要的一本书,叫做**与数字共舞**,这样写道:
> “如果让我们在精通五英尺厚的分析统计学书籍和中等水平的统计蒙特卡罗模拟能力之间做出选择,我们肯定会选择后者。”
......@@ -29,9 +29,9 @@
## 8.2 统计学中的随机性
术语“随机”通常在口语中用来指奇怪或意想不到的事情,但在统计学中,该术语有一个非常具体的含义:如果一个过程不可预测,它就是*随机的*。例如,如果我掷一枚普通硬币 10 次,一次掷的结果值并不能为我提供任何信息来预测下一次掷的结果。重要的是要注意,某件事不可预测的事实并不一定意味着它不是确定的。例如,当我们抛硬币时,抛硬币的结果是由物理定律决定的;如果我们足够详细地了解所有的条件,我们应该能够预测翻转的结果。然而,许多因素结合在一起,使得掷硬币的结果在实践中不可预测。
术语“随机”通常在口语中用来指难以琢磨或意想不到的事情,但在统计学中,该术语有一个非常具体的含义:如果一个过程不可预测,它就是*随机的*。例如,如果我掷一枚普通硬币 10 次,一次掷的结果值并不能为我提供任何信息来预测下一次掷的结果。重要的是要注意,某件事不可预测的事实并不一定意味着它不是确定的。例如,当我们抛硬币时,抛硬币的结果是由物理定律决定的;如果我们足够详细地了解所有的条件,我们应该能够预测翻转的结果。然而,许多因素结合在一起,使得掷硬币的结果在实际过程中不可预测。
心理学家表明,人类实际上有相当糟糕的随机感。首先,我们倾向于看到不存在的模式。在极端情况下,这导致了 *pareidolia* 现象,在这种现象中,人们会在随机模式中感知熟悉的物体(例如将一朵云感知为人脸或在一片烤面包中看到圣母玛利亚)。第二,人类倾向于认为随机过程是自我修正的,这导致我们在一场概率游戏中输掉许多回合后,认为自己“应该赢”,这种现象被称为“赌徒谬误”。
心理学家表明,人类实际上有相当糟糕的随机感。首先,我们倾向于看到不存在的模式。在极端情况下,这导致了 *pareidolia* 现象,在这种现象中,人们会在随机模式中感知熟悉的物体(例如将一朵云感知为人脸或在一片烤面包中看到圣母玛利亚)。第二,人类倾向于认为随机过程是自我修正的,这导致我们在一场概率游戏中输掉许多回合后,认为自己“应该赢”,这种现象被称为“赌徒心理”。
......@@ -39,9 +39,9 @@
## 8.3 生成随机数
运行蒙特卡罗模拟需要我们生成随机数。产生真正的随机数(即完全不可预测的数字)只有通过物理过程才有可能,如原子衰变或掷骰子,这些过程很难获得和/或太慢而无法用于计算机模拟(尽管它们可以从 [NIST 随机性信标](https://www.nist.gov/programs-projects/nist-randomness-beacon%5D)中获得)。
运行蒙特卡罗模拟需要我们生成随机数。产生真正的随机数(即完全不可预测的数字)只有通过物理过程才有可能,如原子衰变或掷骰子,这些过程或者因为很难获得,或者因为太慢而无法用于计算机模拟(尽管它们可以从 [NIST 随机性信标](https://www.nist.gov/programs-projects/nist-randomness-beacon%5D)中获得)。
一般来说,我们使用通过计算机算法产生的*伪随机数*,而不是真正的随机数;从很难预测的意义上来说,这些数字看起来是随机的,但实际上这一系列数字会在某个时候重复出现。例如,r 中使用的随机数生成器会在<math display="inline"><semantics><mrow><msup><mn>2</mn><mn>19937</mn></msup><mo>-</mo><mn>1</mn></mrow><annotation encoding="application/x-tex">2^{19937}-1</annotation></semantics></math>数字后重复。这远远超过了宇宙历史中的秒数,我们通常认为这对于统计分析的大多数目的来说是没问题的。
一般来说,我们使用通过计算机算法产生的*伪随机数*,而不是真正的随机数;从很难预测的意义上来说,这些数字看起来是随机的,但实际上这一系列数字会在某个时候重复出现。例如,R语言中使用的随机数生成器会在<math display="inline"><semantics><mrow><msup><mn>2</mn><mn>19937</mn></msup><mo>-</mo><mn>1</mn></mrow><annotation encoding="application/x-tex">2^{19937}-1</annotation></semantics></math>次后重复。这远远超过了宇宙的生命周期(以秒为单位),我们通常认为这对于以统计分析为目的的业务场景来应用是没问题的。
大多数统计软件都包括为每个主要概率分布生成随机数的功能,例如均匀分布(0 到 1 之间的所有值相等)、正态分布和二项式分布(例如掷骰子、掷硬币)。图 [8.1](#fig:rngExamples) 显示了从均匀分布函数和正态分布函数生成的数字示例。
......@@ -59,13 +59,13 @@
## 8.4 使用蒙特卡罗模拟
让我们回到考试结束时间的例子。假设我管理三次测验,并记录每个学生每次考试的完成时间,这可能看起来像图 [8.2](#fig:finishingTimes) 中呈现的分布。
让我们回到课堂测试时间的例子。假设我观测三次测验,并记录每个学生每次考试的完成时间,这可能看起来像图 [8.2](#fig:finishingTimes) 中呈现的分布。
![Simulated finishing time distributions.](img/file44.png)
图 8.2:模拟的结束时间分布。
要回答我们的问题,我们真正想知道的不是完成时间的分布是什么样的,而是每次测验的最长完成时间的分布是什么样的。为了做到这一点,我们可以模拟一个测验的结束时间,假设结束时间是正态分布的,如上所述;对于每个模拟测验,我们会记录最长的完成时间。我们大量重复这种模拟(5000 次应该足够了)并记录完成次数的分布,如图 [8.3](#fig:finishTimeSim) 所示。
现在想想我们想要回答的问题,我们真正想知道的不是完成时间的分布是什么样的,而是每次测验的最长完成时间的分布是什么样的。为了做到这一点,我们可以模拟一个测验的结束时间,假设结束时间是正态分布的,如上所述;对于每个模拟测验,我们会记录最长的完成时间。我们大量重复这种模拟(5000 次应该足够了)并记录完成次数的分布,如图 [8.3](#fig:finishTimeSim) 所示。
![Distribution of maximum finishing times across simulations.](img/file45.png)
......@@ -83,11 +83,11 @@
### 8.5.1 计算自举
### 8.5.1 计算bootstrap
在前一章中,我们使用了均值的抽样分布知识来计算均值的标准误差。但是如果我们不能假设估计值是正态分布的,或者我们不知道它们的分布,那该怎么办呢?bootstrap 的想法是使用数据本身来估计答案。这个名字来源于自力更生的想法,表达了我们没有任何外部杠杆来源,所以我们必须依赖数据本身的想法。自举法是由斯坦福大学统计系的布拉德利·埃夫隆提出的,他是世界上最有影响力的统计学家之一。
在前一章中,我们使用了均值的抽样分布知识来计算均值的标准误差。但是如果我们不能假设估计值是正态分布的,或者我们不知道它们的分布,那该怎么办呢?bootstrap 的想法是使用数据本身来估计答案。这个名字来源于自我提升的想法,表达了我们没有任何外部杠杆来源,所以我们必须依赖数据本身的想法。自举法是由斯坦福大学统计系的布拉德利·埃夫隆提出的,他是世界上最有影响力的统计学家之一。
bootstrap 背后的想法是我们从实际的数据集中重复采样;重要的是,我们用替换的对*进行采样,这样同一个数据点通常会在一个样本中出现多次。然后,我们计算每个 bootstrap 样本的感兴趣的统计量,并使用这些估计值的分布作为我们的采样分布。在某种意义上,我们将特定的样本视为整个总体,然后用替换重复采样,以生成我们的分析样本。这使得我们的特定样本是总体的准确反映的假设,这对于较大的样本可能是合理的,但是当样本较小时可能会失效。*
bootstrap 背后的想法是我们从实际的数据集中重复采样;重要的是,我们用替换的对进行采样,这样同一个数据点通常会在一个样本中出现多次。然后,我们计算每个 bootstrap 样本的感兴趣的统计量,并使用这些估计值的分布作为我们的采样分布。在某种意义上,我们将特定的样本视为整个总体,然后用替换重复采样,以生成我们的分析样本。这使得我们的特定样本是总体的准确反映的假设,这对于较大的样本可能是合理的,但是当样本较小时可能会失效。
让我们从使用 bootstrap 估计 NHANES 数据集中成人身高平均值的抽样分布开始,这样我们就可以将结果与我们之前讨论的平均值的标准误差(SEM)进行比较。
......@@ -110,15 +110,15 @@ bootstrap 背后的想法是我们从实际的数据集中重复采样;重要
* 描述蒙特卡罗模拟的概念。
* 描述统计学中随机性的含义
* 描述伪随机数是如何产生的
* 描述引导数据库的概念
* 描述bootstrap法的概念
## 8.7 建议读数
## 8.7 建议书籍
* 计算机时代的统计推断:算法、证据和数据科学
* Bradley Efron and Trevor Hastie写的:《计算机时代的统计推断:算法、证据和数据科学》
此差异已折叠。
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册