提交 08ca1be1 编写于 作者: W wizardforcel

ch16

上级 ce0c096e
# 十六、比较两个样本
> 原文:[Comparing Two Samples](https://github.com/data-8/textbook/tree/gh-pages/chapters/16)
> 译者:[飞龙](https://github.com/wizardforcel)
> 协议:[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
> 自豪地采用[谷歌翻译](https://translate.google.cn/)
最近邻分类方法的动机是这样的,个体可能像最近的邻居。 从另一个角度来看,我们可以说一个类别的个体不像另一个类别中的个体。 机器学习为我们提供了一种有力的方法来发现这种相似性的缺乏,并将其用于分类。 它揭示了一种模式,通过一次检查一两个属性,我们不一定能发现它。
但是,我们可以从属性中学到很多东西。 为了了解它,我们将比较两个类中的属性分布。
......@@ -219,7 +228,7 @@ mitoses
如果类别和有丝分裂评分是不相关的,那么`Mitoses`值出现的顺序并不重要,因为它们与类别的值无关,所有的重新排列应该是等可能的。 这与我们在分析足球`Deflategate`数据时采用的方法相同。
所以让我们将所有的`Mitoses`值整理到一个名为`shuffled_mitoses`的数组中。 可以看到下面的第一项,但它包含 683 个项目,因为它是整个`Mitoses`列的排列(即重新排列)。
所以让我们将所有的`Mitoses`值整理到一个名为`shuffled_mitoses`的数组中。 可以看到下面的第一项,但它包含 683 个项目,因为它是整个`Mitoses`列的排列(即重新排列)。
```py
shuffled_mitoses = mitoses.select('Mitoses').sample(with_replacement=False).column(0)
......@@ -608,7 +617,7 @@ Approximate 95% CI for the difference between means:
总之:
如果想知道两个基本分布是否相同,则可以使用带有适当检验统计量的排列检验。 当分布是类别时,我们使用总变异距离,而分布是数值时,我们使用均值之间的绝对差。
如果想知道两个基本分布是否相同,则可以使用带有适当检验统计量的排列检验。 当分布是类别时,我们使用总变异距离,而分布是数值时,我们使用均值之间的绝对差。
为了比较两个数值分布,将假设检验替换为估计,通常更富有信息。 只需估计一个差异,比如两组均值之间的差异。 这可以通过构建自举置信区间来完成。 如果零不在这个区间内,你可以得出这样的结论:这两个分布是不同的,你也可以估计均值有多么不同。
......@@ -720,7 +729,7 @@ observed_outcomes.show()
### 假设检验
问题是实验是否有用什么。根据观察得出的结果,问题在于第 2 列(包括未知数)的 31 个“实验”值的分布是否与第 3 列 31 个“对照”值的分布不同(同样包括未知数)。
问题是实验是否有用。根据观察得出的结果,问题在于第 2 列(包括未知数)的 31 个“实验”值的分布是否与第 3 列 31 个“对照”值的分布不同(同样包括未知数)。
原假设:所有 31 个潜在“实验”结果的分布与所有 31 个潜在“对照”结果的分布相同。实验与对照没有任何不同。两个样本的差异只是偶然而已。
......@@ -838,3 +847,18 @@ Approximate 95% CI for the difference between means:
-0.759090909091 to -0.162393162393
```
基本分布的均值之间的差异的约 95% 置信区间,范围是约 -80% 到 -20%。换句话说,实验组好转了 20% 到 80% 左右。
注意这个变化很大的估计。那是因为每个组的样本量只有 15 个左右。虽然这些作用于这些数值而没有进一步的假设,但结果并不十分精确。
# ## 元分析
虽然 RCT 确实真名了肉毒杆菌毒素 A 实验帮助了患者,但对 31 名患者进行的研究不足以确定治疗的有效性。这不仅仅是因为样本量小。我们在这一部分的结果对于研究中的 31 位患者是有效的,但我们对所有可能患者的总体真正感兴趣。如果 31 名患者是来自较大总体的随机样本,那么我们的置信区间对该总体是有效的。但他们不是随机样本。
2011 年,一组研究人员对实验的研究进行了元分析。也就是说,他们确定了所有被痛治疗的可用研究,并总结了整理后的结果。
有几项研究,但没有多少可以纳入科学合理的方式:“由于非随机性,不完整或未发表的数据,我们排除了 19 项研究的证据。只剩下三个随机对照试验,其中之一是我们在本节研究的。元分析给予它所有研究的最高评价(LBP 代表背痛):“我们确定了三项研究,它们调查了 BoNT 治疗 LBP 的优点,但只有一项的偏差风险低,并且使用非特异性 LBP(N = 31)来评价患者”。
元分析得出的结论是:“有一些低质量的证据表明,BoNT 注射剂能改善疼痛,功能,或者两者都比注射生理盐水更好,而且质量很低的证据表明,它比针灸或类固醇注射更好。进一步的研究很可能会对效果评估和我们的信心产生重要影响,未来的试验应该对患者总体,实验方案和比较组进行标准化,争取更多的参与者,并包括长期结果,成本效益分析和临床相关性的发现”。
为了确定医疗有好处,需要很多精心的工作。了解如何分析随机对照试验是这项工作的重要组成部分。现在你们知道了如何实现,你们有条件帮助医疗和其他行业建立因果关系。
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册