Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
data8-textbook-zh
提交
08ca1be1
D
data8-textbook-zh
项目概览
OpenDocCN
/
data8-textbook-zh
8 个月 前同步成功
通知
0
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
D
data8-textbook-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
提交
08ca1be1
编写于
1月 24, 2018
作者:
W
wizardforcel
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
ch16
上级
ce0c096e
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
27 addition
and
3 deletion
+27
-3
16.md
16.md
+27
-3
未找到文件。
16.md
浏览文件 @
08ca1be1
# 十六、比较两个样本
> 原文:[Comparing Two Samples](https://github.com/data-8/textbook/tree/gh-pages/chapters/16)
> 译者:[飞龙](https://github.com/wizardforcel)
> 协议:[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
> 自豪地采用[谷歌翻译](https://translate.google.cn/)
最近邻分类方法的动机是这样的,个体可能像最近的邻居。 从另一个角度来看,我们可以说一个类别的个体不像另一个类别中的个体。 机器学习为我们提供了一种有力的方法来发现这种相似性的缺乏,并将其用于分类。 它揭示了一种模式,通过一次检查一两个属性,我们不一定能发现它。
但是,我们可以从属性中学到很多东西。 为了了解它,我们将比较两个类中的属性分布。
...
...
@@ -219,7 +228,7 @@ mitoses
如果类别和有丝分裂评分是不相关的,那么
`Mitoses`
值出现的顺序并不重要,因为它们与类别的值无关,所有的重新排列应该是等可能的。 这与我们在分析足球
`Deflategate`
数据时采用的方法相同。
所以让我们将所有的
`Mitoses`
值整理到一个名为
`shuffled_mitoses`
的数组中。
您
可以看到下面的第一项,但它包含 683 个项目,因为它是整个
`Mitoses`
列的排列(即重新排列)。
所以让我们将所有的
`Mitoses`
值整理到一个名为
`shuffled_mitoses`
的数组中。
你
可以看到下面的第一项,但它包含 683 个项目,因为它是整个
`Mitoses`
列的排列(即重新排列)。
```
py
shuffled_mitoses
=
mitoses
.
select
(
'Mitoses'
).
sample
(
with_replacement
=
False
).
column
(
0
)
...
...
@@ -608,7 +617,7 @@ Approximate 95% CI for the difference between means:
总之:
如果
您
想知道两个基本分布是否相同,则可以使用带有适当检验统计量的排列检验。 当分布是类别时,我们使用总变异距离,而分布是数值时,我们使用均值之间的绝对差。
如果
你
想知道两个基本分布是否相同,则可以使用带有适当检验统计量的排列检验。 当分布是类别时,我们使用总变异距离,而分布是数值时,我们使用均值之间的绝对差。
为了比较两个数值分布,将假设检验替换为估计,通常更富有信息。 只需估计一个差异,比如两组均值之间的差异。 这可以通过构建自举置信区间来完成。 如果零不在这个区间内,你可以得出这样的结论:这两个分布是不同的,你也可以估计均值有多么不同。
...
...
@@ -720,7 +729,7 @@ observed_outcomes.show()
### 假设检验
问题是实验是否有用
什么
。根据观察得出的结果,问题在于第 2 列(包括未知数)的 31 个“实验”值的分布是否与第 3 列 31 个“对照”值的分布不同(同样包括未知数)。
问题是实验是否有用。根据观察得出的结果,问题在于第 2 列(包括未知数)的 31 个“实验”值的分布是否与第 3 列 31 个“对照”值的分布不同(同样包括未知数)。
原假设:所有 31 个潜在“实验”结果的分布与所有 31 个潜在“对照”结果的分布相同。实验与对照没有任何不同。两个样本的差异只是偶然而已。
...
...
@@ -838,3 +847,18 @@ Approximate 95% CI for the difference between means:
-
0.759090909091
to
-
0.162393162393
```
基本分布的均值之间的差异的约 95% 置信区间,范围是约 -80% 到 -20%。换句话说,实验组好转了 20% 到 80% 左右。
注意这个变化很大的估计。那是因为每个组的样本量只有 15 个左右。虽然这些作用于这些数值而没有进一步的假设,但结果并不十分精确。
# ## 元分析
虽然 RCT 确实真名了肉毒杆菌毒素 A 实验帮助了患者,但对 31 名患者进行的研究不足以确定治疗的有效性。这不仅仅是因为样本量小。我们在这一部分的结果对于研究中的 31 位患者是有效的,但我们对所有可能患者的总体真正感兴趣。如果 31 名患者是来自较大总体的随机样本,那么我们的置信区间对该总体是有效的。但他们不是随机样本。
2011 年,一组研究人员对实验的研究进行了元分析。也就是说,他们确定了所有被痛治疗的可用研究,并总结了整理后的结果。
有几项研究,但没有多少可以纳入科学合理的方式:“由于非随机性,不完整或未发表的数据,我们排除了 19 项研究的证据。只剩下三个随机对照试验,其中之一是我们在本节研究的。元分析给予它所有研究的最高评价(LBP 代表背痛):“我们确定了三项研究,它们调查了 BoNT 治疗 LBP 的优点,但只有一项的偏差风险低,并且使用非特异性 LBP(N = 31)来评价患者”。
元分析得出的结论是:“有一些低质量的证据表明,BoNT 注射剂能改善疼痛,功能,或者两者都比注射生理盐水更好,而且质量很低的证据表明,它比针灸或类固醇注射更好。进一步的研究很可能会对效果评估和我们的信心产生重要影响,未来的试验应该对患者总体,实验方案和比较组进行标准化,争取更多的参与者,并包括长期结果,成本效益分析和临床相关性的发现”。
为了确定医疗有好处,需要很多精心的工作。了解如何分析随机对照试验是这项工作的重要组成部分。现在你们知道了如何实现,你们有条件帮助医疗和其他行业建立因果关系。
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录