提交 88e69d08 编写于 作者: W wizardforcel

ch2.

上级 725f7787
......@@ -6,10 +6,49 @@
所有这些问题试图为结果找到一个原因。仔细检查数据可以帮助揭示这些问题。在本节中,你将学习建立因果关系所涉及的一些基本概念。
观察是良好科学的关键。观察性研究是一项研究,科学家根据他们所观察到的,但却无法产生的数据作出结论。在数据科学中,许多这样的研究涉及对一组个体的观察,称为处理方式(treatment)的利害关系(factor of interest),以及对每个个体的测量结果。
观察是良好科学的关键。观察性研究是一项研究,科学家根据他们所观察到的,但却无法产生的数据作出结论。在数据科学中,许多这样的研究涉及对一组个体的观察,称为实验(treatment)的利害关系(factor of interest),以及对每个个体的测量结果。
将个体视为人是最容易的。在研究巧克力是否对健康有好处时,个体确实是人,处理方式是吃巧克力,结果可能是血压的测量。但观察研究中的个体不一定是人。在研究死刑是否具有威慑作用时,个体可以为联盟的 50 个州。允许死刑的州的法律是处理方式,结果可能是州的谋杀率。
将个体视为人是最容易的。在研究巧克力是否对健康有好处时,个体确实是人,实验是吃巧克力,结果可能是血压的测量。但观察研究中的个体不一定是人。在研究死刑是否具有威慑作用时,个体可以为联盟的 50 个州。允许死刑的州的法律是实验,结果可能是州的谋杀率。
根本问题是处理方式是否对结果有影响。处理方式和结果之间的任何关系被称为关联。如果处理方式导致结果发生,那么这个关联是因果关系。因果关系是本节开头提出的所有三个问题的核心。例如,问题之一是巧克力是否直接导致健康状况的改善,而不是巧克力与健康之间是否存在关联。
根本问题是实验是否对结果有影响。实验和结果之间的任何关系被称为关联。如果实验导致结果发生,那么这个关联是因果关系。因果关系是本节开头提出的所有三个问题的核心。例如,问题之一是巧克力是否直接导致健康状况的改善,而不是巧克力与健康之间是否存在关联。
因果关系的建立往往分两个阶段进行。首先,观察一个关联。接下来,更仔细的分析决定了因果关系。
## John Snow 和 Broad 街水泵
### 观察和可视化:John Snow 和 Broad 街水泵
精确观察导致建立因果关系的例子之一,最早可以追溯到 150 多年前。为了将你的思维带回正确的时间,试着想象一下 19 世纪 50 年代的伦敦。这是世界上最富裕的城市,但其中许多人却极度贫困。那时,查尔斯·狄更斯(Charles Dickens)在名气鼎盛时,正在写作关于他们的困境的文章。这个城市的贫困地区疾病盛行,霍乱是最可怕的。那个时候还不知道细菌会导致疾病,主流理论是“瘴气”是主要的罪魁祸首。 瘴气表现为恶臭,被认为是由腐烂物质引起的无形的有毒颗粒。伦敦的部分地区气味非常糟糕,特别是在炎热的天气里。为了保护自己免受感染,那些有能力的人把甜的东西放在鼻子上。
几年来,一个名叫约翰·斯诺(John Snow)的医生一直在跟踪着时不时袭击英国的巨大霍乱。疾病突然到来,几乎立即致命:人们在一两天内死亡,数百人在一个星期内死亡,单批总死亡人数可能达到数万人。斯诺对瘴气理论持怀疑态度。他注意到,当整个家庭被霍乱摧毁时,邻居有时完全没有受到影响。当他们呼吸和邻居一样的空气和瘴气时,不好的气味和霍乱的发生之间没有什么紧密的联系。
斯诺还注意到,这种疾病的发作几乎总是牵涉呕吐和腹泻。因此,他认为这种感染是由人们吃或喝的东西来进行的,而不是他们所呼吸的空气。他主要怀疑被污染的水。
1854 年 8 月底,霍乱在过度拥挤的伦敦苏豪区爆发。随着死亡人数的增加,斯诺用一种在疾病传播研究中成为标准的方法,勤奋地将它们记录下来:他画了一张地图。在该地区的街道地图上,他记录了每次死亡的地点。
这是斯诺的原始地图。每个黑色条形代表一次死亡。黑色圆圈标记了水泵的位置。地图上显示了一个惊人的启示 - 死亡大致集中在 Broad 街水泵周围。
斯诺仔细研究了他的地图,并调查了明显的异常。他们都设计 Broad 街水泵。例如:
+ 死亡发生在离 Rupert 街水泵更近的房子,而不是 Broad 街。尽管 Rupert 街水泵直线上更近,但由于街道布局不方便,是死路一条。那些房子里的居民使用了 Broad 街水泵。
+ 泵东边的两个街区没有死亡。那是 Lion Brewery 的位置,那里的工人喝了他们酿造的东西。如果他们想喝水,啤酒厂有自己的井。
+ Broad 街水泵几个街区之外的房子里,发生了少量死亡。那些孩子在上学路上从 Broad 街水泵饮水。泵的水清凉爽口。
最后一个支持斯诺的理论的证据是,在距离 Soho 区很远的 Hampstead 地区的两个孤立的死亡事件。斯诺对这些人感到困惑,直到他得知死者是住在 Broad 街的 Susannah Eley 夫人和她的侄女。Eley 夫人每天都将 Broad 街水泵的水带到 Hampstead 给她。她喜欢水的味道。
后来发现了一个粪坑,距离 Broad 街水泵几英尺远,渗入了井里面。因此,来自霍乱受害者房子的污水污染了水泵的水。
斯诺用他的地图来说服当地政府,拆除 Broad 街水泵的手柄。虽然霍乱疫情已经在减少,但是停止使用这种水泵有可能阻止了许多人死于未来的疾病。
Broad 街水泵的手柄的拆除已成为一个传奇。在亚特兰大的疾病控制中心(CDC),当科学家寻找流行病问题的简单答案时,他们有时会互相问:“这个水泵的手柄在哪里?”
斯诺的地图是数据可视化的最早和最强大的用法之一。现在各种疾病地图是跟踪流行病的标准工具。
### 因果关系
虽然地图给了斯诺强有力的证据,说明了供水的清洁是控制霍乱的关键,但是,为了使“污染的水导致疾病的传播”这个科学论证有说服力,还有很长一段路要走。为了使案例更有说服力,他不得不使用比较法。
科学家使用比较来确定实验与结果之间的关联。他们比较了一组接受实验的个体(实验组)的结果,和一组没有接受实验的个体的结果(对照组)。例如,现在的研究人员可能会比较死刑国家和没有死刑的国家的平均谋杀率。
如果结果不同,那就是表明关联的证据。但是为了确定因果关系,需要更加小心。
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册