diff --git a/17.md b/17.md index 7e26b451a60ef1173b04821cecde5ad34237d561..4c1de680ab13b156542082ee972b0c3e31041a96 100644 --- a/17.md +++ b/17.md @@ -68,6 +68,8 @@ students.pivot('Major', 'Year') | Second | 30 | 30 | | Third | 32 | 8 | +![](img/17-1.png) + 总人数为 100 人,其中二年级 60 人,三年级 40 人。 二年级中,每个专业类别有 50%。 三年级的 40 人中,20% 是未声明的,80% 已声明。 因此,这 100 人的比例和我们问题中的班级相同,我们可以假定,我们的学生是从 100 名学生中随机抽取的。 我们必须选择学生最可能进入的那一行。当我们对这个学生一无所知时,他或她可能在四个单元格中的任何一个,因此更可能在第一行(二年级),因为那里包含更多的学生。 @@ -168,6 +170,8 @@ students.pivot('Major', 'Year') 假设总体很大,疾病只占总体的一小部分。 下面的属性图总结了这种疾病的信息,以及它的医学检测。 +![](img/17-2.png) + 总的来说,只有千分之四的总体有这种疾病。 检测相当准确:假阳性几率非常小,为 5/1000,但是假阴性更大(尽管还是很小),为 1/100。 个体可能知道也可能不知道他们是否患有这种疾病;通常情况下,人们会进行检测来确认他们是否拥有。 @@ -212,6 +216,8 @@ population(0.004).pivot('Test Result', 'True Condition') 原因是,很大一部分人没有这种疾病。检测出假阳性的一小部分人比真阳性要多。 这在树形图中更容易可视化: +![](img/17-2.png) + 真阳性的比例是总体一小部分(0.004)的很大一部分(0.99)。 假阳性的比例是总体很大一部分(0.996)的一小部分(0.005)。 这两个比例是可比的;第二个大一点。 @@ -234,6 +240,8 @@ population(0.004).pivot('Test Result', 'True Condition') 假设医生的主观意见是,患者有 5% 的几率患病。那么树形图中的先验概率将会改变: +![](img/17-3.png) + 鉴于病人检测为阳性,他或她有这种疾病的几率是由贝叶斯规则给出。 ```py diff --git a/img/17-1.png b/img/17-1.png new file mode 100644 index 0000000000000000000000000000000000000000..90cf9b2284003b517e63b0bd590ba06b891615e7 Binary files /dev/null and b/img/17-1.png differ diff --git a/img/17-2.png b/img/17-2.png new file mode 100644 index 0000000000000000000000000000000000000000..0299b6dfdbf9857d82502543068008c4bafa6a7a Binary files /dev/null and b/img/17-2.png differ diff --git a/img/17-3.png b/img/17-3.png new file mode 100644 index 0000000000000000000000000000000000000000..fa71965107f94d7c27e5f4ed2b1549b6793632f8 Binary files /dev/null and b/img/17-3.png differ