未验证 提交 b99474f4 编写于 作者: 飞龙 提交者: GitHub

Merge pull request #128 from AnEscapist/dev

Fig 3-3 missing in chapter 3
......@@ -269,7 +269,7 @@ F1 支持那些有着相近准确率和召回率的分类器。这不会总是
为了弄懂这个折衷,我们看一下`SGDClassifier`是如何做分类决策的。对于每个样例,它根据决策函数计算分数,如果这个分数大于一个阈值,它会将样例分配给正例,否则它将分配给反例。图 3-3 显示了几个数字从左边的最低分数排到右边的最高分。假设决策阈值位于中间的箭头(介于两个 5 之间):您将发现4个真正例(数字 5)和一个假正例(数字 6)在该阈值的右侧。因此,使用该阈值,准确率为 80%(4/5)。但实际有 6 个数字 5,分类器只检测 4 个, 所以召回是 67% (4/6)。现在,如果你
提高阈值(移动到右侧的箭头),假正例(数字 6)成为一个真反例,从而提高准确率(在这种情况下高达 100%),但一个真正例 变成假反例,召回率降低到 50%。相反,降低阈值可提高召回率、降低准确率。
![图3-3 决策阈值与准确度/召回率折衷][../images/chapter_3/chapter3.3.jpeg]
![图3-3 决策阈值与准确度/召回率折衷](../images/chapter_3/chapter3.3-3.jpeg)
Scikit-Learn 不让你直接设置阈值,但是它给你提供了设置决策分数的方法,这个决策分数可以用来产生预测。它不是调用分类器的`predict()`方法,而是调用`decision_function()`方法。这个方法返回每一个样例的分数值,然后基于这个分数值,使用你想要的任何阈值做出预测。
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册