ch15.

7635b687 · wizardforcel · 997feea2 · 7635b687
隐藏空白更改
内联并排

Showing with 82 addition and 1 deletion

15.md 15.md +82 -1

未找到文件。
--- a/15.md
+++ b/15.md
@@ -53,7 +53,7 @@ ckd

 （省略了 148 行）

-一些变量是类别（像“异常”这样的词），还有一些是定量的。 定量变量都有不同的规模。 我们将要通过眼睛进行比较和估计距离，所以我们只选择一些变量并在标准单位下工作。 之后我们就不用担心每个变量的规模。
+一些变量是类别（像“异常”这样的词），还有一些是定量的。 定量变量都有不同的规模。 我们将要通过眼睛比较和估计距离，所以我们只选择一些变量并在标准单位下工作。 之后我们就不用担心每个变量的规模。

 ```py
 ckd = Table().with_columns(
@@ -81,3 +81,84 @@ ckd

 （省略了 148 行）

+我们来看两列，（病人的血液中）血红蛋白水平和血糖水平（一天中的随机时间；没有专门为血液测试禁食）。
+
+我们将绘制一个散点图来显示两个变量之间的关系。 蓝点是 CKD 患者; 金点是无 CKD 的患者。 什么样的医学检验结果似乎表明了 CKD？
+
+```py
+color_table = Table().with_columns(
+    'Class', make_array(1, 0),
+    'Color', make_array('darkblue', 'gold')
+)
+ckd = ckd.join('Class', color_table)
+ckd.scatter('Hemoglobin', 'Glucose', colors='Color')
+```
+
+假设爱丽丝是不在数据集中的新患者。 如果我告诉你爱丽丝的血红蛋白水平和血糖水平，你可以预测她是否有 CKD 嘛？ 确实看起来可以！ 您可以在这里看到非常清晰的规律：右下角的点代表没有 CKD 的人，其余的倾向于有 CKD 的人。 对于人来说，规律是显而易见的。 但是，我们如何为计算机编程来自动检测这种规律？
+
+### 最近邻分类器
+
+我们可能寻找很多种模式，还有很多分类算法。但是我会告诉你一个算法，它拥有令人惊讶的效果。它被称为最近邻分类。这是它的思路。如果我们有爱丽丝的血红蛋白和血糖数值，我们可以把她放在这个散点图的某个地方；血红蛋白是她的`x`坐标，血糖是她的`y`坐标。现在，为了预测她是否有 CKD，我们在散点图中找到最近的点，检查它是蓝色还是金色；我们预测爱丽丝应该接受与该患者相同的诊断。
+
+换句话说，为了将 Alice 划分为 CKD 与否，我们在训练集中找到与 Alice “最近”的患者，然后将该患者的诊断用作对 Alice 的预测。直觉上，如果散点图中的两个点彼此靠近，那么相应的测量结果非常相似，所以我们可能会预计，他们（更可能）得到相同的诊断。我们不知道 Alice 的诊断，但是我们知道训练集中所有病人的诊断，所以我们在训练集中找到与 Alice 最相似的病人，并利用病人的诊断来预测 Alice 的诊断。
+
+在下图中，红点代表爱丽丝。它与距离它最近的点由一条黑线相连，即训练集中最近邻。该图由一个名为`show_closest`的函数绘制。它需要一个数组，代表 Alice 点的`x和`y`坐标。改变它们来查看最近的点如何改变！特别注意最近的点是蓝色，以及金色的时候。
+
+```py
+# In this example, Alice's Hemoglobin attribute is 0 and her Glucose is 1.5.
+alice = make_array(0, 1.5)
+show_closest(alice)
+```
+
+因此，我们的最近邻分类器是这样工作的：
+
+   找到训练集中离新点最近的点。
+   如果最近的点是“CKD”点，则将新点划分为“CKD”。如果最近的点是“无 CKD”点，则将新点划分为“无 CKD”。
+
+散点图表明这个最近邻分类器应该相当准确。右下角的点倾向于接受“无 CKD”的诊断，因为他们的最近邻是一个金点。其余的点倾向于接受“CKD”诊断，因为他们的最近邻是蓝点。所以这个例子中，最近邻策略似乎很好地捕捉了我们的直觉。
+
+## 决策边界
+
+有时一种分类器可视化的实用方法是，绘制出分类器预测“CKD”的几种属性，以及预测“无 CKD”的几种。我们最终得到两者之间的边界，边界一侧的点将被划分为“CKD”，而另一侧的点将划分为“无 CKD”。这个边界称为决策边界。每个不同的分类器将有不同的决策边界；决策边界只是一种方法，用于可视化分类器实用什么标准来对点分类。
+
+例如，假设爱丽丝的点坐标是`(0, 1.5)`。注意最近邻是蓝色的。现在尝试减少点的高度（`y`坐标）。你会看到，在`y = 0.95`左右，最近邻从蓝色变为金色。
+
+```py
+alice = make_array(0, 0.97)
+show_closest(alice)
+```
+
+这里有数百个未分类的新点，都是红色的。
+
+
+每个红点在训练集中都有一个最近邻（与之前的蓝点和金点相同）。对于一些红点，你可以很容易地判断最近邻是蓝色还是金色。对于其他点来说，通过眼睛来做出决定更为棘手。那些是靠近决策边界的点。
+
+但是计算机可以很容易地确定每个点的最近邻。那么让我们将我们的最近邻分类器应用于每个红点：
+
+对于每个红点，它必须找到训练集中最近的点；它必须将红点的颜色改变为最近邻的颜色。
+
+结果图显示哪些点将划分为“CKD”（全部为蓝色），或者“无 CKD”（全部为黄金）。
+
+
+决策边界是分类器从将红点转换为蓝色变成金色的地方。
+
+## KNN
+
+然而，两个类别的分类并不总是那么清晰。例如，假设我们不用血红蛋白水平而是看白细胞计数。看看会发生什么：
+
+```py
+ckd.scatter('White Blood Cell Count', 'Glucose', colors='Color')
+```
+
+如您所见，无 CKD 个体都聚集在左下角。大多数 CKD 患者在该簇的上方或右侧，但不是全部。上图左下角有一些 CKD 患者（分散在金簇中的少数蓝点表示）。这意味着你不能从这两个检测结果确定，某些人是否拥有 CKD。
+
+如果提供爱丽丝的血糖水平和白细胞计数，我们可以预测她是否患有慢性肾病嘛？是的，我们可以做一个预测，但是我们不应该期望它是 100% 准确的。直觉上，似乎存在预测的自然策略：绘制 Alice 在散点图中的位置；如果她在左下角，则预测她没有 CKD，否则预测她有 CKD。
+
+这并不完美 - 我们的预测有时是错误的。 （请花点时间思考一下，会把哪些患者弄错？）上面的散点图表明，CKD 患者的葡萄糖和白细胞水平有时与没有 CKD 的患者相同，因此任何分类器都是不可避免地会对他们做出错误的预测。
+
+我们可以在计算机上自动化吗？那么，最近邻分类器也是一个合理的选择。花点时间思考一下：它的预测与上述直觉策略的预测相比如何？他们什么时候会不同？
+
+它的预测与我们的直觉策略非常相似，但偶尔会做出不同的预测。特别是，如果爱丽丝的血液检测结果恰好把她放在左下角的一个蓝点附近，那么这个直观的策略就可能预测“无 CKD”，而最近邻的分类器会预测“CKD”。
+
+最近邻分类器有一个简单的推广，修正了这个异常。它被称为 K 最近邻分类器。为了预测爱丽丝的诊断，我们不仅仅查看靠近她的一个邻居，而是查看靠近她的三个点，并用这三个点中的每一个点的诊断来预测艾丽丝的诊断。特别是，我们将使用这 3 个诊断中的大部分值作为我们对 Alice 诊断的预测。当然，数字 3 没有什么特别之处：我们可以使用 4 或 5 或更多。 （选择一个奇数通常是很方便的，所以我们不需要处理相等）。一般来说，我们选择一个数字`k`，而我们对 Alice 的预测诊断是基于训练集中最接近爱丽丝的`k`个点。直观来说，这些是血液测试结果与爱丽丝最相似的`k`个患者，因此使用他们的诊断来预测爱丽丝的诊断似乎是合理的。
+