提交 4cb581d8 编写于 作者: R ryan4yin

update translation

上级 59243211
......@@ -178,13 +178,13 @@
一些算法可以处理部分带标签的训练数据,通常是大量不带标签数据加上小部分带标签数据。这称作半监督学习(图 1-11)。
一些图片存储服务,比如 Google Photos,是半监督学习的好例子。一旦你上传了所有家庭相片,它就能自动识别相同的人 A 出现了相片 1、5、11 中,另一个人 B 出现在了相片 2、5、7 中。这是算法的非监督部分(聚类)。现在系统需要的就是你告诉这两个人是谁。只要给每个人一个标签,算法就可以命名每张照片中的每个人,特别适合搜索照片。
一些图片存储服务,比如 Google Photos,是半监督学习的好例子。一旦你上传了所有家庭相片,它就能自动识别到人物 A 出现在了相片 1、5、11 中,另一个人 B 出现在了相片 2、5、7 中。这是算法的非监督部分(聚类)。现在系统需要的就是你告诉这两个人是谁。只要给每个人一个标签,算法就可以命名每张照片中的每个人,特别适合搜索照片。
![](../images/chapter_1/1-11.png)
图 1-11 半监督学习
多数半监督学习算法是非监督和监督算法的结合。例如,深度信念网络(deep belief networks)是基于被称为互相叠加的受限玻尔兹曼机(restricted Boltzmann machines,RBM)的非监督组件。RBM 是先用非监督方法进行训练,再用监督学习方法进行整个系统微调。
多数半监督学习算法是非监督和监督算法的结合。例如,深度信念网络(deep belief networks)是基于被称为互相叠加的受限玻尔兹曼机(restricted Boltzmann machines,RBM)的非监督组件。RBM 是先用非监督方法进行训练,再用监督学习方法对整个系统进行微调。
## 强化学习
......@@ -218,7 +218,7 @@
## 在线学习
在在线学习中,是用数据实例持续地进行训练,可以一次一个或一次几个实例(称为小批量)。每个学习步骤都很快且廉价,所以系统可以动态地学习到达的新数据(见图 1-13)。
在在线学习中,是用数据实例持续地进行训练,可以一次一个或一次几个实例(称为小批量)。每个学习步骤都很快且廉价,所以系统可以动态地学习收到的最新数据(见图 1-13)。
![](../images/chapter_1/1-13.png)
......@@ -226,7 +226,7 @@
在线学习很适合系统接收连续流的数据(比如,股票价格),且需要自动对改变作出调整。如果计算资源有限,在线学习是一个不错的方案:一旦在线学习系统学习了新的数据实例,它就不再需要这些数据了,所以扔掉这些数据(除非你想滚回到之前的一个状态,再次使用数据)。这样可以节省大量的空间。
在线学习算法也可以当机器的内存存不下大量数据集时,用来训练系统(这称作核外学习,*out-of-core* learning)。算法加载部分的数据,用这些数据进行训练,重复这个过程,直到用所有数据都进行了训练(见图 1-14)。
在线学习算法也适用于在超大数据集(一台计算机不足以用于存储它)上训练系统(这称作核外学习,*out-of-core* learning)。算法每次只加载部分数据,用这些数据进行训练,然后重复这个过程,直到使用完所有数据(见图 1-14)。
> 警告:这个整个过程通常是离线完成的(即,不在部署的系统上),所以在线学习这个名字会让人疑惑。可以把它想成持续学习。
......@@ -411,7 +411,7 @@ print(lin_reg_model.predict(X_new)) # outputs [[ 5.96242338]]
> * 首先,为了获取发信地址,《文学文摘》使用了电话黄页、杂志订阅用户、俱乐部会员等相似的列表。所有这些列表都偏向于富裕人群,他们都倾向于投票给共和党(即兰登)。
> * 第二,只有 25% 的回答了调研。这就又一次引入了样本偏差,它排除了不关心政治的人、不喜欢《文学文摘》的人,和其它关键人群。这种特殊的样本偏差称作无应答偏差。
>
> 下面是另一个例子:假如你想创建一个能识别放克音乐(Funk Music, 别名骚乐)视频的系统。建立训练集的方法之一是在 YouTube 上搜索“放克音乐”,使用搜索到的视频。但是这样就假定了 YouTube 的搜索引擎返回的视频集,是对 YouTube 上的所有放克音乐有代表性的。事实上,搜索结果会偏向于人们歌手(如果你居住在巴西,你会得到许多“funk carioca”视频,它们和 James Brown 的截然不同)。从另一方面来讲,你怎么得到一个大的训练集呢?
> 下面是另一个例子:假如你想创建一个能识别放克音乐(Funk Music, 别名骚乐)视频的系统。建立训练集的方法之一是在 YouTube 上搜索“放克音乐”,使用搜索到的视频。但是这样就假定了 YouTube 的搜索引擎返回的视频集,是对 YouTube 上的所有放克音乐有代表性的。事实上,搜索结果可能更偏向于流行歌手(如果你居住在巴西,你会得到许多“funk carioca”视频,它们和 James Brown 的截然不同)。从另一方面来讲,你还能怎么得到一个大的训练集呢?
## 低质量数据
......
......@@ -730,7 +730,7 @@ housing_tr = pd.DataFrame(X, columns=housing_num.columns)
>
> + 估计器(estimator)。任何可以基于数据集对一些参数进行估计的对象都被称为估计器(比如,`imputer`就是个估计器)。估计本身是通过`fit()`方法,只需要一个数据集作为参数(对于监督学习算法,需要两个数据集;第二个数据集包含标签)。任何其它用来指导估计过程的参数都被当做超参数(比如`imputer`的`strategy`),并且超参数要被设置成实例变量(通常通过构造器参数设置)。
> + 转换器(transformer)。一些估计器(比如`imputer`)也可以转换数据集,这些估计器被称为转换器。API也是相当简单:转换是通过`transform()`方法,被转换的数据集作为参数。返回的是经过转换的数据集。转换过程依赖学习到的参数,比如`imputer`的例子。所有的转换都有一个便捷的方法`fit_transform()`,等同于调用`fit()`再`transform()`(但有时`fit_transform()`经过优化,运行的更快)。
> + 预测器(predictor)。最后,一些估计器可以根据给出的数据集做预测,这些估计器称为预测器。例如,上一章的`LinearRegression`模型就是一个预测器:它根据一个国家的人均 GDP 预测生活满意度。预测器有一个`predict()`方法,可以用新实例的数据集做出相应的预测。预测器还有一个`score()`方法,可以根据测试集(和相应的标签,如果是监督学习算法的话)对预测进行衡器
> + 预测器(predictor)。最后,一些估计器可以根据给出的数据集做预测,这些估计器称为预测器。例如,上一章的`LinearRegression`模型就是一个预测器:它根据一个国家的人均 GDP 预测生活满意度。预测器有一个`predict()`方法,可以用新实例的数据集做出相应的预测。预测器还有一个`score()`方法,可用于评估测试集(如果是监督学习算法的话,还要给出相应的标签)的预测质量
>
> + 可检验。所有估计器的超参数都可以通过实例的public变量直接访问(比如,`imputer.strategy`),并且所有估计器学习到的参数也可以通过在实例变量名后加下划线来访问(比如,`imputer.statistics_`)。
>
......@@ -771,7 +771,7 @@ array([1, 1, 4, ..., 1, 0, 3])
['<1H OCEAN' 'INLAND' 'ISLAND' 'NEAR BAY' 'NEAR OCEAN']
```
这种做法的问题是,ML 算法会认为两个临近的值比两个疏远的值要更相似。显然这样不对(比如,分类 0 和 4 比 0 和 1 更相似)。要解决这个问题,一个常见的方法是给每个分类创建一个二元属性:当分类是`<1H OCEAN`,该属性为 1(否则为 0),当分类是`INLAND`,另一个属性等于 1(否则为 0),以此类推。这称作独热编码(One-Hot Encoding),因为只有一个属性会等于 1(热),其余会是 0(冷)。
这种做法的问题是,ML 算法会认为两个临近的值比两个疏远的值要更相似。显然这样不对(比如,分类 0 和分类 4 就比分类 0 和分类 1 更相似)。要解决这个问题,一个常见的方法是给每个分类创建一个二元属性:当分类是`<1H OCEAN`,该属性为 1(否则为 0),当分类是`INLAND`,另一个属性等于 1(否则为 0),以此类推。这称作独热编码(One-Hot Encoding),因为只有一个属性会等于 1(热),其余会是 0(冷)。
Scikit-Learn 提供了一个编码器`OneHotEncoder`,用于将整数分类值转变为独热向量。注意`fit_transform()`用于 2D 数组,而`housing_cat_encoded`是一个 1D 数组,所以需要将其变形:
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册