提交 5789d6cc 编写于 作者: W wizardforcel

2019-01-31 14:45:49

上级 cf1b8fe5
......@@ -8,14 +8,11 @@
>
> **欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远**
* [在线阅读](http://fe4ml.apachecn.org)
* [ApacheCN 机器学习交流群 629470233](http://shang.qq.com/wpa/qunwpa?idkey=30e5f1123a79867570f665aa3a483ca404b1c3f77737bc01ec520ed5f078ddef)
* [ApacheCN 学习资源](http://www.apachecn.org/)
* [利用 Python 进行数据分析 第二版](https://github.com/apachecn/pyda-2e-zh)
<!-- break -->
+ [在线阅读](http://fe4ml.apachecn.org)
## 目录
+ [一、引言](docs/1.引言.md)
......@@ -29,27 +26,10 @@
+ 九、回到特征:将它们放到一起
+ [附录、线性模型和线性代数基础](docs/附录.线性模型和线性代数基础.md)
## 联系方式
### 负责人
## 负责人
* [@飞龙](https://github.com/wizardforcel): 562826179
### 贡献者
| 标题 | 译者 | 校对 |
| --- | --- | --- |
| 一、引言 | [@ZhipengYe](https://github.com/ZhipengYe) |
| 二、简单数字的奇特技巧 | [@coboe](https://github.com/coboe) | [@Ziseon Jiao](https://github.com/emengjzs) |
| 三、文本数据:展开、过滤和分块 | [@kkejili](https://github.com/kkejili) | [@HeYun](https://github.com/KyrieHee) |
| 四、特征缩放的效果:从词袋到 TF-IDF | [@gin](https://github.com/tirtile) | [@HeYun](https://github.com/KyrieHee) |
| 五、类别特征:机器鸡时代的鸡蛋计数 | [@ZhenLei Xu](https://github.com/HadXu) |
| 六、降维:使用 PCA 压缩数据集 | [@cn-Wziv](https://github.com/cn-Wziv) | [@HeYun](https://github.com/KyrieHee) |
| 七、非线性特征提取和模型堆叠 | [@friedhelm739](https://github.com/friedhelm739) |
| 八、自动化特征提取器:图像特征提取和深度学习 | [@friedhelm739](https://github.com/friedhelm739) |
| 九、回到特征:将它们放到一起 | |
| 附录、线性模型和线性代数基础 | [@Sherlock-kid](https://github.com/Sherlock-kid) |
## 免责声明
ApacheCN 纯粹出于学习目的与个人兴趣翻译本书,不追求任何经济利益。
......
# 一、引言
> 译者:[@ZhipengYe](https://github.com/ZhipengYe)
机器学习将数据拟合到数学模型中来获得结论或者做出预测。这些模型吸纳特征作为输入。特征就是原始数据某方面的数学表现。在机器学习流水线中特征位于数据和模型之间。特征工程是一项从数据中提取特征,然后转换成适合机器学习模型的格式的艺术。这是机器学习流水线关键的一步,因为正确的特征可以减轻建模的难度,并因此使流水线能输出更高质量的结果。从业者们认为构建机器学习流水线的绝大多数时间都花在特征工程和数据清洗上。然后,尽管它很重要,这个话题却很少单独讨论。也许是因为正确的特征只能在模型和数据的背景中定义。由于数据和模型如此多样化,所以很难概括项目中特征工程的实践。
尽管如此,特征工程不仅仅是一种临时实践。工作中有更深层的原则,最好就地进行说明。本书的每一章都针对一个数据问题:如何表示文本数据或图像数据,如何降低自动生成的特征的维度,何时以及如何规范化等等。把它看作是一个相互联系的短篇小说集,而不是一本长篇小说。每章都提供了大量现有特征工程技术的插图。它们一起阐明了总体原则。
......
# 二、简单数字的奇特技巧
> 译者:[@coboe](https://github.com/coboe)
>
> 校对者:[@ZiseonJiao](https://github.com/emengjzs)
在深入研究诸如文本和图像这样的复杂数据类型之前,让我们先从最简单的数字数据开始。它们可能来自各种来源:地理位置或人、购买的价格、传感器的测量、交通计数等。数字数据已经是数学模型容易消化的格式。这并不意味着不再需要特征工程。好的特征不仅代表数据的显著方面,而且符合模型的假设。因此,转换常常是必要的。数字特征工程技术是基础。当原始数据被转换为数字特征时,它们可以被应用。
数值数据的第一个健全检查是大小是否重要。我们只需要知道它是正面的还是负面的?或者我们只需要知道一个非常粗粒度的大小?这一明智的检查对于自动累积数尤其重要,比如统计,每天访问网站的次数,餐馆所获得的评论数量等等。
......
# 三、文本数据: 展开、过滤和分块
> 译者:[@kkejili](https://github.com/kkejili)
>
> 校对者:[@HeYun](https://github.com/KyrieHee)
如果让你来设计一个算法来分析以下段落,你会怎么做?
```
......
# 四、特征缩放的效果:从词袋到 TF-IDF
> 译者:[@gin](https://github.com/tirtile)
>
> 校对者:[@HeYun](https://github.com/KyrieHee)
字袋易于生成,但远非完美。假设我们平等的统计所有单词,有些不需要的词也会被强调。在第三章提过一个例子,Emma and the raven。我们希望在文档表示中能强调两个主要角色。示例中,“Eama”和“raven”都出现了3词,但是“the”的出现高达8次,“and”出现了次,另外“it”以及“was”也都出现了4词。仅仅通过简单的频率统计,两个主要角色并不突出。这是有问题的。
其他的像是“magnificently,” “gleamed,” “intimidated,” “tentatively,” 和“reigned,”这些辅助奠定段落基调的词也是很好的选择。它们表示情绪,这对数据科学家来说可能是非常有价值的信息。 所以,理想情况下,我们会倾向突出对有意义单词的表示。
......
# 五、类别特征:机器鸡时代的鸡蛋计数
> 译者:[@ZhenLeiXu](https://github.com/HadXu)
一个类别特征,见名思义,就是用来表达一种类别或标签。比如,一个类别特征能够表达世界上的主要城市,一年四季,或者说一个公司的产品(石油、路程、技术)。在真实世界的数据集中,类别值的数量总是无限的。同时这些值一般可以用数值来表示。但是,与其他数值变量不一样的是,类别特征的数值变量无法与其他数值变量进行比较大小。(作为行业类型,石油与旅行无法进行比较)它们被称之为非序的。
一个简单的问题可以作为测试是否应该是一个分类变量的试金石测试:“两个价值有多么不同,或者只是它们不同?”500美元的股票价格比100美元的价格高5倍。 所以股票价格应该用一个连续的数字变量表示。 另一方面,公司的产业(石油,旅游,技术等)应该无法被比较的,也就是类别特征。
......
# 六、降维:用 PCA 压缩数据集
> 译者:[@cn-Wziv](https://github.com/cn-Wziv)
>
> 校对者:[@HeYun](https://github.com/KyrieHee)
通过自动数据收集和特征生成技术,可以快速获得大量特征,但并非所有这些都有用。在[第 3 章](https://www.safaribooksonline.com/library/view/feature-engineering-for/9781491953235/ch03.html#chap-basic-text)
[第 4 章](https://www.safaribooksonline.com/library/view/feature-engineering-for/9781491953235/ch04.html#chap-tfidf)中,我们讨论了基于频率的滤波和特征缩放修剪无信息的特征。现在我们来仔细讨论一下使用*主成分分析*(PCA)进行数据降维。
......
# 七、非线性特征提取和模型堆叠
> 译者:[@friedhelm739](https://github.com/friedhelm739)
当在数据一个线性子空间像扁平饼时 PCA 是非常有用的。但是如果数据形成更复杂的形状呢?一个平面(线性子空间)可以推广到一个 *流形* (非线性子空间),它可以被认为是一个被各种拉伸和滚动的表面。
如果线性子空间是平的纸张,那么卷起的纸张就是非线性流形的例子。你也可以叫它瑞士卷。(见图 7-1),一旦滚动,二维平面就会变为三维的。然而,它本质上仍是一个二维物体。换句话说,它具有低的内在维度,这是我们在“直觉”中已经接触到的一个概念。如果我们能以某种方式展开瑞士卷,我们就可以恢复到二维平面。这是非线性降维的目标,它假定流形比它所占据的全维更简单,并试图展开它。
......
# 八、自动化特征提取器:图像特征提取和深度学习
> 译者:[@friedhelm739](https://github.com/friedhelm739)
视觉和声音是人类固有的感觉输入。我们的大脑是可以迅速进化我们的能力来处理视觉和听觉信号的,一些系统甚至在出生前就对刺激做出反应。另一方面,语言技能是学习得来的。他们需要几个月或几年的时间来掌握。许多人天生就具有视力和听力的天赋,但是我们所有人都必须有意训练我们的大脑去理解和使用语言。
有趣的是,机器学习的情况是相反的。我们已经在文本分析应用方面取得了比图像或音频更多的进展。以搜索问题为例。人们在信息检索和文本检索方面已经取得了相当多年的成功,而图像和音频搜索仍在不断完善。在过去五年中,深度学习模式的突破最终预示着期待已久的图像和语音分析的革命。
......
# 附录、线性模型和线性代数基
> 译者:[@Sherlock-kid](https://github.com/Sherlock-kid)
## 线性分类概述
当我们有一个已经标记的数据集时,特征空间散布着来自不同类别的数据点。分类器的工作是将不同类别的数据点分开。它可以通过生成一个数据点与另一个数据点非常不同的输出来实现。例如,当这里只有两个类别的时候,一个好的分类器应该为一个类别产生大量的输出,而另一个则为小的输出。作为一个类别而不是另一个类别的点就形成了一个决策平面。
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册