diff --git a/README.md b/README.md index 8805a3f6967f5e3834936a18ec527035c1a86ec3..d005b76696769899912ac38d085a798a4608af1f 100644 --- a/README.md +++ b/README.md @@ -8,14 +8,11 @@ > > **欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远** +* [在线阅读](http://fe4ml.apachecn.org) * [ApacheCN 机器学习交流群 629470233](http://shang.qq.com/wpa/qunwpa?idkey=30e5f1123a79867570f665aa3a483ca404b1c3f77737bc01ec520ed5f078ddef) * [ApacheCN 学习资源](http://www.apachecn.org/) * [利用 Python 进行数据分析 第二版](https://github.com/apachecn/pyda-2e-zh) - - -+ [在线阅读](http://fe4ml.apachecn.org) - ## 目录 + [一、引言](docs/1.引言.md) @@ -29,27 +26,10 @@ + 九、回到特征:将它们放到一起 + [附录、线性模型和线性代数基础](docs/附录.线性模型和线性代数基础.md) -## 联系方式 - -### 负责人 +## 负责人 * [@飞龙](https://github.com/wizardforcel): 562826179 -### 贡献者 - -| 标题 | 译者 | 校对 | -| --- | --- | --- | -| 一、引言 | [@ZhipengYe](https://github.com/ZhipengYe) | -| 二、简单数字的奇特技巧 | [@coboe](https://github.com/coboe) | [@Ziseon Jiao](https://github.com/emengjzs) | -| 三、文本数据:展开、过滤和分块 | [@kkejili](https://github.com/kkejili) | [@HeYun](https://github.com/KyrieHee) | -| 四、特征缩放的效果:从词袋到 TF-IDF | [@gin](https://github.com/tirtile) | [@HeYun](https://github.com/KyrieHee) | -| 五、类别特征:机器鸡时代的鸡蛋计数 | [@ZhenLei Xu](https://github.com/HadXu) | -| 六、降维:使用 PCA 压缩数据集 | [@cn-Wziv](https://github.com/cn-Wziv) | [@HeYun](https://github.com/KyrieHee) | -| 七、非线性特征提取和模型堆叠 | [@friedhelm739](https://github.com/friedhelm739) | -| 八、自动化特征提取器:图像特征提取和深度学习 | [@friedhelm739](https://github.com/friedhelm739) | -| 九、回到特征:将它们放到一起 | | -| 附录、线性模型和线性代数基础 | [@Sherlock-kid](https://github.com/Sherlock-kid) | - ## 免责声明 ApacheCN 纯粹出于学习目的与个人兴趣翻译本书,不追求任何经济利益。 diff --git "a/docs/1.\345\274\225\350\250\200.md" "b/docs/1.\345\274\225\350\250\200.md" index 8d206e04a872f6fa972b1f58e3db48c42682e51b..17765d674a098287fd682fbd8eecbed1f304d392 100644 --- "a/docs/1.\345\274\225\350\250\200.md" +++ "b/docs/1.\345\274\225\350\250\200.md" @@ -1,5 +1,7 @@ # 一、引言 +> 译者:[@ZhipengYe](https://github.com/ZhipengYe) + 机器学习将数据拟合到数学模型中来获得结论或者做出预测。这些模型吸纳特征作为输入。特征就是原始数据某方面的数学表现。在机器学习流水线中特征位于数据和模型之间。特征工程是一项从数据中提取特征,然后转换成适合机器学习模型的格式的艺术。这是机器学习流水线关键的一步,因为正确的特征可以减轻建模的难度,并因此使流水线能输出更高质量的结果。从业者们认为构建机器学习流水线的绝大多数时间都花在特征工程和数据清洗上。然后,尽管它很重要,这个话题却很少单独讨论。也许是因为正确的特征只能在模型和数据的背景中定义。由于数据和模型如此多样化,所以很难概括项目中特征工程的实践。 尽管如此,特征工程不仅仅是一种临时实践。工作中有更深层的原则,最好就地进行说明。本书的每一章都针对一个数据问题:如何表示文本数据或图像数据,如何降低自动生成的特征的维度,何时以及如何规范化等等。把它看作是一个相互联系的短篇小说集,而不是一本长篇小说。每章都提供了大量现有特征工程技术的插图。它们一起阐明了总体原则。 diff --git "a/docs/2.\347\256\200\345\215\225\346\225\260\345\255\227\347\232\204\345\245\207\347\211\271\346\212\200\345\267\247.md" "b/docs/2.\347\256\200\345\215\225\346\225\260\345\255\227\347\232\204\345\245\207\347\211\271\346\212\200\345\267\247.md" index 6b94d7b438236f00e0a7350b18ceea24f20750ab..43cf52a4f9f1ad7e5e69c073b6408545237ea156 100644 --- "a/docs/2.\347\256\200\345\215\225\346\225\260\345\255\227\347\232\204\345\245\207\347\211\271\346\212\200\345\267\247.md" +++ "b/docs/2.\347\256\200\345\215\225\346\225\260\345\255\227\347\232\204\345\245\207\347\211\271\346\212\200\345\267\247.md" @@ -1,5 +1,9 @@ # 二、简单数字的奇特技巧 +> 译者:[@coboe](https://github.com/coboe) +> +> 校对者:[@ZiseonJiao](https://github.com/emengjzs) + 在深入研究诸如文本和图像这样的复杂数据类型之前,让我们先从最简单的数字数据开始。它们可能来自各种来源:地理位置或人、购买的价格、传感器的测量、交通计数等。数字数据已经是数学模型容易消化的格式。这并不意味着不再需要特征工程。好的特征不仅代表数据的显著方面,而且符合模型的假设。因此,转换常常是必要的。数字特征工程技术是基础。当原始数据被转换为数字特征时,它们可以被应用。 数值数据的第一个健全检查是大小是否重要。我们只需要知道它是正面的还是负面的?或者我们只需要知道一个非常粗粒度的大小?这一明智的检查对于自动累积数尤其重要,比如统计,每天访问网站的次数,餐馆所获得的评论数量等等。 diff --git "a/docs/3.\346\226\207\346\234\254\346\225\260\346\215\256.md" "b/docs/3.\346\226\207\346\234\254\346\225\260\346\215\256.md" index d37f8fd3605180d9f1f76a54a84368bf7313a5fe..aed8fcbb232645ef7090828da402bd5e52100149 100644 --- "a/docs/3.\346\226\207\346\234\254\346\225\260\346\215\256.md" +++ "b/docs/3.\346\226\207\346\234\254\346\225\260\346\215\256.md" @@ -1,5 +1,9 @@ # 三、文本数据: 展开、过滤和分块 +> 译者:[@kkejili](https://github.com/kkejili) +> +> 校对者:[@HeYun](https://github.com/KyrieHee) + 如果让你来设计一个算法来分析以下段落,你会怎么做? ``` diff --git "a/docs/4.\347\211\271\345\276\201\347\274\251\346\224\276\347\232\204\346\225\210\346\236\234\357\274\232\344\273\216\350\257\215\350\242\213\345\210\260_TF-IDF.md" "b/docs/4.\347\211\271\345\276\201\347\274\251\346\224\276\347\232\204\346\225\210\346\236\234\357\274\232\344\273\216\350\257\215\350\242\213\345\210\260_TF-IDF.md" index e1d144b64a6ffba37018adc56b4e7abb4a530cc3..d2058f3262ca2af4bbfc341676b2095e5455be1c 100644 --- "a/docs/4.\347\211\271\345\276\201\347\274\251\346\224\276\347\232\204\346\225\210\346\236\234\357\274\232\344\273\216\350\257\215\350\242\213\345\210\260_TF-IDF.md" +++ "b/docs/4.\347\211\271\345\276\201\347\274\251\346\224\276\347\232\204\346\225\210\346\236\234\357\274\232\344\273\216\350\257\215\350\242\213\345\210\260_TF-IDF.md" @@ -1,5 +1,9 @@ # 四、特征缩放的效果:从词袋到 TF-IDF +> 译者:[@gin](https://github.com/tirtile) +> +> 校对者:[@HeYun](https://github.com/KyrieHee) + 字袋易于生成,但远非完美。假设我们平等的统计所有单词,有些不需要的词也会被强调。在第三章提过一个例子,Emma and the raven。我们希望在文档表示中能强调两个主要角色。示例中,“Eama”和“raven”都出现了3词,但是“the”的出现高达8次,“and”出现了次,另外“it”以及“was”也都出现了4词。仅仅通过简单的频率统计,两个主要角色并不突出。这是有问题的。 其他的像是“magnificently,” “gleamed,” “intimidated,” “tentatively,” 和“reigned,”这些辅助奠定段落基调的词也是很好的选择。它们表示情绪,这对数据科学家来说可能是非常有价值的信息。 所以,理想情况下,我们会倾向突出对有意义单词的表示。 diff --git "a/docs/5.\347\261\273\345\210\253\347\211\271\345\276\201.md" "b/docs/5.\347\261\273\345\210\253\347\211\271\345\276\201.md" index ba4f58722214893174db26ea408d75e072b0038f..8caf498047ca21f8a6df4b109facd63d84b0ecda 100644 --- "a/docs/5.\347\261\273\345\210\253\347\211\271\345\276\201.md" +++ "b/docs/5.\347\261\273\345\210\253\347\211\271\345\276\201.md" @@ -1,5 +1,7 @@ # 五、类别特征:机器鸡时代的鸡蛋计数 +> 译者:[@ZhenLeiXu](https://github.com/HadXu) + 一个类别特征,见名思义,就是用来表达一种类别或标签。比如,一个类别特征能够表达世界上的主要城市,一年四季,或者说一个公司的产品(石油、路程、技术)。在真实世界的数据集中,类别值的数量总是无限的。同时这些值一般可以用数值来表示。但是,与其他数值变量不一样的是,类别特征的数值变量无法与其他数值变量进行比较大小。(作为行业类型,石油与旅行无法进行比较)它们被称之为非序的。 一个简单的问题可以作为测试是否应该是一个分类变量的试金石测试:“两个价值有多么不同,或者只是它们不同?”500美元的股票价格比100美元的价格高5倍。 所以股票价格应该用一个连续的数字变量表示。 另一方面,公司的产业(石油,旅游,技术等)应该无法被比较的,也就是类别特征。 diff --git "a/docs/6.\351\231\215\347\273\264\357\274\232\347\224\250_PCA_\345\216\213\347\274\251\346\225\260\346\215\256\351\233\206.md" "b/docs/6.\351\231\215\347\273\264\357\274\232\347\224\250_PCA_\345\216\213\347\274\251\346\225\260\346\215\256\351\233\206.md" index 24fd800a4e704372a7565da6ea08b9d280762367..e63dde0d95ef0d622100f22084db49666193cb87 100644 --- "a/docs/6.\351\231\215\347\273\264\357\274\232\347\224\250_PCA_\345\216\213\347\274\251\346\225\260\346\215\256\351\233\206.md" +++ "b/docs/6.\351\231\215\347\273\264\357\274\232\347\224\250_PCA_\345\216\213\347\274\251\346\225\260\346\215\256\351\233\206.md" @@ -1,5 +1,9 @@ # 六、降维:用 PCA 压缩数据集 +> 译者:[@cn-Wziv](https://github.com/cn-Wziv) +> +> 校对者:[@HeYun](https://github.com/KyrieHee) + 通过自动数据收集和特征生成技术,可以快速获得大量特征,但并非所有这些都有用。在[第 3 章](https://www.safaribooksonline.com/library/view/feature-engineering-for/9781491953235/ch03.html#chap-basic-text)和 在[第 4 章](https://www.safaribooksonline.com/library/view/feature-engineering-for/9781491953235/ch04.html#chap-tfidf)中,我们讨论了基于频率的滤波和特征缩放修剪无信息的特征。现在我们来仔细讨论一下使用*主成分分析*(PCA)进行数据降维。 diff --git "a/docs/7.\351\235\236\347\272\277\346\200\247\347\211\271\345\276\201\346\217\220\345\217\226\345\222\214\346\250\241\345\236\213\345\240\206\345\217\240.md" "b/docs/7.\351\235\236\347\272\277\346\200\247\347\211\271\345\276\201\346\217\220\345\217\226\345\222\214\346\250\241\345\236\213\345\240\206\345\217\240.md" index 79e558a63f3bd773e0abae64b754e4e328acc3e4..7389d2f670515826baa815ec23c95e1e601eb510 100644 --- "a/docs/7.\351\235\236\347\272\277\346\200\247\347\211\271\345\276\201\346\217\220\345\217\226\345\222\214\346\250\241\345\236\213\345\240\206\345\217\240.md" +++ "b/docs/7.\351\235\236\347\272\277\346\200\247\347\211\271\345\276\201\346\217\220\345\217\226\345\222\214\346\250\241\345\236\213\345\240\206\345\217\240.md" @@ -1,5 +1,7 @@ # 七、非线性特征提取和模型堆叠 +> 译者:[@friedhelm739](https://github.com/friedhelm739) + 当在数据一个线性子空间像扁平饼时 PCA 是非常有用的。但是如果数据形成更复杂的形状呢?一个平面(线性子空间)可以推广到一个 *流形* (非线性子空间),它可以被认为是一个被各种拉伸和滚动的表面。 如果线性子空间是平的纸张,那么卷起的纸张就是非线性流形的例子。你也可以叫它瑞士卷。(见图 7-1),一旦滚动,二维平面就会变为三维的。然而,它本质上仍是一个二维物体。换句话说,它具有低的内在维度,这是我们在“直觉”中已经接触到的一个概念。如果我们能以某种方式展开瑞士卷,我们就可以恢复到二维平面。这是非线性降维的目标,它假定流形比它所占据的全维更简单,并试图展开它。 diff --git "a/docs/8.\350\207\252\345\212\250\345\214\226\347\211\271\345\276\201\346\217\220\345\217\226\345\231\250\357\274\232\345\233\276\345\203\217\347\211\271\345\276\201\346\217\220\345\217\226\345\222\214\346\267\261\345\272\246\345\255\246\344\271\240.md" "b/docs/8.\350\207\252\345\212\250\345\214\226\347\211\271\345\276\201\346\217\220\345\217\226\345\231\250\357\274\232\345\233\276\345\203\217\347\211\271\345\276\201\346\217\220\345\217\226\345\222\214\346\267\261\345\272\246\345\255\246\344\271\240.md" index de4797649aac3f63d0490761765ab0e219cb366e..cb1776bac3c27c4e302a0ce0dba5c706d8b7d653 100644 --- "a/docs/8.\350\207\252\345\212\250\345\214\226\347\211\271\345\276\201\346\217\220\345\217\226\345\231\250\357\274\232\345\233\276\345\203\217\347\211\271\345\276\201\346\217\220\345\217\226\345\222\214\346\267\261\345\272\246\345\255\246\344\271\240.md" +++ "b/docs/8.\350\207\252\345\212\250\345\214\226\347\211\271\345\276\201\346\217\220\345\217\226\345\231\250\357\274\232\345\233\276\345\203\217\347\211\271\345\276\201\346\217\220\345\217\226\345\222\214\346\267\261\345\272\246\345\255\246\344\271\240.md" @@ -1,5 +1,7 @@ # 八、自动化特征提取器:图像特征提取和深度学习 +> 译者:[@friedhelm739](https://github.com/friedhelm739) + 视觉和声音是人类固有的感觉输入。我们的大脑是可以迅速进化我们的能力来处理视觉和听觉信号的,一些系统甚至在出生前就对刺激做出反应。另一方面,语言技能是学习得来的。他们需要几个月或几年的时间来掌握。许多人天生就具有视力和听力的天赋,但是我们所有人都必须有意训练我们的大脑去理解和使用语言。 有趣的是,机器学习的情况是相反的。我们已经在文本分析应用方面取得了比图像或音频更多的进展。以搜索问题为例。人们在信息检索和文本检索方面已经取得了相当多年的成功,而图像和音频搜索仍在不断完善。在过去五年中,深度学习模式的突破最终预示着期待已久的图像和语音分析的革命。 diff --git "a/docs/\351\231\204\345\275\225.\347\272\277\346\200\247\346\250\241\345\236\213\345\222\214\347\272\277\346\200\247\344\273\243\346\225\260\345\237\272\347\241\200.md" "b/docs/\351\231\204\345\275\225.\347\272\277\346\200\247\346\250\241\345\236\213\345\222\214\347\272\277\346\200\247\344\273\243\346\225\260\345\237\272\347\241\200.md" index e6870bc763f9bdded5555209d3a7a7d466833e95..8dda58bf2aab9878654055d75c9dc3344f442364 100644 --- "a/docs/\351\231\204\345\275\225.\347\272\277\346\200\247\346\250\241\345\236\213\345\222\214\347\272\277\346\200\247\344\273\243\346\225\260\345\237\272\347\241\200.md" +++ "b/docs/\351\231\204\345\275\225.\347\272\277\346\200\247\346\250\241\345\236\213\345\222\214\347\272\277\346\200\247\344\273\243\346\225\260\345\237\272\347\241\200.md" @@ -1,5 +1,7 @@ # 附录、线性模型和线性代数基 +> 译者:[@Sherlock-kid](https://github.com/Sherlock-kid) + ## 线性分类概述 当我们有一个已经标记的数据集时,特征空间散布着来自不同类别的数据点。分类器的工作是将不同类别的数据点分开。它可以通过生成一个数据点与另一个数据点非常不同的输出来实现。例如,当这里只有两个类别的时候,一个好的分类器应该为一个类别产生大量的输出,而另一个则为小的输出。作为一个类别而不是另一个类别的点就形成了一个决策平面。