37.md 4.6 KB
Newer Older
L
loopyme 已提交
1
# 5. 数据集转换
W
init  
wizardforcel 已提交
2

L
loopyme 已提交
3
scikit-learn 提供了一个用于转换数据集的库, 它也许会 clean(清理)(请参阅 [预处理数据](40.md#53-预处理数据)), reduce(减少)(请参阅 [无监督降维](42.md#55-无监督降维)), expand(扩展)(请参阅 [内核近似](44.md#57-内核近似))或 generate(生成)(请参阅 [特征提取](39.md#52-特征提取)) feature representations(特征表示).
W
init  
wizardforcel 已提交
4

5
像其它预估计一样, 它们由具有 `fit` 方法的类来表示, 该方法从训练集学习模型参数(例如, 归一化的平均值和标准偏差)以及`transform` 方法将该转换模型应用于不可见数据. 同时 `fit_transform` 可以更方便和有效地建模与转换训练数据.
W
init  
wizardforcel 已提交
6

L
loopyme 已提交
7
[Pipeline(管道)和 FeatureUnion(特征联合): 合并的评估器](38.md#51-pipeline(管道)和-featureunion(特征联合)--合并的评估器) 中 transformers(转换)使用并行的或者串联的方式合并到一起. [成对的矩阵, 类别和核函数](45.md#58-成对的矩阵,-类别和核函数) 涵盖将特征空间转换为 affinity matrices(亲和矩阵), 而 [预测目标 (y) 的转换](46.md#59-预测目标--的转换) 考虑在 scikit-learn 中使用目标空间的转换(例如. 标签分类).
L
loopyme 已提交
8

L
loopyme 已提交
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
* [5.1. Pipeline(管道)和 FeatureUnion(特征联合): 合并的评估器](38.md#51-pipeline(管道)和-featureunion(特征联合)--合并的评估器)
    * [5.1.1. Pipeline: 链式评估器](38.md#511-pipeline--链式评估器)
    * [5.1.2. 回归中的目标转换](38.md#512-回归中的目标转换)
    * [5.1.3. FeatureUnion(特征联合): 复合特征空间](38.md#513-featureunion(特征联合)--复合特征空间)
    * [5.1.4. 用于异构数据的列转换器](38.md#514-用于异构数据的列转换器)
* [5.2. 特征提取](39.md#52-特征提取)
    * [5.2.1. 从字典类型加载特征](39.md#521-从字典类型加载特征)
    * [5.2.2. 特征哈希(相当于一种降维技巧)](39.md#522-特征哈希(相当于一种降维技巧))
    * [5.2.3. 文本特征提取](39.md#523-文本特征提取)
    * [5.2.4. 图像特征提取](39.md#524-图像特征提取)
* [5.3 预处理数据](40.md#53-预处理数据)
    * [5.3.1 标准化,也称去均值和方差按比例缩放](40.md#531-标准化,也称去均值和方差按比例缩放)
    * [5.3.2 非线性转换](40.md#532-非线性转换)
    * [5.3.3 归一化](40.md#533-归一化)
    * [5.3.4 类别特征编码](40.md#534-类别特征编码)
24
    * [5.3.5 离散化](40.md#535-离散化)
L
loopyme 已提交
25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57
    * [5.3.6 缺失值补全](40.md#536-缺失值补全)
    * [5.3.7 生成多项式特征](40.md#537-生成多项式特征)
    * [5.3.8 自定义转换器](40.md#538-自定义转换器)
* [5.4 缺失值插补](41.md#54-缺失值插补)
    * [5.4.1 单变量与多变量插补](41.md#541-单变量与多变量插补)
    * [5.4.2 单变量插补](41.md#542-单变量插补)
    * [5.4.4 参考](41.md#544-参考)
    * [5.4.5 标记缺失值](41.md#545-标记缺失值)
* [5.5. 无监督降维](42.md#55-无监督降维)
    * [5.5.1. PCA: 主成份分析](42.md#551-pca--主成份分析)
    * [5.5.2. 随机投影](42.md#552-随机投影)
    * [5.5.3. 特征聚集](42.md#553-特征聚集)
* [5.6. 随机投影](43.md#56-随机投影)
    * [5.6.1. Johnson-Lindenstrauss 辅助定理](43.md#561-johnson-lindenstrauss-辅助定理)
    * [5.6.2. 高斯随机投影](43.md#562-高斯随机投影)
    * [5.6.3. 稀疏随机矩阵](43.md#563-稀疏随机矩阵)
* [5.7. 内核近似](44.md#57-内核近似)
    * [5.7.1. 内核近似的 Nystroem 方法](44.md#571-内核近似的-nystroem-方法)
    * [5.7.2. 径向基函数内核](44.md#572-径向基函数内核)
    * [5.7.3. 加性卡方核](44.md#573-加性卡方核)
    * [5.7.4. Skewed Chi Squared Kernel (偏斜卡方核?暂译)](44.md#574-skewed-chi-squared-kernel-)
    * [5.7.5. 数学方面的细节](44.md#575-数学方面的细节)
* [5.8. 成对的矩阵, 类别和核函数](45.md#58-成对的矩阵,-类别和核函数)
    * [5.8.1. 余弦相似度](45.md#581-余弦相似度)
    * [5.8.2. 线性核函数](45.md#582-线性核函数)
    * [5.8.3. 多项式核函数](45.md#583-多项式核函数)
    * [5.8.4. Sigmoid 核函数](45.md#584-sigmoid-核函数)
    * [5.8.5. RBF 核函数](45.md#585-rbf-核函数)
    * [5.8.6. 拉普拉斯核函数](45.md#586-拉普拉斯核函数)
    * [5.8.7. 卡方核函数](45.md#587-卡方核函数)
* [5.9. 预测目标 (`y`) 的转换](46.md#59-预测目标--的转换)
    * [5.9.1. 标签二值化](46.md#591-标签二值化)
    * [5.9.2. 标签编码](46.md#592-标签编码)
L
loopyme 已提交
58 59