# 5. 数据集转换 scikit-learn 提供了一个用于转换数据集的库, 它也许会 clean(清理)(请参阅 [预处理数据](40.md#53-预处理数据)), reduce(减少)(请参阅 [无监督降维](42.md#55-无监督降维)), expand(扩展)(请参阅 [内核近似](44.md#57-内核近似))或 generate(生成)(请参阅 [特征提取](39.md#52-特征提取)) feature representations(特征表示). 像其它预估计一样, 它们由具有 `fit` 方法的类来表示, 该方法从训练集学习模型参数(例如, 归一化的平均值和标准偏差)以及`transform` 方法将该转换模型应用于不可见数据. 同时 `fit_transform` 可以更方便和有效地建模与转换训练数据. 将 [Pipeline(管道)和 FeatureUnion(特征联合): 合并的评估器](38.md#51-pipeline(管道)和-featureunion(特征联合)--合并的评估器) 中 transformers(转换)使用并行的或者串联的方式合并到一起. [成对的矩阵, 类别和核函数](45.md#58-成对的矩阵,-类别和核函数) 涵盖将特征空间转换为 affinity matrices(亲和矩阵), 而 [预测目标 (y) 的转换](46.md#59-预测目标--的转换) 考虑在 scikit-learn 中使用目标空间的转换(例如. 标签分类). * [5.1. Pipeline(管道)和 FeatureUnion(特征联合): 合并的评估器](38.md#51-pipeline(管道)和-featureunion(特征联合)--合并的评估器) * [5.1.1. Pipeline: 链式评估器](38.md#511-pipeline--链式评估器) * [5.1.2. 回归中的目标转换](38.md#512-回归中的目标转换) * [5.1.3. FeatureUnion(特征联合): 复合特征空间](38.md#513-featureunion(特征联合)--复合特征空间) * [5.1.4. 用于异构数据的列转换器](38.md#514-用于异构数据的列转换器) * [5.2. 特征提取](39.md#52-特征提取) * [5.2.1. 从字典类型加载特征](39.md#521-从字典类型加载特征) * [5.2.2. 特征哈希(相当于一种降维技巧)](39.md#522-特征哈希(相当于一种降维技巧)) * [5.2.3. 文本特征提取](39.md#523-文本特征提取) * [5.2.4. 图像特征提取](39.md#524-图像特征提取) * [5.3 预处理数据](40.md#53-预处理数据) * [5.3.1 标准化,也称去均值和方差按比例缩放](40.md#531-标准化,也称去均值和方差按比例缩放) * [5.3.2 非线性转换](40.md#532-非线性转换) * [5.3.3 归一化](40.md#533-归一化) * [5.3.4 类别特征编码](40.md#534-类别特征编码) * [5.3.5 离散化](40.md#535-离散化) * [5.3.6 缺失值补全](40.md#536-缺失值补全) * [5.3.7 生成多项式特征](40.md#537-生成多项式特征) * [5.3.8 自定义转换器](40.md#538-自定义转换器) * [5.4 缺失值插补](41.md#54-缺失值插补) * [5.4.1 单变量与多变量插补](41.md#541-单变量与多变量插补) * [5.4.2 单变量插补](41.md#542-单变量插补) * [5.4.4 参考](41.md#544-参考) * [5.4.5 标记缺失值](41.md#545-标记缺失值) * [5.5. 无监督降维](42.md#55-无监督降维) * [5.5.1. PCA: 主成份分析](42.md#551-pca--主成份分析) * [5.5.2. 随机投影](42.md#552-随机投影) * [5.5.3. 特征聚集](42.md#553-特征聚集) * [5.6. 随机投影](43.md#56-随机投影) * [5.6.1. Johnson-Lindenstrauss 辅助定理](43.md#561-johnson-lindenstrauss-辅助定理) * [5.6.2. 高斯随机投影](43.md#562-高斯随机投影) * [5.6.3. 稀疏随机矩阵](43.md#563-稀疏随机矩阵) * [5.7. 内核近似](44.md#57-内核近似) * [5.7.1. 内核近似的 Nystroem 方法](44.md#571-内核近似的-nystroem-方法) * [5.7.2. 径向基函数内核](44.md#572-径向基函数内核) * [5.7.3. 加性卡方核](44.md#573-加性卡方核) * [5.7.4. Skewed Chi Squared Kernel (偏斜卡方核?暂译)](44.md#574-skewed-chi-squared-kernel-) * [5.7.5. 数学方面的细节](44.md#575-数学方面的细节) * [5.8. 成对的矩阵, 类别和核函数](45.md#58-成对的矩阵,-类别和核函数) * [5.8.1. 余弦相似度](45.md#581-余弦相似度) * [5.8.2. 线性核函数](45.md#582-线性核函数) * [5.8.3. 多项式核函数](45.md#583-多项式核函数) * [5.8.4. Sigmoid 核函数](45.md#584-sigmoid-核函数) * [5.8.5. RBF 核函数](45.md#585-rbf-核函数) * [5.8.6. 拉普拉斯核函数](45.md#586-拉普拉斯核函数) * [5.8.7. 卡方核函数](45.md#587-卡方核函数) * [5.9. 预测目标 (`y`) 的转换](46.md#59-预测目标--的转换) * [5.9.1. 标签二值化](46.md#591-标签二值化) * [5.9.2. 标签编码](46.md#592-标签编码)