diff --git a/docs/0.21.3/1.md b/docs/0.21.3/1.md
index 73b406b5a63fbf2555d9d64613f4ecf16a5c5236..1662ec969fbcbd36c6a436da681c5f66b4a9c911 100644
--- a/docs/0.21.3/1.md
+++ b/docs/0.21.3/1.md
@@ -1,106 +1,106 @@
 # 1. 监督学习
-* [1.1 广义线性模型](2.md#11-广义线性模型)
-    * [1.1.1 普通最小二乘法](2.md#111-普通最小二乘法)
-    * [1.1.2 岭回归](2.md#112-岭回归)
-    * [1.1.3 Lasso](2.md#113-lasso)
-    * [1.1.4 多任务 Lasso](2.md#114-多任务-lasso)
-    * [1.1.5 弹性网络](2.md#115-弹性网络)
-    * [1.1.6 多任务弹性网络](2.md#116-多任务弹性网络)
-    * [1.1.7 最小角回归](2.md#117-最小角回归)
-    * [1.1.8 LARS Lasso](2.md#118-lars-lasso)
-    * [1.1.9 正交匹配追踪法（OMP）](2.md#119-正交匹配追踪法（omp）)
-    * [1.1.10 贝叶斯回归](2.md#1110-贝叶斯回归)
-    * [1.1.11 logistic 回归](2.md#1111-logistic-回归)
-    * [1.1.12 随机梯度下降， SGD](2.md#1112-随机梯度下降，-sgd)
-    * [1.1.13 Perceptron（感知器）](2.md#1113-perceptron（感知器）)
-    * [1.1.14 Passive Aggressive Algorithms（被动攻击算法）](2.md#1114-passive-aggressive-algorithms（被动攻击算法）)
-    * [1.1.15 稳健回归（Robustness regression）: 处理离群点（outliers）和模型错误](2.md#1115-稳健回归（robustness-regression）:-处理离群点（outliers）和模型错误)
-    * [1.1.16 多项式回归：用基函数展开线性模型](2.md#1116-多项式回归：用基函数展开线性模型)
-* [1.2 线性和二次判别分析](3.md#12-线性和二次判别分析)
-    * [1.2.1 使用线性判别分析来降维](3.md#121-使用线性判别分析来降维)
-    * [1.2.2 LDA 和 QDA 分类器的数学公式](3.md#122-lda-和-qda-分类器的数学公式)
-    * [1.2.3 LDA 的降维数学公式](3.md#123-lda-的降维数学公式)
-    * [1.2.4 Shrinkage（收缩）](3.md#124-shrinkage（收缩）)
-    * [1.2.5 预估算法](3.md#125-预估算法)
-* [1.3 内核岭回归](4.md#13-内核岭回归)
-* [1.4 支持向量机](5.md#14-支持向量机)
-    * [1.4.1 分类](5.md#141-分类)
-    * [1.4.2 回归](5.md#142-回归)
-    * [1.4.3 密度估计, 异常（novelty）检测](5.md#143-密度估计,-异常（novelty）检测)
-    * [1.4.4 复杂度](5.md#144-复杂度)
-    * [1.4.5 使用诀窍](5.md#145-使用诀窍)
-    * [1.4.6 核函数](5.md#146-核函数)
-    * [1.4.7 数学公式](5.md#147-数学公式)
-    * [1.4.8 实现细节](5.md#148-实现细节)
-* [1.5 随机梯度下降](6.md#15-随机梯度下降)
-    * [1.5.1 分类](6.md#151-分类)
-    * [1.5.2 回归](6.md#152-回归)
-    * [1.5.3 稀疏数据的随机梯度下降](6.md#153-稀疏数据的随机梯度下降)
-    * [1.5.4 复杂度](6.md#154-复杂度)
-    * [1.5.5 停止判据](6.md#155-停止判据)
-    * [1.5.6 实用小贴士](6.md#156-实用小贴士)
-    * [1.5.7 数学描述](6.md#157-数学描述)
-    * [1.5.8 实现细节](6.md#158-实现细节)
-* [1.6 最近邻](7.md#16-最近邻)
-    * [1.6.1 无监督最近邻](7.md#161-无监督最近邻)
-    * [1.6.2 最近邻分类](7.md#162-最近邻分类)
-    * [1.6.3 最近邻回归](7.md#163-最近邻回归)
-    * [1.6.4 最近邻算法](7.md#164-最近邻算法)
-    * [1.6.5 最近质心分类](7.md#165-最近质心分类)
-    * [1.6.6 邻域成分分析](7.md#166-邻域成分分析)
-* [1.7 高斯过程](8.md#17-高斯过程)
-    * [1.7.1 高斯过程回归（GPR）](8.md#171-高斯过程回归（gpr）)
-    * [1.7.2 GPR 示例](8.md#172-gpr-示例)
-    * [1.7.3 高斯过程分类（GPC）](8.md#173-高斯过程分类（gpc）)
-    * [1.7.4 GPC 示例](8.md#174-gpc-示例)
-    * [1.7.5 高斯过程内核](8.md#175-高斯过程内核)
-* [1.8 交叉分解](9.md#18-交叉分解)
-* [1.9 朴素贝叶斯](10.md#19-朴素贝叶斯)
-    * [1.9.1 高斯朴素贝叶斯](10.md#191-高斯朴素贝叶斯)
-    * [1.9.2 多项分布朴素贝叶斯](10.md#192-多项分布朴素贝叶斯)
-    * [1.9.3 补充朴素贝叶斯](10.md#193-补充朴素贝叶斯)
-    * [1.9.4 伯努利朴素贝叶斯](10.md#194-伯努利朴素贝叶斯)
-    * [1.9.5 堆外朴素贝叶斯模型拟合](10.md#195-堆外朴素贝叶斯模型拟合)
-* [1.10 决策树](11.md#110-决策树)
-    * [1.10.1 分类](11.md#1101-分类)
-    * [1.10.2 回归](11.md#1102-回归)
-    * [1.10.3 多值输出问题](11.md#1103-多值输出问题)
-    * [1.10.4 复杂度分析](11.md#1104-复杂度分析)
-    * [1.10.5 实际使用技巧](11.md#1105-实际使用技巧)
-    * [1.10.6 决策树算法: ID3, C4.5, C5.0 和 CART](11.md#1106-决策树算法-id3-c45-c50-和-cart)
-    * [1.10.7 数学表达](11.md#1107-数学表达)
-* [1.11 集成方法](12.md#111-集成方法)
-    * [1.11.1 Bagging meta-estimator（Bagging 元估计器）](12.md#1111-bagging-meta-estimator（bagging-元估计器）)
-    * [1.11.2 由随机树组成的森林](12.md#1112-由随机树组成的森林)
-    * [1.11.3 AdaBoost](12.md#1113-adaboost)
-    * [1.11.4 Gradient Tree Boosting（梯度树提升）](12.md#1114-gradient-tree-boosting（梯度树提升）)
-    * [1.11.5 Voting Classifier（投票分类器）](12.md#1115-voting-classifier（投票分类器）)
-        * [1.11.6. 投票回归器(Voting Regressor)](12.md#1116-投票回归器voting-regressor)
-* [1.12 多类和多标签算法](13.md#112-多类和多标签算法)
-    * [1.12.1 多标签分类格式](13.md#1121-多标签分类格式)
-    * [1.12.2 1对其余](13.md#1122-1对其余)
-    * [1.12.3 1对1](13.md#1123-1对1)
-    * [1.12.4 误差校正输出代码](13.md#1124-误差校正输出代码)
-    * [1.12.5 多输出回归](13.md#1125-多输出回归)
-    * [1.12.6 多输出分类](13.md#1126-多输出分类)
-    * [1.12.7 链式分类器](13.md#1127-链式分类器)
-* [1.13 特征选择](14.md#113-特征选择)
-    * [1.13.1 移除低方差特征](14.md#1131-移除低方差特征)
-    * [1.13.2 单变量特征选择](14.md#1132-单变量特征选择)
-    * [1.13.3 递归式特征消除](14.md#1133-递归式特征消除)
-    * [1.13.4 使用 SelectFromModel 选取特征](14.md#1134-使用-selectfrommodel-选取特征)
-    * [1.13.5 特征选取作为 pipeline（管道）的一部分](14.md#1135-特征选取作为-pipeline（管道）的一部分)
-* [1.14 半监督学习](15.md#114-半监督学习)
-    * [1.14.1 标签传播](15.md#1141-标签传播)
-* [1.15 等式回归](16.md#115-等式回归)
-* [1.16 概率校准](17.md#116-概率校准)
-* [1.17 神经网络模型（有监督）](18.md#117-神经网络模型（有监督）)
-    * [1.17.1 多层感知器](18.md#1171-多层感知器)
-    * [1.17.2 分类](18.md#1172-分类)
-    * [1.17.3 回归](18.md#1173-回归)
-    * [1.17.4 正则化](18.md#1174-正则化)
-    * [1.17.5 算法](18.md#1175-算法)
-    * [1.17.6 复杂度](18.md#1176-复杂度)
-    * [1.17.7 数学公式](18.md#1177-数学公式)
-    * [1.17.8 实用技巧](18.md#1178-实用技巧)
-    * [1.17.9 使用 warm_start 的更多控制](18.md#1179-使用-warm_start-的更多控制)
+* [1.1. 广义线性模型](2.md#11-广义线性模型)
+    * [1.1.1. 普通最小二乘法](2.md#111-普通最小二乘法)
+    * [1.1.2. 岭回归](2.md#112-岭回归)
+    * [1.1.3. Lasso](2.md#113-lasso)
+    * [1.1.4. 多任务 Lasso](2.md#114-多任务-lasso)
+    * [1.1.5. 弹性网络](2.md#115-弹性网络)
+    * [1.1.6. 多任务弹性网络](2.md#116-多任务弹性网络)
+    * [1.1.7. 最小角回归](2.md#117-最小角回归)
+    * [1.1.8. LARS Lasso](2.md#118-lars-lasso)
+    * [1.1.9. 正交匹配追踪法（OMP）](2.md#119-正交匹配追踪法（omp）)
+    * [1.1.10. 贝叶斯回归](2.md#1110-贝叶斯回归)
+    * [1.1.11. logistic 回归](2.md#1111-logistic-回归)
+    * [1.1.12. 随机梯度下降， SGD](2.md#1112-随机梯度下降，-sgd)
+    * [1.1.13. Perceptron（感知器）](2.md#1113-perceptron（感知器）)
+    * [1.1.14. Passive Aggressive Algorithms（被动攻击算法）](2.md#1114-passive-aggressive-algorithms（被动攻击算法）)
+    * [1.1.15. 稳健回归（Robustness regression）: 处理离群点（outliers）和模型错误](2.md#1115-稳健回归（robustness-regression）--处理离群点（outliers）和模型错误)
+    * [1.1.16. 多项式回归：用基函数展开线性模型](2.md#1116-多项式回归：用基函数展开线性模型)
+* [1.2. 线性和二次判别分析](3.md#12-线性和二次判别分析)
+    * [1.2.1. 使用线性判别分析来降维](3.md#121-使用线性判别分析来降维)
+    * [1.2.2. LDA 和 QDA 分类器的数学公式](3.md#122-lda-和-qda-分类器的数学公式)
+    * [1.2.3. LDA 的降维数学公式](3.md#123-lda-的降维数学公式)
+    * [1.2.4. Shrinkage（收缩）](3.md#124-shrinkage（收缩）)
+    * [1.2.5. 预估算法](3.md#125-预估算法)
+* [1.3. 内核岭回归](4.md#13-内核岭回归)
+* [1.4. 支持向量机](5.md#14-支持向量机)
+    * [1.4.1. 分类](5.md#141-分类)
+    * [1.4.2. 回归](5.md#142-回归)
+    * [1.4.3. 密度估计, 异常（novelty）检测](5.md#143-密度估计,-异常（novelty）检测)
+    * [1.4.4. 复杂度](5.md#144-复杂度)
+    * [1.4.5. 使用诀窍](5.md#145-使用诀窍)
+    * [1.4.6. 核函数](5.md#146-核函数)
+    * [1.4.7. 数学公式](5.md#147-数学公式)
+    * [1.4.8. 实现细节](5.md#148-实现细节)
+* [1.5. 随机梯度下降](6.md#15-随机梯度下降)
+    * [1.5.1. 分类](6.md#151-分类)
+    * [1.5.2. 回归](6.md#152-回归)
+    * [1.5.3. 稀疏数据的随机梯度下降](6.md#153-稀疏数据的随机梯度下降)
+    * [1.5.4. 复杂度](6.md#154-复杂度)
+    * [1.5.5. 停止判据](6.md#155-停止判据)
+    * [1.5.6. 实用小贴士](6.md#156-实用小贴士)
+    * [1.5.7. 数学描述](6.md#157-数学描述)
+    * [1.5.8. 实现细节](6.md#158-实现细节)
+* [1.6. 最近邻](7.md#16-最近邻)
+    * [1.6.1. 无监督最近邻](7.md#161-无监督最近邻)
+    * [1.6.2. 最近邻分类](7.md#162-最近邻分类)
+    * [1.6.3. 最近邻回归](7.md#163-最近邻回归)
+    * [1.6.4. 最近邻算法](7.md#164-最近邻算法)
+    * [1.6.5. 最近质心分类](7.md#165-最近质心分类)
+    * [1.6.6. 邻域成分分析](7.md#166-邻域成分分析)
+* [1.7. 高斯过程](8.md#17-高斯过程)
+    * [1.7.1. 高斯过程回归（GPR）](8.md#171-高斯过程回归（gpr）)
+    * [1.7.2. GPR 示例](8.md#172-gpr-示例)
+    * [1.7.3. 高斯过程分类（GPC）](8.md#173-高斯过程分类（gpc）)
+    * [1.7.4. GPC 示例](8.md#174-gpc-示例)
+    * [1.7.5. 高斯过程内核](8.md#175-高斯过程内核)
+* [1.8. 交叉分解](9.md#18-交叉分解)
+* [1.9. 朴素贝叶斯](10.md#19-朴素贝叶斯)
+    * [1.9.1. 高斯朴素贝叶斯](10.md#191-高斯朴素贝叶斯)
+    * [1.9.2. 多项分布朴素贝叶斯](10.md#192-多项分布朴素贝叶斯)
+    * [1.9.3. 补充朴素贝叶斯](10.md#193-补充朴素贝叶斯)
+    * [1.9.4. 伯努利朴素贝叶斯](10.md#194-伯努利朴素贝叶斯)
+    * [1.9.5. 基于外存的朴素贝叶斯模型拟合](10.md#195-基于外存的朴素贝叶斯模型拟合)
+* [1.10. 决策树](11.md#110-决策树)
+    * [1.10.1. 分类](11.md#1101-分类)
+    * [1.10.2. 回归](11.md#1102-回归)
+    * [1.10.3. 多值输出问题](11.md#1103-多值输出问题)
+    * [1.10.4. 复杂度分析](11.md#1104-复杂度分析)
+    * [1.10.5. 实际使用技巧](11.md#1105-实际使用技巧)
+    * [1.10.6. 决策树算法: ID3, C4.5, C5.0 和 CART](11.md#1106-决策树算法--id3,-c45,-c50-和-cart)
+    * [1.10.7. 数学表达](11.md#1107-数学表达)
+* [1.11. 集成方法](12.md#111-集成方法)
+    * [1.11.1. Bagging meta-estimator（Bagging 元估计器）](12.md#1111-bagging-meta-estimator（bagging-元估计器）)
+    * [1.11.2. 由随机树组成的森林](12.md#1112-由随机树组成的森林)
+    * [1.11.3. AdaBoost](12.md#1113-adaboost)
+    * [1.11.4. Gradient Tree Boosting（梯度树提升）](12.md#1114-gradient-tree-boosting（梯度树提升）)
+    * [1.11.5. Voting Classifier（投票分类器）](12.md#1115-voting-classifier（投票分类器）)
+    * [1.11.6. 投票回归器(Voting Regressor)](12.md#1116-投票回归器)
+* [1.12. 多类和多标签算法](13.md#112-多类和多标签算法)
+    * [1.12.1. 多标签分类格式](13.md#1121-多标签分类格式)
+    * [1.12.2. 1对其余](13.md#1122-1对其余)
+    * [1.12.3. 1对1](13.md#1123-1对1)
+    * [1.12.4. 误差校正输出代码](13.md#1124-误差校正输出代码)
+    * [1.12.5. 多输出回归](13.md#1125-多输出回归)
+    * [1.12.6. 多输出分类](13.md#1126-多输出分类)
+    * [1.12.7. 链式分类器](13.md#1127-链式分类器)
+* [1.13. 特征选择](14.md#113-特征选择)
+    * [1.13.1. 移除低方差特征](14.md#1131-移除低方差特征)
+    * [1.13.2. 单变量特征选择](14.md#1132-单变量特征选择)
+    * [1.13.3. 递归式特征消除](14.md#1133-递归式特征消除)
+    * [1.13.4. 使用 SelectFromModel 选取特征](14.md#1134-使用-selectfrommodel-选取特征)
+    * [1.13.5. 特征选取作为 pipeline（管道）的一部分](14.md#1135-特征选取作为-pipeline（管道）的一部分)
+* [1.14. 半监督学习](15.md#114-半监督学习)
+    * [1.14.1. 标签传播](15.md#1141-标签传播)
+* [1.15. 等式回归](16.md#115-等式回归)
+* [1.16. 概率校准](17.md#116-概率校准)
+* [1.17. 神经网络模型（有监督）](18.md#117-神经网络模型（有监督）)
+    * [1.17.1. 多层感知器](18.md#1171-多层感知器)
+    * [1.17.2. 分类](18.md#1172-分类)
+    * [1.17.3. 回归](18.md#1173-回归)
+    * [1.17.4. 正则化](18.md#1174-正则化)
+    * [1.17.5. 算法](18.md#1175-算法)
+    * [1.17.6. 复杂度](18.md#1176-复杂度)
+    * [1.17.7. 数学公式](18.md#1177-数学公式)
+    * [1.17.8. 实用技巧](18.md#1178-实用技巧)
+    * [1.17.9. 使用 warm_start 的更多控制](18.md#1179-使用-warm_start-的更多控制)
diff --git a/docs/0.21.3/19.md b/docs/0.21.3/19.md
index 5e38bf1e81a8e388fd6d15562e6b09024e8012b6..ecd5124905a535a6d1a2224ac34cc51d94066cfc 100644
--- a/docs/0.21.3/19.md
+++ b/docs/0.21.3/19.md
@@ -1,122 +1,53 @@
 # 2. 无监督学习
-* [2.1 高斯混合模型](20.md#21-高斯混合模型)
-    * [2.1.1 高斯混合](20.md#211-高斯混合)
-        * [2.1.1.1 优缺点](20.md#2111-优缺点-gaussianmixture)
-            * [2.1.1.1.1 优点](20.md#21111-优点)
-            * [2.1.1.1.2 缺点](20.md#21112-缺点)
-        * [2.1.1.2 选择经典高斯混合模型中分量的个数](20.md#2112-选择经典高斯混合模型中分量的个数)
-        * [2.1.1.3 估计算法期望最大化（EM）](20.md#2113-估计算法期望最大化（em）)
-    * [2.1.2 变分贝叶斯高斯混合](20.md#212-变分贝叶斯高斯混合)
-        * [2.1.2.1 估计算法: 变分推断（variational inference）](20.md#2121-估计算法:-变分推断（variational-inference）)
-            * [2.1.2.2. BayesianGaussianMixture下的变分推理的优缺点](20.md#2122-bayesiangaussianmixture-下的变分推理的优缺点)
-            * [2.1.2.2.1 优点](20.md#21221-优点)
-            * [2.1.2.2.2 缺点](20.md#21222-缺点)
-        * [2.1.2.3 The Dirichlet Process（狄利克雷过程）](20.md#2123-the-dirichlet-process（狄利克雷过程）)
-* [2.2 流形学习](21.md#22-流形学习)
-    * [2.2.1 介绍](21.md#221-介绍)
-    * [2.2.2 Isomap](21.md#222-isomap)
-        * [2.2.2.1 复杂度](21.md#2221-复杂度)
-    * [2.2.3 局部线性嵌入](21.md#223-局部线性嵌入)
-        * [2.2.3.1 复杂度](21.md#2231-复杂度)
-    * [2.2.4 改进型局部线性嵌入（MLLE）](21.md#224-改进型局部线性嵌入（mlle）)
-        * [2.2.4.1 复杂度](21.md#2241-复杂度)
-    * [2.2.5 黑塞特征映射（HE）](21.md#225-黑塞特征映射（he）)
-        * [2.2.5.1 复杂度](21.md#2251-复杂度)
-    * [2.2.6 谱嵌入](21.md#226-谱嵌入)
-        * [2.2.6.1 复杂度](21.md#2261-复杂度)
-    * [2.2.7 局部切空间对齐（LTSA）](21.md#227-局部切空间对齐（ltsa）)
-        * [2.2.7.1 复杂度](21.md#2271-复杂度)
-    * [2.2.8 多维尺度分析（MDS）](21.md#228-多维尺度分析（mds）)
-        * [2.2.8.1 度量 MDS](21.md#2281-度量-mds)
-        * [2.2.8.2 非度量 MDS](21.md#2282-非度量-mds)
-    * [2.2.9 t 分布随机邻域嵌入（t-SNE）](21.md#229-t-分布随机邻域嵌入（t-sne）)
-        * [2.2.9.1 优化 t-SNE](21.md#2291-优化-t-sne)
-        * [2.2.9.2 Barnes-Hut t-SNE](21.md#2292-barnes-hut-t-sne)
-    * [2.2.10 实用技巧](21.md#2210-实用技巧)
-* [2.3 聚类](22.md#23-聚类)
-    * [2.3.1 聚类方法概述](22.md#231-聚类方法概述)
-    * [2.3.2 K-means](22.md#232-k-means)
-        * [2.3.2.1 小批量 K-Means](22.md#2321-小批量-k-means)
-    * [2.3.3 Affinity Propagation](22.md#233-affinity-propagation)
-    * [2.3.4 Mean Shift](22.md#234-mean-shift)
-    * [2.3.5 Spectral clustering](22.md#235-spectral-clustering)
-        * [2.3.5.1 不同的标记分配策略](22.md#2351-不同的标记分配策略)
-        * [2.3.5.2 谱聚类用于图聚类问题](22.md#2352-谱聚类用于图聚类问题)
-    * [2.3.6 层次聚类](22.md#236-层次聚类)
-        * [2.3.6.1 不同连接类型: Ward, complete and average linkage](22.md#2361-不同连接类型:-ward,-complete-and-average-linkage)
-        * [2.3.6.2 添加连接约束](22.md#2362-添加连接约束)
-        * [2.3.6.3 Varying the metric](22.md#2363-varying-the-metric)
-    * [2.3.7 DBSCAN](22.md#237-dbscan)
-    * [2.3.8 OPTICS](22.md#238-optics)
-    * [2.3.9 Birch](22.md#239-birch)
-    * [2.3.10 聚类性能度量](22.md#2310-聚类性能度量)
-        * [2.3.10.1 调整后的 Rand 指数](22.md#23101-调整后的-rand-指数)
-            * [2.3.10.1.1 优点](22.md#231011-优点)
-            * [2.3.10.1.2 缺点](22.md#231012-缺点)
-            * [2.3.10.1.3 数学表达](22.md#231013-数学表达)
-        * [2.3.10.2 基于 Mutual Information （互信息）的分数](22.md#23102-基于-mutual-information-（互信息）的分数)
-            * [2.3.10.2.1 优点](22.md#231021-优点)
-            * [2.3.10.2.2 缺点](22.md#231022-缺点)
-            * [2.3.10.2.3 数学公式](22.md#231023-数学公式)
-        * [2.3.10.3 同质性，完整性和 V-measure](22.md#23103-同质性，完整性和-v-measure)
-            * [2.3.10.3.1 优点](22.md#231031-优点)
-            * [2.3.10.3.2 缺点](22.md#231032-缺点)
-            * [2.3.10.3.3 数学表达](22.md#231033-数学表达)
-        * [2.3.10.4 Fowlkes-Mallows 分数](22.md#23104-fowlkes-mallows-分数)
-            * [2.3.10.4.1 优点](22.md#231041-优点)
-            * [2.3.10.4.2 缺点](22.md#231042-缺点)
-        * [2.3.10.5 Silhouette 系数](22.md#23105-silhouette-系数)
-            * [2.3.10.5.1 优点](22.md#231051-优点)
-            * [2.3.10.5.2 缺点](22.md#231052-缺点)
-        * [2.3.10.6 Calinski-Harabaz 指数](22.md#23106-calinski-harabaz-指数)
-            * [2.3.10.6.1 优点](22.md#231061-优点)
-            * [2.3.10.6.2 缺点](22.md#231062-缺点)
-* [2.4 双聚类](23.md#24-双聚类)
-    * [2.4.1 Spectral Co-Clustering](23.md#241-spectral-co-clustering)
-        * [2.4.1.1 数学公式](23.md#2411-数学公式)
-    * [2.4.2 Spectral Biclustering](23.md#242-spectral-biclustering)
-        * [2.4.2.1 数学表示](23.md#2421-数学表示)
-    * [2.4.3 Biclustering 评价](23.md#243-biclustering-评价)
-* [2.5 分解成分中的信号（矩阵分解问题）](24.md#25-分解成分中的信号（矩阵分解问题）)
-    * [2.5.1 主成分分析（PCA）](24.md#251-主成分分析（pca）)
-        * [2.5.1.1 准确的PCA和概率解释（Exact PCA and probabilistic interpretation）](24.md#2511-准确的pca和概率解释（exact-pca-and-probabilistic-interpretation）)
-        * [2.5.1.2 增量PCA (Incremental PCA)](24.md#2512-增量pca-incremental-pca)
-        * [2.5.1.3 PCA 使用随机SVD](24.md#2513-pca-使用随机svd)
-        * [2.5.1.4 核 PCA](24.md#2514-核-pca)
-        * [2.5.1.5 稀疏主成分分析 ( SparsePCA 和 MiniBatchSparsePCA )](24.md#2515-稀疏主成分分析--sparsepca-和-minibatchsparsepca-)
-    * [2.5.2 截断奇异值分解和隐语义分析](24.md#252-截断奇异值分解和隐语义分析)
-    * [2.5.3 词典学习](24.md#253-词典学习)
-        * [2.5.3.1 带有预计算词典的稀疏编码](24.md#2531-带有预计算词典的稀疏编码)
-        * [2.5.3.2 通用词典学习](24.md#2532-通用词典学习)
-        * [2.5.3.3 小批量字典学习](24.md#2533-小批量字典学习)
-    * [2.5.4 因子分析](24.md#254-因子分析)
-    * [2.5.5 独立成分分析（ICA）](24.md#255-独立成分分析（ica）)
-    * [2.5.6 非负矩阵分解(NMF 或 NNMF)](24.md#256-非负矩阵分解nmf-或-nnmf)
-        * [2.5.6.1 NMF 与 Frobenius 范数](24.md#2561-nmf-与-frobenius-范数)
-        * [2.5.6.2 具有 beta-divergence 的 NMF](24.md#2562-具有-beta-divergence-的-nmf)
-    * [2.5.7 隐 Dirichlet 分配（LDA）](24.md#257-隐-dirichlet-分配（lda）)
-* [2.6 协方差估计](25.md#26-协方差估计)
-    * [2.6.1 经验协方差](25.md#261-经验协方差)
-    * [2.6.2 收敛协方差](25.md#262-收敛协方差)
-        * [2.6.2.1 基本收敛](25.md#2621-基本收敛)
-        * [2.6.2.2 Ledoit-Wolf 收敛](25.md#2622-ledoit-wolf-收敛)
-        * [2.6.2.3 Oracle 近似收缩](25.md#2623-oracle-近似收缩)
-    * [2.6.3 稀疏逆协方差](25.md#263-稀疏逆协方差)
-    * [2.6.4 Robust 协方差估计](25.md#264-robust-协方差估计)
-        * [2.6.4.1 最小协方差决定](25.md#2641-最小协方差决定)
-* [2.7 新奇和异常值检测](26.md#27-新奇和异常值检测)
-    * [2.7.1 孤立点检测方法一览](26.md#271-孤立点检测方法一览)
-    * [2.7.2 Novelty Detection（新奇检测）](26.md#272-novelty-detection（新奇检测）)
-    * [2.7.3 Outlier Detection（异常值检测）](26.md#273-outlier-detection（异常值检测）)
-        * [2.7.3.1 Fitting an elliptic envelope（椭圆模型拟合）](26.md#2731-fitting-an-elliptic-envelope（椭圆模型拟合）)
-        * [2.7.3.2 Isolation Forest（隔离森林）](26.md#2732-isolation-forest（隔离森林）)
-        * [2.7.3.3 Local Outlier Factor（局部异常系数）](26.md#2733-local-outlier-factor（局部异常系数）)
-    * [2.7.4 使用LOF进行新奇点检测](26.md#274-使用lof进行新奇点检测)
-* [2.8 密度估计](27.md#28-密度估计)
-    * [2.8.1 密度估计: 直方图](27.md#281-密度估计:-直方图)
-    * [2.8.2 核密度估计](27.md#282-核密度估计)
-* [2.9 神经网络模型（无监督）](28.md#29-神经网络模型（无监督）)
-    * [2.9.1 限制波尔兹曼机](28.md#291-限制波尔兹曼机)
-        * [2.9.1.1 图形模型和参数化](28.md#2911-图形模型和参数化)
-        * [2.9.1.2 伯努利限制玻尔兹曼机](28.md#2912-伯努利限制玻尔兹曼机)
-        * [2.9.1.3 随机最大似然学习](28.md#2913-随机最大似然学习)
+* [2.1. 高斯混合模型](20.md#21-高斯混合模型)
+    * [2.1.1. 高斯混合](20.md#211-高斯混合)
+    * [2.1.2. 变分贝叶斯高斯混合](20.md#212-变分贝叶斯高斯混合)
+* [2.2. 流形学习](21.md#22-流形学习)
+    * [2.2.1. 介绍](21.md#221-介绍)
+    * [2.2.2. Isomap](21.md#222-isomap)
+    * [2.2.3. 局部线性嵌入](21.md#223-局部线性嵌入)
+    * [2.2.4. 改进型局部线性嵌入（MLLE）](21.md#224-改进型局部线性嵌入（mlle）)
+    * [2.2.5. 黑塞特征映射（HE）](21.md#225-黑塞特征映射（he）)
+    * [2.2.6. 谱嵌入](21.md#226-谱嵌入)
+    * [2.2.7. 局部切空间对齐（LTSA）](21.md#227-局部切空间对齐（ltsa）)
+    * [2.2.8. 多维尺度分析（MDS）](21.md#228-多维尺度分析（mds）)
+    * [2.2.9. t 分布随机邻域嵌入（t-SNE）](21.md#229-t-分布随机邻域嵌入（t-sne）)
+    * [2.2.10. 实用技巧](21.md#2210-实用技巧)
+* [2.3. 聚类](22.md#23-聚类)
+    * [2.3.1. 聚类方法概述](22.md#231-聚类方法概述)
+    * [2.3.2. K-means](22.md#232-k-means)
+    * [2.3.3. Affinity Propagation](22.md#233-affinity-propagation)
+    * [2.3.4. Mean Shift](22.md#234-mean-shift)
+    * [2.3.5. Spectral clustering](22.md#235-spectral-clustering)
+    * [2.3.6. 层次聚类](22.md#236-层次聚类)
+    * [2.3.7. DBSCAN](22.md#237-dbscan)
+    * [2.3.8. OPTICS](22.md#238-optics)
+    * [2.3.9. Birch](22.md#239-birch)
+    * [2.3.10. 聚类性能度量](22.md#2310-聚类性能度量)
+* [2.4. 双聚类](23.md#24-双聚类)
+    * [2.4.1. Spectral Co-Clustering](23.md#241-spectral-co-clustering)
+    * [2.4.2. Spectral Biclustering](23.md#242-spectral-biclustering)
+    * [2.4.3. Biclustering 评价](23.md#243-biclustering-评价)
+* [2.5. 分解成分中的信号（矩阵分解问题）](24.md#25-分解成分中的信号（矩阵分解问题）)
+    * [2.5.1. 主成分分析（PCA）](24.md#251-主成分分析（pca）)
+    * [2.5.2. 截断奇异值分解和隐语义分析](24.md#252-截断奇异值分解和隐语义分析)
+    * [2.5.3. 词典学习](24.md#253-词典学习)
+    * [2.5.4. 因子分析](24.md#254-因子分析)
+    * [2.5.5. 独立成分分析（ICA）](24.md#255-独立成分分析（ica）)
+    * [2.5.6. 非负矩阵分解(NMF 或 NNMF)](24.md#256-非负矩阵分解)
+    * [2.5.7. 隐 Dirichlet 分配（LDA）](24.md#257-隐-dirichlet-分配（lda）)
+* [2.6. 协方差估计](25.md#26-协方差估计)
+    * [2.6.1. 经验协方差](25.md#261-经验协方差)
+    * [2.6.2. 收缩协方差](25.md#262-收缩协方差)
+    * [2.6.3. 稀疏逆协方差](25.md#263-稀疏逆协方差)
+    * [2.6.4. 鲁棒协方差估计](25.md#264-鲁棒协方差估计)
+* [2.7. 新奇点和离群点检测](26.md#27-新奇点和离群点检测)
+    * [2.7.1.  离群点检测方法一览](26.md#271--离群点检测方法一览)
+    * [2.7.2. Novelty Detection（新奇点检测）](26.md#272-novelty-detection（新奇点检测）)
+    * [2.7.3. Outlier Detection（离群点检测）](26.md#273-outlier-detection（离群点检测）)
+    * [2.7.4. 使用LOF进行新奇点检测](26.md#274-使用lof进行新奇点检测)
+* [2.8. 密度估计](27.md#28-密度估计)
+    * [2.8.1. 密度估计: 直方图](27.md#281-密度估计--直方图)
+    * [2.8.2. 核密度估计](27.md#282-核密度估计)
+* [2.9. 神经网络模型（无监督）](28.md#29-神经网络模型（无监督）)
+    * [2.9.1. 限制波尔兹曼机](28.md#291-限制波尔兹曼机)
diff --git a/docs/0.21.3/25.md b/docs/0.21.3/25.md
index b5ddc5bb9f837c4b6f4378fd36e46d276921a8fa..7652c913699eebd53c976dcbd41b9e331f9eba28 100644
--- a/docs/0.21.3/25.md
+++ b/docs/0.21.3/25.md
@@ -13,7 +13,7 @@
 
 我们假设观察是独立的，相同分布的 (i.i.d.)。
 
-# 2.6.1. 经验协方差
+## 2.6.1. 经验协方差
 
 总所周知,数据集的协方差矩阵可以被经典 _maximum likelihood estimator(最大似然估计)_ （或 “经验协方差”） 很好地近似，条件是与特征数量（描述观测值的变量）相比，观测数量足够大。 更准确地说，样本的最大似然估计是相应的总体协方差矩阵的无偏估计。
 
@@ -22,9 +22,9 @@
 > **示例**:
 >*   See [Shrinkage covariance estimation: LedoitWolf vs OAS and max-likelihood](https://scikit-learn.org/stable/auto_examples/covariance/plot_covariance_estimation.html#sphx-glr-auto-examples-covariance-plot-covariance-estimation-py) for an example on how to fit an [`EmpiricalCovariance`](https://scikit-learn.org/stable/modules/generated/sklearn.covariance.EmpiricalCovariance.html#sklearn.covariance.EmpiricalCovariance "sklearn.covariance.EmpiricalCovariance") object to data.
 
-# 2.6.2. 收缩协方差
+## 2.6.2. 收缩协方差
 
-## 2.6.2.1. 基本收缩
+### 2.6.2.1. 基本收缩
 
 尽管是协方差矩阵的无偏估计， 最大似然估计不是协方差矩阵的特征值的一个很好的估计， 所以从反演(_译注：矩阵的求逆过程_)得到的精度矩阵是不准确的。 有时，甚至出现因矩阵元素地特性,经验协方差矩阵不能求逆。 为了避免这样的反演问题，引入了经验协方差矩阵的一种变换方式：`shrinkage` 。
 
@@ -38,7 +38,7 @@
 > **示例**:
 >*   See [Shrinkage covariance estimation: LedoitWolf vs OAS and max-likelihood](https://scikit-learn.org/stable/auto_examples/covariance/plot_covariance_estimation.html#sphx-glr-auto-examples-covariance-plot-covariance-estimation-py) for an example on how to fit a [`ShrunkCovariance`](https://scikit-learn.org/stable/modules/generated/sklearn.covariance.ShrunkCovariance.html#sklearn.covariance.ShrunkCovariance "sklearn.covariance.ShrunkCovariance") object to data.
 
-## 2.6.2.2. Ledoit-Wolf 收缩
+### 2.6.2.2. Ledoit-Wolf 收缩
 
 在他们的 2004 年的论文 [[1]](#id6) 中， O.Ledoit 和 M.Wolf 提出了一个公式， 用来计算最优的收缩系数 ![\alpha](img/d8b3d5242d513369a44f8bf0c6112744.jpg) ，它使得估计协方差和实际协方差矩阵之间的均方误差(Mean Squared Error)进行最小化。
 
@@ -56,7 +56,7 @@
 > **参考资料**:
 >* [1] O. Ledoit and M. Wolf, “A Well-Conditioned Estimator for Large-Dimensional Covariance Matrices”, Journal of Multivariate Analysis, Volume 88, Issue 2, February 2004, pages 365-411.
 
-## 2.6.2.3. Oracle 近似收缩
+### 2.6.2.3. Oracle 近似收缩
 
 在数据为高斯分布的假设下，Chen et al. 等 [[2]](#id8) 推导出了一个公式，旨在 产生比 Ledoit-Wolf 公式具有更小均方误差的收缩系数。 所得到的估计器被称为协方差的 Oracle 收缩近似估计器。
 
@@ -75,7 +75,7 @@
 
 [![http://sklearn.apachecn.org/cn/0.19.0/_images/sphx_glr_plot_lw_vs_oas_0011.png](img/bc35316fd422689a9bc65845d63c1433.jpg)](https://scikit-learn.org/stable/auto_examples/covariance/plot_lw_vs_oas.html)
 
-# 2.6.3. 稀疏逆协方差
+## 2.6.3. 稀疏逆协方差
 
 协方差矩阵的逆矩阵，通常称为精度矩阵（precision matrix），它与部分相关矩阵（partial correlation matrix）成正比。它给出部分独立性关系。换句话说，如果两个特征与其他特征有条件地独立， 则精度矩阵中的对应系数将为零。这就是为什么估计一个稀疏精度矩阵是有道理的：通过从数据中学习独立关系， 可以得到更好的协方差矩阵估计。这被称为 _协方差选择(covariance selection)_。
 
@@ -109,13 +109,13 @@
 > **参考资料**:
 >*   Friedman et al, [“Sparse inverse covariance estimation with the graphical lasso”](http://biostatistics.oxfordjournals.org/content/9/3/432.short), Biostatistics 9, pp 432, 2008
 
-# 2.6.4. 鲁棒协方差估计
+## 2.6.4. 鲁棒协方差估计
 
 实际数据集通常是会有测量或记录错误。常规但不常见的观察也可能出于各种原因。 每个不常见的观察称为异常值(outliers)。上面提出的经验协方差估计器和收缩协方差估计器对数据中异常值非常敏感。 因此，应该使用鲁棒协方差估计（robust covariance estimators）来估算其真实数据集的协方差。 或者，可以使用鲁棒协方差估计器来执行异常值检测， 并根据数据的进一步处理:丢弃/降低某些观察值。
 
 `sklearn.covariance` 包实现了 robust estimator of covariance， 即 Minimum Covariance Determinant [3]。
 
-## 2.6.4.1. 最小协方差决定
+### 2.6.4.1. 最小协方差决定
 
 最小协方差决定（Minimum Covariance Determinant）估计器是 由 P.J. Rousseeuw 在 [[3]](#id14) 中引入的数据集协方差的鲁棒估计 (robust estimator)。 这个想法是找出一个给定比例（h）的 “好” 观察值，它们不是离群值， 且可以计算其经验协方差矩阵。 然后将该经验协方差矩阵重新缩放以补偿所执行的观察选择（”consistency step(一致性步骤)”）。计算完最小协方差决定估计器后，可以根据其马氏距离（Mahalanobis distance）给出观测值的权重, 得到数据集的协方差矩阵的重新加权估计（”reweighting step(重新加权步骤)”）。
 
diff --git a/docs/0.21.3/29.md b/docs/0.21.3/29.md
index 5f18846eff0ef7f1f5bb290f4a9c6dc88fe71d65..da1b1cb677e042b09f48affaf22b337f20d67396 100644
--- a/docs/0.21.3/29.md
+++ b/docs/0.21.3/29.md
@@ -1,84 +1,24 @@
 # 3. 模型选择和评估
-* [3.1 交叉验证：评估估算器的表现](30.md#31-交叉验证：评估估算器的表现)
-    * [3.1.1 计算交叉验证的指标](30.md#311-计算交叉验证的指标)
-        * [3.1.1.1 cross_validate 函数和多度量评估](30.md#3111-cross_validate-函数和多度量评估)
-        * [3.1.1.2 通过交叉验证获取预测](30.md#3112-通过交叉验证获取预测)
-    * [3.1.2 交叉验证迭代器](30.md#312-交叉验证迭代器)
-        * [3.1.2.1 交叉验证迭代器–循环遍历数据](30.md#3121-交叉验证迭代器–循环遍历数据)
-            * [3.1.2.1.1 K 折](30.md#31211-k-折)
-            * [3.1.2.1.2 重复 K-折交叉验证](30.md#31212-重复-k-折交叉验证)
-            * [3.1.2.1.3 留一交叉验证 (LOO)](30.md#31213-留一交叉验证-loo)
-            * [3.1.2.1.4 留 P 交叉验证 (LPO)](30.md#31214-留-p-交叉验证-lpo)
-            * [3.1.2.1.5 随机排列交叉验证 a.k.a. Shuffle & Split](30.md#31215-随机排列交叉验证-aka-shuffle-&-split)
-        * [3.1.2.2 基于类标签、具有分层的交叉验证迭代器](30.md#3122-基于类标签、具有分层的交叉验证迭代器)
-            * [3.1.2.2.1 分层 k 折](30.md#31221-分层-k-折)
-            * [3.1.2.2.2 分层随机 Split](30.md#31222-分层随机-split)
-        * [3.1.2.3 用于分组数据的交叉验证迭代器](30.md#3123-用于分组数据的交叉验证迭代器)
-            * [3.1.2.3.1 组 k-fold](30.md#31231-组-k-fold)
-            * [3.1.2.3.2 留一组交叉验证](30.md#31232-留一组交叉验证)
-            * [3.1.2.3.3 留 P 组交叉验证](30.md#31233-留-p-组交叉验证)
-            * [3.1.2.3.4 Group Shuffle Split](30.md#31234-group-shuffle-split)
-        * [3.1.2.4 预定义的折叠 / 验证集](30.md#3124-预定义的折叠-/-验证集)
-        * [3.1.2.5 交叉验证在时间序列数据中应用](30.md#3125-交叉验证在时间序列数据中应用)
-            * [3.1.2.5.1 时间序列分割](30.md#31251-时间序列分割)
-    * [3.1.3 A note on shuffling](30.md#313-a-note-on-shuffling)
-    * [3.1.4 交叉验证和模型选择](30.md#314-交叉验证和模型选择)
-* [3.2 调整估计器的超参数](31.md#32-调整估计器的超参数)
-    * [3.2.1 网格追踪法–穷尽的网格搜索](31.md#321-网格追踪法–穷尽的网格搜索)
-    * [3.2.2 随机参数优化](31.md#322-随机参数优化)
-    * [3.2.3 参数搜索技巧](31.md#323-参数搜索技巧)
-        * [3.2.3.1 指定目标度量](31.md#3231-指定目标度量)
-        * [3.2.3.2 为评估指定多个指标](31.md#3232-为评估指定多个指标)
-        * [3.2.3.3 复合估计和参数空间](31.md#3233-复合估计和参数空间)
-        * [3.2.3.4 模型选择：开发和评估](31.md#3234-模型选择：开发和评估)
-        * [3.2.3.5 并行机制](31.md#3235-并行机制)
-        * [3.2.3.6 对故障的鲁棒性](31.md#3236-对故障的鲁棒性)
-    * [3.2.4 暴力参数搜索的替代方案](31.md#324-暴力参数搜索的替代方案)
-        * [3.2.4.1 模型特定交叉验证](31.md#3241-模型特定交叉验证)
-        * [3.2.4.2 信息标准](31.md#3242-信息标准)
-        * [3.2.4.3 出袋估计](31.md#3243-出袋估计)
-* [3.3 模型评估: 量化预测的质量](32.md#33-模型评估:-量化预测的质量)
-    * [3.3.1 `scoring` 参数: 定义模型评估规则](32.md#331-`scoring`-参数:-定义模型评估规则)
-        * [3.3.1.1 常见场景: 预定义值](32.md#3311-常见场景:-预定义值)
-        * [3.3.1.2 根据 metric 函数定义您的评分策略](32.md#3312-根据-metric-函数定义您的评分策略)
-        * [3.3.1.3 实现自己的记分对象](32.md#3313-实现自己的记分对象)
-        * [3.3.1.4 使用多个指数评估](32.md#3314-使用多个指数评估)
-    * [3.3.2 分类指标](32.md#332-分类指标)
-        * [3.3.2.1 从二分到多分类和 multilabel](32.md#3321-从二分到多分类和-multilabel)
-        * [3.3.2.2 精确度得分](32.md#3322-精确度得分)
-        * [3.3.2.3 Balanced accuracy score](32.md#3323-balanced-accuracy-score)
-        * [3.3.2.4 Cohen’s kappa](32.md#3324-cohen’s-kappa)
-        * [3.3.2.5 混淆矩阵](32.md#3325-混淆矩阵)
-        * [3.3.2.6 分类报告](32.md#3326-分类报告)
-        * [3.3.2.7 汉明损失](32.md#3327-汉明损失)
-        * [3.3.2.8 精准，召回和 F-measures](32.md#3328-精准，召回和-f-measures)
-            * [3.3.2.8.1 二分类](32.md#33281-二分类)
-            * [3.3.2.8.2 多类和多标签分类](32.md#33282-多类和多标签分类)
-        * [3.3.2.9 Jaccard 相似系数 score](32.md#3329-jaccard-相似系数-score)
-        * [3.3.2.10 Hinge loss](32.md#33210-hinge-loss)
-        * [3.3.2.11 Log 损失](32.md#33211-log-损失)
-        * [3.3.2.12 马修斯相关系数](32.md#33212-马修斯相关系数)
-        * [3.3.2.13 多标记混淆矩阵](32.md#33213-多标记混淆矩阵)
-        * [3.3.2.14 Receiver operating characteristic (ROC)](32.md#33214-receiver-operating-characteristic-roc)
-        * [3.3.2.15 零一损失](32.md#33215-零一损失)
-        * [3.3.2.16 Brier 分数损失](32.md#33216-brier-分数损失)
-    * [3.3.3 多标签排名指标](32.md#333-多标签排名指标)
-        * [3.3.3.1 覆盖误差](32.md#3331-覆盖误差)
-        * [3.3.3.2 标签排名平均精度](32.md#3332-标签排名平均精度)
-        * [3.3.3.3 排序损失](32.md#3333-排序损失)
-    * [3.3.4 回归指标](32.md#334-回归指标)
-        * [3.3.4.1 解释方差得分](32.md#3341-解释方差得分)
-        * [3.3.4.2 最大误差](32.md#3342-最大误差)
-        * [3.3.4.3 平均绝对误差](32.md#3343-平均绝对误差)
-        * [3.3.4.4 均方误差](32.md#3344-均方误差)
-        * [3.3.4.5 均方误差对数](32.md#3345-均方误差对数)
-        * [3.3.4.6 中位绝对误差](32.md#3346-中位绝对误差)
-        * [3.3.4.7 R² score, 可决系数](32.md#3347-r²-score,-可决系数)
-    * [3.3.5 聚类指标](32.md#335-聚类指标)
-    * [3.3.6 虚拟估计](32.md#336-虚拟估计)
-* [3.4 模型持久化](33.md#34-模型持久化)
-    * [3.4.1 持久化示例](33.md#341-持久化示例)
-    * [3.4.2 安全性和可维护性的局限性](33.md#342-安全性和可维护性的局限性)
-* [3.5 验证曲线: 绘制分数以评估模型](34.md#35-验证曲线:-绘制分数以评估模型)
-    * [3.5.1 验证曲线](34.md#351-验证曲线)
-    * [3.5.2 学习曲线](34.md#352-学习曲线)
+* [3.1. 交叉验证：评估估算器的表现](30.md#31-交叉验证：评估估算器的表现)
+    * [3.1.1. 计算交叉验证的指标](30.md#311-计算交叉验证的指标)
+    * [3.1.2. 交叉验证迭代器](30.md#312-交叉验证迭代器)
+    * [3.1.3. A note on shuffling](30.md#313-a-note-on-shuffling)
+    * [3.1.4. 交叉验证和模型选择](30.md#314-交叉验证和模型选择)
+* [3.2. 调整估计器的超参数](31.md#32-调整估计器的超参数)
+    * [3.2.1. 网格追踪法–穷尽的网格搜索](31.md#321-网格追踪法–穷尽的网格搜索)
+    * [3.2.2. 随机参数优化](31.md#322-随机参数优化)
+    * [3.2.3. 参数搜索技巧](31.md#323-参数搜索技巧)
+    * [3.2.4. 暴力参数搜索的替代方案](31.md#324-暴力参数搜索的替代方案)
+* [3.3. 模型评估: 量化预测的质量](32.md#33-模型评估--量化预测的质量)
+    * [3.3.1. `scoring` 参数: 定义模型评估规则](32.md#331-`scoring`-参数--定义模型评估规则)
+    * [3.3.2. 分类指标](32.md#332-分类指标)
+    * [3.3.3. 多标签排名指标](32.md#333-多标签排名指标)
+    * [3.3.4. 回归指标](32.md#334-回归指标)
+    * [3.3.5. 聚类指标](32.md#335-聚类指标)
+    * [3.3.6. 虚拟估计](32.md#336-虚拟估计)
+* [3.4. 模型持久化](33.md#34-模型持久化)
+    * [3.4.1. 持久化示例](33.md#341-持久化示例)
+    * [3.4.2. 安全性和可维护性的局限性](33.md#342-安全性和可维护性的局限性)
+* [3.5. 验证曲线: 绘制分数以评估模型](34.md#35-验证曲线--绘制分数以评估模型)
+    * [3.5.1. 验证曲线](34.md#351-验证曲线)
+    * [3.5.2. 学习曲线](34.md#352-学习曲线)
diff --git a/docs/0.21.3/35.md b/docs/0.21.3/35.md
index 3beb85b73c4bb2cc09ab53bb7ea946c9cf3680fb..ceb5b751eb008a658ddcecc994d480c7c9cddefc 100644
--- a/docs/0.21.3/35.md
+++ b/docs/0.21.3/35.md
@@ -1,2 +1,2 @@
-# 4.  检验
-* [4.1 部分依赖图](36.md)
+# 4. 检验
+* [4.1. 部分依赖图](36.md#41-部分依赖图)
diff --git a/docs/0.21.3/37.md b/docs/0.21.3/37.md
index f57db982e3d2e8164f395297999fe6847bed319d..26dd24ed4c7066579b9f7751202435260703272c 100644
--- a/docs/0.21.3/37.md
+++ b/docs/0.21.3/37.md
@@ -28,7 +28,6 @@ scikit-learn 提供了一个用于转换数据集的库, 它也许会 clean（
 * [5.4 缺失值插补](41.md#54-缺失值插补)
     * [5.4.1 单变量与多变量插补](41.md#541-单变量与多变量插补)
     * [5.4.2 单变量插补](41.md#542-单变量插补)
-    * [5.4.3 多变量插补](41.md#543-多变量插补)
     * [5.4.4 参考](41.md#544-参考)
     * [5.4.5 标记缺失值](41.md#545-标记缺失值)
 * [5.5. 无监督降维](42.md#55-无监督降维)
@@ -56,3 +55,5 @@ scikit-learn 提供了一个用于转换数据集的库, 它也许会 clean（
 * [5.9. 预测目标 (`y`) 的转换](46.md#59-预测目标--的转换)
     * [5.9.1. 标签二值化](46.md#591-标签二值化)
     * [5.9.2. 标签编码](46.md#592-标签编码)
+
+
diff --git a/docs/0.21.3/40.md b/docs/0.21.3/40.md
index 19fe6fb70650df29f03da12c23dc80ceff68a93d..dfc418850efaf8ea4562c4eeb5d857c6f27d3281 100644
--- a/docs/0.21.3/40.md
+++ b/docs/0.21.3/40.md
@@ -234,7 +234,7 @@ array([ 4.4  ,  5.125,  5.75 ,  6.175,  7.3  ])
 array([ 0.01...,  0.25...,  0.46...,  0.60... ,  0.94...])
 
 ```
-### 4.3.2.2 映射到高斯分布
+### 5.3.2.2 映射到高斯分布
 在许多建模场景中，需要数据集中的特征的正态化。幂变换是一类参数化的单调变换， 其目的是将数据从任何分布映射到尽可能接近高斯分布，以便稳定方差和最小化偏斜。
 
 类 [PowerTransformer](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PowerTransformer.html#sklearn.preprocessing.PowerTransformer) 目前提供两个这样的幂变换,`Yeo-Johnson transform` 和 `the Box-Cox transform`。
@@ -414,12 +414,12 @@ array([[1., 1., 1.],
 ```
 标称型特征有时是用字典来表示的，而不是标量，具体请参阅[从字典中加载特征](39#521-从字典类型加载特征)。
 
-## 4.3.5 离散化
+## 5.3.5 离散化
 [离散化 (Discretization)](https://en.wikipedia.org/wiki/Discretization_of_continuous_features) (有些时候叫 量化(quantization) 或 装箱(binning)) 提供了将连续特征划分为离散特征值的方法。 某些具有连续特征的数据集会受益于离散化，因为 离散化可以把具有连续属性的数据集变换成只有名义属性(nominal attributes)的数据集。 (译者注： nominal attributes 其实就是 categorical features, 可以译为 名称属性，名义属性，符号属性，离散属性 等)
 
 One-hot 编码的离散化特征 可以使得一个模型更加的有表现力(expressive)，同时还能保留其可解释性(interpretability)。 比如，用离散化器进行预处理可以给线性模型引入非线性。
 
-### 4.3.5.1 K-bins 离散化
+### 5.3.5.1 K-bins 离散化
 [KBinsDiscretizer](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.KBinsDiscretizer.html#sklearn.preprocessing.KBinsDiscretizer) 类使用k个等宽的bins把特征离散化
 ```py
 >>> X = np.array([[ -3., 5., 15 ],
diff --git a/docs/0.21.3/50.md b/docs/0.21.3/50.md
index fa7595c0d20a5c39d0474595a27ced8215340666..31e3696b033bdfc18243371647d5b14af9e83f28 100644
--- a/docs/0.21.3/50.md
+++ b/docs/0.21.3/50.md
@@ -1,41 +1,41 @@
-scikit-learn 教程 0.21.x
+# scikit-learn 教程 0.21.x
 * [使用 scikit-learn 介绍机器学习](51.md)
-    * [机器学习：问题设置](51?id=机器学习：问题设置)
-    * [加载示例数据集]((docs/51?id=加载示例数据集))
-    * [学习和预测]((docs/51?id=学习和预测))
-    * [模型持久化]((docs/51?id=模型持久化))
-    * [规定]((docs/51?id=规定))
+    * [机器学习：问题设置](51.md#机器学习：问题设置)
+    * [加载示例数据集]((51.md#加载示例数据集))
+    * [学习和预测]((51.md#学习和预测))
+    * [模型持久化]((51.md#模型持久化))
+    * [规定]((51.md#规定))
 * [关于科学数据处理的统计学习教程](52.md)
     *   [机器学习: scikit-learn 中的设置以及预估对象](53)
-        *   [数据集](53?id=数据集)
-        *   [预估对象](53?id=预估对象)
+        *   [数据集](53.md#数据集)
+        *   [预估对象](53.md#预估对象)
     *   [监督学习：从高维观察预测输出变量](54)
-        *   [最近邻和维度惩罚](54?id=最近邻和维度惩罚)
-        *   [线性模型：从回归到稀疏](54?id=线性模型：从回归到稀疏)
-        *   [支持向量机(SVMs)](54?id=支持向量机svms)
+        *   [最近邻和维度惩罚](54.md#最近邻和维度惩罚)
+        *   [线性模型：从回归到稀疏](54.md#线性模型：从回归到稀疏)
+        *   [支持向量机(SVMs)](54.md#支持向量机svms)
     *   [模型选择：选择估计量及其参数](55)
-        *   [分数和交叉验证分数](55?id=分数和交叉验证分数)
-        *   [交叉验证生成器](55?id=交叉验证生成器)
-        *   [网格搜索和交叉验证估计量](55?id=网格搜索和交叉验证估计量)
+        *   [分数和交叉验证分数](55.md#分数和交叉验证分数)
+        *   [交叉验证生成器](55.md#交叉验证生成器)
+        *   [网格搜索和交叉验证估计量](55.md#网格搜索和交叉验证估计量)
     *   [无监督学习: 寻求数据表示](56)
-        *   [聚类: 对样本数据进行分组](56?id=聚类*对样本数据进行分组)
-        *   [分解: 将一个信号转换成多个成份并且加载](56?id=分解*将一个信号转换成多个成份并且加载)
-    *   [把它们放在一起](57)
-        *   [模型管道化](57?id=模型管道化)
-        *   [用特征面进行人脸识别](57?id=用特征面进行人脸识别)
-        *   [开放性问题: 股票市场结构](57?id=开放性问题*股票市场结构)
+        *   [聚类: 对样本数据进行分组](56.md#聚类-对样本数据进行分组)
+        *   [分解: 将一个信号转换成多个成份并且加载](56.md#分解-将一个信号转换成多个成份并且加载)
+    *   [把它们放在一起](57.md)
+        *   [模型管道化](57.md#模型管道化)
+        *   [用特征面进行人脸识别](57.md#用特征面进行人脸识别)
+        *   [开放性问题: 股票市场结构](57.md#开放性问题-股票市场结构)
     *   [寻求帮助](58)
-        *   [项目邮件列表](58?id=项目邮件列表)
-        *   [机器学习从业者的 Q&A 社区](58?id=机器学习从业者的*qampa*社区)
+        *   [项目邮件列表](58.md#项目邮件列表)
+        *   [机器学习从业者的 Q&A 社区](58.md#机器学习从业者的-q&a-社区)
 *   [处理文本数据](59.md)
-    *   [教程设置](59?id=教程设置)
-    *   [加载这 20 个新闻组的数据集](59?id=加载这-20-个新闻组的数据集)
-    *   [从文本文件中提取特征](59?id=从文本文件中提取特征)
-    *   [训练分类器](59?id=训练分类器)
-    *   [构建-pipeline（管道）](59?id=构建-pipeline（管道）)
-    *   [在测试集上的性能评估](59?id=在测试集上的性能评估)
-    *   [使用网格搜索进行调参](59?id=使用网格搜索进行调参)
-    *   [练习](59?id=练习)
-    *   [快速链接](59?id=快速链接)
+    *   [教程设置](59.md#教程设置)
+    *   [加载这 20 个新闻组的数据集](59.md#加载这-20-个新闻组的数据集)
+    *   [从文本文件中提取特征](59.md#从文本文件中提取特征)
+    *   [训练分类器](59.md#训练分类器)
+    *   [构建-pipeline（管道）](59.md#构建-pipeline（管道）)
+    *   [在测试集上的性能评估](59.md#在测试集上的性能评估)
+    *   [使用网格搜索进行调参](59.md#使用网格搜索进行调参)
+    *   [练习](59.md#练习)
+    *   [快速链接](59.md#快速链接)
 *   [选择正确的评估器(estimator.md)](60.md)
 *   [外部资源，视频和谈话](61.md)
diff --git a/docs/0.21.3/52.md b/docs/0.21.3/52.md
index 9e5aca37ff2c2324cd7ed3d5321abdd9b2a39378..ff643a75088c856cee9c22e847bc403103ca10d7 100644
--- a/docs/0.21.3/52.md
+++ b/docs/0.21.3/52.md
@@ -12,26 +12,24 @@
 >
 >Scikit-learn是一个Python模块，它将科学计算的Python包([NumPy](http://www.scipy.org), [SciPy](http://www.scipy.org), [matplotlib](http://matplotlib.org))集成到了一起。
 
-[](53-58)
-
-*   [机器学习: scikit-learn 中的设置以及预估对象](53)
-    *   [数据集](53?id=数据集)
-    *   [预估对象](53?id=预估对象)
-*   [监督学习：从高维观察预测输出变量](54)
-    *   [最近邻和维度惩罚](54?id=最近邻和维度惩罚)
-    *   [线性模型：从回归到稀疏](54?id=线性模型：从回归到稀疏)
-    *   [支持向量机(SVMs)](54?id=支持向量机svms)
-*   [模型选择：选择估计量及其参数](55)
-    *   [分数和交叉验证分数](55?id=分数和交叉验证分数)
-    *   [交叉验证生成器](55?id=交叉验证生成器)
-    *   [网格搜索和交叉验证估计量](55?id=网格搜索和交叉验证估计量)
-*   [无监督学习: 寻求数据表示](56)
-    *   [聚类: 对样本数据进行分组](56?id=聚类-对样本数据进行分组)
-    *   [分解: 将一个信号转换成多个成份并且加载](56?id=分解-将一个信号转换成多个成份并且加载)
-*   [把它们放在一起](57)
-    *   [模型管道化](57?id=模型管道化)
-    *   [用特征面进行人脸识别](57?id=用特征面进行人脸识别)
-    *   [开放性问题: 股票市场结构](57?id=开放性问题-股票市场结构)
-*   [寻求帮助](58)
-    *   [项目邮件列表](58?id=项目邮件列表)
-    *   [机器学习从业者的 Q&A 社区](58?id=机器学习从业者的-qampa-社区)
+* [机器学习: scikit-learn 中的设置以及预估对象](53.md#机器学习--scikit-learn-中的设置以及预估对象)
+    * [数据集](53.md#数据集)
+    * [预估对象](53.md#预估对象)
+* [监督学习：从高维观察预测输出变量](54.md#监督学习：从高维观察预测输出变量)
+    * [最近邻和维度惩罚](54.md#最近邻和维度惩罚)
+    * [线性模型：从回归到稀疏](54.md#线性模型：从回归到稀疏)
+    * [支持向量机(SVMs)](54.md#支持向量机)
+* [模型选择：选择估计量及其参数](55.md#模型选择：选择估计量及其参数)
+    * [分数和交叉验证分数](55.md#分数和交叉验证分数)
+    * [交叉验证生成器](55.md#交叉验证生成器)
+    * [网格搜索和交叉验证估计量](55.md#网格搜索和交叉验证估计量)
+* [无监督学习: 寻求数据表示](56.md#无监督学习--寻求数据表示)
+    * [聚类: 对样本数据进行分组](56.md#聚类--对样本数据进行分组)
+    * [分解: 将一个信号转换成多个成份并且加载](56.md#分解--将一个信号转换成多个成份并且加载)
+* [把它们放在一起](57.md#把它们放在一起)
+    * [模型管道化](57.md#模型管道化)
+    * [用特征面进行人脸识别](57.md#用特征面进行人脸识别)
+    * [开放性问题: 股票市场结构](57.md#开放性问题--股票市场结构)
+* [寻求帮助](58.md#寻求帮助)
+    * [项目邮件列表](58.md#项目邮件列表)
+    * [机器学习从业者的 Q&A 社区](58.md#机器学习从业者的-q&a-社区)
diff --git a/docs/0.21.3/7.md b/docs/0.21.3/7.md
index fadea897453080643c2689e11b6640c94ec45f69..984187941865041001957e0bdf392f163de03d2b 100644
--- a/docs/0.21.3/7.md
+++ b/docs/0.21.3/7.md
@@ -239,7 +239,7 @@ NearestCentroid(metric='euclidean', shrink_threshold=None)
 > **示例**:
 >*   [Nearest Centroid Classification](https://scikit-learn.org/stable/auto_examples//neighbors/plot_nearest_centroid.html#sphx-glr-auto-examples-neighbors-plot-nearest-centroid-py): 一个分类的例子, 它使用了不同 shrink 阀值的最近质心.
 
-### 1.6.6 邻域成分分析
+## 1.6.6 邻域成分分析
 
 邻域成分分析(NCA, [NeighborhoodComponentsAnalysis](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.NeighborhoodComponentsAnalysis.html#sklearn.neighbors.NeighborhoodComponentsAnalysis))是一种距离度量学习算法，其目的是提高最近邻分类相对于标准欧氏距离的准确性。该算法直接最大化训练集上k近邻(KNN)得分的随机变量，还可以拟合数据的低维线性投影，用于数据可视化和快速分类。