格式校验，翻译校正

377dadf0 · ElamDavies · 0e12fdf8 · 377dadf0
隐藏空白更改
内联并排

Showing with 7 addition and 8 deletion

docs/dl-keras/evaluate-skill-deep-learning-models.md docs/dl-keras/evaluate-skill-deep-learning-models.md +7 -8

未找到文件。
--- a/docs/dl-keras/evaluate-skill-deep-learning-models.md
+++ b/docs/dl-keras/evaluate-skill-deep-learning-models.md
-# 如何评价深度学习模型的技巧
+# 如何评估深度学习模型的性能

 > 原文： [https://machinelearningmastery.com/evaluate-skill-deep-learning-models/](https://machinelearningmastery.com/evaluate-skill-deep-learning-models/)

@@ -14,7 +14,7 @@

 您还将发现有用的相关统计数据，您可以计算这些统计数据以显示模型性能的技巧，例如标准偏差，标准误差和置信区间。

-让我们开始吧。
+让我们开始吧！

 ![How to Evaluate the Skill of Deep Learning Models](img/8e1689ec640a31d8358af77078ac6bfb.png)

@@ -38,8 +38,7 @@
 这意味着每次相同的模型拟合相同的数据时，它可能会给出不同的预测，从而具有不同的性能。

 ## 评估模型的技巧
-（_ 模型方差控制 _）
-
+（_模型方差控制_）
 我们可能没有所有的数据，如果有，我们就不需要做出预测。

 通常情况下，我们有一个有限的数据样本，我们需要利用这些数据拟合出最好的模型。
@@ -63,7 +62,7 @@ skill = compare(test.y, predictions)

 ### 使用 k-fold 交叉验证

-我们通常可以使用 k-fold 交叉验证等技术来加强这一点，并更准确地估计模型技能。这是一种系统地将可用数据分成 k 重折叠，在k-1折上训练数据以拟合模型，在保持折叠上进行评估模型，并对每个折叠重复此过程的技术。
+我们通常可以使用 k-fold 交叉验证等技术来加强这一点，并更准确地估计模型行性能，这是一种系统地将可用数据分成 k 重折叠，在k-1折上训练数据以拟合模型，在保持折叠上进行评估模型，并对每个折叠重复此过程的技术。

 这导致 k 个不同的模型具有 k 个不同的预测集合，并且反过来具有 k 个不同的性能分数。

@@ -92,7 +91,7 @@ standard_deviation = sqrt(1/count(scores) * sum( (score - mean_skill)^2 ))
 ```

 ## 评估随机模型的性能
-（_ 控制模型稳定性 _）
+（_控制模型稳定性_）

 一些随机模型，如深度神经网络，增加了一个额外的随机源。

@@ -117,7 +116,7 @@ for i in k:
 	scores.append(skill)
 ```

-这在每次运行代码时都需要相同的结果时，非常适合教程和演示。
+这在每次运行代码或都需要相同的结果时，非常适合教程和演示。

 这中做法是不稳定的，不建议用于评估模型。

@@ -157,7 +156,7 @@ standard_error = standard_deviation / sqrt(count(scores))

 此外，我们可以使用 standard_error 来计算 mean_skill 的置信区间，假设结果的分布是高斯分布，您可以通过查看直方图，Q-Q 图或对收集的分数使用统计检验来检查。

-例如，95％左右的间隔是平均性能的指标（1.96 *标准误差）。
+例如，计算95％左右的间隔是平均性能的指标（1.96 *标准误差）。

 ```py
 interval = standard_error * 1.96