提交 377dadf0 编写于 作者: ElamDavies's avatar ElamDavies

格式校验,翻译校正

上级 0e12fdf8
# 如何评价深度学习模型的技巧
# 如何评估深度学习模型的性能
> 原文: [https://machinelearningmastery.com/evaluate-skill-deep-learning-models/](https://machinelearningmastery.com/evaluate-skill-deep-learning-models/)
......@@ -14,7 +14,7 @@
您还将发现有用的相关统计数据,您可以计算这些统计数据以显示模型性能的技巧,例如标准偏差,标准误差和置信区间。
让我们开始吧
让我们开始吧
![How to Evaluate the Skill of Deep Learning Models](img/8e1689ec640a31d8358af77078ac6bfb.png)
......@@ -38,8 +38,7 @@
这意味着每次相同的模型拟合相同的数据时,它可能会给出不同的预测,从而具有不同的性能。
## 评估模型的技巧
(_ 模型方差控制 _)
(_模型方差控制_)
我们可能没有所有的数据,如果有,我们就不需要做出预测。
通常情况下,我们有一个有限的数据样本,我们需要利用这些数据拟合出最好的模型。
......@@ -63,7 +62,7 @@ skill = compare(test.y, predictions)
### 使用 k-fold 交叉验证
我们通常可以使用 k-fold 交叉验证等技术来加强这一点,并更准确地估计模型技能。这是一种系统地将可用数据分成 k 重折叠,在k-1折上训练数据以拟合模型,在保持折叠上进行评估模型,并对每个折叠重复此过程的技术。
我们通常可以使用 k-fold 交叉验证等技术来加强这一点,并更准确地估计模型行性能,这是一种系统地将可用数据分成 k 重折叠,在k-1折上训练数据以拟合模型,在保持折叠上进行评估模型,并对每个折叠重复此过程的技术。
这导致 k 个不同的模型具有 k 个不同的预测集合,并且反过来具有 k 个不同的性能分数。
......@@ -92,7 +91,7 @@ standard_deviation = sqrt(1/count(scores) * sum( (score - mean_skill)^2 ))
```
## 评估随机模型的性能
(_ 控制模型稳定性 _)
(_控制模型稳定性_)
一些随机模型,如深度神经网络,增加了一个额外的随机源。
......@@ -117,7 +116,7 @@ for i in k:
scores.append(skill)
```
这在每次运行代码都需要相同的结果时,非常适合教程和演示。
这在每次运行代码都需要相同的结果时,非常适合教程和演示。
这中做法是不稳定的,不建议用于评估模型。
......@@ -157,7 +156,7 @@ standard_error = standard_deviation / sqrt(count(scores))
此外,我们可以使用 standard_error 来计算 mean_skill 的置信区间,假设结果的分布是高斯分布,您可以通过查看直方图,Q-Q 图或对收集的分数使用统计检验来检查。
例如,95%左右的间隔是平均性能的指标(1.96 *标准误差)。
例如,计算95%左右的间隔是平均性能的指标(1.96 *标准误差)。
```py
interval = standard_error * 1.96
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册