正交化

early stop没有那么正交化(影响两个方面),一般不用

单一数字评估指标

precision: 分类器说这图有猫的时候,95%机会真的有猫 recall:实际为猫的图片中,有多少被系统识别出来 F1 score: p和r的调和平均数

满足和指标优化

Running time是satisfing指标 (满足阈值即可), Accuracy是optimizing指标(越小越好)

训练 验证 测试划分

希望分布尽可能相同

metric: well-defined 贝叶斯错误率:人类可达到的 可避免误差:贝叶斯错误率或者对贝叶斯错误率的估计和训练错误率之间的差值称为可避免偏差。,说明bias上有多少可改进的空间 training error 和 dev error之间的差值说明variance 还有多少可改进的空间

改善模型表现