在机器学习中,有两个很重要的概念,bias and variance,根据学习曲线判断当前的状态是high bias还是high variance来调整机器学习中的参数,以达到理想的效果。多年前学习斯坦福机器学习教程时对这两个概念的影响尤为深刻,鉴于这两个概念又是如此重要,特此整理。
第一章 偏离与偏差的概念
留个概念,以后再图文并茂
High bias 代表欠拟合
High variance 代表过拟合
第二章 偏离与偏差的学习曲线
根据学习曲线可以判断当前是过你和还是欠拟合
留个坑,以后填
第三章 偏离与偏差的应对之策
1.增加正则化系数,可以用来应对过拟合
2.采用更小规模的特征,可以用来应对过拟合
3.扩充训练样本,可以用来应对过拟合
4.(神经网络中)减少网络的规模和复杂程度,可以用来应对过拟合
5.(决策树中)剪枝,可以用来应对过拟合
6.(KNN中)减小K值
与之相对应的,欠拟合可以采用如下手段应对
1.增加额外的特征,建立更复杂和精确的feature库
2.减小正则化相的系数
3.(神经网络中)增加网络的规模和复杂程度
4.(决策树中)更加繁茂的枝叶
5.(KNN中)增加K值