L1, L2正则化
L2正则
L = Ein + λ∑Wj²
s.t. ||W|| < C
当两个向量平行的时候最优值:
- -∇Ein + λW = 0
∇Ein + λW = 0
Eog = Ein + λW²/2 (求导后,在0处取最优值)
L1正则
L = Ein + λ∑|Wj|
s.t. ∑|Wj| < C
解的稀疏性
L1更容易得到稀疏解. 因为L1的限定区域是包含凸点的,尖锐的 这些凸点更容易接近Ein函数的最优解的位置,这些点上的w很多为0 而L2是平滑的,与中心点等距
正则化参数λ
若λ很小(接近于零)相当于没有正则化项,对w没有惩罚,则容易过拟合。 λ↑ C↓, 限定区域较小,距离最优解较远,导致w普遍较小,容易欠拟合。