L0 L1 L2 正则化

范数

$$\Vert x \Vert_p:=\left(\sum^n_{i=1}\vert x_i \vert^p\right)^{\frac {1}{p}}$$

$L1\ 范数：当\ p=1\ 时，表示某个向量中所有元素绝对值之和$
$L2\ 范数：当\ p=2\ 时，表示某个向量中所有元素平方和再开根，也就是欧几里得距离公式$

对于线性回归模型，使用 L1 正则化的模型建叫做 Lasso 回归，使用 L2 正则化的模型叫做 Ridge 回归（岭回归）。

L1

$$ \mathop{argmin} \limits_{w}{\frac{1}{2n_{samples}}} \Vert X_w - y\Vert^2_2+\alpha\Vert w \Vert_1$$

作用

L1 正则化可以产生稀疏权值矩阵，即产生一个稀疏模型，可以用于特征选择，一定程度上，L1也可以防止过拟合。

通常越大的 $\lambda$ 可以让代价函数在参数为0时取到最小值

稀疏矩阵指的是很多元素为 0，只有少数元素是非零值的矩阵，即得到的线性回归模型的大部分系数都是 0。

通常机器学习中特征数量很多，例如文本处理时，如果将一个词组（term）作为一个特征，那么特征数量会达到上万个（bigram）。
在预测或分类时，那么多特征显然难以选择，但是如果代入这些特征得到的模型是一个稀疏模型，表示只有少数特征对这个模型有贡献，绝大部分特征是没有贡献的，或者贡献微小（因为它们前面的系数是0或者是很小的值，即使去掉对模型也没有什么影响），此时我们就可以只关注系数是非零值的特征。这就是稀疏模型与特征选择的关系。

L2

岭回归计算公式

$$ \mathop{argmin} \limits_{w}{\frac{1}{2n_{samples}}} \Vert X_w - y\Vert^2_2+\alpha\Vert w \Vert_2^2$$

$$J(\theta) = {\frac{1}{2m}}\left[\sum^m_{i=1}(h_\theta(x^{(i)})-y^{(i)})^2+\lambda\sum^{n}_{j=1}\theta^2_j\right]$$

如果发生过拟合，参数 $\theta$ 一般是比较大的值，加入惩罚项后，只要控制 $\lambda$ 的大小，当 $\lambda$ 很大时， $\theta_1$ 到 $\theta_n$ 就会很小，即达到了约束数量庞大的特征的目的。

作用

L2正则化可以防止模型过拟合（overfitting）

拟合过程中通常都倾向于让权值尽可能小，最后构造一个所有参数都比较小的模型。

因为一般认为参数值小的模型比较简单，能适应不同的数据集，也在一定程度上避免了过拟合现象。可以设想一下对于一个线性回归方程，若参数很大，那么只要数据偏移一点点，就会对结果造成很大的影响；但如果参数足够小，数据偏移得多一点也不会对结果造成什么影响，专业一点的说法是『抗扰动能力强』。

L0

L0范数是指向量中非0的元素的个数。

如果我们用 L0 范数来规则化一个参数矩阵 W 的话，就是希望 W 的大部分元素都是 0，换句话说，就是让参数W是稀疏的。

通常使参数稀疏都是用 L1 范数实现，L1 范数也有个美称叫“稀疏规则算子”（Lasso regularization）。既然 L0 可以实现稀疏，为什么不用 L0，而要用 L1 呢？个人理解一是因为 L0 范数很难优化求解（NP难问题），二是 L1 范数是 L0 范数的最优凸近似，而且它比L0范数要容易优化求解。