问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

正则项浅析

发布网友 发布时间:2022-10-15 12:09

我来回答

1个回答

热心网友 时间:2023-10-09 00:47

知识预备:范数
http://blog.csdn.net/shijing_0214/article/details/51757564

我们经常会听到正则项这个概念,通过查阅资料并且结合自己的理解对正则项做了一个简单的总结,首先,从问题出发:
(1)正则项存在的意义是什么,为什么要使用正则项?正则项是如何防止过拟合的?
(2)有哪几种正则项,如何表示,它们的相同点和不同点是什么?
(3)不同正则项的使用场景是什么,如何选取正则项呢?
下面就来一一的进行分析吧~~~~

先引入问题
就拿斯坦福机器学习课程的例子来说,通过房子的面积来预测房价,建立回归方程来拟合样本数据

(一)为什么要使用正则项?
其实正则项是对参数的控制。那么为什么要控制参数呢,控制参数有什么好处呢?
(1)实现参数的稀疏,这样可以简化模型,避免过拟合。在一个模型中重要的特征并不是很多,如果考虑所有的特征都是有作用的,那么就会对训练集进行充分的拟合,导致在测试集的表现并不是很好,所以我们需要稀疏参数,简化模型。
(2)尽可能保证参数小一些,这又是为啥呢?因为越是复杂的模型,它会对所有的样本点进行拟合,如果在这里包含异常的样本,就会在小区间内产生很大的波动,不同于平均水平的高点或者低点,这样的话,会导致其导数很大,我们知道在多项式导数中,只有参数非常大的时候,才会产生较大的导数,所以模型越复杂,参数值也就越大。为了避免这种过度的拟合,需要控制参数值的大小。

(二)正则项的分类
正则项有三种:L0、L1、L2

L0正则化的值是模型参数中非零参数的个数。
L1正则化表示各个参数绝对值之和。
L2正则化标识各个参数的平方的和的开方值。

1、L0正则化
保证参数稀疏化来防止过拟合,可以用非零参数,来进行特征选择。但是L0正则化不好求,因此采用L1正则化。L1正则化是L0正则化的最优凸近似,比L0容易求解,并且可以实现稀疏的效果。

2、L1正则化
L1正则化也叫lasso,它往往是替代L0正则化来防止过拟合的。为啥用L1范数,因为L1范数就是各个参数的绝对值相加,我们已知,参数的值的大小和模型的复杂度是成正比的,因此复杂模型,L1范数就会大,导致损失函数大。下面定量的分析:
在原始的代价函数后面加上一个L1正则化项,即所有权重w的绝对值的和,乘以λ/n。如下:

​同样计算导数得:

上式中sgn(w)表示w的符号。那么权重w的更新规则为:​

现在来观察正则求导项,可知当w为正时,更新后的w变小;当w为负时,更新后的w变大。因此它的效果就是让w往0靠,使网络中的权重尽可能为0,也就相当于减小了网络复杂度,防止过拟合。另外,上面没有提到一个问题,当w为0时怎么办?当w等于0时,|w|是不可导的,所以我们只能按照原始的未经正则化的方法去更新w,这就相当于去掉η λ sgn(w)/n这一项,所以我们可以规定sgn(0)=0,这样就把w=0的情况也统一进来了。

3、L2正则化
L2正则化也是防止过拟合的,原因和L1一样一样的,就是形式不同。L2范数是各参数的平方和再求平方根。对于L2的每个元素都很小,但是不会为0,只是接近0,参数越小说明模型越简单,也就越不容易产生过拟合。L2正则化也叫做“岭回归”。

来让我们看看具体的例子,对于房屋价格预测我们可能有上百种特征,与刚刚所讲的多项式例子不同,我们并不知道 哪些是高阶多项式的项。所以,如果我们有一百个特征,我们并不知道如何选择关联度更好的参数,如何缩小参数的数目等等。因此在正则化里,我们要做的事情,就是把减小我们的代价函数(例子中是线性回归的代价函数)所有的参数值,因为我们并不知道是哪一个或哪几个要去缩小。因此,我们需要修改代价函数,在这后面添加一项,就像我们在方括号里的这项。当我们添加一个额外的正则化项的时候,我们收缩了每个参数。

为什么加了一项就让参数尽量小呢,因为只要你想让J最小,那么θ肯定尽可能的去小。

注意:这里我们没有去惩罚 θ0,实践中只会有较小的差异

λ 要做的就是控制惩罚项与均方差之间的平衡关系。
λ越大说明,参数被打压得越厉害,θ值也就越小

现在进行定量的分析:

L2正则化就是在代价函数后面再加上一个正则化项:

C0代表原始的代价函数,后面那一项就是L2正则化项,它是这样来的:所有参数w的平方的和,除以训练集的样本大小n。λ就是正则项系数,权衡正则项与C0项的比重。另外还有一个系数1/2,1/2经常会看到,主要是为了后面求导的结果方便,后面那一项求导会产生一个2,与1/2相乘刚好凑整。L2正则化项是怎么避免overfitting的呢?我们推导一下看看,先求导:

在不使用L2正则化时,求导结果中w前系数为1,现在w前面系数为 1-ηλ/n ,因为η、λ、n都是正的,在样本量充足的时候,1-ηλ/n小于1,它的效果是减小w,这也就是权重衰减的由来。当然考虑到后面的导数项,w最终的值可能增大也可能减小。

(三)lasso回归和ridge回归
下面我们来看两个对比图
(1)lasso
注意到L1正则化是权值的绝对值之和,J是带有绝对值符号的函数,因此J是不完全可微的。机器学习的任务就是要通过一些方法(比如梯度下降)求出损失函数的最小值。考虑二维的情况,即只有两个权值w1和w2,此时L=|w1|+|w2|,对于梯度下降法,求解J的过程可以画出等值线,同时L1正则化的函数L也可以在w1w2的二维平面上画出来。如下图:

在图中,当J等值线与L首次相交的地方就是最优解。上图中J与L在L的一个顶点处相交,这个顶点就是最优解。注意到这个顶点的值是(w1,w2)=(0,w)。可以直观想象,因为L函数有很多突出的角(二维情况下四个,*情况下更多),J与这些角接触的机率会远大于与L其它部位接触的机率,而在这些角上,会有很多权值等于0,这就是为什么L1正则化可以产生稀疏模型,进而可以用于特征选择。

(2)ridge
同理,假设有如下带L2正则化的损失函数,同样可以画出他们在二维平面上的图形,如下:

图2 L2正则化二维平面下L2正则化的函数图形是个圆,与方形相比,被磨去了棱角。因此J与L相交时使得w1或w2等于零的机率小了许多,这就是为什么L2正则化不具有稀疏性的原因。

总结:L1会趋向于产生少量的特征,而其他的特征都是0,而L2会选择更多的特征,这些特征都会接近于0。Lasso在特征选择时候非常有用,而Ridge就只是一种规则化而已。在所有特征中只有少数特征起重要作用的情况下,选择Lasso比较合适,因为它能自动选择特征。而如果所有特征中,大部分特征都能起作用,而且起的作用很平均,那么使用Ridge也许更合适。

参考文章:
http://blog.csdn.net/vividonly/article/details/50723852
http://blog.sina.com.cn/s/blog_8267db980102wryn.html
http://www.mamicode.com/info-detail-517504.html
http://www.2cto.com/kf/201609/545625.html
http://blog.csdn.net/zouxy09/article/details/24971995/

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
橙子冷藏能保存多久 橙子会过期吗 新鲜橙子如何保存更久 橙子保鲜剂对人体有害吗 粒上皇开口熟栗120g*5袋(共600g)-详细介绍 三皇王板栗介绍 品牌榜:2024年板栗十大品牌排行榜 投票结果公布【新】 为什么来大姨妈胸会胀 少儿学什么舞蹈 青年学什么舞蹈好 L1正则化及推导 天津财经大学有什么二本好专业,我是一本的分想报二本 惠普2015打印机两个黄灯常亮啥问题 小米2s的权限管理在哪?我的是开发版的了找不到权限管理 大家推荐下好用的润唇膏 冬天适合用什么唇膏?巧迪尚惠化妆品怎么样?他家的唇膏好用吗? 新科音箱T509和T26有什么区别 半帘花影月笼纱的上一句是什么? 什么叫T类音箱,他和特别的音箱有什么区别 蕴的拼音 蕴的拼音及组词 断奶一年多了,为什么还有乳汁 西门子kk24e18tl冰箱冷冻室结冰严重 西门子kk24e18t1 西门子冰箱KK24E18TI报价多少 梦见自己和朋友都有超能力,还用超能力跟别的超能力打架。我的能力是关于水的! 主角很能打的校园小说 深圳好享投互联网金融服务有限公司介绍? 周挺的人物简介 周挺的介绍 周挺的简介 假如只知道一个人的手机号和,如何找这个人? 啥意思你说你说呀不给你颜色不知道姓谁你信不信我一刀捅死你 当你问一个男人你爱我吗,他总是说,你说呀,这是什么意思 2015高考志愿填报必知术语 有啥控油的洗发水吗?我头特别油 谁用过美国箭牌马用洗发水的?回答回答我问题好吗? 南宁那里有戏剧培训的地方 一个pumpfan1能接几个风扇 踝关节积液怎么治疗 烤脆骨的做法 烤脆骨怎么做法 我想问问是广州的联通卡,现在是空号了,我现在在清远,这是我之前的电话卡,因为之前手机被人偷了,卡了 妄想山海神树6水什么意思 妄想山海影珠池怎么获得 请律师大概需要多少钱? 请律师一般多少钱律师收费标准? 螺纹的介绍 螺纹有哪些种类? 斗破苍穹之重生中萧炎在哪里张遇到了云韵 凤庆滇红茶最正宗 蝉的读音组词