问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

理解梯度下降和反向传播

发布网友 发布时间:2022-10-15 20:16

我来回答

1个回答

热心网友 时间:2023-10-11 15:45

梯度下降就是一个求极值的方法,在深度学习里面用于最小化损失来训练权重和偏差。

先举个简单的例子,

比如,我们要求如上曲线函数的极小值,我们只要对其求导然后找导数为0的点就可以了。

但是在实际情况会比这个要复杂的多,因为我们会有更多的变量,特别是对于神经网络而言,它可能以复杂的方式依赖于几十亿的权重和偏差,因此依靠微分来求极值显然是行不通的。

但是你想呀,我们有计算机呀,计算机最擅长什么?当然是硬算呀...

想必玩过猜数字游戏吧,你先随便猜一个,然后告知你大了还是小了,如果大了你就往小了猜,小了就往大了猜,如此循环往复就猜到对应的数字了。

梯度下降的过程也是有点类似的,就是你先随便选一个点,然后往减小的方向一点点移动,移动着移动着,你就到了那块最小的值的区域了。

那么,这个方向应该怎么确定呢?暂时先不去想它,假设我们就给我们的变量 随意移动了很小的一段 ,那么函数值 会发生多少变化呢?微积分告诉我们会这么改变:

要让 的值减小,就意味着我们要让 为负。

在此之前,我们先把上面的偏导扩展到多元变量,即不止有一个变量 ,而是有 ,我们将所有变量的偏导数组合在一起构成一个向量,将其称为梯度向量,即

把所有发生的变化 也写到一个向量里:

我们可以把 的表达式写成:

观察上面的公式,容易想到的是,我们只要选择

就可以保证 小于等于0了,其中 是一个小的正数(我们称之为学习速率或者是步长)。然后,我们就知道该如何移动这个点了:

然后让计算机使用这个规则,一遍一遍的迭代,就能让损失函数的值 达到我们希望的极小值。

总而言之,梯度下降算法的工作方式是反复计算梯度 ,然后向相反方向移动。

那么,我们如何把它应用到神经网络的学习中?显而易见的,就是利用梯度下降来找到相应的权重 和偏差 ,让损失函数的值尽可能的小。套用上面的公式,我们只要随机取一个 和 ,利用更新的规则,就有了:

在来想一下我们网络损失函数的定义,当使用二次损失时, ,也就是说,神经网络中的损失,是所有训练样本损失的平均。但是,当数据集很大的时候,这会花费很长很长的时间,因此网络的学习速度会非常非常慢。于是就有了一种叫做随机梯度下降的思想来加速学习。

这个想法其实很简单,就是随机选取一个小的批次,然后只计算这个批次的平均损失,这样只要每个批次的平均损失都最小的话,那整体也就最小了。特别的,当这个批次只去一个样本的时候,神经网络一次只能从一个训练输入中学习,这种行为被称为在线学习。

okay,现在我们已经知道用梯度下降来让网络学习权重和偏差了,但是还有一个问题困扰着我们,就是你这个方法说起来简单,可是...可是这个梯度要怎么算呀?

然后一种快速计算梯度的算法,叫做反向传播算法就来了。

反向传播算法的核心在于如何通过最终的损失 计算网络中任意位置的权值 (或者偏差 )的偏导 。

很明显,其实最后一层的偏导是很好计算的,因为损失只要把样本 对应的标签 和输出激活 ,带到损失函数里就得到了,问题在于怎么计算前面层的损失。顾名思义,反向传播算法的精髓就是搞出了一种方法,可以把误差从后往前反向传播,这样就可以轻松的计算前面层权值的偏导了。

在开始正式讲解之前,我们先来定义几个符号:

根据上面的符号表达,我们可以很轻松的写出正向传播的递推公式,就上一层的的输出激活作为下一层的输入,然后经过线性运算再输出 激活,这里使用向量化的形式:

为了计算 和 ,我们引入一个中间变量 ,称其为第 层的第 个神经元的误差:

按照惯例,我们用 来代表第 层的误差向量。

根据微积分中求导的链式法则,有

并且可以得到一个递推公式

写成矩阵的形式,就是

这样我们就可以将误差从后往前传递了。

那么这个误差和我们的偏导 又有什么联系呢?还是根据链式法则:

到此,整个反向传播的过程就连起来了。求偏差的偏导使用同样的方法即可。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
大连大学中外办学值得上吗 大连大学国际本科是公办还是民办 介绍一些有古老气息的,有传说的地方,越多越好。最好在中国中部。 现在的日本鬼子难道一定是你们想的这样坏吗?坏的是日本政府! 我近几年在吃玉米的时候总是不消化,一吃就拉出来了,而且大便中... 同时掷3个均匀的骰子,当得知"其中两个骰子面朝上点数之和为8时"获得多... 重庆市工伤申请表的鉴定程序是什么的 ...做了包皮手术,有早泄有前列腺,在晚上睡觉梦游射精,有什么影响到病快... 电脑没声,音箱正常,也没发现有感叹号和问号.声音控制部分被禁用.是换了... 属狗女什么属相最配对,属狗女和什么属相最配 上海市大病医保报销 有什么简单,生活上实用的小制作? mate10屏幕维修 SD卡用读卡器插电脑上显示 磁盘未格式化 而且点格式化显示不能格式什么意思? 昌吉拉丁舞那个地方教的好一点? 销售人员授权委托书 二手华为荣耀2多少钱? 华为荣耀手表S1,全新未拆封,刚入手1天,自己有手表没用想卖掉,能卖多少? 关于高压柜的问题 KYN 28 柜是真空柜吗? 施耐德真空柜有什么? 施耐德EV12S-12/630A 25KA 这个型号的手车式真空断路器的断流容量是多少? 小学语文三年级下册第29课清明节的由来中血书中的那句话是什么意思 初一一元一次方程组应用题 福特锐界多重? 黑眼圈怎么消除最快 求魔兽世界SW双子攻略! 销售人员日常管理方案 最近看到很多讲电商云卖的,云卖里面的“麦客”、“伙伴”、“粉丝”分别指的是什么? 魔兽世界10普通十字军双子攻略拜托各位大神 人脸识别为什么一直失败? 免得造句-用免得造句 为盘活手机业务,传华为拟将手机设计授权给第三方品牌 电影突袭2里面敌人手里的半圆弧刀叫什么名字 无法办理社保卡几种可能 好久没登录,现在登录了,要好友辅助验证,不记得好友怎么办? 7个月宝宝体温37.2正常吗? pubg枪皮肤怎么交易 转正后补缴试用期社保如何补 每日面试一栏鸡肋的“核酸小屋” 求《我的同桌是极品》高清免费在线观看 我宠爱的师弟是反派大佬怎么办 怎么把vivo y66手机上的Emoji修改成vivo y93手机上的Emoji? 《我的同桌是极品》高清资源谁有,求分享 广西差旅费报销标准2021 山西省差旅费标准2021 平板kindle通讯录电子邮件地址是什么意思 人死后忘记出殃时间 本人为温州瓯海区户口,请问护照在哪里办 温州更换护照是在哪个地方,具体位置? 温州 哪里 办护照 浙江省温州市文成县办理护照的出入境管理处具体地址是哪儿啊。急。