登录
首页 » Others » 反向传播算法推导—全连接神经网络

反向传播算法推导—全连接神经网络

于 2020-12-09 发布
0 266
下载积分: 1 下载次数: 6

代码说明:

反向传播算法是人工神经网络训练时采用的一种通用方法,在现代深度学习中得到了大 规模的应用。全连接神经网络(多层感知器模型,MLP),卷积神经网络(CNN),循环神 经网络(RNN)中都有它的实现版本。算法从多元复合函数求导的链式法则导出,递推的 计算神经网络每一层参数的梯度值。算法名称中的“误差”是指损失函数对神经网络每一层 临时输出值的梯度。反向传播算法从神经网络的输出层开始,利用递推公式根据后一层的误 差计算本层的误差,通过误差计算本层参数的梯度值,然后将差项传播到前一层(w, x,)+b这个神经元接受的输入信号为向量(),向量()为输入向量的组合权重,为徧置项,是标量。神经儿对输入冋量进行加权求和,并加上偏置项最后经过激活函数变换产生输出为表述简洁,我们把公式写成向量和矩阵形式。对每个神经元,它接受的来自前一层神经元的输入为向量,本节点的权重向量为,偏置项为,该神经元的输出值为先计算输入向量与权重向量的内积,加上偏置项,再送入一个函数进行变换,得到输出这个函数称为激活函数,典型的是函数。为什么需要激活函数以及什么样的函数可以充当激活函数,在之前的公众号文章“理解神经网终的激活函数”中已经进行了介绍。神绎网络一般有多个层。第一层为输入层,对应输入向量,神绎元的数量等于特征向量的维数,这个层不对数据进行处理,只是将输入向量送入下一层中进行计算。中间为隐含层,可能有多个。最后是输出层,神经元的数量等于要分类的类别数,输出层的输岀值被用来做分类预测。下面我们来看一个简单神经网络的例了,如下图所示这个网络有层。第一层是输入层,对应的输入向量为,有个神经元,写成分量形式为(),它不对数据做任何处理,直接原样送入下一层。中间层有个神经元,接受的输入数据为向量,输出向量为,写成分量形式为。第三个层为输出层,接受的输入数据为向量,输出向量为,写成分量形式为()。第一层到第层的权重矩阵为(,第二层到第三层的权重矩阵为()。权重矩阵的每一行为一个权重向量,是层所有神经元到本层某一个神经儿的连接权重,这里的上标表小层数如果激活函数选用函数,则第二层神经元的输出值为+(-(+0)+(1+(0)(-(()第三层神经元的输出值为如果把代入上面二式中,可以将输出向量表示成输出向量的函数。通过调整权重矩阵和偏置项可以实现不同的函数映射,因此神经网终就是一个复合函数需要解决的·个核心问题是·旦神经网络的结构(即神经元层数,每层神经元数量)桷定之后,怎样得到权重矩阵和偏置项。这些参数是通过训练得到的,这是本文推导的核心任务个简单的例子首先以前面的层神经网络为例,推导损失函数对神经网络所有参数梯度的计算方法假设训练样本集中有个样本()。其中为输入向量,为标签向量。现在要确定神经网络的映射函数:什么样的函数能很好的解释这批训练栟本?答案是神经网络的预测输出要尽可能的接近样本的标签值,即在训练集上最小化预测误差,如果使用均方误差,则优化的目标为:∑‖()-其中()和都是向量,求和项内部是向量的范数平方,即各个分量的平方和。上面的误差也称为欧氏距离损失函数,除此之外还可以使用其他损失函数,如交叉熵、对比损失等。优化目标函数的自变量是各层的权重矩阵和梯度向量,一般情况下无法保证目标函数是凸函数,因此这不是一个凸优化问题,有陷入局部极小值和鞍点的风险(对于这些概念和问题之前的公众号文章“理解梯度下降法”,“理解凸优化”中己经做了详细介绍)这是神经网络之前一直被诟病的一个问题。可以使用梯度下降法进行求解,使用梯度下降法需要计算出损失函数对所有权重矩阵、偏置向量的梯度值,接下来的关键是这些梯度值的计算。在这里我们先将问题简化,只考虑对单个样本的损失函数()-‖后面如果不加说明,都使用这种单样木的损失函数。如果计算出了对单个样木损失函数的棁度值,对这些梯度值计算均值即可得到整个目标函数的梯度值。和(要被代入到网络的后一层中,是复合函数的内层变量,我们先考虑外层的和。权重矩阵是一个x的矩阵,它的两个行分别为向量(和是个维的列向量,它的两个元素为()和()。网络的输入是向量,第一层映射之后的输出是向量首先计算损失函数对权重矩阵每个元素的偏导数,将欧氏距离损尖函数展开,有((+))(())6(如果,即对权重矩阵第行的元素求导,上式分了中的后半部分对来说是常数。根据链式法则有S()+()O如果,即对矩阵第二行的元素求导,类似的有:可以统一写成可以发现,第一个下标决定了权重矩阵的第行和偏置向量的第个分量,第二个下标决定了向量的第个分量。这可以看成是一个列向量与一个行向量相乘的结果,写成矩阵形式为上式中乘法⊙为向量对应元素相乘,第二个乘法是矩阵乘法。是个维列向量,+也是一个维列向量,两个向量执行⊙运算的结果还是个维列向量。是一个元素的列向量,其转置为维行向量,前面这个:维列向量与的乘积为的矩阵,这正好与矩阵的尺寸相等。在上面的公式中,权重的偏导数在求和项中由部分组成,分别是网络输出值与真实标签值的误差激活区数的导数+(),本层的输入值。神经网络的输出值、激活函数的导数值本层的输入值都可以在正向传播吋得到,因此可以晑效的计算出来。对所有训练样本的偏导数计算均值,可以得到总的偏导数对偏置项的偏导数为:如果上式分子中的后半部分对来说是常数,有:()⊥()如果类似的有这可以统写成:写成矩阵形式为偏置项的导数由两部分组成,分别是神经网络预测值与真实值之间的误差,激活函数的导数值,与权重矩阵的偏导数相比唯一的区别是少了。接下来计算对和的偏导数,由于是复合函数的内层,情况更为复杂。()是个的短阵,它的个行向量为(),(,(,(。偏置项()是维向量,个分量分别是(),(,(),(。首先计算损失函数对的元素的偏导数:而上式分子中的两部分都有,因此都与有关。为了表述简活,我们令:根据链式法则有:其巾((和和都是标量和()是两个()向量的内积,的每一个分量都是()的函数。接下来计算和这里的一是个向量,衣示的每个分量分别对求导。当时有:后面个分量相对于求导变量(都是常数。类似的当时有:()0)(()和时的结果以此类推。综合起来有:同理有:()十如果令合并得到()()[()-)。()。()写成矩阵形式为()最后计算偏置项的偏导数()类似的我们得到:合并后得到()写成矩阵形式为:(0)至此,我得到了这个简单网络对所有参数的偏导数,接下来我们将这种做法推广到更般的情况。从上面的结果可以看岀一个规律,输出层的权重矩阵和偏置向量梯度计算公式中共用了()-)()对」隐含层也有类似的结果完整的算法现在考虑一般的情况。假设有个训练样本(),其中为输入向量,为标签向量。训练的目标是最小化样木标签值与神经网络预测值之闩的误差,如果使用均方误差,则优化的目标为:其中为神经网络所有参数的集合,包括各层的权重和偏置。这个最优化问题是·个不带约束条件的问题,可以用梯度下降法求解。上面的误差函数定义在整个训练样本集上,梯度下降法每一次迭代利用了所有训练样本,称为批量棁度卜降法。如果样木数量很大,每次迭代都用所有样木进计算成木太高。为了解决这个问题,可以采用单样本梯度下降法,我们将上面的损失函数写成对单个样本的损失函数之和:定义对单个样本()的损失函数为)=-()如果采用单个样本进行迭代,梯度下降法第次迭代时参数的更新公式为:nV如果要用所有样本进行迭代,根据单个样本的损失函数梯度计算总损失梯度即可,即所有样本梯度的均值用梯度下降法求解需要初始化优化变量的值。一般初始化为一个随机数,如用正态分布(a)产生这些随机数,其中G是一个很小的正数到日前为止还有一个关键问题没有解决:日标函数是一个多层的复合函数,因为神经网络中每一层都有权重矩阵和偏置向量,且每一层的输出将会作为下一层的输入。因此,直接计算损失函数对所有权重和偏置的梚度很复杂,需要使用复合函数的求导公式进行递推计算几个重要的结论在进行推导之前,我们首先来看下面几种复合函数的求导。又如下线性映射函数:其中是维向量,是×的矩阵,是维向量。问题:假设有函数,如果把看成常数,看成的函数,如何根据函数对的梯度值Ⅴ计算函数对的梯度值Ⅴ?根据链式法则,由于只和有关,和其他的≠无关,因此有:c∑(对于的所有元素有:写成矩阵形式为:问题:如果将看成常数,将看成的函数,如何根据V计算Ⅴ?由于任意的和所有的都有关系,根据链式法则有写成矩阵形式为这是一个对称的结果,在计算函数映射时用矩阵乘以向量得到,在求梯度时用矩阵的转置乘以的梯度得到的梯度。问题:如果有向量到向量的映射:

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论

0 个回复

  • 转子临界转速-Matlab
    转子系统的临界转速计算,Matlab程序
    2020-11-28下载
    积分:1
  • 数字控制振荡器_nco_的fpga实现
    介绍了NCO 数字控制振荡器的工作原理 详细分析了数控振荡器的性能指标和其在FPGA中的实现方法 最后给出了新设计的数控振荡器在QUARTUS2 中的仿真结果第12卷第11期电子元器件用VoL 12 No. 112010年11月Electronic Component Device ApplicationsNov.20102069n80#顶(101#围100am)20020数篇0291潮0x)萨:日6959173国0国L图1 QUARTUS II下仿真波形图功率谱密度函数信号波形图X:4080-sn(2pi*18e61)Y5014余强信号H正弦信"7彐300>…-÷a是2500300035004C004500500055006000250255260265270275280285290图2输出频率为408ⅥH的信号波形与功率谱密度5结束语参考文献本文通过分析数控振荡器的实现原理和性张欣扩频通信数字基带信号处理算法及其vS实现能,给出了通过FPGA来实现NCO的具体方法[M]北京:科学出版社,2004同时通过 QUARTUSⅡ中的仿真验证了本设计的[2]楼顺天MAT.AB7x程序设计语言[M西安:西安电子科技大学出版社,200正确性。结果证明,用该方法设计的NCO可以输3]汤伟良,等数控振荡器在FPGA中的实现门微型机与出多种频率的信号,同时也可以减少资源消耗。应用,2003,22)X(上接第41页表1分档信息及对应放大/哀减量息,也提高了实时数控AGC电路的动态范围和整档位输入信号功放大衰档位输入信号功放大衰个系统的精度。实验结果表明,该电路能够实现号率范围/dBm减量dB号率范围/dBm诚量/dB实时AGC的电路功能,并有效扩展了动态范围。1「12,20186「-33,-24)3523,12)7参考文献36,3)8[51,4杨小牛,楼才义,徐建良软件无线电原理与应用[Ml4-15,-6)9[-80,-51)北京:电子工业出版社,200151-24,-1526实时放大衰减。同时利用FPGA器件良好的数字2]韩尧秦开宇基于数字补偿的实时自动增益控制技术研究[.电子科技大学学报,2007,36(1):79-81特性实现了数控AGC的设计,从而实现了对信号3陈爽高性能频谱分析仪中频信号处理技术研究U的实时数字增益补偿,有效减少了电路体积。同合肥:合肥工业大学,2007时,采用两级数控增益放大/衰減器级联和根据[4曹鹏,费元春.大动态范囯数字中频ACC系统的设计两路不同增益通道提取的度值来判断档位信门北京理工大学学报,2003,23(5:613-61644电子元器件在用2010.11www.ecda.cn
    2020-12-07下载
    积分:1
  • STM32F103系列例
    包括电路原理图、LED、时延、定时器、蜂鸣器、串口、ADC、DAC、IIC、SPI FLASH、CAN、红外遥控、摄像头等例程
    2020-11-06下载
    积分:1
  • 遗传算法图像分割matlab+源代码
    多篇有关遗传算法的论文,以及matlab源代码
    2020-12-05下载
    积分:1
  • mxgraph 教、实例
    蛮全的mxgraph,这个真是不错,赚了啊!
    2020-12-02下载
    积分:1
  • 条纹二值化,细化,轮廓提取源码
    对条纹处理是很复杂的任务,特别是对噪声图像,现在可以对图像滤波,二值化,细化,在提取条文中心线,方便后续处理,如对条纹宽度估计
    2020-12-04下载
    积分:1
  • 掌纹识别代码matlab
    关于掌纹识别的matlab源代码,包括预处理、特征提取、匹配等
    2020-12-06下载
    积分:1
  • FANUC数据采集
    适用于带以太网接口的FANUC数控机床,通过FANUC自带插件获取数据
    2020-12-12下载
    积分:1
  • verilog课设计之洗衣机
    华中科技大学电子课程设计,基于quartus2的洗衣机verilog编程。完整源代码和qpf可执行项目
    2020-12-02下载
    积分:1
  • STM32实现ADPCM码解码
    使用STM32 实现对音频的 编码 解码 使用的编码算法为ADPCM
    2021-05-06下载
    积分:1
  • 696518资源总数
  • 104226会员总数
  • 29今日下载