登录
首页 » Others » 反向传播算法推导—全连接神经网络

反向传播算法推导—全连接神经网络

于 2020-12-09 发布
0 281
下载积分: 1 下载次数: 6

代码说明:

反向传播算法是人工神经网络训练时采用的一种通用方法,在现代深度学习中得到了大 规模的应用。全连接神经网络(多层感知器模型,MLP),卷积神经网络(CNN),循环神 经网络(RNN)中都有它的实现版本。算法从多元复合函数求导的链式法则导出,递推的 计算神经网络每一层参数的梯度值。算法名称中的“误差”是指损失函数对神经网络每一层 临时输出值的梯度。反向传播算法从神经网络的输出层开始,利用递推公式根据后一层的误 差计算本层的误差,通过误差计算本层参数的梯度值,然后将差项传播到前一层(w, x,)+b这个神经元接受的输入信号为向量(),向量()为输入向量的组合权重,为徧置项,是标量。神经儿对输入冋量进行加权求和,并加上偏置项最后经过激活函数变换产生输出为表述简洁,我们把公式写成向量和矩阵形式。对每个神经元,它接受的来自前一层神经元的输入为向量,本节点的权重向量为,偏置项为,该神经元的输出值为先计算输入向量与权重向量的内积,加上偏置项,再送入一个函数进行变换,得到输出这个函数称为激活函数,典型的是函数。为什么需要激活函数以及什么样的函数可以充当激活函数,在之前的公众号文章“理解神经网终的激活函数”中已经进行了介绍。神绎网络一般有多个层。第一层为输入层,对应输入向量,神绎元的数量等于特征向量的维数,这个层不对数据进行处理,只是将输入向量送入下一层中进行计算。中间为隐含层,可能有多个。最后是输出层,神经元的数量等于要分类的类别数,输出层的输岀值被用来做分类预测。下面我们来看一个简单神经网络的例了,如下图所示这个网络有层。第一层是输入层,对应的输入向量为,有个神经元,写成分量形式为(),它不对数据做任何处理,直接原样送入下一层。中间层有个神经元,接受的输入数据为向量,输出向量为,写成分量形式为。第三个层为输出层,接受的输入数据为向量,输出向量为,写成分量形式为()。第一层到第层的权重矩阵为(,第二层到第三层的权重矩阵为()。权重矩阵的每一行为一个权重向量,是层所有神经元到本层某一个神经儿的连接权重,这里的上标表小层数如果激活函数选用函数,则第二层神经元的输出值为+(-(+0)+(1+(0)(-(()第三层神经元的输出值为如果把代入上面二式中,可以将输出向量表示成输出向量的函数。通过调整权重矩阵和偏置项可以实现不同的函数映射,因此神经网终就是一个复合函数需要解决的·个核心问题是·旦神经网络的结构(即神经元层数,每层神经元数量)桷定之后,怎样得到权重矩阵和偏置项。这些参数是通过训练得到的,这是本文推导的核心任务个简单的例子首先以前面的层神经网络为例,推导损失函数对神经网络所有参数梯度的计算方法假设训练样本集中有个样本()。其中为输入向量,为标签向量。现在要确定神经网络的映射函数:什么样的函数能很好的解释这批训练栟本?答案是神经网络的预测输出要尽可能的接近样本的标签值,即在训练集上最小化预测误差,如果使用均方误差,则优化的目标为:∑‖()-其中()和都是向量,求和项内部是向量的范数平方,即各个分量的平方和。上面的误差也称为欧氏距离损失函数,除此之外还可以使用其他损失函数,如交叉熵、对比损失等。优化目标函数的自变量是各层的权重矩阵和梯度向量,一般情况下无法保证目标函数是凸函数,因此这不是一个凸优化问题,有陷入局部极小值和鞍点的风险(对于这些概念和问题之前的公众号文章“理解梯度下降法”,“理解凸优化”中己经做了详细介绍)这是神经网络之前一直被诟病的一个问题。可以使用梯度下降法进行求解,使用梯度下降法需要计算出损失函数对所有权重矩阵、偏置向量的梯度值,接下来的关键是这些梯度值的计算。在这里我们先将问题简化,只考虑对单个样本的损失函数()-‖后面如果不加说明,都使用这种单样木的损失函数。如果计算出了对单个样木损失函数的棁度值,对这些梯度值计算均值即可得到整个目标函数的梯度值。和(要被代入到网络的后一层中,是复合函数的内层变量,我们先考虑外层的和。权重矩阵是一个x的矩阵,它的两个行分别为向量(和是个维的列向量,它的两个元素为()和()。网络的输入是向量,第一层映射之后的输出是向量首先计算损失函数对权重矩阵每个元素的偏导数,将欧氏距离损尖函数展开,有((+))(())6(如果,即对权重矩阵第行的元素求导,上式分了中的后半部分对来说是常数。根据链式法则有S()+()O如果,即对矩阵第二行的元素求导,类似的有:可以统一写成可以发现,第一个下标决定了权重矩阵的第行和偏置向量的第个分量,第二个下标决定了向量的第个分量。这可以看成是一个列向量与一个行向量相乘的结果,写成矩阵形式为上式中乘法⊙为向量对应元素相乘,第二个乘法是矩阵乘法。是个维列向量,+也是一个维列向量,两个向量执行⊙运算的结果还是个维列向量。是一个元素的列向量,其转置为维行向量,前面这个:维列向量与的乘积为的矩阵,这正好与矩阵的尺寸相等。在上面的公式中,权重的偏导数在求和项中由部分组成,分别是网络输出值与真实标签值的误差激活区数的导数+(),本层的输入值。神经网络的输出值、激活函数的导数值本层的输入值都可以在正向传播吋得到,因此可以晑效的计算出来。对所有训练样本的偏导数计算均值,可以得到总的偏导数对偏置项的偏导数为:如果上式分子中的后半部分对来说是常数,有:()⊥()如果类似的有这可以统写成:写成矩阵形式为偏置项的导数由两部分组成,分别是神经网络预测值与真实值之间的误差,激活函数的导数值,与权重矩阵的偏导数相比唯一的区别是少了。接下来计算对和的偏导数,由于是复合函数的内层,情况更为复杂。()是个的短阵,它的个行向量为(),(,(,(。偏置项()是维向量,个分量分别是(),(,(),(。首先计算损失函数对的元素的偏导数:而上式分子中的两部分都有,因此都与有关。为了表述简活,我们令:根据链式法则有:其巾((和和都是标量和()是两个()向量的内积,的每一个分量都是()的函数。接下来计算和这里的一是个向量,衣示的每个分量分别对求导。当时有:后面个分量相对于求导变量(都是常数。类似的当时有:()0)(()和时的结果以此类推。综合起来有:同理有:()十如果令合并得到()()[()-)。()。()写成矩阵形式为()最后计算偏置项的偏导数()类似的我们得到:合并后得到()写成矩阵形式为:(0)至此,我得到了这个简单网络对所有参数的偏导数,接下来我们将这种做法推广到更般的情况。从上面的结果可以看岀一个规律,输出层的权重矩阵和偏置向量梯度计算公式中共用了()-)()对」隐含层也有类似的结果完整的算法现在考虑一般的情况。假设有个训练样本(),其中为输入向量,为标签向量。训练的目标是最小化样木标签值与神经网络预测值之闩的误差,如果使用均方误差,则优化的目标为:其中为神经网络所有参数的集合,包括各层的权重和偏置。这个最优化问题是·个不带约束条件的问题,可以用梯度下降法求解。上面的误差函数定义在整个训练样本集上,梯度下降法每一次迭代利用了所有训练样本,称为批量棁度卜降法。如果样木数量很大,每次迭代都用所有样木进计算成木太高。为了解决这个问题,可以采用单样本梯度下降法,我们将上面的损失函数写成对单个样本的损失函数之和:定义对单个样本()的损失函数为)=-()如果采用单个样本进行迭代,梯度下降法第次迭代时参数的更新公式为:nV如果要用所有样本进行迭代,根据单个样本的损失函数梯度计算总损失梯度即可,即所有样本梯度的均值用梯度下降法求解需要初始化优化变量的值。一般初始化为一个随机数,如用正态分布(a)产生这些随机数,其中G是一个很小的正数到日前为止还有一个关键问题没有解决:日标函数是一个多层的复合函数,因为神经网络中每一层都有权重矩阵和偏置向量,且每一层的输出将会作为下一层的输入。因此,直接计算损失函数对所有权重和偏置的梚度很复杂,需要使用复合函数的求导公式进行递推计算几个重要的结论在进行推导之前,我们首先来看下面几种复合函数的求导。又如下线性映射函数:其中是维向量,是×的矩阵,是维向量。问题:假设有函数,如果把看成常数,看成的函数,如何根据函数对的梯度值Ⅴ计算函数对的梯度值Ⅴ?根据链式法则,由于只和有关,和其他的≠无关,因此有:c∑(对于的所有元素有:写成矩阵形式为:问题:如果将看成常数,将看成的函数,如何根据V计算Ⅴ?由于任意的和所有的都有关系,根据链式法则有写成矩阵形式为这是一个对称的结果,在计算函数映射时用矩阵乘以向量得到,在求梯度时用矩阵的转置乘以的梯度得到的梯度。问题:如果有向量到向量的映射:

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论

0 个回复

  • 宽带信号去斜脉冲压缩处理方法的研究
    宽带信号广泛应用于雷达 导航和卫星通讯等领域 宽带信号的传统接收处理方法主要是采用匹配滤波或子带分割技术 本文用去斜脉冲压缩处理方法处理宽带信号 给出了具体的实现结构和改进措施 分析了如何选择系统的信号采样频率 同时还给出了脉压波形的仿真结果及性能分析 实验表明 对中心频率为9.5G~z 带宽1.3G~z 脉冲宽度30 s的宽带线性调频信号 采用该方法处理只需90M~z采样数据率大大降低了数据采集的难度
    2019-10-10下载
    积分:1
  • Elsevier期刊投稿word模板.zip
    【实例简介】Elsevier期刊投稿word模板, 一个单栏,一个双栏,可作为Elsevier旗下期刊的初始投稿模板,仅供大家参考,欢迎下载使用
    2021-11-06 00:34:36下载
    积分:1
  • 直流电机的PID控制
    完整的直流电机PID控制算法,控制程序 采用闭环控制
    2021-05-07下载
    积分:1
  • 企业人事管理系统(系统+文档)java+oracle
    系统实现目标(1)操作简单方便、界面简洁大方。(2)方便快捷的档案管理。(3)简单适用的考勤和奖惩管理。(4)简单适用的培训管理。(5)针对企业中不同的待遇标准,实现待遇账套管理。(6)简单明了的账套维护功能。(7)方便快捷的账套人员设置。(8)功能强大的待遇报表功能。(9)系统运行稳定、安全可靠。1.2系统基本模块 (1)人事管理:档案管理、考勤管理、奖惩管理、培训管理。 (2)待遇管理:帐套管理、人员设置、统计报表。 (3)系统维护:企业架构、基本资料、初始化系统。 (4)用户管理:新增用户、修改密码。 (5)系统工具:打开计算器、打开WO
    2020-12-01下载
    积分:1
  • 各银行信息技术笔试汇总
    各银行信息技术笔试题汇总,包括中国邮政储蓄,中国人民银行,平安银行,农业银行开发类岗位笔试题
    2020-12-06下载
    积分:1
  • 基于MATLAB GUI的信号发生器及频谱分析仪
    基于MATLB GUI的信号发生器可以产生正弦波、方波、指数信号及任意表达式的信号,可以设定指定信号的频率、占空比、放大系数、衰减系数等参数,也支持输入任意信号的表达式。同时具有频谱分析的功能,设定采样频率后即可对信号进行频谱分析。
    2020-12-12下载
    积分:1
  • RBF三种学习方法源码(k-means、梯度、OLS)
    RBF三种学习方法源码(k-means、梯度、OLS)
    2020-12-01下载
    积分:1
  • matlab写的Lyapunov指数计算序 (小数据量法)
    这个程序保证没有错,看了其他人上传的,都不能运行,这个工具可以进行计算Lyapunov指数,并且有三个例子,点击main函数就可以直接运行
    2020-11-06下载
    积分:1
  • 幸运抽奖软件7.37
    No1.幸运抽奖软件 V7.12 世界上功能最强劲的电脑抽奖软件,经历几千次正式抽奖场合考验!国内多家卫星电视台采用,适用于电视台、电信公司、广告攻关公司、晚会、庆典、顾客回馈等抽奖场合;★屏幕布局可按您的意志随意移动,具备无与伦比的灵活性;★人性化的向导一步一步指导您的操作,省心更省事;★界面模板提供七套专业美工设计壁纸随时换肤;①奖项、奖名、奖级、中奖人数用户自由调整;②唯一支持使用鼠标或键盘抽奖;③唯一支持动画弹出中奖画面;④唯一支持插入标志Logo功能;⑤唯一支持Excel/Foxpro/Word名单直接导入和名单过滤;⑥唯一支持多名单抽奖、显示限制、增序号功能;⑦
    2020-11-29下载
    积分:1
  • 51单片机与PC串口通信的protues仿真的工文件+虚拟串口工具+串口调试助手+演示截图
    包里面有有整个的工程文件,包括工程文件,protues仿真源文件,还有虚拟串口软件和使用说明,串口调试工具,附详细使用说明和过程截图
    2020-12-02下载
    积分:1
  • 696518资源总数
  • 104349会员总数
  • 32今日下载