水声信号处理基础.pdf
水声信号处理基础内!提本书从统计糖点御述信她理的骞狸论。第一幸概述水产僧号处理的棋型及发展櫶況。第二、三章介绍信号分析、緞性系统和随机过程,是全书的基础部分。第四章到第六章紋迷信号统计处理的一般理论,包括最传线性滤、信号的统计检测和佔计理论初步。最后三章偏重于声纳十的信早处理间题一混喻干下的信号处理、相关接收阵和自适应处理技术。本书可作为水声工程专业有关信号处理户面的教材,或从事这方面研究工作的人员的参考书,也可作为雷,逍信专业在信号统计处题方面射参考书水声营号处理锅我璟陆根游轴萨“管B萨出新华带店北京魔行所发行各地新华书店楚督防工业出版社印倒厂印装78X10924/19张11/4403千字1981年9月第一叔981年9月第一孜印刷印敦:0,00一20肝篮→号15034-2175定价:180元前言木书是按教材的受求端写,以基袖知识和一般理论为主,但也惹虑了水的一些殊的要求。近十年来信号处理技术发展很快,理论上新月异,应用领域上不断扩大,通信、雷达,地震、控制,测量……都离不开信号处理。声纳往往在强干抗背景下工作,信号处飓技术的地位显得相当重耍。因此,这门课是水声工程专业重要主课之五十年代初期以维纳滤波为代表的最佳线性滤被得到迅速发展,五十年代后期,将统计决策理论应用到通信、控制中来,出现了信号检测理论,共十年代估计理论迅速发展,检测理论有点相形失色。卡曼滤波继承发展了维纳滤波,在估计理论中找到了自己的坚实理论基础。在过去教学中,曾一度突出了检测理论,现在看来不一定合。现我们仍旧把最生线性滤波列为专门的一章,但是加进了卡曼滤波的新内容。检测论也是专门的章,没有作更深入的分析,好在内已出版了这方面的专门著作。近来估计理论发展很快,内容很多,这本数材不可能全部包括进来。我们用了一章篇掘介绍估计理论初步,介绍了参量估计,也介绍了非参量佐计。为了学好最伟线性滤波,检测理论,估计理论,打好基础是必要的。尽管前面的课程已经学过信号分析和概率论,我们还是用了两章篇幅研究有规信号分析和随机信号分析,第一从教学角度来看适当重复是必要的;第二重复也不是简单的重复,而是向更深入方向发展,向离数的,多维的向发展,这种发展对后面分析是完全必要的混响干扰背景是水声信号处理的特殊问题,在第七章中作了专门的介绍,但是该章讨论的模糊度函数,信道的滤波器模型……对于水声以外的其他领域也是有用的。用基阵按收和发射信号也是声纳的特点,指关接收阵提高了被动声纳的性能,第八掌中对于这厅面闯题作了较详细的分析。承声信道复杂多变,加之,数字技术的发展,促使自适应技术应用到水声领域中,提高了声纳的性能,第九章中对自适应作了初步的介绍。在分析中要用到许多数学丁具,如积分方程,差分方程,矩阵……,我们认为不应回遍这些工具,但是在本教材中北不宜系统地全面地介绍这些工具,我们力图用一些简单易懂的例子使读者初步掌揸这些工具。木书申稿时,南京工学院水声工程教研组的黄建人、姚治国和周刚临三同志提出了许多宝贵意见,特表示感谢。由于我们的水平有限,错误一定很多,请读者批评指正。编者且录第一聋引论會會會曾會1伽會會身t會■血司■會自·自·會會5.}随机参量信号的检测…………1441.1基本的声纳系统的模型■面司唱■要85.4序列检测5612水声信号处理的发展概况………!习题會■山『■PP酽d普■■1■■b;b画4·4I§1.3主要符号表示………4第六章估计理论初步…………162第二章信号的解析表示和线性系统……5§6.16计的木慨念6§2.1,信号和信号分析……§6.2则叶斯估计……………,………l§2.2谱函数的性展…,…6.3递归线性最小方為佔计§2.线性系统■■q■■■口司■■司口6.4功率谱估计……§2.4釆样定理…………习题…………中“9s2.5离散线性系统4,35第七章混响干扰下的信号处理……202习题……………………………477,1模粉度效看1自中即■■:第三章随机过程…_q号看■唱■§7.2混疃的純计特…………………"235§3.1概率和随机变量9§P3混响于扰下的信号处理3.3随机变量的函数5了习§3.3期螺……第八章相关接收阵33,4随机过程6588.1引言…………225§3.5随机过程的功率…分8.2平方累积阵分析…晶中h2E5§36高斯随机过程■bd备A8§83乘积阵分析……………230习題………………………“…………7s8.4有板性处理的基阵公析………2?第四章最佳线性滤渡…………………y2§8.5最大信噪比滤欲阵的分忻…………2b4.1最佳线性滤波的标准………$_2习题………………………………24§4.2匹配滤戏器的分枥…93第九草岩适应处理技术…"245E43匹配滤波器的实现…………0惡9,1水声信道的滤波器模型84.4继纳滤波……………………19.2自适应概念和MS适应逐算…24684.5卡曼滤波初步……!59,3自遞应波束形成器……习恶…曾曾會P■224§9.4自逅应滤被…第五章信号的统计检测习题…………269§5.1惭述……………)6录有关的儿个矩阵公式n··"‘2§52高斯噪声背景下确知信号§1儿个有关的矩阵求逆公式…………*的检测+-+jFs2矩阵做分7第一章引论§1,1基本的声纳系统的模型声纳系统按用途来分有许多型号,但它的工作方式不外乎主动式和被动式两种,如图1-1-所声波故射体主动式声纳由发射机发射已舶信号,发射积目标通过换能器转换成声波信号,经月标反射后成回波,经过渐水中各式各样的散射⊥式/怀回效+散射回液(响体散射形成混响接收机不但接收到回波接收机和混响,而且还会接收到环境噪声,通常射哗产发声目标包括海洋噪声和本舰噪声。回波是信号境噪声信号其余都是干扰。在简单的检测模型中,回被动式波信号是完仝确知的,它和发射波形图1-1-1甚本的声纳系鸵模型样,只不过是时闻上平移了一下。但实际情况要复杂得多,于目标的运动,会引起多普泐( Doppler)频移,由于目标不是一个点,多径传揹,回波在时间轴上被犷展,波形和发射波形可態会大不相同,此外由于介质的随机性,也会造成回波信号的起伏。在主动声纳中,混响往往是主要的干扰。混响也是由发射信号产生的,它的许多方而的特件和阿波极为相似,使得抗混响相当闲难。本噪芦也是一种亚重的干扰:在本舰高速诺动时,更是如此。但是它是一个宽带信号,回波是一个窄带信号,可以利用功率谱的亲异来风分它们被动声纳是根据日标辐射的声液来检测目标的。这辐射的声波可能是目标上的声纳发射的声波,也可能是目标运动时辐射出的舰船噪声,也可能是目标引起的其它声音。目标辐射出的觑船噪声的功率漕和本舰噪声的功率都是宽带的,从功率谱上区分它们有一定的困难。但是本舰噪声和日标舰噪声在空间相关性上是不同的。可以利用空间相关性上的差异来区分它们。声纳系统的模型反映了声纳、介质和目标三者的关系。介质和目标的特性是我们无法控制的,而声纳,它的发射方式与接收方式是我们可以合理地选择的。使得它最佳地和介质、目标的特件匹配。早期的声纳系统,它的发射方式、接收方式是不变的,而介质和目标的特性却是因时、因地而异的,这就不可能实现最住地匹配。必须改变这种不变的发射方式、接牧方式,要根据当时当的介质、目标的特鉎,自动地调整发射方式、接收方式,以运到最住地匹配。这便是所谓的直适应技术。§1.2水声信号处理的发展概况市纳从它的诞生到现在有了很大的发展和变化。特别是近二十多年,更是如此。声纳的变化和水声信号处理的发展是一致的,或者说水声信号处理每出现一个新技术,都导致声纳的一次大变化。五十年代以前的声纳,发射波形是比较简单的,是一个正弦填充的方波,接收机采用窄带滤波。脉冲压缩我术的出现,导致脉冲压缩声纳逃出现,发射波形釆用线性调掘脉沖,戌者伪随机编码。在接收机中相应地出现了信号处理器(如 DELTIC系统等〕草题的声纳是利用换能器的自然方向性,用机械旋转的方法实现波束的旋转。随着换能器的越来越大、越来越笨重,机槭旋转越来越困难。利用相控阵孜术之后,可以用电的力法形成波束的旋转;还可以用电照方法同时形成多个波束,出现了多液束阵。利用信号有干扰的空间相关性的差别,将信号处理技术应用于基阵,出现了相关接收阵。由于铵收到的信号和干扰变化范围很大,给信号处埋带来困难,便出现了动态范压缩和归一化技术目前,自适应技术及各式各样的数字处理技术迣入了声纳领域。图1-2-1是目前的典型声纳发射机方框图。信号发生器的输出可具有多种形式(模拟的或数字的,正弦填充脉裨或线性调频脉冲,或几种信号同时共用),这取决了所考虑的系统的具体要求。信号发生器的犏出送到波束形成器矩阵去,波束形成器矩阵的用途是对信号进行适当的加权和延迟,以使发射阵产生所要求的声束图,将声能聚集到所要求的空间中去。程序器的用途是使多路或顺序发射同步。程序器信号束发生器形成矩臂发射阵图⊥-2-4声纳发射机户框图图1-2-2是目前的典型声纳接收机方框图。它比发射机复杂。这是由于在发射时信噪比是无限大的(或接近无限大),而在接收时,在大多数有实际意义的情况下,信噪比是小于1的。接收基阵和波束形成矩阵对应于发射机中发射基辉和波束形成矩阵。这两个基阵通常是共用的。但是波卓形成兔阵是有差别的,在发射机中,为了使发射能量最大,波東形成航阵具有最小的幅度加权。在接收机里,则使用幅度加权,抑制旁瓣或增大方向性指数。在发射机中用相控发射,在接收棚中采用自适应波束形成处理。程序器判决设舒一接收F态范信号形成矩阵和归处理器显示器昕觉指示网1-2-2声接收机了框图动态范围压缩和归一化(DRCN)与信号处理器具有共同的任务:对接收的信息进如工,以便适当地将其显示在视觉显示器或听党显示器上,或送给判决设备(可能是一个缴字计算机)。程序器是用来达到同步和自适应的。本课程的任务是介绍信号处理的基本理论及其实现方案。1.3主要符号表示x(t),f(t),g(:)等表示实信号x(扌)∫2(f),ga(t)等表示复数解析信号F()或ⅹ(的)表示实信号X(#)的频谱函数F(①)或X2(①)表示复数解析信号xa(4)的频函数Rx(℃)或R2x()或R(T)表示信号x(t)的自相关函数R2(τ)或R12(T)表示信号x(:)和y(t)的互相关函数H()表示时不变线性系统的频半响应函数h(T)表承时不变线性系统的冲激响应函数H(,t)表示时变线性系统的频率响应函数h(,T)表示时变线性系统的冲激响定函数xn}表示实信号序列Y(z)表示{x》}的z变换hn)表示线性系统刈单仕釆样序列("-k)的晌应h(n)表示线性位移不夾系统对单位采祥序列8(”)的响应正(z)裁示a(B)的之变换尸(A)表示事件A的粥率P(A.B)表不事牛丹出现条供下,惠件A出现的条件率F(a)或F(x)表示随机变量x的概率分布函数p()或P()表小陡机变量x的概率密度函数F()或F(x|y)表示条件概率分布函数Fx(妖}或F(K)衣爪随机向量X的慨率分布咝爨p()或户(x)表示随机向量X的概率密度区数px(夕(XY)表示随机向量的条件概率密度函数E〔x会具表示随机变量x的微学期望或统计平均E(x°)裘示随机变量x的n阶愿点矩E〔(x-μ)“)表示随机变量x的阶中心矩Mx(s)=Ee〕表示随机变量x的特征函数E(X)仝μx裴示数学期望或统计平均中x全FXX表示均方矩阵Vk≌EX-)(X-)2〕表示方差矩阵z(β)会E(XY-)或xy表条件均值vx()会E[(x-x)(X-x)Y=月或4y表示条件方差矩阵Mk(s)表示特征函数x(t,》或x(t)表示一维随机过程样本函数X(t,k或X(!)表示n雏随机过程样本函数EX(t,)!表示X(t,)的均值中x(t)表示X〔f,)的均方矩阵V2(t?表示X(t,k)方差矩阵φx(1,t:)表示X〔e)的相关矩阵vx(t1,f2)表示K(t,四)的协方差矩阵S(o)表示x(f:①)的功率谱第二章信号的解析表示和线性系统§2,1信号和信号分析信号信息传输系统的任务在于向接收者传輸消息。声纳是一种信息传输系统,它所传输的消息是目标的有无,日标的运动要素(距离、方向、形度……),目标的性质等。消息本身往往不便于传输,要將消忘放在某…个便于传输的物理量屮,这种带有消息的物理量叫做信号。在主动声纳中,回波的行无表示目标的有无,回波出现的方向,苌示目标的方向,回波出现的时刻反映了目标的距离,回波中多卜勒频偏反映了目标的相对速度,回波的频谱结构反映了目杯的类型。因此主动声纳中回波是信号。类似跑,日标的辐射噪声是被动声纳的信号。凡是妨碍接收者接收信号的物理量都是干扰。本翹噪声、混响、海洋噪声都是声纳的干扰。应当说明,干桄也带有消总,只不过是接收者不需要的消息。因此同一个勒理量对于这个接收者是信号,对于那一个接收者可能就是干扰。钶如编队航行时,甲觎主动声纳引起的日标回波是乙舰主动声纳的干扰,它会严重妨碍乙舰主动声纳的工作。再如对一个搜索潜艇的芦纳兵而言,本舰噪声是干扰,对一个测量本舰噪声的工作人员而言,本舰噪声是信号。由此可见,信号和干扰的差别仪仪在于接枚者是否需要。因此,研究信号的方法和工具,也适用于干扰。第二章、第三章介绍的内容既适用于信号也适用于干扰。信号的时域分析我们将信号用时间纟的函数表示,记作x(4)。如果时间连续地取值,信号叫做连续时间信号。如果时间f离散地取值,信号叫离散时间信号。在声纳系统中常见的信号有:1.脉冲信号矩形脉冲「A0≤f≤Tx(t)0其余的r它有两个参数A和TA称做脉御幅度,T称倣脉冲班度钟形脉冲x(t)=A·e(2-1-2)它也有两个叁数A和α:A称做脉冲幅虔。它是κ〔扌)的最大值。a反映了脉冲度。钟
- 2020-12-07下载
- 积分:1
受限波尔兹曼机(Restricted Boltzmann Machines)介绍
RBM在深度学习(deep learning)算法中有着非常重要的应用,本文介绍了RBM的基本概念,并介绍了几种有代表性的算法。作者西安交大张春霞,姬楠楠,王冠伟。山国武技亡文在线应用的热潮。理论方面,RBM的CD快速学习算法促进了研究者们对随机近似理论、基于能量的模型、未归一化的统计模型的研究⑧。应用方面,RBM目前已被成功地应用于不同的机器学习问题⑨-14,如分炎、回归、降维、高维时闾序列建模、图像特征提取、协同过滤等等。2006年, Hinton等人[15提出了一种深度信念网终( Deep Belief Nets,DBN),并给出了该模型的一个髙效学习算法。这个算法成为了其后至今深度学习算法的主要框架。在该算法中,个DBN模型被视为由若干个RBM堆叠在起,训练时可通过由低到高逐层训练这些RBM来实现:(1)底部RBM以原始输入数据训练;(2)将底部RBM抽取的特征作为顶部RBM的输入训练;(3)过程(1)和(2)可以重复来训练所需要的尽可能多的层数。由于RBM可以通过CD快速训练,这一框架绕过了直接从整体上训练DBN的高复杂度,从而将其化简为对多个RBM的训练冋题。 Hinton建议,经过这种方式训练后,叮以再通过传统的全局学习算法(如反向传播算法)对网络进行微调,从而使模型收敛到局部最优点。这种学习算法,本质上等同于先通过逐层RBM训练将模型的参数初始化为较优的值,再通过少量的传统学习算法进一步训练。这样一来,不仅解决了模型训练速度慢的问题,大量试验结果也表明,这种方式能够产生非常好的参数初始值,从而大大提升了模型的建模能力。自此,机器学习领域又产生了一个新的研究方向-深度学习( Deep learning)[1618],明确提出了面向人工智能的机器学习算法的设计目标。当前,以RBM为基本构成模块的DBN模型被认为是最有效的深度学习算法之一。鉴于RBM在深度学习领域中占据的核心位置以及其本身的良好性质,为了给RBM的初学者提供入门指导,同时为设计与之相关的新算法提供参考,本文将对RBM进行较为系统的介绍,详细阐述其基本模型、具有代表性的快速学习算法、参数设置、评估方法及其变形算法,最后对RBM在未来值得硏究的方向进行探讨。本文后续内容安排如下:第1节介绍受限波尔兹曼机RBM的基本模型,第2节详细阐述当前训练RBM的快速学习算法,第3节讨论RBM的参数设置,第4节给出评价RBM优劣的方法,第5节简单介绍几种具有代表性的RBM变形算法,第6是总结与展望,主要探讨RBM在未米值得研究的方向。1受限波尔兹曼机RBM的基本模型RBM也可以被视为一个无向图 undirected graph)模型,如图2所示。v为可见层,用于表示观测数据,h为隐层,可视为一些特征提取器( feature detectors),W为两层之间的连接权重。 Welling19指出,RBM中的隐单兀和可见单元可以为任意的指数族单元(即给定隐单元(可见单元,可见单元(隐单元)的分布可以为任意的指数族分布),如 softmax单元、高斯单元、泊松单元等等。这里,为了讨论方便起见,我们假设所有的可见单元和隐单元均为二值变量,即V,j,v∈{0,1},h;∈{0,1}如果一个RBM有m个可见单元和m个隐单元,用向量v和h分别表示可见单元和隐单元的状态。其中,v;表示第个可见单元的状态,h表示第个隐单元的状态。那么,对于一组给定的状国武技论义在线隐层h可见层v图2:RBM的图模型表示,层内单元之间无连接态(v,h,RBM作为一个系统所具备的能量定义为∑a"2-∑bh-∑∑上式中,O={Wn,a,b}是RBM的参数,它们均为实数。其中,W表示可见单元;与隐单元j之间的连接权重,;表小可见单元的煸置(bias),b;表小隐单元j的偏置。当参数确定时,基于该能量函数,我们可以得到(v,h)的联合概率分布,E(v, ho)P(v, h0Z(0)=∑e-E(v, h ez(6)(2其中z(0)为归一化因子(也称为配分函数, partition function)时于一个实际问题,我们最关心的是由RBM所定义的关于观测数据v的分布P(ve),即联合概率分布P(v,h)的边际分布,也称为似然函数( likelihood functionP(v8∑E(v, h 0)3)Z(0为了确定该分布,需要计算归一化因子z(),这需要2n+m次计算。因此,即使通过训练可以得到模型的参数W,α和b,我们仍旧无法有效地计算由这些参数所确定的分布。但是,由RBM的特殊结构(即层间有连接,层内无连接)可知:当给定可见单元的状态时,各隐单元的激活状态之间是条件独立的。此时,第j个隐单元的激活概率为P(h=1v,O)=o(+∑W其中,O(x)1+exp(-a)为 sigmoid激活函数由于RBM的结构是对称的,当给定隐单元的状态时,各可见单元的激活状态之间也是条件独立的,即第i个可见单元的激活概率为11)=o(a+∑Wh1国武技论义在线2基于对比散度的RBM快速学习算法学习RBM的任务是求出参数θ的值,以拟合给定的训练数据。参数0可以通过最大化RBM在训练集(偎设包含T个样本)上的对数似然函数学习得到,即A=arg max C(0)=arg max>log(6为了获得最优参数θ^,我们可以使用随札梯度上升法( stochastic gradient ascent)求C(6)=∑1lgP(vθ)的最大值。其中,关键步骤是计算logP(v()关于各个模型参数的偏导数由于c(O)=∑ log p(vo)=∑og∑Pv"),het=1∑1pBw,b∑pE(,hO)-lg∑∑oxp-E(,h)令0表示6中的某个参数,则对数似然函数关于的梯度为OC、、8(og>expl-E(v(t),h)-10e∑∑∑ep-E(v,hO)exp[-e(vo,ho) d(E(vo),h0))(Σ h exp[-E(v,hO>∑8+E(-E(v,h)06∑0(-E(v(0,hl(-E(v,h6)S06P(hv(t),0)P(v, h0)其中,()P表示求关于分布P的数学期望。P(hv),)表示在可见单元限定为已知的训练样本v()时,隐层的概率分布,故式()中的前一项比较容易计算。P(v,h0)表示可见单元与隐单元的联合分布,由于归一化因子z(θ)的存在,该分布很难获取,导致我们无法直接计算式(8)中的第二项,只能通过一些采样方法(如Gibs釆样)获取其近似值。值得指出的是,在最大化似然函数的过程中,为了加快计算速度,上述偏导数在每一迭代步中的计算一般只基于部分而非所有的训练样本进行,关丁这部分内容我们将在后面讨论RBM的参数设置时详细阐述。下面,假设只有一个训练样本,我们分别用“data”和“modl”来简记P(hv(),6)和P(v,h)这两个概率分布,则对数似然函数关于连接权重W、可见层单元的偏置a和隐层单山国科技论文在线元的偏置b;的偏导数分别为alog P(v8ihi idata -(ihi,modelalog P(v 0)datai ) modela log P(v 8=(hi)data(hi model2.1RBM中的 Gibbs采样Gibs采样( Gibbs sanpling)[20是一种基于马尔可夫链蒙特卡罗( Markov chain monteCarlo,MCMC)策略的采样方法。对于一个K维随机向量X=(X1,X2,……,Xk),假设我们无法求得关于X的联合分布P(X),但我们知道给定X的其他分量时,其第k个分量Xk的条件分布,即P(Xk|Xk),Xk-(X1,X2,…,Kk-1,Xk+1,…,Xk)。那么,我们可以从X的一个任意状态(比如{c1(0),x2(0),…,xk(O))开始,利用上述条件分布,迭代地对其分量依次采样,随着采样次数的增加,随机变量[r1(m),x2(m),…,xk(n)]的概率分布将以n的几何级数的速度收敛于X的联合概率分布P(X)。换句话说,我们可以在未知联合概率分布P(X)的条件下对其进行样。基于RBM模型的对称结构,以及其中神经元状态的条件独立性,我们可以使用 Gibbs采样方法得到服从RBM定义的分布的随机样本。在RBM中进行k步吉布斯采样的具体算法为:用一个训练样本(或可见层的任何随机化状态)初始化可见层的状态v,交替进行如下采样:ho w P(h vo), V1 P(v ho),h1 n P(hv1),P(vhP(v hk)在采样步数k足够大的情况下,我们可以得到服从RBM所定义的分布的样本。此外,使用Gib样我们也可以得到式(8)中第二项的一个近似。22基于对比散度的快速学习算法尽管利用吉布斯采样我们可以得到对数似然函数关于未知参数梯度的近似,但通常情况下需要使用较大的采样步数,这使得RBM的训练效率仍旧不高,尤其是当观测数据的特征维数较高时。2002年, Hinton7提出了RBM的一个快速学习算法,即对比散度( Contrastive DivergenceCD)。与吉布斯采样不同, Hinton指出当使用训练数据初始化vo时,我们仅需要使用k(通常k=1)步吉布斯采样使可以得到足够好的近似。在CD算法一开始,可见单元的状态被设置成个训练样本,并利用式(4)计算所有隐层单元的二值状态。在所有隐层单元的状态确定之后,根据式(5)来确定第个可见单元v;取值为1的概率,进而产生可见层的一个重构 reconstruction)国武技论义在线这样,在使用随杋悌度上升法最大化对数似然函数在训练数据上的值时,各参数的更新准则为△Wx=(vh;)ata-(vhrecondata这里,是学习率( (learning rate),{}reon表示一步重构后模型定义的分布在RBM中,可见单元数一般等于训练数据的特征维数,而隐单元数需要事先给定。为了与前文记号致,假设可见单元数和隐单元数分别为和m。令W表示可见层与隐层间的连接权重矩阵(m×m阶),a(n维列向量)和b(m维列向量分别表示可见层与隐层的偏置向量。RBM的基于CID的快速学习算法主要步骤可描述如下输入:一个训练样本xo;隐层单元个数灬m;学习率e;最大训练周期T●输出:连接权重矩阵W、可见层的偏置向量a、隐层的偏置向量b.·训练阶段初始化:令可见层单元的初始状态v1=x0;W、a和b为随机的较小数值。For t=1.2TFor j=1,2,…,m(对所有隐单元)计算P(h1=11),即P(h1;=1v1)=0(b+∑,从条件分布P(h1v)中抽取h∈{0,1}EndFor上ori=1,2,……,m(对所有可见单元计算P1h1,即P(v2=1h1)=0(a+∑,Wh1);从条件分布P(v2h1)中抽取v2∈{0,1}EndOForj=1.2,…,m(对所有隐单元)计算P(h2=1v2),即P(h2y=1lv2)=a(b;+∑;2:W7);Endfor按下式更新各个参数W←W+∈(P(h1.=1v1)lv2)V2);a←-a+((v1-v2);+c(P(h1=1v1)-P(h=1)v2)山国科技论文在线Endfor算法1.RBⅥ的基于CD的快速学习算法主要步骤在上述算法中,记号P(hk.=1|vk)(k=1,2)是m维列向量,其第个元素为P(h;=1vk)尽管上述基于CD的学习算法是针对RBM的可见单元和隐层单元均为二值变量的情形提出的,但很容易推广到可见层单元为高斯变量、可见层和隐层单元均为高斯变量等其他情形,关于这方面的研究具体可参见[2125此外,还有一些研究者在CD算法的基础上,对其作了进一步改进。例如, Tieleman②26提出了持续对比散度( Persistent contrastive divergence,PCD)算法,该算法与CD的区别在于首先,PCD不再使用训练数据初始化CD算法中的 Gibbs采样的马氏链;其次,PCD算法中的学习率较小且不断衰减。根据随机近似理论,尽管每次更新参数后模型都发生了改变(每次对于W,a和b的更新,RBM定义的分布都会发生改变),但由于学习率较小且不断衰减,则可认为那条马氏链产生的负样本是由当前RBM定义的分布的一个近似分布米样而来Tieleman和 Hinton[27进一步改进了PCD算法,他们通过引入一组辅助参数以加快PCD中的马氏链的混合率,提出了快速持续对比散度( Fast Persistent Contrastive Divergence,FPCD)算法。关于RBM的学习算法,除了上述提到的基于CD的一些方法之外,还有最大化拟似然函数( maximum pseudo- likelihood)、比率匹配方法 (ratio matching)等,有兴趣的读者可参阅[28]查找关于RBM学习算法比较详细的阐述。3RBM的参数设置RBM的训练通常是基于CD的方法(即算法1)进行的,但如何设置其中的些参数(如隐单元个数、学习率、参数的初始值等),是需要有一定经验的。近来,已有部分研究结果②29,30表明:对于特定的数据集和RBM结构,如果参数设置不合适,RBM将很难对真正的数据分布正确建模。因此,对实际使用者(尤其是初学者)米说,了解RBM中参数设置的一般规则是非常重要的。根据 Hinton{23]提供的建议以及我们进行数值试验所获部分经验,对RBM中的参数设置可参考以下规则。小批量数据及其容量对于连接权重、可见层和隐层偏置的更新,虽然可以基于一个训练样本进行(类似于在线学习的方式),但计算量将很大。将训练集事先分成包含几|或几百个样本的小批量数据(mini- batches)进行计算将更高效,这主要是可以利用图形处珥器GPU( graphicProcessing Unit)或 Matlab屮矩阵之间相乘运算的优势。同时,为了避免在小批量数据的样本容量发生改变时,学习率也必须做相应的修改,通常的做法是在参数的更新过程中,使用参数的平均梯度(即总梯度除以数据容量),即B(t+1(t+1)=0(+∑alog P(v(t)aB06t′=Bt+1这里,B表示小批量数据的容量,其值不应设得太大。B=1表示参数更新以在线学习的方式进行,而B一T则表示传统的批处理方式。一股而言,若训练集是包含来自不同类(具有同等概山国武技亡文在线率)的样本,理想的B应为总类数、使得每批数据屮都包含来自每个类的一个样本,以减小悌度估计的抽样误差。对于其他数据集.则可先随机化训练样本的次序,再将其分为容量为10的倍数的小批量数据。学习率学习率若过大,将导致重构误差急剧增加,权重也会变得异常大。设置学习率的一般做法是先做权重更新和权重的直方图,令权重更新量为权重的10-3倍左右。如果有一个单元的输入值很大,则权重更新应再小些,因为同·方向上较多小的波动很容易改变梯度的符号。相反地,对于偏置,其权重更新可以大一些。权重和偏置的初始值一般地、连接权重W可初始化为来自正态分布N(0,0.01)的随机数,隐单元的偏置b初始化为0。对于第讠个可见单元,其偏置az通常初始化为logP/(1-p),其中γ;表示训练样本中第讠个特征处于激活状态所占的比率。如果不这样做,在学习的早期阶段,RBM会利用隐单元使得第个特征以概率p处于激活状态。动量学习率学习率e的选择至关重要.ξ大收敛速度快,但过大可能引起算法不稳定;c小可避免不稳定情况的出现,但收敛速度较慢。为克服这一矛盾,一种具有代表性的思想是在参数更新式中增加动量项 momentum),使本次参数值修改的方向不完全由当前样本下的似然函数梯度方向决定,而采用上一次参数值修改方向与本次梯度方向的组合。在某些情况下,这可以避免算法过早地收敛到局部最优点。以连接权重参数W为例,其更新公式为W(+D)kw(t)aL(t)其中k为动量项学习率。开始时,k可设为0.5,在重构误差处于平稳增加状态时,k可取为0.9权衰减使用权衰减( weight- decay)策略的主要目的是避免学习过程出现过拟合( overfitting)现象,一般做法是在正常的梯度项后额外增加一项,以对较大的参数值作出惩罚。最简单的罚函数是2函数(M/2)>∑,W,即所有权重参数的平方和的1/2乘上一个正则化系数入入在RBM中又称为权损失( weight-cost)。重要的是,惩罚项关于权重参数的梯度必须乘上学习率,否则.学习率的改变将导致优化的目标函数也发生改变。在RBM中,若使用L2罚函数,贝权损失系数的取值可以取介于001与0.0001之间的任意值。值得指出的是,权衰减策略只需应用于连接权重参数W上,可见层和隐层偏置不需使用,因为它们不人可能导致过拟合。并且在某些情况下,偏置的值还必须较大才行隐单元个数如果我们关心的主要目标是避免过拟合而不是计算复杂度,则可以先估算一下用个好的模型描述一个数据所需的比特数,月其乘上训练集容量。基于所得的数,选择比其低个数量级的值作为隐元个数。如果训练数据是高度冗氽的(比如数据集容量非常大),则可以使用更少些的隐元。以上讨论的是RBM中的一些常用的参数设置,针对一个实际问题,应使用什么类型的可见单元和隐单元,在其中如何加入稀疏性使得隐单元只在少数情况下处于激活状态等问题的讨论,可参见文[23,31]山国科技论文在线4RBM的评估算法对于一个已经学习得到或正在学习中的RBM,应通过何种指标评价其优劣呢?显然,最简单的指标就是该RBM在训练数据上的似然度C()=∑1logP(v(()。但是,C(0)的计算涉及到归一化常数(),而这个值是无法通过数学方法直接解析得到的,但我们又不可能枚举RBM的所有状态。因此,只能采用近似方法对RBM进行评估。4.1重构误差所谓“重构误差”( reconstruction error),就是以训练数据作为初始状态,根据RBM的分布进行一次 Gibbs采样后所获样本与原数据的差异(一般用一范数或二范数来评估)Error=0初始化误差for all y(),t∈{1,2,…,T}do%对每个训练样本y(进行以下计算h N P(v()%对隐层采样ⅴ~P(h%对可见层采样Error=Eror+‖v-v)‖%累计当前误差end forreturn上mOP%返回总误差算法2.重构误差的计算.重构误差能够在一定程度上反映RBM对训练数据的似然度,不过并不完全可靠[23。但总的来说,重构误差的计算十分简单,因此在实践中非常有用。4.2退火式重要性采样退火式重要性采样”( Annealed Importance Sampling,AIS)图2是目前比较主流的RBM评估方法。它的想法非常直接,就是利用蒙特卡岁方法估计RBM对数据的似然度。只不过没有使用MCMC,而是通过一种叫做“重要性采样”( Importance Sampling)[20的算法进行逼近。这种算法的优点在于:当目标分布十分陡峭时,不直接对其进行采样,而是引入另一个简单的分布,在这个简单的分布上采样。然后,利用采样所获样本和两个分布之间的关系对原分布上的均值进行估算。“重要性抽样”的基本思想如下:假设我们要计算某个分布P4(x)的归一化常数ZA,那么,我们可以引入另一个状态空间相同,但更容易采样的分布PB(x),并且事先知道它的归化常数zB。这时,只要能计算出zA/zB的值,我们就可以算出原分布的归一化常数ZA。假
- 2020-12-04下载
- 积分:1