控制理论中的代数基础
中科大的教材,属于基础类的数学课程,课本教材简单通俗易懂,望大家下载啊前言在自动控制专业中,线性代数或矩阵论是一个重要的数学基础.比如,矩阵范数、矩阵函数及矩阵微分方程是线性系统理论必不可少的预备知识,线性系统多变量频域法建立在多项式矩阵及有理分式矩阵理论基础上,现代鲁棒控制方法可以采用线性矩阵不等式工具来实现.即便刈于非线性系统,除了需要引入更深刻的数学工具之外,矩阵分析方法仍是不可或缺的手段因此,一些人学自动控制专业特别将矩阵分析纳入研究生课程体系,就是要在人学本科线性代数的基础上,进一步增加内容以符合控制相关学科的专业需求作者在中国科学技术大学自动化系从事“控制理论中的代数基础”教学多年从选择现成教材到开始自编讲义,讲义形式从电子版到胶印版,内容在不断扩充中现在讲义内容己超出60至80学时的教学量,教师可以选择一部分讲授,其余部分可以计学生自学或作为可随时查阅的参考书.本书涉及范围较广,编写中参阅了不少经典文献.编写风格上追求叙述简洁、注重逻辑体系严谨性.因篇幅所限及个人倾向性,本书很少讨论相关的计算方法,虽然算法问题也很重要.如果作为教学用书,教师可自行选择讲授范围并增加一些实例.本书也可作为其它专业研究生、工程师和科研人员的参考书.本书共分八章.第一、二章扼要介绍抽象代数基础.第三、四章讲述线性空间与线性映射,特别是不变子空间分解定理等.第五章从多项式矩阵入手,讨论多项式矩阵 Smith标准形和复矩阵 ordan标准形,并介绍投影矩阵、正规矩阵和Hermite二次型等.第六章介绍矩阵范数、矩阵级数和矩阵函数,并讨论线性系统的稳定性、可控性与可观性.第七章包括各类广义逆矩阵、矩阵方程及矩阵不等式.第八章讨论多项式矩阵的互质、分式矩阵的既约分解,以及线性系统的零极点与实现理论.在本书编写过程中,承蒙中国科学技术大学自动化系各位同仁的支持,特别是奚宏生教授、吴刚教授的鼓励与支持.在本书排版与定稿过程中,中国科学技术大学出版社张莹莹、沈轩和韩继伟等编辑提岀了宝贵意见并给予帮助.硏究生魏波、王兴虎和陈珊杰对书稿进行了仔细校对.作者在此一并深表感谢.限于作者水平书中不妥与错误之处在所难免,敬请读者批评指正.作者2008年春lI目录第一章集合、映射与关系31.1集合1.2映射习题1-11.3代数运算1267831.4代数关系31.5等价类10习题12第二章基本代数系统142.1群142.2环与域162.2.1环162.2.2域..19§23代数系的同态习题2-124子群与陪集习题22§25环的理想§2.6多项式环§27同态基本定理423602习题2-3第三章线性空间与线性映射44531线性空间44532线性空间的基与维数533线性映射.52习题3-15734商空间58535对偶空间目录3.6内积空间37酉变换习题3-2..第四章线性变换与空间分解75§41不变子空间7542特征值问题75§43投影算子77§4.4最小多项式§4.5空间互质分解844.6空间循环分解87习题4198第五章相似变换与酉变换1015.1多项式矩阵1012 Smith标准形10653 Jordan标准形110习题5-111854正交投影与正规矩阵.12055二次型127§5.6奇值分解134习题52..137第六章矩阵范数与矩阵函数14056.1向量范数14056.2矩阵范数.146563向量和矩阵的极限153§6.4特征值与谱半径的估计158习题6-1160§6.5矩阵幂级数16266矩阵函数.164§6.7函数向量或矩阵的微积分173§68常用矩阵函数176§6.9线性系统的稳定性、可控性与可观性179目录习题62187第七章广义逆矩阵、矩阵方程189§7.1广义逆矩阵..18987.2 Penrose- Moore厂义逆矩阵193§7.3 Drazin逆与群逆习题71....20374矩阵的 Kronecker积.20437.5线性矩阵不等式209习题72214第八章多项式矩阵与有理分式矩阵21581多项式矩阵的理想21582多项式矩阵的因子与互质.21683有理分式矩阵.22584有理分式矩阵的既约分解228习题8-1..23238.5系统矩阵的等价变换233§86线性系统的实现理论23987传递函数矩阵的状态空间实现与可控可观24288线性系统的零板点249习题8-225参考书目260索引261目录第一章集合、映射与关系在认识世界的过程中,我们常常倾向于从一些具体事件中归纳出有规律性的东西来.比如说,我们把数字与具体对象分离开来,得到初等数学中数的概念,并给予了加、减、乘、除等运算规律:在髙等数学里,我们知道对向量、矩阵、函数等可以进行类似的计算在数学上,往往重要的不是对象本身,而是对象之间的关系这样就把对象抽象成集合.一般代数(或抽象代数)的主要内容就是研究所谓的代数系统,即具有运算的集合.一般代数在数学的其它分支以及相关学科里都有重要的作用.本书的前二章对一般代数作一个初步介绍81.1集集合的概念大家以前在不同场合会遇到过,这里我们来回顾一下有关的定义及常用记号若十个(有限或无限)确定的事物的全体叫做一个集合,组成一个集合的事物叫做这个集合的元素.一个没有元素的集合称为空集.通常我们用大写字母A,B,C,表示集合,用小写字母a,b,c,表示集合的元素,用②表示空集面的二种方式都可以表示一个集合:A={a1,a2,}其中第一种方式可用来表示有限或可列集合,第二种方式可读为满足条件P(x)的所有x组成的集合若a是集合A的一个元素,就说a属于A或A包含a,用符号a∈A或A3a米表示;反之若a不是集A的元,就说a不属于A或A不包含a,用符号agA或Aa米表示若集合B的每一个元素都属于集合A,就说B是A的子集,用符号BcA或A>B表示;否则就说B不是A的子集,用符号BgA或AB表示.任集合A总可以空集和其自身A作为该集合的子集,这两个子集称为平凡子集由一个集合A的所有子集作为元素而构成的集合,称为集A的幂集.不难证明,如果集A是有限集,并具有n个元素则A的幂集将有2个元素.在这个意义上我们常将A的幂集记为24第一章集合、映射与关系若集合A和集合B所包含的元素完全相同,那么A与B实际上表示同一个集合,这时称A等于B,即A_B.显然有A=B→ACB,AB式中双向蕴含号“←→”表示其左右两边互为(充分必要的)等价命题下面对二个集合A,B定义一些常见的运算并集AUB={x:x∈A或r∈B}交集A∩B={x:∈A且r∈B}差集4B={x:x∈A且xgB}直积A×B={(x,y):∈A,y∈B}集合的并和父都满足结合律与父换律,并且并与父之间还符合分配律,即对任意三个集合A,B,C有Au(B∩C)=(AUB)n(AUC)A∩(BUC)=(∩B)∪(A∩C)在很多情况下,我们的矿究对象是限制在定的范围内,形成个基本集合(全集),我们感兴趣的是基本集合里的了集之间的关系.现设有基本集合E,以及其中的集合A(AcE),称差集EA为集A的补集(余集),记x=EA作为直积的一个例子,两个实数集R的直积为平面点集R2=R×R多个集合之直积可以类似地定义为41×A2×……An={(x1,x2,…,mn):x;∈A,=1,2,…,m}式中(x1,x2,,xn)是元有序组812映射我们知道,函数概念反映了数与数之间的对应关系,现在我们把函数意义推广一下,考查一般集合里的元素之间的对应关系定义1.21(映射)对于两个集合A和B,如果能够建立某种规则∫,使得对任给a∈A,存在唯一的元b∈B与之对应,记为f:a口b或f(a)=b,那么就称∫是由集A到集B的一个映射,记作∫:A→B或A→B,其中a和b可分别叫做映射f的原象与象
- 2020-12-07下载
- 积分:1
word2vec_中的数学原理详解
word2vec_中的数学原理详解个人收集电子书,仅用学习使用,不可用于商业用途,如有版权问题,请联系删除!wordzvec中的数学hoty@163.com2014年7月目录前言2预备知识2.1 sigmoid函数2.2逻辑回归3 Bayes公式2.4 Huffman编码,,,,,,,,524.1Humu树242 Huttman树的构造62.4.3 Huffman编码..,.3背景知识3.1统计语言模3.2n-gram模型103.3神经概率语言模型123.4词向量的理解4基于 Hierarchical softmanⅹ的模型41CBOW模型..191.1.1网络结构41.2梯度计算201.2 Skip-gram模型42.1网络结构42.2梯度计算255基于 Negative sampling的模型285.1CBOW模型285.2 Skip-gram模型53负采样算法326若干源码细节346.1a(x)的近似计算62词典的存储63换行符3564低频词和高频词366.5窗口及上下文3766自应学习率3767参数初始化与训练386.8多线程并行3869几点疑问和思考11m3881前言word2vec是 Google于2013年开源推出的一个用于获取 word vector的工具包,它简单、高效,因此引起了很多人的关注,由于word2vec的作者 Tomas nikolov在两篇相关的论文(,[4)中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟第一次接触word2ve是2013年的10月份,当时读了复且大学郑骁庆老师发表的论文7,其主要工作是将SENA的那套算法(8])搬到中文场景.觉得挺有意思,于是做了一个实现(可参见[20),但苦于其中字向量的训练时间太长,便选择使用word2we来提供字向量,没想到中文分词效果还不错,立马对word2vec刮目相看了一把,好奇心也随之增长后来.陆陆续续看到∫word2ve的一些具体应用,而 lomas nikolov团队本身也将其推广到了句子和文档(),因此觉得确实有必要对word2vec里的算法原理做个了解,以便对他们的后续研究进行追踪.于是,沉下心来,仔细读了一回代码,算是基本搞明臼里面的做法了.筼一个感觉就是,“明明是个很简单的浅层结构,为什么被那么多人沸沸扬扬地说成是Decp Learning呢?”解剖word2vec溟代码的过程中,除了算法层面的收获,其实编程技巧方面的收获乜颇多.既然花了功夫来读代码,还是把理解到的东西整理成文,给有需要的朋友提供点参考吧在整理本文的过程中,和深度学习群的群友北流浪子(15,16)进行了多次有益的讨论在比表示感谢另外,也参考了其他人的一些资料,鄱列在参考文献了,在此对他们的工作也并表示感谢2预备知识本节介绍word2vee中将用到的些重要知识点,包括 sigmoid函数、 Beyes公式和Huffman编码等821 sigmoid函数sigmoid函数是神经网络中常用的激活函数之一,其定义为1+e该函数的定义域为(-x,+x),值域为(0,1).图1给出了 sigmoid函数的图像0.5图1 sigmoid函数的图像sigmoid数的导函数具有以下形式)=0(x)1-0(x)由此易得,函数logo(a)和log(1-0(x)的导函数分别为log o(a)(21)公式(2.1)在后面的推寻中将用到822逻辑回归生活中经常会碰到二分类问题,例如,某封电子邮件是否为垃圾邮件,某个客户是否为在客户,某次在线交易是舌仔在诈行为,等等.设{(x,)}1为一个二分类问题的样本数据,其中x∈R",∈{0,1},当1=1时称相应的样本为正例,当v=0时称相应的样本为负例利用 sigmoid函数,对于任意样木x=(x1,x2,…,xn),可将二分类问题的 hypothesis函数写成h(x)=0(o+61x1+622+…+nxn),其中0=(0o,01,…,O)为待定参数.为了符号上简化起见,引入x0=1将x扩展为(x0,x1,x2,…,xrn)},且在不引起混淆的情况下仍将其记为ⅹ.于是,he可简写为取阀值T-0.5,则二分类的判别公式为1,b(x)≥0.5y(x0.5那参数θ如何求呢?通常的做法是,先确定一个形如下式的整体损失函数∑co(x,v)然后对其进行优化,从而得到最优的參数θ实际应用中,单个样本的损失函数cost(x,)常取为对数似然函数cosl(xi, yi)),v-1;(1-(x),v=0注意,上式是一个分段函数,也可将其写成如下的整体表达式cost(x2,3)=·log(ho(x)(1y1)·log(1h(x)323 Baves公式贝叶斯公式是英国数学家贝叶斯( Thomas Bayes)提出来的,用来描述两个条件概率之间的关系.若记P(A),P(B)分别表示事件A和事件B发生的概率,P(AB)我示事件B发生的情况下事件4发生的慨率P(A,B)表示事A.B同时发生的概率.则有P(AB)P(B), P(BLA)=P(A, B)P(A, B利用上式,进一步可得P(B AP(AB)-P(A)P(B)这就是 Bayes公式g2.4 Huffman编码本节简单介绍Humn编码(具体内容主要来白百度百F的词条.[10),为此,首先介绍Huffman树的定义及其构造算法§24.1 Huffman树在计算机科学中,树是一种重要的非线性数据结构,它是数据元素(在树中称为结点)按分支关系组织起来的结构.若干棵互不相交的树所构成的集合称为森林.下面给出几个与树相关的常用概念·路径和路径长度在一棵树中,从一个结点往下可以达到的孩子或孙子结点之间的通路,称为路径.通路中分支的数目称为路径长度.若规定根结点的层号为1,则从根结点到第L层结虑的路径长度为L-1●结点的权和带权路径长度若为树中结点赋予一个具有某种含义的(非负)数值,则这个数值称为该结点的权结点的带权路径长度是指,从根结点到该结点之间的路径长度亐该结点的杈的乘矾·树的带权路径长度树的带权路径长度规定为所有叶子结点的带权路径长度之和二叉树是每个结点最多有两个子树的有序树.两个子树通常被称为“左子树”和“右子树”,定义中的“有序”是指两个子树有左石之分,顺序不能颠倒给定n个权值作为n个叶子结点,树造一棵二叉树,若它的带权路径长度达到最小,则称这样的二叉树为最优二叉树,也称为 Huffman树82.4.2 Huffman树的构造给定m个权值{mn,m2;…,mn}作为二叉树的m个叶子结点,可通过以下算法来构造颗 Huffman树算法2.Ⅰ(Hu「man树构造算法)(1)将{1,2,……,wn}看成是有n棵树的表林(每树仅有一个结点)2)在森林中选出两个根结,的权值最小的树合并,作为-棵新树的左、右子树,且新树的根结点权值为其左、右子树根结点权值之和〔3)从森林中燜除选取的两樑树,并将新树加入森林(4)重复(2)、(3)步,直到森林中只剩一棵树为止,该树即为所求的 luffman树接下来,给出算法2.1的一个具体实例例2.1假设2114年世界杯期间,从新浪毀博中抓取了若干条与足球相关的微博,经统计,“我”、“喜欢”、“观看”、“巴西”、“足球”、“世界杯”这六个词岀现的次薮分别为15,8,6,5,3,1.请以这6个词为叶子结点,以相应词频当权值,构造一棵Hu∥n树.⊙Q⑨Q⊙只66如→只只③⊙图2 Huffman树的构造过程利用算法.,易知其枃造过程如国g所示,团中第六步给出了最终的 Hutman树,由囚可见词频越大的词离根结点越近构造过程中,通过合并新増的结点被标记为黄色.由于每两个结点邡要进行一次合并,因此,若叶子结点的个数为η,刘枃造的H們πω树中新増结点的个数为π-1.本例中n6,因此新增结,的个数为5注意,前面有捉到,二叉树的丙个子树是分左右的,对于某个非叶子结点来说,就是其两个孩子结点是分左右的,在本例中,统一将词频大的结点作为左孩子结点,词频小的作为右孩子结点当然,这只昃一个约定:你要将词頻大的结点作为右孩子结点也浸有问题§24.3 Huffman编码在数据通倍中,需要将传送的文宁转换成二进制的字符串,用0,1码的不同排列米表示字符.例如,需传送的报文为“A上 TER DATA EAR ARE ART AREA”,这里用到的字符集为“A,E,R,T,F,D”,各字母出现的次数为84,5,3,1,1,现要求为这些字母设计编码要区别6个字母,最简单的二进制编码方式是等长编码,固定采用3位二进制(23=8>6),可分别用000.001、010、011、100、101对“A,E,R,T,F,D”进行编码发送,当对方接收报文时再按照三位一分进行译码显然编码的长度取决报文中不同字符的个数,若报文中可能出现26个不同字符,则固定编码长度为5(2=32>26).然而,传送报文时总是希望总长度尽可能短.在实际应用中,各个字符的出现频度或使用次数是不相同的,如A、B、C的使用频率远远高于X、Y、7,自然会想到设计编码时,让使用频率高的用短码,使用频率低的用长码,以优化整个报文编码.为使不等长编码为前缀编码(即要求一个字符的编码不能是另一个字符編码的前缀),可用字符集中的每个宇符作为叶子结点生成一棵编码二叉树,为了获得传送报文的最短长度,可将每个字符的岀现频率作为字符结烹的权值赋予该结点上,显然字使用频率越小权值越小,权值越小叶子就越靠下,于是颎率小编码长,频率高编码短,这样就保证了此树的最小带权路径长度,效果上就是传送报文的最短长度.因此,求传送报文的最短长度问题转化为求由字符集中的所有字符作为叶子结点,由字符出现频率作为其权值所产生的Hman树的问题.利用 Hultman树设计的二进制前缀編码,称为 LuminaL编码,它既能满足前缀编码的条件,又能保证报文编码总长最短本文将介绍的word2ve工具中也将用到 Huffman编码,它把训练语料中的词当成叶子缩点,其在语料中出现的次数当作权值,通过构造相应的 Huttman树来对每一个词进行Huffman编码图3给岀了例2.1中六个词的 Huffman编码,其中约定(词频较大的)左孩子结点编码为1,(词频较小的)石孩子编码为θ.这惮一米,“我”、“喜欢”、“观看”、“巴西”、“足球”、“世界杯”这六个词的 Huffman编码分别为0.111,110,101,1001和10000我告欢巴匹0足球图3 Huffman编码示意图注意,到目前为止,关于 Huttman树和 Huttman編码,有两个约定:(1)将权值大的结点作为左孩子结点,权值小的作为右孩子结点(2)左孩子结点编码为1,右孩子结点编码为0.在word2vec源码中将权值较大的孩子结点编码为1,较小的孩子结点编码为0.为与上述约定统一起见,下文中提到的“左孩了结点"都是指权值较大的孩了结点83背景知识word2vec是用来生成词向量的工具,而词向量与语言模型有着密切的关系,为此,不妨先了解一些语言模型方面的知识83.1统计语言模型当今的互联网迅猛发展,每天都在产生大量的文本、图片、语音和视频数据,要对这些数据进行处理并从中挖掘岀有价值的信息,离不开自然语言处理( Nature Language processing,NP)技术,其中统计语言模型( Statistical language model)就是很重要的一环,它是所有NLP的基础,被广泛应用于语音识别、机器翻译、分词、词性标注和信息检索等任务.例.1在语音识别糸统中,对于给定的语音段Vire,霄要找到一个使概率p( TertVoice最大的文本段Tert.利用 Bayes公式,有P(Teat voice)p(VoiceText). p(Textp(Voice)其中p( CicetE.c)为声学模型,而 elEct)为语言模型(18])简单地说统计语言模型是用来计算一个句子的概率的概率模驷,它通常基于一个语料库来构建.那什么叫做一个句子的概率呢?假设W=m1:=(m1,2,…,mr)表示由T个词,2,……,按顺序构成的一个句子,则1,c2…,w的联合慨率p()=p(x1)=p(01,t2,…,r)就是这个句子的概率利用 Bayes公式,上式可以被链式地分解为p(uh)-p(1)·p(u2lu1)p(u3lu2)…p( wru-1),(3.1)其中的(条件)概率p(1),p(2t1),p(un),…,p(mr1-)就是语言模型的参数,若这些参数已经全部算得,那么给定一个句子U1,就可以很快地算出相应的p(1)了看起来奷像很简单,是吧?但是,具体实现起来还是有点麻烦.例如.先来看看模型参数的个数.剛刚才是考虑一个给定的长度为T的句子,就需要计算T个参数.不妨假设语料库对应词典D的大小(即词汇量)为N,那么,如果考虑长度为T的任意句子,理论上就有M种可能.而每种可能都要计算T个参数,总共就需要计算TN7个参数.当然,这里只是简单估算,并没有考虑重复参数,但这个量级还是有蛮吓人.此外,这些概率计算好后,还得保存下来,因此,存储这些信息乜需要很大的內存开销此外,这些参数如何计算呢?常见的方法有n-gram模型、决策树、最大熵模型、最大熵马尔科夫模型、条件随机场、神经网络等方法,本文只讨论n-gram模型和神经网络两种方法.首先来看看 n-gram模型
- 2020-12-04下载
- 积分:1