基于实例和特征的迁移学习算法研究_戴文渊
基于实例和特征的迁移学习算法研究上海交通大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:日期:200年,月6日上海交通大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权上海交通大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文保密□,在年解密后适用本授权书。本学位论文属于不保密囝。(请在以上方框内打“√”)学位论文作者签名:指导教师签名:1日期:209年,月日日期,亻年,月,b日上海交通大学学位论文答辨决议书姓名戴文渊学号1060394所在学科计算机应用技术指导教师俞勇答辩2009年1月答辩地点逸夫科技楼311日期16日论文题目基于实例和特征的迁移学习算法研究投票表决结果:555(同意票数/实到委员数应到委员数)答辫结论:回通过口未通过评语和决议:戴文谢的论女对基家例和将而习年译入的研鉴该课题旨右桌砖传纹戒器动限劫布衣器导成眼刺张采明意和有吃作包提了-种基于泉例汪移羽法给生了aAB算回提3-种基特公汪移3方,3因片和受本键技术取場3很山敌果,流文点明方法新颖,结沉正别,反强着己孔家地推第术基础理和相关的去步知议,具级的去从季科研午W彩机答排刷凶滴蕤,回间趣正确浴拜委员会讨(孔记名拨票奉决),-敌其通过硕士怪沉辩被子召丽士209年1月16日职务姓名职称单位签名主席黄林鹏教授上海交通大学答委员辩翁惠玉副教授上海交通大学委委员薛贵荣副教授上海交通大学员会委员张冬茉副教授上海交通大学成员委员俞勇教授上海交通大学签|天姿号委员秘书韩定助理研究员上海交通大学中文摘要基于实例和特征的迁移学习算法研究摘要传统的机器学习假设训练数据与测试数据服从相同的数据分布。然而,在许多情况下,这种同分布假设并不满足。不满足同分布假设的情况往往发生在训练数捃过期,而标注新数据非常昂贵。于是,我们有有了大量的在不同分布下的过期训练数据。完全丢弃这些数据将会是非常浪费的。在这种情况下,迁移学习就变得非常重要了,因为迁移学习可以从现有的数据中迁移知识,用米帮助将米的学习迁移学习( Transfer Learning)的目标是将从个环境中学到的知识用来帮助新环境中的学习仼务。因此,迁移学习不会像传统忛器学习那样作同分布假设。在本文中,我们将会比较全面的回顾迁移学习的整个领域,并且介绍我们在迁移学习领域的近期研究成果。我们的工作可以分为两部分;基于实例的迁移学习和基于特征的迁移学习。我们将会展示出,基于实例的迁移学习有更强的知识迁移能力,而基于特征的迁移学习具有更广泛的知识迁移能力。这两种方法各有千秋。我们介绍了两种迁移学习方法,分别基于 boosting技术和特征翻译。这两种算法分别对应基于实例的迁移学习和基于特征的迁移学习。我们通过非常全面的实验来证明我们的方法在迁移学习时候能够很大幅度提高很多现有的学习算法,无论是近迁移还是远迁移关键词:迁移学习、实例、特征英文摘要Instance-based and Feature-based Transfer LearningABSTRACTTraditional machine learning techniques make a basic assumption that the training andtest data should be under the same distributions. However, in many cases, this identicaldistribution assumption docs not hold. The violation of thc assumption might happen whenthe training data are out of date, but new data are expensive to label. This leaves plenty oflabeled examples that are under a similar but different distribution which is a waste throwaway entirely. In this situation, transfer learning becomes important to take the role of leveraging these existing data knowledgeTransfer learning aims at using learned knowledge from one context to benefit fur-ther learning tasks in other contexts. Thus, transfer learning does not make the identical-distribution assumption as tractional machine learning algorithms. In this thesis, we broadreview the whole field of transfer learning and then introduce our recent work on transferlearning accordingly. Our work can be divided into two parts: instance-based transfer learning, and feature-based transfer learning. We will show that instance-based transfer learninghas better strength in knowledge transferring, while feature-based transfer learning is withmore gerWe present two transfer learning algorithms based on boosting technique and featuretranslation respectively. These two algorithms corresponds to instance-based and featurebased transfer learning. Our extensive experiments show that our algorithms can greatlyimprove several state-of-the-art algorithms in the situation of transfer learning, includingnear transfer and far transferKEY WORDS: Transfer Learning, Instance, Feature目录目录摘要ABSTRACT(英文摘要)第一章绪论第二章迁移学习领域的研究现状2.1多任务学习.22跨领域学习23不同数据分布下的学习24其他迁移学习问题25迁移学习的应用4555678第三章基于实例的迁移学习算法研究3.1基于 Boosting的迁移学习算法3.1.1基本思想.3.1.2问题定义103.1.3 TrAdaboost算法描述..123.2 TrAdaboost算法的理论分析.14321基本符号143.2.2辅助训练数据上的错误率...:.···153.2.3源训练数据上的错误率,,203.3实验分析:··..··:·.:·.:···:·:·:·:······:213.3.1数据描述..22332实验结果23第四章基于特征的迁移学习算法研究254.1基于特征翻译的迁移学习算法4.1.1翻译学习框架274.1.1.1问题定义····‘·274.1.1.2风险最小化框架.41.1.3模型估计.··2941.14翻译器o304,2实验分析324.2.1实验数据酯鲁鲁D着着·,,·,,音唐鲁帝着争324.2.2比较方法324.2.3实验结果··········:····:..:.::.:::33第五章总结与展望35参考文献致谢4·,个人简历、在学期间的研究成果及发表的论文春,音42插图插图1-1日常生活中的迁移学习例子3-1关于 TrAdaboost算法基木思想的一个直观的示例。3-2 TrAdaboost算法的机制123-3一个关于数据生成的示例223-4三种算法在 people vs places数据集上的效果243-5 TrAdaBoost算法在 people vs places数据集上的达代曲线244-1一个直观的例子,用来说明六中学习策略的异同264-2共同出现数据的例子:Flickr(http://www.flickrcom/)74-3在12个数据集上的平均错误率3444对于不同的入, TLRLSK在12个数据集上的平均错误率34表格表格3.120 Newsgroups数据分布的描述2232SRAA数据分布的描述2333当只有1%的源数据是训练数据时的分类错误率4.1文本辅助图像分类的数据描述3
- 2021-05-06下载
- 积分:1
西门子MindSphere技术白皮书
西门子MindSphere技术白皮书西门子MindSphere技术白皮书白皮书| MindSphere简介物联网(oT)两门子预测物联网(oT)将带来巨大的机遇。物联网的价值在于连接真实世界和虚拟的数据世界。数字化转型将开辟新的业务模式。在物联网中,数丨亿物品都有其地址,并与玍联网相联。它们可将数据传送至厶进行处理,并可通过应用程序进行管理和控制。计算机的微型化、传感器的廉价化、网终的无所不在性和“智能”设备的可用性越米載高,将使这一情景变成现实。其应用示例涵盖了从网络车辆到健身数据跟踪工具,从智能家居刭智能农业等领域在软硬件结合方面,西门了的成功经验举世公认-包括生产、铁路管理、交通管理和分布式供电系统等领域的自动化解决方案。这些均是必须有监视和控制功能的复杂系统:它们具备真实世界和数字世界中的组件,通常涉及关键的基础设施。此类领域的客户对数据安仝性、可靠性、耐用性和保护性的期望非常高。此外,他们还希望采用数字化技术在不损害现有系统的前提卜加强有设备的功能。这止是西门了为什么要详绀描述物联网概念在⊥业上的应用。在这种方案中,设备和机器(例如,由西门」子生产的)以及它们在系统中的交互处于数字互联工业应用的中心地位。西门子正在将这一方案用于大量项日中。具体示例包括:汉堡、哥德堡和斯德哥尔摩正在使用的电动公交车充电系统。在该系统中,公交车内部的电气组件、快速充电站和受电弓等全鄙组件均通过Web进行通信并对充电过程实施协同。圣彼徳堡的供水管网优化项目。它通过一个智能传感器网络来帮助检测滴漏并将泵的能耗降低至最低程度。项日的重点在于集成已有的控制系统。现在,位」维也纳阿斯城滨湖的廾发项目凵经成功地将智能变压器用」智能电网智能城市能源管理风力发电mrm有了电力和天然气数字化工厂loT发电服务过程工业与驱动汽车楼宇技术医疗本白皮书的发有者:西门子生命周期管理软件公司-非限制性文档白皮书| MindSphere物联网是西门子数字化战略的基石。物联网已具备技术可行性,该方案也具各可转让性;所有这一切为西门子公司及其在各个行业的客户开创了全新的业务机遇-无论这些客户属于能源公用设施、交通控制、楼宇、制造业还是其它工业领域。数字化随着世界互联程度的日益提高,数字化(采用数字技术实现ψ务运营方式的转换)已经成为保持公司竞争力的关键技术手段。数宇化有望降低生产成木,提高生产质量、生产灵活性和生产效率,缩短对客户需求和市场需求的响应时间,同时,还开创了全新的创新性业务机遇数字企业已经成为现实;公司正通过数字化转型获得利润和发展机遇-这一过程要求整个价值链都实现无缝数据集成。产海量数据的数十亿智能设备正在推动例如工业4.0和物联网等创新技术。如何将这些数据转变成价值是一个关键的成功因索西门子正在利用基于电气化、自动化和数字化的数字技术应对这些挑战。数字化西门子数字化服务西门子软件Mind Sphere自动化只面采用数字化增强的电气化和自动化电气化@数字化进程正在重塑各个工业领域。随着计算、物联冈和其它相关技术的迅猛发展,企业现在可以实时采集、分析大数据,从中获得可以引导业务决策的可付诸行动的信息。西门子在自动化和电气化领域的经验和专家知识正在帮助企业应对这些挑战数字化是一个关键的技术手段,可让企业在未持续保持竞争力。这既适用小型公司,也适用只备全球性业务的大公司。日益变短的创新周期,意味着上业企业必须持之以恒地缩短产品丌发和产品生产吋间。这要求在整个价值链-从产品构想到实际产品直到产品维修-都实现无缝数据集成。利用数字化提供的机遇更快、更灵活地响应客户的需求,将公获得市场优势。白皮书发布者:西门子生命周期管理软件公司-非限制性文档白皮书| Mind Sphere西门子惠及客户的整个价值链数据分析实现更高水平的生产率和上市时灵活性和适应性可用性和效率。人工智能设计和工程组态自动化和运营维护和服务]仿真1具C云和平台技术安全连接网络安全确保工业级网络安全作为一个全球性制造企业,西门子对客户的理解绝对不会局限于表面层次。西门子依托自有经验理解客户如何才可以更快、更灵活地以最髙效率和最佳质量将产品推向市场-换句话说,就是通过产品硏发的虚拟世界与真实的制造世界之间的完美协同。四门子是当前市场中哐—一个集最新产品生命周期管理软件、功能强大的自动化技术和服务于一身的公司。凭借在世界各地安装的数以百万计西门子设备(3000万个自动化系统、7000万个智能仪表、80万个关联品),西门子及其合作伙伴可利用 MindSphere丰富的应用程序接口(AP)开发高价值应用,并基于深厚的行业知识和经验交付数字化服务设计和程组态自动化和运营维护和服务西门子软件西门子数字化服务Mind sphere-物联网操作系统采用数字化增强的电气化和自动化数字化双胞胎除了连接西门子设备外,客户还利用西门子软件来设计、仿真和生产数以百万计的、支持物联网的产品。这些产品涵盖高技术电子产品、消费类产品、汽车、航空航天和其它大量工业领域。西门子是产品生命周期(PLM)软件和制造运营管理(MOM)软件的仝球领先供应崗。其系统和服务遍及仝球,分发的授权超过1500万个,全球客户数超过了140000个-全球尚没有哪一个物联网提供商可以像西门子一样地通过用于产品、生产和绩效的全数字化双孢胎推动闭环创新5本白皮书的发有者:西门子生命周期管理软件公司-非限制性文档白皮书| MindSphereMindsphereMind Sphere是西门子推出的、基于云的开放式物联网操作系统。融合真实世界与数字化世界,使利用强大的工业应用和数字化服务驱动商业成功成为可能。 MindSphere的开放式半台即服务(PaaS)使卡富的合作伙伴生态系统开发和交付新应用成为可能。将数字化和物联网数据转化为生产运营成果是 Mindsphere的核心驱动力。基于 MindSphere构建的高价值行业应用,可通过基于最佳实践解决方案获得重人成果。此外,个业还可利用 Mindsphere将产品的构思、实现和利用封閉成一个环,将运营数据无缝集成到整个价值链中-不仅可以提高运营效率,而且还可以实现仿真和测试结果与实际观察结果之间的比较。本白皮书从四个重要的方面描述 Mind Sphere的功能和优点:快速、方便地融合真实世界与数字化世界基于开放的半台即服务(PaS)创造强大的合作伙伴生态系统利用强大的领域专用行业应用和数字化服务推动业务成功采用全数字化双胞胎实现无与伦比的闭环创新Mind Sphere作为完整数字化战略的一部分,可以探索新的解决问题的方法,计仚业思考创新性的商业模式。白皮书发布者:西门子生命周期管理软件公司-非限制性文档白皮书| MindSphere融合真实世界与数字化世界目前互联网上连接了80亿个设备。2030年,这一数字将达到10000亿。水源:2016世界经济论坛互联是物联网领域的主要话题之一。全球已经安装了数百万个西门子设备、资和自动化系统。这些设备、资产和自动化系统涉及到电丿发电、能源管理、交通运输、工业牛产以及楼宁技术等领域。人多数情况下,可以获取特定场景下的数据,但尚能挖掘其中的价值。西门子将向现有系统提供插件和扩展程序,使Mind Sphere可以方便地连接这些插件和扩展程序以利用这些数据西门子一直稳定地交付数百万个新型设备、资产和自动化系统。这些设备、资产和自动化系统在交付时就集成了 MindSphere连接功能,因此,安装后即可获得数据产生的价值。借助开放通信标准,其它供应商提供的设备、资产和自动化系统也可以将数据传送全 MindSphere。这确保同·方法的可用性,并可以对数据分析技术采用此前无法使用的组合运用。除了西门子系统外,采用西门子PLM数字化企业软件套装和制造软件进行产品设计、开发和制造的企业也可为其客户提供数十亿个文持物联网功能的产品,例如笔记本电脑、计算机、电视、汽车、卡车、飞机、重型设备、健身设备和白色家电等产品。这些产品中的物联网数据源自大量各种不同数据源。西门子展望Mind Sphere将连接大量各种不同物联网源设备,从而可以收集这些产品的相关数据,并将其用于MindSphere应用。Mind Sphere1回交通运输能源管理运营公月设备个可持续性本白皮书的发有者:西门子生命周期管理软件公司-非限制性文档白皮书| MindSphere可以连接到 MindSphere上的设备类型几乎是无穷无尽的,并且 MindSphere将会支持大多数主流开放连接标准能源例如,涡轮机、风力发电机、蓄电池、智能电表、变电站、压缩机交通运输例如,火车、地铁车站、船舶、卡车、行李车、集装箱工业生产例如,机床、输送机、控制裝置、传动装置、泵、阀楼宇技术例如,采暖、通风、空调、照明、门禁安全、消防安全医疗例如,医疗设各、植入设备、医院其他例如,农业、智能家居、零售髙价值App将利用米自各种不同源的数据向 Mindsphere用户提供独特的价值。Mind Sphere采用了简洁、清晣的结构,可以使用户忺速地将其资产连接到云,并从其物联网数据获得相关价值。SIEMENS3∷∴∷ MindSphere∷∷为了实现用户数据端至端的集成,仝业首先必须将其资产连接到数字化世界。⊥厂、机器和系统所产生的原始数据,如果事先没有对其实施连接、采集和管理,将不能得到全方位的深入分析MindConnect,轻松实现安全连接为了简便、安全地将资产连接到 MindSphere,西门子提供了系列丰富的 MindConnect组件。 Mind Connect组件是软件和庋或硬伫解决方案,它们使即插即用连接成为可能,从而可以收集相关数据,例如将能量计、移动设备(火车等)、空调、各种传动装置和输送系统的状态数据按设定的间隔传输到 Mind Sphere。这使得仝业可以快速、经济地收集性能数据,并将它们发送给 MindSphere以进行分析。白皮书发布者:西门子生命周期管理软件公司-非限制性文档白皮书| MindSphereMindSphere可使客户可以快速展开相关工作Mind Sphere可以帮助客户快速实现其数字化商业模式。无需编程技术,也个需要关停设备每个客户都有一个可定制型登录功能。主页面简洁、清晰,仅显示建立连接时所需要的功能(“资产组态"( Asset Configuration)、管理员客户端与用户登录功能(“客户管理( Customer Management)和"用户管理”( User Management))和 MindApp利用 Mind connect组件的即插即用连接,客户可以快速地使用 MindSphere。貝体过程如下设置并连接 Mindconnect组件组态需要发送给 MindSphere的数据利用集成有规则引擎的 Fleet Manager进入第一个界面并定义相关操作SIEMENSInghuiyf-Lfe23第1步迕接|获得 MindSphere用尸帐号,接收数据接入网关并将它集成到机器/备中第2步组态|利用 Mind Sphere对数据采集功能,连接和可视仁分析器进行组态第3步正棠使用|监视全部设备的健康状念信息:采用 Fleet Manager查看详细的信息MindSphere使客户可以快速展开相关工作开放式连接标准开放的标准和接∏使得从各种不同制造商所生产的资产、设备和系统抉得相关数据成为可能。 Mind connect基于已经建立的工业标准确保可以进行可靠的、独立于制造商的通信。这些标准中有一个名为OPC统架构(○PCUA)标准。该标准是由OPC基金组织制定的、用于实现工业自动化交互性的机器-机器通信协议。对于本文此前描述的各种不冋资产类型的其它标准和协议,将由西门子或其合作伙伴提供相应支持。Mind connect软件具备良好的可扩展性,可以方便地适应各种不同资户类型、协议和通信标准。通过这些扩展, MindSphere客户可以对两门子和其它第三方支持 MindSphere的资产实施全球性访问,并通过嵌入式连接或辅助连接高效地从中提取数据。这将给各种供应商制造的各种资产连接至 MindSphere提供了无尽的可能性。此外, Mind connect库还可协助开发人员将定制型软件代理连接至 Mind connet ap:·库的代码很短,可以方便地集成第三方设备资产·可以定制数据采集功能本白皮书的发有者:西门子生命周期管理软件公司-非限制性文档白皮书| MindSphere·可将数据直接发送给 Mind Sphere,无需掌握任何 Internet协议知识可以简化 MindSphere的通信与调试过程。安全通信Mind connect组件采用了相关安全机制,只允许连接 MindSphere平台并将数据发送给该平台。它通过安全证书验证识别 Mind Sphere后端。对于 Mind connect组件所采用的证书和密钥,通过证书和密钥管理措施进行处理。登录期间, Mind cannect组件必须通过 MindSphere的认证过程。该认证过程完成后,双方即就后续通信所采用的加密密钥达成一致。因此, Mind Sphere平台被设计成只接收来自合法 Mindconnect组件的数据:合法 Mindconnect组件指登录期间成功地完成了认证过程的 MindConnect组件与 MindSphere进行加密通信随着数字化稈度的日益提高,综合性应用安全方案的重要性也越来越人。对于纵深防御,西门子按照丨SA99EC62443和面向工业的信息安全标准lsO27001/BS的建议提供了一种与信息安全、网络安全和系统完整性有关的多层方案。通信数据始终采用不低于256位的 SSL/TLS进行加密。Mind connect组件与 MindSphere平台之间的全部通信都采用传输层安全(TLS)1.2标准进行加密。对于TLS的组态,将会定期检查,使其符合适用的西门子信息安仝指南。这有助于防止中间人攻击和对Mindsphere平台通信实施的各种篡改行为。例如, Mind Connect nano只通过已经建立的、连接至 MindSphere平台的 Https对外连接进行基于Https的、与防火墙友好的互联网出站通信( Https端口443)(该连接的建立由 Mindconnect nano而非 MindSphere半台发起)。即使史新了 Mind connect nano上的固件,仍然遵守“仅出站”规则。最高机密性MindSphere客户是数据的拥冇人,并负责控制杈限级别。 MindSphere提供髙安全数据环境,允诈数据拥有者可对数据访问权限级别进行完全控制。数据保存在由领先的云数据中心合作伙伴(aS)提供的高安全基础设施中。这些专业的laaS提供商可以提供比典型的现玚和本地数据存储设施高得多的安全标准。此外,还通过分离租用者对数据访问权限实现严格管理,从技术上仅允许已经分配的租用拥有者(数据拥有者)进行数据访问。Mind Sphere开发时将数据安全冒于最高优先级,设计了访问保护、分段和加密通信、防篡改保护和机密性保护等功能。客户可确信对自凵的数据进行完仝的访闩控制。白皮书发布者:西门子生命周期管理软件公司-非限制性文档
- 2020-12-05下载
- 积分:1