基于实例和特征的迁移学习算法研究_戴文渊
基于实例和特征的迁移学习算法研究上海交通大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:日期:200年,月6日上海交通大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权上海交通大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文保密□,在年解密后适用本授权书。本学位论文属于不保密囝。(请在以上方框内打“√”)学位论文作者签名:指导教师签名:1日期:209年,月日日期,亻年,月,b日上海交通大学学位论文答辨决议书姓名戴文渊学号1060394所在学科计算机应用技术指导教师俞勇答辩2009年1月答辩地点逸夫科技楼311日期16日论文题目基于实例和特征的迁移学习算法研究投票表决结果:555(同意票数/实到委员数应到委员数)答辫结论:回通过口未通过评语和决议:戴文谢的论女对基家例和将而习年译入的研鉴该课题旨右桌砖传纹戒器动限劫布衣器导成眼刺张采明意和有吃作包提了-种基于泉例汪移羽法给生了aAB算回提3-种基特公汪移3方,3因片和受本键技术取場3很山敌果,流文点明方法新颖,结沉正别,反强着己孔家地推第术基础理和相关的去步知议,具级的去从季科研午W彩机答排刷凶滴蕤,回间趣正确浴拜委员会讨(孔记名拨票奉决),-敌其通过硕士怪沉辩被子召丽士209年1月16日职务姓名职称单位签名主席黄林鹏教授上海交通大学答委员辩翁惠玉副教授上海交通大学委委员薛贵荣副教授上海交通大学员会委员张冬茉副教授上海交通大学成员委员俞勇教授上海交通大学签|天姿号委员秘书韩定助理研究员上海交通大学中文摘要基于实例和特征的迁移学习算法研究摘要传统的机器学习假设训练数据与测试数据服从相同的数据分布。然而,在许多情况下,这种同分布假设并不满足。不满足同分布假设的情况往往发生在训练数捃过期,而标注新数据非常昂贵。于是,我们有有了大量的在不同分布下的过期训练数据。完全丢弃这些数据将会是非常浪费的。在这种情况下,迁移学习就变得非常重要了,因为迁移学习可以从现有的数据中迁移知识,用米帮助将米的学习迁移学习( Transfer Learning)的目标是将从个环境中学到的知识用来帮助新环境中的学习仼务。因此,迁移学习不会像传统忛器学习那样作同分布假设。在本文中,我们将会比较全面的回顾迁移学习的整个领域,并且介绍我们在迁移学习领域的近期研究成果。我们的工作可以分为两部分;基于实例的迁移学习和基于特征的迁移学习。我们将会展示出,基于实例的迁移学习有更强的知识迁移能力,而基于特征的迁移学习具有更广泛的知识迁移能力。这两种方法各有千秋。我们介绍了两种迁移学习方法,分别基于 boosting技术和特征翻译。这两种算法分别对应基于实例的迁移学习和基于特征的迁移学习。我们通过非常全面的实验来证明我们的方法在迁移学习时候能够很大幅度提高很多现有的学习算法,无论是近迁移还是远迁移关键词:迁移学习、实例、特征英文摘要Instance-based and Feature-based Transfer LearningABSTRACTTraditional machine learning techniques make a basic assumption that the training andtest data should be under the same distributions. However, in many cases, this identicaldistribution assumption docs not hold. The violation of thc assumption might happen whenthe training data are out of date, but new data are expensive to label. This leaves plenty oflabeled examples that are under a similar but different distribution which is a waste throwaway entirely. In this situation, transfer learning becomes important to take the role of leveraging these existing data knowledgeTransfer learning aims at using learned knowledge from one context to benefit fur-ther learning tasks in other contexts. Thus, transfer learning does not make the identical-distribution assumption as tractional machine learning algorithms. In this thesis, we broadreview the whole field of transfer learning and then introduce our recent work on transferlearning accordingly. Our work can be divided into two parts: instance-based transfer learning, and feature-based transfer learning. We will show that instance-based transfer learninghas better strength in knowledge transferring, while feature-based transfer learning is withmore gerWe present two transfer learning algorithms based on boosting technique and featuretranslation respectively. These two algorithms corresponds to instance-based and featurebased transfer learning. Our extensive experiments show that our algorithms can greatlyimprove several state-of-the-art algorithms in the situation of transfer learning, includingnear transfer and far transferKEY WORDS: Transfer Learning, Instance, Feature目录目录摘要ABSTRACT(英文摘要)第一章绪论第二章迁移学习领域的研究现状2.1多任务学习.22跨领域学习23不同数据分布下的学习24其他迁移学习问题25迁移学习的应用4555678第三章基于实例的迁移学习算法研究3.1基于 Boosting的迁移学习算法3.1.1基本思想.3.1.2问题定义103.1.3 TrAdaboost算法描述..123.2 TrAdaboost算法的理论分析.14321基本符号143.2.2辅助训练数据上的错误率...:.···153.2.3源训练数据上的错误率,,203.3实验分析:··..··:·.:·.:···:·:·:·:······:213.3.1数据描述..22332实验结果23第四章基于特征的迁移学习算法研究254.1基于特征翻译的迁移学习算法4.1.1翻译学习框架274.1.1.1问题定义····‘·274.1.1.2风险最小化框架.41.1.3模型估计.··2941.14翻译器o304,2实验分析324.2.1实验数据酯鲁鲁D着着·,,·,,音唐鲁帝着争324.2.2比较方法324.2.3实验结果··········:····:..:.::.:::33第五章总结与展望35参考文献致谢4·,个人简历、在学期间的研究成果及发表的论文春,音42插图插图1-1日常生活中的迁移学习例子3-1关于 TrAdaboost算法基木思想的一个直观的示例。3-2 TrAdaboost算法的机制123-3一个关于数据生成的示例223-4三种算法在 people vs places数据集上的效果243-5 TrAdaBoost算法在 people vs places数据集上的达代曲线244-1一个直观的例子,用来说明六中学习策略的异同264-2共同出现数据的例子:Flickr(http://www.flickrcom/)74-3在12个数据集上的平均错误率3444对于不同的入, TLRLSK在12个数据集上的平均错误率34表格表格3.120 Newsgroups数据分布的描述2232SRAA数据分布的描述2333当只有1%的源数据是训练数据时的分类错误率4.1文本辅助图像分类的数据描述3
- 2021-05-06下载
- 积分:1