模式识别——基于ID3算法的三次改进
ID3算法是决策树的鼻祖,最早于1986年由Quinlan提出,全称是Iterative Dichotomiser 3 [1]。在这篇课程报告中,我将对经典的ID3做出三次改进:1.把 info gain 改进为 gain ratio;2. 把简单投票的过程改进为朴素贝叶斯的方法;3. 将许多颗ID3决策树打造成随机森林。本人将在Weka平台进行二次开发,并且用Weka-Experiment做大量实验,和其它著名的算法进行比较,最后做出综述。项目的源代码开源在本人的GitHub主页上。未来工作有以下几点:是那么容易就可以随机出来的1.在 Improvement Two中,3树的生长的深度限3.可以把这三种改进方法糅合在一起,看看三种制在多少,可以进行进一步的研究改进组合在一起,能不能产生性能更加的算法2.在 Improvement Three中,本人费劲心思写出来4.上述所有方法都是基于属性为 nominal的数据的“随机森林”,正确率反而比D3更差。虽然集,可以进一步研究属性为 numerical,甚至是很使我伤心,但是我在写代码、调试代码、还有两者混合的数据集。思考的过程中有了不少长进。看来随机森林不L己ta3et(1 caitao.I(2) caita (3 caita (4 caita (5) trees (6)treesca置,色va1 eatlon(100)B9.19|81.36*92.85V78.日9*94.43W93.40Vweather. symbolic100)79.00|56.507s.0079.57.506,50{v!/*)|(0/1/1)(1/1/0(011/1)(1/1/0)(1/1/0Re1)caia。,工3"-26936786470963225612) CaILE。 gainRatio.工D311-2693678647096322561(3 caitao naiveBayes. ID3-26936786470963225614)cata0 andomforest,ID31-2593678647096322561{5) trees. NBTree"-47160057070582560866) trees. Randomforest"-10-4-51- depth101-2260823972777004705图-7: Weka-experiment实验结果。总共6个算法,2个数据集。6个算法中(1是原始的1D3算法,后面(2)-(4)是本人的改进算法,(5)和(6)是Weka平台自带的算法。GitHub较风趣;另一方面,蒋老师在我上机实习的过程过,本次模式识别上机实刁的代码,全部公开在本人的回答了我不少疑惑,虽然这些疑惑对于蔣老师而言GitHub主页上面,ur地址如下:可能十分幼稚,但是依然完整解决了我的问题。1. Improvement one:https://github.com/caitaozhan/id3improvements/treREFERENCES/gain ratio2. Improvement TwoJhttps://en.wikipedia.org/wiki/id3algorithmhttps://github.com/caitaozhan/id3_improvements/tre[2]决策树,蒋良孝的PPTChapter2-8e/naive bayes[3] Data Mining Practica/ Machine Learning Tools and3. Improvement threTechniques--Chapter4.3https://github.com/caitaozhan/id3improvements/tre[4贝叶斯分类,将良孝的PPTChapter3-15e/random forest[5]http://archive.ics.uci.edu/ml/datasets/car+evaluation[6]https://en.wikipediaorg/wiki/random_subspace_methodAcknowledgements感谢蒋良孝老师对于我的指导。一方面,蒋老师上课讲解十分到位,关键部位一点就通了,不仅如此还比
- 2020-12-07下载
- 积分:1