文本分类
代码说明:
1.用seg进行分词 输入参数一:输入文本语料所在的文件夹路径。 如 文本文件语料都放在 train//text 文件夹下,则参数为:train//text//* 。 注意:必须每篇文章在一个txt文本中。 输入参数二:输入存储分词后的结果文件所在的文件夹路径:如:result//text。注意:不需要加* 本工具采用了中科院的中文分词工具,ICTCLAS,请自行到ICTCLAS官网下载该工具。并把Data文件夹,Configure.xml,ICTCLAS30.h,ICTCLAS30.lib,ICTCLAS30.dll放在和seg.exe同文件夹下面。 2.getFeature获取特征:输入参数格式如上。 其输入语料为seg分词的结果。 注意:请把ICTCLAS30.dll放在于getFeature.ext同一个文件夹下面 3.getSVMTtrain转化成libSVM的格式 输入参数1:输入文本语料所在的文件夹路径。 如 文本文件语料都放在 train//text 文件夹下,则参数为:train//text//* 。其输入的文件为getFeature后得到的结果。 请点击左侧文件开始预览 !预览只提供20%的代码片段,完整代码需下载后查看 加载中 侵权举报
下载说明:请别用迅雷下载,失败请重下,重下不扣分!