登录
首页 » 并行计算 » 基于Hadoop的文本分类(1)-文本预处理&文本表示

基于Hadoop的文本分类(1)-文本预处理&文本表示

于 2022-03-01 发布 文件大小:10.67 MB
0 134
下载积分: 2 下载次数: 1

代码说明:

资源描述一、环境环境:Ubuntu14、Hadoop2.6,Eclipse、NLPIR/ICTCLAS2015等; 二、算法简介: 1、此项目是基于Hadoop2.6进行MapReduce并行开发; 2、此项目是文本分类的文本预处理和文本表示部分,包括分词,去停用词,特征选择和文本表示等(分类算法采用的是随机森林算法,暂时未开放,读者可自行采用Mahout或Weka进行验证); 3、分词采用的是NLPIR/ICTCLAS2015;文本表示采用的是VSM模型,权重计算采用TFIDF进行文本表示;特征选择采用CHI算法(卡方统计); 4、关于并行分词环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4917665.html 5、关于Hadoop环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4901528.html和http://www.cnblogs.com/merru/p/4905118.html。

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论

0 个回复

  • 基于Hadoop的文本分类(1)-文本预处理&文本表示
    资源描述一、环境环境:Ubuntu14、Hadoop2.6,Eclipse、NLPIR/ICTCLAS2015等; 二、算法简介: 1、此项目是基于Hadoop2.6进行MapReduce并行开发; 2、此项目是文本分类的文本预处理和文本表示部分,包括分词,去停用词,特征选择和文本表示等(分类算法采用的是随机森林算法,暂时未开放,读者可自行采用Mahout或Weka进行验证); 3、分词采用的是NLPIR/ICTCLAS2015;文本表示采用的是VSM模型,权重计算采用TFIDF进行文本表示;特征选择采用CHI算法(卡方统计); 4、关于并行分词环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4917665.html 5、关于Hadoop环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4901528.html和http://www.cnblogs.com/merru/p/4905118.html。
    2022-03-01 12:43:10下载
    积分:1
  • Matlab pso1
    PSo代码如何提供鼠标点击和帮助请用代码dcscsdcccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccc
    2022-01-27 18:24:48下载
    积分:1
  • cuda
    资源描述VS_cuda并行计算 两基于vs实现的.cu代码 简单的实现矩阵相乘和反转。
    2022-05-21 15:38:13下载
    积分:1
  • secuential归排序
    secuential归并排序
    2022-05-09 00:14:19下载
    积分:1
  • Blend Images
    A demo of very simple image manipulation using a Parallel.For loop.  The application allows the user to load up two images and blends them together into a single, new image.        
    2022-07-27 17:53:54下载
    积分:1
  • I2C driver
    I2C总线驱动,8位单片机适用。 在总线控制,并下发指令是,效率好,另外,此程序在keil编译器中已经编译通过。
    2022-01-31 04:15:49下载
    积分:1
  • spark apriori法实现代码
    应用背景  Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。  关键技术频繁项集挖掘采用spark实现的并行化挖掘算法。并行的apriori算法采用scala编写,并行的apriori采用java编写。里面会有较多函数使编程的内容。 
    2022-02-02 20:25:06下载
    积分:1
  • 酒店管理系统
    免费下载项目在线预订系统在 Php 中与我的 Sql.hear 在线酒店预订系统项目与完整的源代码。酒店管理系统项目用于维护每个客户的信息。每个客户有自己的个人资料。如果没有完美的软件然后它将非常艰巨的任务,要保持所有的记录完全没有出现任何错误。即使找到特定的记录,要需要很多时间。
    2022-03-15 10:09:14下载
    积分:1
  • 你好,我想让更多的积分
    你好,我想让更多的积分 你好,我想让更多的积分 你好,我想让更多的积分 你好,我想让更多的积分 你好,我想让更多的积分
    2022-06-21 21:32:45下载
    积分:1
  • 视频游戏的流体模拟,第 6 部分
    差动速度算法器 这篇文章,在一系列,第六描述从根本上不同的方法计算速度从涡度,提出了在这些文章中的流体模拟的基石之一。第一篇文章总结了流体动力学 ;第二个调查流体仿真技术 ;和第三和第四次提出了涡粒子流体模拟与双向流体体之间的相互作用,在真正的时间运行。第五篇文章展示了如何获取和使用 CPU 使用率分析数据,优化,进一步并行化的代码,这样,它跑得更快。 这篇文章介绍一种求解速度从涡度的微分技术和与第 3 部分中所提出的积分 treecode 技术及其成果和业绩形成鲜明对比。泊松规划求解在这篇文章提出了一种比跑得快 treecode,但它的结果看起来不同的可能不那么令人满意。 涡旋速度,回顾 记得第二篇文章,您可以计算速度从涡度 请点击左侧文件开始预览 !预览只提供20%的代码片段,完整代码需下载后查看 加载中 侵权举报
    2022-02-05 03:15:32下载
    积分:1
  • 696518资源总数
  • 104271会员总数
  • 57今日下载