登录
首页 » 并行计算 » 基于Hadoop的文本分类(1)-文本预处理&文本表示

基于Hadoop的文本分类(1)-文本预处理&文本表示

于 2022-03-01 发布 文件大小:10.67 MB
0 158
下载积分: 2 下载次数: 1

代码说明:

资源描述一、环境环境:Ubuntu14、Hadoop2.6,Eclipse、NLPIR/ICTCLAS2015等; 二、算法简介: 1、此项目是基于Hadoop2.6进行MapReduce并行开发; 2、此项目是文本分类的文本预处理和文本表示部分,包括分词,去停用词,特征选择和文本表示等(分类算法采用的是随机森林算法,暂时未开放,读者可自行采用Mahout或Weka进行验证); 3、分词采用的是NLPIR/ICTCLAS2015;文本表示采用的是VSM模型,权重计算采用TFIDF进行文本表示;特征选择采用CHI算法(卡方统计); 4、关于并行分词环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4917665.html 5、关于Hadoop环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4901528.html和http://www.cnblogs.com/merru/p/4905118.html。

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论


0 个回复

  • Matlab pso1
    PSo代码如何提供鼠标点击和帮助请用代码dcscsdcccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccc
    2022-01-27 18:24:48下载
    积分:1
  • 求矩阵特征值的法的实现
    QR算法是目前最广泛被用于求一般矩阵特征值的方法,但是由于串行算法的时间过于长,大大的降低了工作效率,所以我们将其在基于cuda架构上对其进行GPU加速,将原有的求矩阵特征值得串行算法进行并行化,大大地提高了工作效率
    2022-11-06 08:40:04下载
    积分:1
  • implementation of the multiplication of two double matrices by using MATLAB C-Mex and CUBLAS library
    本文介绍了一个通过GPU CUDA实现两个双矩阵相乘的MATLAB运算包。
    2022-07-17 00:43:28下载
    积分:1
  • fpga vga 控制器设
    我听说很多积极的反馈,从几个星期我们回来的统合 NERP FPGA 车间。一些人问我要去我们做两个演示的 Verilog 邮编。我添加了评论到 Verilog 文件试图清理我们顺利挺进避免纯粹把这变成 Verilog 类的东西很多。最有用的评论将在 VGA 控制器模块我们 wrote:vga640x480.v。不管怎么说,所有所需的项目文件,合成我们写的逻辑都在这里:我听说很多积极的反馈,从几个星期我们回来的统合 NERP FPGA 车间。一些人问我要去我们做两个演示的 Verilog 邮编。我添加了评论到 Verilog 文件试图清理我们顺利挺进避免纯粹把这变成 Verilog 类的东西很多。最有用的评论将在 VGA 控制器模块我们 wrote:vga640x480.v。不管怎么说,所有所需的项目文件,合成我们写的逻辑都在这里:
    2022-03-23 00:30:18下载
    积分:1
  • 福克斯矩阵
    狐狸的算法,一个简单的实现每个进程的一个元素。在一个充分实现 A、 B、 C、 T将矩阵。
    2023-09-08 02:00:03下载
    积分:1
  • 基于Hadoop的文本分类(1)-文本预处理&文本表示
    资源描述一、环境环境:Ubuntu14、Hadoop2.6,Eclipse、NLPIR/ICTCLAS2015等; 二、算法简介: 1、此项目是基于Hadoop2.6进行MapReduce并行开发; 2、此项目是文本分类的文本预处理和文本表示部分,包括分词,去停用词,特征选择和文本表示等(分类算法采用的是随机森林算法,暂时未开放,读者可自行采用Mahout或Weka进行验证); 3、分词采用的是NLPIR/ICTCLAS2015;文本表示采用的是VSM模型,权重计算采用TFIDF进行文本表示;特征选择采用CHI算法(卡方统计); 4、关于并行分词环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4917665.html 5、关于Hadoop环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4901528.html和http://www.cnblogs.com/merru/p/4905118.html。
    2022-03-01 12:43:10下载
    积分:1
  • 存钱银
    一套相对完整的JSP毕业论文——教学管理系统,用JSP开发与实现动态网站的好范例,描述了J2EE的相关技术,比如Servlet,JSP, 请点击左侧文件开始预览 !预览只提供20%的代码片段,完整代码需下载后查看 加载中 侵权举报
    2022-01-26 07:00:12下载
    积分:1
  • metis-3.0 partitioning unstructured graphs, partitioning meshes, and computing fill-reducing order
    Copyright 1997, Regents of the University of Minnesota. METIS was written by George Karypis (karypis@cs.umn.edu) Introduction ------------------------------------------------------------ METIS is a software package for partitioning unstructured graphs, partitioning meshes, and computing fill-reducing orderings of sparse matrices. The documentation of METIS can be found in the Doc/manual.ps file. METIS is written in ANSI C and should compile on Unix systems that have a ANSI C compiler. It has been extensively tested on the following architectures:    AIX    SunOS    Solaris    IRIX    Unicos    Linux    HP-UX    FreeBSD
    2022-02-20 19:44:54下载
    积分:1
  • 数字时钟
    它是一个基于8051的频率计数器,可以用作学习工具。很有用的开始。
    2023-08-27 17:20:03下载
    积分:1
  • mpi4py 的逐次超松驰迭代的例子
    这是示例如何用逐次超松驰迭代 (SOR) 方法,求解线性系统的方程 使用 python 库 mpi4py。算法尝试计算节点之间平分。该程序不仅可以 在集群上运行。
    2022-04-29 12:44:20下载
    积分:1
  • 696518资源总数
  • 104573会员总数
  • 29今日下载