登录
首页 » 并行计算 » 基于Hadoop的文本分类(1)-文本预处理&文本表示

基于Hadoop的文本分类(1)-文本预处理&文本表示

于 2022-03-01 发布 文件大小:10.67 MB
0 145
下载积分: 2 下载次数: 1

代码说明:

资源描述一、环境环境:Ubuntu14、Hadoop2.6,Eclipse、NLPIR/ICTCLAS2015等; 二、算法简介: 1、此项目是基于Hadoop2.6进行MapReduce并行开发; 2、此项目是文本分类的文本预处理和文本表示部分,包括分词,去停用词,特征选择和文本表示等(分类算法采用的是随机森林算法,暂时未开放,读者可自行采用Mahout或Weka进行验证); 3、分词采用的是NLPIR/ICTCLAS2015;文本表示采用的是VSM模型,权重计算采用TFIDF进行文本表示;特征选择采用CHI算法(卡方统计); 4、关于并行分词环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4917665.html 5、关于Hadoop环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4901528.html和http://www.cnblogs.com/merru/p/4905118.html。

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论

0 个回复

  • metis-3.0 partitioning unstructured graphs, partitioning meshes, and computing fill-reducing order
    Copyright 1997, Regents of the University of Minnesota. METIS was written by George Karypis (karypis@cs.umn.edu) Introduction ------------------------------------------------------------ METIS is a software package for partitioning unstructured graphs, partitioning meshes, and computing fill-reducing orderings of sparse matrices. The documentation of METIS can be found in the Doc/manual.ps file. METIS is written in ANSI C and should compile on Unix systems that have a ANSI C compiler. It has been extensively tested on the following architectures:    AIX    SunOS    Solaris    IRIX    Unicos    Linux    HP-UX    FreeBSD
    2022-02-20 19:44:54下载
    积分:1
  • mapreduce下矩阵相乘——内积方法
    左矩阵A是m×s,右矩阵B是s×n,结果矩阵C是m×n。
    2023-01-06 10:40:03下载
    积分:1
  • 视频游戏的流体模拟,第 6 部分
    差动速度算法器 这篇文章,在一系列,第六描述从根本上不同的方法计算速度从涡度,提出了在这些文章中的流体模拟的基石之一。第一篇文章总结了流体动力学 ;第二个调查流体仿真技术 ;和第三和第四次提出了涡粒子流体模拟与双向流体体之间的相互作用,在真正的时间运行。第五篇文章展示了如何获取和使用 CPU 使用率分析数据,优化,进一步并行化的代码,这样,它跑得更快。 这篇文章介绍一种求解速度从涡度的微分技术和与第 3 部分中所提出的积分 treecode 技术及其成果和业绩形成鲜明对比。泊松规划求解在这篇文章提出了一种比跑得快 treecode,但它的结果看起来不同的可能不那么令人满意。 涡旋速度,回顾 记得第二篇文章,您可以计算速度从涡度 请点击左侧文件开始预览 !预览只提供20%的代码片段,完整代码需下载后查看 加载中 侵权举报
    2022-02-05 03:15:32下载
    积分:1
  • 数字时钟
    它是一个基于8051的频率计数器,可以用作学习工具。很有用的开始。
    2023-08-27 17:20:03下载
    积分:1
  • implementation of the multiplication of two double matrices by using MATLAB C-Mex and CUBLAS library
    本文介绍了一个通过GPU CUDA实现两个双矩阵相乘的MATLAB运算包。
    2022-07-17 00:43:28下载
    积分:1
  • secuential归排序
    secuential归并排序
    2022-05-09 00:14:19下载
    积分:1
  • 视频游戏的流体模拟,第 5 部分
    性能分析与优化 这篇文章,在一系列,第五描述的性能分析和优化的流体模拟,提出了一种在第三和第四条款中。第一篇文章总结了流体动力学 ;第二个调查流体仿真技术 ;和第三和第四次提出了一个旋涡粒子流体模拟与双向流体体之间的相互作用,它运行在真正的时间。这篇文章利用另一个功能的英特尔 ® 线程构建模块 (英特尔 ® TBB) 将更多的工作分散到多个线程。这篇文章描述 CPU 使用情况分析过程,并使用该信息来优化和进一步并行化的代码,使其运行得更快。 性能分析和优化本文中描述的过程中的许多镜子中所述的程序软件优化食谱。这一过程从开始创建基准 — — 一大块的代码用来量化正在优化算法的性能。其余的过程需要迭代上的三个步骤: 要找出所谓的"热点",应用程序在哪里花费其大部分时间的配置文件。 探讨为什么热点会消耗很多时间的详细信息。 修改,试图让它更快的代码。 将这些步骤应用于流体模拟应用程序在前两篇文章中提出了这条记载。 相关的文章 流体模拟视频游戏 (第1部分) 流体模拟视频游戏 (第 2 部分) 流体模拟视频游戏 (第 3 部分) 流体模拟视频游戏 (第 4 部分) 流体模拟视频游戏  (第 5 部分) 流体
    2022-05-18 08:33:08下载
    积分:1
  • 基于Hadoop的文本分类(1)-文本预处理&文本表示
    资源描述一、环境环境:Ubuntu14、Hadoop2.6,Eclipse、NLPIR/ICTCLAS2015等; 二、算法简介: 1、此项目是基于Hadoop2.6进行MapReduce并行开发; 2、此项目是文本分类的文本预处理和文本表示部分,包括分词,去停用词,特征选择和文本表示等(分类算法采用的是随机森林算法,暂时未开放,读者可自行采用Mahout或Weka进行验证); 3、分词采用的是NLPIR/ICTCLAS2015;文本表示采用的是VSM模型,权重计算采用TFIDF进行文本表示;特征选择采用CHI算法(卡方统计); 4、关于并行分词环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4917665.html 5、关于Hadoop环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4901528.html和http://www.cnblogs.com/merru/p/4905118.html。
    2022-03-01 12:43:10下载
    积分:1
  • 示波器代码
    示波器的源代码,效果不错的,dlo1w1dsc hhjhsdf sfdssd  fsdhsdfhsdj eewrew erewrewr dsfefh  dsdewh
    2022-07-07 20:07:57下载
    积分:1
  • PLINQ is Coming Up Soon (PFX)
    介绍
    2022-10-06 18:20:02下载
    积分:1
  • 696518资源总数
  • 104349会员总数
  • 32今日下载