登录
首页 » 并行计算 » 基于Hadoop的文本分类(1)-文本预处理&文本表示

基于Hadoop的文本分类(1)-文本预处理&文本表示

于 2022-03-01 发布 文件大小:10.67 MB
0 108
下载积分: 2 下载次数: 1

代码说明:

资源描述一、环境环境:Ubuntu14、Hadoop2.6,Eclipse、NLPIR/ICTCLAS2015等; 二、算法简介: 1、此项目是基于Hadoop2.6进行MapReduce并行开发; 2、此项目是文本分类的文本预处理和文本表示部分,包括分词,去停用词,特征选择和文本表示等(分类算法采用的是随机森林算法,暂时未开放,读者可自行采用Mahout或Weka进行验证); 3、分词采用的是NLPIR/ICTCLAS2015;文本表示采用的是VSM模型,权重计算采用TFIDF进行文本表示;特征选择采用CHI算法(卡方统计); 4、关于并行分词环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4917665.html 5、关于Hadoop环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4901528.html和http://www.cnblogs.com/merru/p/4905118.html。

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论

0 个回复

  • I2C driver
    I2C总线驱动,8位单片机适用。 在总线控制,并下发指令是,效率好,另外,此程序在keil编译器中已经编译通过。
    2022-01-31 04:15:49下载
    积分:1
  • 基于OPENMP的矩阵相乘的程序
    应用背景只是用来学习OPENMP编程的应用技巧,同时对初学者有所帮助,不过程序比较简单,谨慎学习下载,同时,希望学习openmp的朋友能够多多交流一下,相互学习帮助关键技术关键技术就是基于OPENMP的一个矩阵相乘的并行实现,然后使用了分块,用静态分块进行各线程并行处理,所用时间短,效率高,适合学一下
    2022-08-04 09:23:19下载
    积分:1
  • 冒泡排序的MPIC
    应用背景读取一个文本文件包含数字(小于2E8),它存储在一个动态数组的冒泡排序法,并打印出另一个文本文件。在终端中返回每个进程的运行时。如果该参数没有指定,默认为一个叫做“Sal txt文件。”(必须保存在当前目录),如果参数定义的文件进入参数与数组排序。关键技术泡沫排序,有时也称为“下沉排序”,是一个简单的排序算法,通过列表中的重复步骤来进行排序,比较每一对相邻的项目,如果它们是错误的顺序。通过列表的传递,直到不需要进行任何交换,这说明列表是排序的。这是一个比较排序的算法,它被命名为较小的元素“泡沫”到列表的顶部。虽然算法简单,但对于大多数问题来说,它是太慢和不切实际的,即使在插入排序。[ 1 ]它可以是实际的,如果输入通常是按排序顺序,但可能会偶尔有一些顺序元素的位置近。
    2023-01-14 11:15:03下载
    积分:1
  • DC-DC convertor
    基于dsp的DC-DC升压变换器MOSFET.作为根据目前的情况,世界各地都存在大量的电力短缺,特别是像印度这样的国家,电网转移问题也很严重。化石燃料的发电量越来越少,一些化石燃料的例子是(煤、褐煤、石油和天然气),因此大多数人都在寻找绿色或可再生能源,如太阳能、风能、生物质能、潮汐能等,这些能源不会对环境造成任何污染。本文还对光伏板进行了仿真分析,并对高效boost变换器进行了设计和仿真。尽管太阳能系统是可再生能源,但与风能等其他可再生能源相比,它并没有连接到更多的电网。需要采取很多必要的措施,其中一个重要的因素就是需要高效率的boost变换器
    2022-04-12 03:11:21下载
    积分:1
  • 数据结构实验
    多种算法实现链表的排序,可以更具需要进行适当该表计算哦,是基础了,欢迎同在学习的伙伴一起努力哦~ 数据结构实验
    2022-11-12 13:15:04下载
    积分:1
  • PI值的处理
    A console application that estimates the value of PI using a variety of both serial and parallel implementations, the latter done with both PLINQ and the Parallel class.
    2022-01-22 07:33:28下载
    积分:1
  • metis-3.0 partitioning unstructured graphs, partitioning meshes, and computing fill-reducing order
    Copyright 1997, Regents of the University of Minnesota. METIS was written by George Karypis (karypis@cs.umn.edu) Introduction ------------------------------------------------------------ METIS is a software package for partitioning unstructured graphs, partitioning meshes, and computing fill-reducing orderings of sparse matrices. The documentation of METIS can be found in the Doc/manual.ps file. METIS is written in ANSI C and should compile on Unix systems that have a ANSI C compiler. It has been extensively tested on the following architectures:    AIX    SunOS    Solaris    IRIX    Unicos    Linux    HP-UX    FreeBSD
    2022-02-20 19:44:54下载
    积分:1
  • Matlab pso1
    PSo代码如何提供鼠标点击和帮助请用代码dcscsdcccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccc
    2022-01-27 18:24:48下载
    积分:1
  • MFC调用CUDA
    如何在MFC中调用CUDA 环境:     Windows Vista SP1 Microsoft Visual Studio 2005 CUDA 2.0 步骤: 1.       创建一个对话框的
    2023-04-01 09:30:04下载
    积分:1
  • 读取参数文件
    #include #define  NUMBER   4 void main( ) {    int i=1; float f0,dt,dx,dz; int mx,mz,ntmax,pml,sou_x,sou_z,rec_start,rec_end,rec_int,rec_depth; char shotID[5],record_pp[30],vp_name[30],rou_name[30],mig_name[30],mig_pyt_name[30],mig_udlf_name[40],shuoming[30]; FILE *fp,*f; /*&不合法变量*/     printf("** This program is to show the block file input & output** "); fp=fopen(
    2022-09-05 20:35:03下载
    积分:1
  • 696522资源总数
  • 104029会员总数
  • 31今日下载