-
基于Hadoop的文本分类(1)-文本预处理&文本表示
资源描述一、环境环境:Ubuntu14、Hadoop2.6,Eclipse、NLPIR/ICTCLAS2015等;
二、算法简介:
1、此项目是基于Hadoop2.6进行MapReduce并行开发;
2、此项目是文本分类的文本预处理和文本表示部分,包括分词,去停用词,特征选择和文本表示等(分类算法采用的是随机森林算法,暂时未开放,读者可自行采用Mahout或Weka进行验证);
3、分词采用的是NLPIR/ICTCLAS2015;文本表示采用的是VSM模型,权重计算采用TFIDF进行文本表示;特征选择采用CHI算法(卡方统计);
4、关于并行分词环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4917665.html
5、关于Hadoop环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4901528.html和http://www.cnblogs.com/merru/p/4905118.html。
- 2022-03-01 12:43:10下载
- 积分:1
-
Blend Images
A demo of very simple image manipulation using a Parallel.For loop. The application allows the user to load up two images and blends them together into a single, new image.
- 2022-07-27 17:53:54下载
- 积分:1
-
sdzfsdfxdfxfdsgg dfsgs sffgsfg
dsfdsfllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllll
- 2022-03-13 17:31:15下载
- 积分:1
-
mpi4py 的并行逐次超松驰迭代的例子
这是示例如何用逐次超松驰迭代 (SOR) 方法,求解线性系统的方程
使用 python 库 mpi4py。算法尝试计算节点之间平分。该程序不仅可以
在集群上运行。
- 2022-04-29 12:44:20下载
- 积分:1
-
Matlab pso1
PSo代码如何提供鼠标点击和帮助请用代码dcscsdcccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccc
- 2022-01-27 18:24:48下载
- 积分:1
-
任务调度
这是一份具有异构多核计算环境下的任务调度,计算异构环境下的最小makespan,适合研究并行计算的同学学习
- 2022-02-06 06:14:35下载
- 积分:1
-
在 win32 中的多线程应用程序
在 win32 中的 Multithreadingapplications。C 编程在多线程环境中的 windows levelapplication 源代码。Multithreadin windows 系统很好的书。
- 2022-10-17 09:15:15下载
- 积分:1
-
读取参数文件
#include
#define NUMBER 4
void main( )
{ int i=1;
float f0,dt,dx,dz;
int mx,mz,ntmax,pml,sou_x,sou_z,rec_start,rec_end,rec_int,rec_depth;
char shotID[5],record_pp[30],vp_name[30],rou_name[30],mig_name[30],mig_pyt_name[30],mig_udlf_name[40],shuoming[30];
FILE *fp,*f; /*&不合法变量*/
printf("** This program is to show the block file input & output**
");
fp=fopen(
- 2022-09-05 20:35:03下载
- 积分:1
-
implementation of the multiplication of two double matrices by using MATLAB C-Mex and CUBLAS library
本文介绍了一个通过GPU CUDA实现两个双矩阵相乘的MATLAB运算包。
- 2022-07-17 00:43:28下载
- 积分:1
-
I2C driver
I2C总线驱动,8位单片机适用。
在总线控制,并下发指令是,效率好,另外,此程序在keil编译器中已经编译通过。
- 2022-01-31 04:15:49下载
- 积分:1