▍1. SolrMongoImporter-master
连接 HBASE和MongoDB的驱动程序,配置后可直接导数据。很好用。
连接 HBASE和MongoDB的驱动程序,配置后可直接导数据。很好用。
java实现kmenas算法,有详细的注释,以及MapReduce实现Kmeans算法。 Map每读取一条数据就与聚类中心对比,求出该条记录对应的聚类中心,然后以聚类中心ID为key,该条数据为value将数据输出 利用Reduce的归并功能将相同的key(聚类中心ID相同)归并到一起,集中与该Key对应的数据,求出这些数据的平均值,输出平均值 对比Reduce求出的平均值与原来的聚类中心,如果不相同,将清空原中心的数据文件,将Reduce的结果写到中心文件中
基于hadoop的web访问记录分析,主要实现:1.页面访问量统计 2.页面独立IP的访问统计 3.用户每小时PV的统计 4.用户来源域名的统计 5.用户的访问设备统计
wordcount的源码,是在hadoop的环境下实现的,稍微做了点改进,这个算作是hadoop环境下的helloworld的程序,希望能给大家带来帮助
Hadoop的计算框架只能处理文本文件,对于图像数据不能直接处理,本代码可以实现将图像文件转换成Mapreduce可以读取的SequenceFile,其中包括单机写入和读取,以及mapreduce读取,是进行分布式处理图像数据的第一步。
1、WordCountMap类继承了org.apache.hadoop.mapreduce.Mapper,4个泛型类型分别是map函数输入key的类型,输入value的类型,输出key的类型,输出value的类型。 2、WordCountReduce类继承了org.apache.hadoop.mapreduce.Reducer,4个泛型类型含义与map类相同。 3、map的输出类型与reduce的输入类型相同,而一般情况下,map的输出类型与reduce的输出类型相同,因此,reduce的输入类型与输出类型相同。 4、hadoop根据以下代码确定输入内容的格式:
用于计算学生的平均成绩,采用的平台是hadoop分布式平台,代码语言是java,这是一个比较基础的hadoop入门的例子,有助于新手熟悉mapreduce原理,难度会比Wordcount大一点点,但基本原理类似,都只需要一个map函数,一个reduce函数。
用于hadoop0.22.0的分布式纠删编码,是对原始hadoop0.22.0的改进版本,大大提高数据恢复速度,非常高效。
ont-style:normal;font-variant:normal;"突然之间, 大数据一下子就“火”了, 开源软件 Hadoop 也因此水涨船高 请点击左侧文件开始预览 !预览只提供20%的代码片段,完整代码需下载后查看 加载中 侵权举报
提供的是Hadoop系统中的HDFS文件系统的上传下载文件,以及对文件进行操作的的Java代码。提供的是Hadoop系统中的HDFS文件系统的上传下载文件,以及对文件进行操作的的Java代码。提供的是Hadoop系统中的HDFS文件系统的上传下载文件,以及对文件进行操作的的Java代码。提供的是Hadoop系统中的HDFS文件系统的上传下载文件,以及对文件进行操作的的Java代码。
package org.apache.hadoop; import java.io.IOException; import java.text.DecimalFormat; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.DoubleWritable; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.Reducer.Context; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.jobcontrol.ControlledJob; import org.apache.hadoop.mapreduce.lib.jobcontrol.JobControl; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; import org.apache.hadoop.util.GenericOptionsParser; public class WordCount {
hadoop 源代码
Hadoop2.0.入门案例。很实用,想要学习大数据的同学抓紧,里面有自己的学习心得!
1) 求各个部门的总工资 2) 求各个部门的人数和平均工资 3) 求每个部门最早进入公司的员工姓名 4) 求各个城市的员工的总工资 5) 列出工资比上司高的员工姓名及其工资 6) 列出工资比公司平均工资要高的员工姓名及其工资 7) 列出名字以J开头的员工姓名及其所属部门名称 8) 列出工资最高的头三名员工姓名及其工资 9) 将全体员工按照总收入(工资+提成)从高到低排列,要求列出姓名及其总收入 10) 如果每位员工只能和他的直接上司,直接下属,同一部门的同事交流,求任何两名员工之间若要进行信息传递所需要经过的中间节点数。
hadoop入门程序,方便学习。Hadoop的核心就是HDFS和MapReduce,而两者只是理论基础,不是具体可使用的高级应用,Hadoop旗下有很多经典子项目,比如HBase、Hive等,这些都是基于HDFS和MapReduce发展出来的。要想了解Hadoop,就必须知道HDFS和MapReduce是什么。我的程序里有入门介绍
mahout是一个开源的机器学习平台!mahout实战这本书详细的讲解了mahout的原理并且介绍了相应算法的实例。本文件包含了该书的相应实例的相应源码。
使用Hadoop中的MapReduce计算框架可以对数字文本分析及求和,当遇到大规模数据时,使用别的编程语言会使得计算过程变得复杂,但使用MapReduce并行计算框架只需编写map函数和reduce函数即可,简单方便。
代码中利用Hbase相关的API,包括对HBase的增删改查等操作,对于初学者学习HBase能够起到作用。 前提是导入hadoop和hbase相关的jar包,可以在hadoop集群上面下载
hadoop2.5.1-workCount-源码,导入eclipse可直接运行。有需求的可以一起研究一下。
MapReduce实现大矩阵乘法 ,即把一个大的矩阵分解成两个矩阵,通过计算两个小的矩阵就可以获得大的矩阵,可以很有效地解决大数据存储的问题。