华为FusionInsight HD 2.7 技术白皮书.pdf
代码说明:
华为FusionInsight HD 2.7 技术白皮书,详细介绍了华为版Hadoop的各个组件功能。华为FusionInsight是华为企业级大数据存储、查询、分析的统一平台。华为 Fusionlnsight hd27技术白皮书日录目录1简介…1.1 Fusionlnsight hD概述1.2 FusionInsight HD组件介绍.2重点组件介绍52.集群管理 Manager622分布式文件系统HDFS23统一资源管理和调度框架YARN24分布式批处理引擎 Mapreduce.25分布式数据库 HBase2.6数据仓库组件Hive27分布式内存计算引擎 Spark28全文检索组件Solr.29批量数据集成 Loader( Scoop)….122.10实时数据采集 Flume142.11流式事件处理( Storn)…2.11.1 Storm2.11.2 StreamCQL…2.11.3 Flink2.12分布式高速缓存 Redis2.|3分布式消息队列 Kafka2.14作业编排与调度 Oozie...........212.15数据继承入凵Hue文档版本01(2017-07-30)华为专有和保密信息版权所有c华为技术有限公司华为 Fusionlnsight hd27技术白皮书1简介简介1.1 FusionInsight HD概述1.2 FusionInsight hD组件介绍文档版本01(2017-07-30)华为专有和保密信息版权所有c华为技术有限公司华为 FusionInsight hd27技术白皮书1简介11 FusionInsight hD概述FusionInsight是华为仝业级大数据存储、查询、分析的统一平台,能够帮助全业快速构建海量数据信息处理系统,通过对巨量信恳数据实吋与非实时的分析挖掘,发现全新价值点和企业商机应用层REST API数据服务明细影像推荐/伪控关系轨迹Data世像ServiceREST API/SQL/SDKloaderMe知认FormerManager数据分析Data Farm数据集成信数据挖识、服务框智慧配置管理性能管理告警管理数据处理发全管理DataoS hadoop Spark2 STORM(Flink LibrA租户管理灾备管理FusionInsigh解决方案由5个子产品 FusionInsight hD、 Fusioninsight libra、FusionInsight miner、 FusionInsight Farmer和1个操作运维系统 FusionInsight manager构成FusionInsight HD:企业级的大数据处理环境,是一个分布式数据处理系统,对外提供大容量的数据存储、分析查询和实时流式数据处理分析能力。usionInsight HD包括 Zookeeper、 Hadoop、 HBase、 Loader、 HBase、Hive、Hue、 Oozie、 Phoenix、Solr、 Redis、 Spark、 Streaming、 Kafka、E、 Flink等组件。FusionInsight miner:个业级的数据分析平台,基于华为 FusionInsight hd的分布式存储和并行计算技术,提供从海量数据中挖掘出价值信息的平台。FusionInsight Farmer:企业级的大数据应用容器,为企业业务提供统一开发、运行和管埋的平台。Fusionlnsight Manager:企业级大数据的操作运维提供,提供高可靠、安全、容错、易用的集群管理能力,支持大规模集群的安装部署、监控、告警、用户管理、权限管理、审计、服务管理、健康检査、问题定位、升级和补丁等功能FusionInsight librA:企业级的MPP关系型数据库,基于列存储和MPP架构,是为面向结构化数据分析而设计开发的,能够有效处理PB级别的数据量。 FusionInsightLibrA在核心技术上跟传统数据库有巨大差别,可以解决很多行业用户的数据处理性能问题,可以为超大规模数据管理提供高性价比的通用计算平台,并可用于支撑各类数据仓库系统、BⅠ( Business intelligence)系统和决策支持系统,统一为上层应用的决策分析等提供服务。文档版本01(2017-07-30)华为专有和保密信息版权所有c华为技术有限公司华为 FusionInsight hd27技术白皮书1简介12 FusionInsight hD组件介绍数招外析数据集成菜群理款据挖握数据挖掘处理Mahout(on MRMI I ib(on Spark)ahx款什理作业调应DSL领域描述语U。2e枇处互询KV面流式杏诈HiveparksQLRedisStreamcQL批量分市式计算引Loade故障管卫七处理流处理附件处理MapReduceFlinkstorm实时采性能管理分布式资源管Y消思队列安仝售翅Kalka分布式存储雪NOSQL数招库按素引≤QL行惴格式租户管理上传下载FtnonHDFSOROPalyueLCai bun De莫分布式文件系统备份曾理HDFSFusionInsight hd需要对廾源组件进行封裝和增强,对外提供稳定的大容量的数据存储、查询和分析能力。各自组件提供功能如下Manager:作为运维系统,为 I FusionInsight hD提供高可靠、安全、容错、易用的集群管理能力,支持大规模集群的安装/级/补丁、配置管理、监控管理、告警管理、用户管理、租户管理等。HDFS: Hadoop分布式文件系统( Hadoop Distributed File System),提供高吞吐量的数据访问,适合大规模数据集方面的应用。HBase:提供海量数据存储功能,是一种构建在HDFS之上的分布式、面向列的存储系统。Oozie:提供了对开源 Hadoop组件的任务编排、执行的功能。以 Java Web应用程序的形式运行在 Java servlet容器(如: Tomcat)中,并使用数据库来存储工作流定义、当前运行的工作流实例(含实例的状态和变量)。Zookeeper:提供分布式、高可用性的协调服务能力。帮助系统遷免单点故障,从而建立可靠的应用程序Redis:提供基于内存的高性能分布式KV缓存系统。Yarn: Hadoop2.0中的資源管理系统,它是一个通用的资源模块,可以为各类应用程序进行资源管理和调度。Mapreduce:提供快速并行处理大量数据的能力,是一种分布式数据处理模式和执行环境。Spark:基于内存进行计算的分布式计算架Hive:建立在 Hadoop基础上的井源的数据仓库,提供类似SQL的HⅤeQL语言操作结构化数据存储服务和基本的数据分析服务。Loader:基 J Apache Scoop实巩 FusionInsight hD与关系型数据库、p/sp文件服务器之间数据批量导入导出工具:同时提供 Java api/ shell!务调度接口,供第三方调度平台调用。●Hue:提供了开源 Hadoop绀件的 WebUI,可以通过浏览器操作HDFS的目录和文件,调用 Oozie米创建、监控和编排工作流,可操作 Loader组件,査看Zo< eeper集群情况。文档版本01(2017-07-30)华为专有和保密信息版权所有c华为技术有限公司华为 FusionInsight hd27技术白皮书1简介Flume:一个分布式、可靠和高可用的海量日志聚合系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Fume提供对数据进行简单处理,并写入各种数据接受方(可定制)的能力。●Solr:一个髙性能,基于 Lucene的全文检索服务器。Solr对 Lucene进行了扩展,提供比 Lucene更为肀富的查询语言,同时实现」可配置、可扩展,并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文检索引擎Kafka:一个分布式的、分区的、多副本的实时消息发布-订阅系统。提供可护展、扃吞吐、低延迟、高可靠的消息分发服务Storm:一个分布式、可靠、容错的实时流式数据处理的系统,并提供类SQLtreaInCQL)的查询语言Fink:分布式的、高可用的、能保证 Exactly Once语义的针对流数据和批数据的处理引擎SparkSQL:基于 Spark引擎的高性能SQL引擎,可与Hive实现元数据共享。Mahaut:提供基于 Mapreduce的数据挖掘算法库MLLib:提供基于 Spark的数据挖掘算法库phx:提供基于 Spark的图处理算法库文档版本01(2017-07-30)华为专有和保密信息版权所有c华为技术有限公司华为 Fusionlnsight hd27技术白皮书2重点组件介绍2重点组件介绍21集群管理 Manager22分布式文件系统HDFS2.3统一资源管理和调度框架YARN24分布式批处理引擎 MapReduce2.5分布式数据库 HBase2.6数据仓库组件Hive27分布式内存计算引擎 Spark28全文检索组件Solr2.9批量数据集成 Loader( Scoop)210实时数据采集 Flume2.ll流式事件处理( Storm)212分布式高速缓存 Redis213分布式消息队列 Kafka2.14作业编排与调度 Oozie2.15数据继承入口Hue文档版本01(2017-07-30)华为专有和保密信息版权所有c华为技术有限公司华为 Fusionlnsight hd27技术白皮书2重点组件介绍21集群管理 ManagerManager是 FusionInsight H的运维管理系统,为部署在集群内的服务提供统一的集群管理能力。 Manager支持大规模集群的安裝部署、性能监控、告警、用户管理、权限管理、审计、服务管理、健康检査、日志采集、升级和补丁等功能图2-1 Manager逻辑架构w已妇UP SereIAMCEPPMS匚就动aLdapOM M AgentNode AgentNTP ClerDHTLFusionInsight ManagerFusionInsight Manager由OMS和 NodeAgent组成:●OMS:操作维护系统的管理节点,OMS·般有两个,互为主备。NodeAgen:操作维护系统中的所有被管理节点,每个节点上一个。表2-1业务模块说明模块名称描述Web Service是一个部署在 Tomcat下的web服务,提供 Manager的htts:接口,用于通过浏览器访问 Manager。同时还提供基于 Syslog和SNMP协议的北向接入能力ControllerManager的控制中心,负责汇聚来自集群中所有节点的信息,统一问管理员展示,以及负责接收来自管理员的操作指令,并且依据操作指令所影响的范围,向集群的所有相关节点同步信息nodeAgent存在于每一个集群节点,是 Controller对部署在该节点上组件做切操作的代理。代表本节点上部署的所有组件与 Controller交互,实现整个集群多点到单点的汇聚IAM负责记录审计日志。在 Manager的U上每一个非查询类操作,都有对应的审计日志文档版本01(2017-07-30)华为专有和保密信息版权所有c华为技术有限公司华为 Fusionlnsight hd27技术白皮书2重点组件介绍模块名称描述PMS性能监控模块,搜集每一个OMA上的性能监控数据并提供査询CEP汇聚功能模块。比如将所有OMA上的磁盘已用空间汇总成一个性能指标FMS告警模块,搜集每一个OMA上的告警并提供查询OMMAgent各节点上面性能监控和告警的Agen,负责收集该 Agent Node上的性能监控数据和告警数据CAS统一认证中心,登录 Web service时需要在CAS进行脊录认证,浏览器通过URL自动跳转访问CASAOS权限管理模块,管理用户和用户组的权限OMS Kerberos提供单点登录及 Controller与 Nodc agent间认证的功能OMS Ldap在集群安装前为用广认证提供数据仔储,在集群安装后作为集群中Ldap的备份DatabaseManager的数据库,负责存储配置、监控、告警等信息NTP负责集群内部各节点与OMS节点之向的时钟同步和OMS节点与外部时钟源之间的时钟同步。22分布式文件系统HDFSHDFS是 Hadoop的分布式文件系统,实现大规模数据叮靠的分布式读写。HDFS针对的使用场景是数据读写具有“一次写,多次读”的特征,而数据“写”操作是顺序写,也就是在文件创建时的写入或者在现有文件之后的添加操作。HDHS保证一个文件在个时刻只被一个调用者执行写操作,而可以被多个调用者执行读操作。图2-2分布式文件系统HDFSHDFS ArchitectureMetadata(Name, re)Metadata. opsNamenode/home/foo/data. 3Black opsRead DatanodesDatanodesReplicationBlocksRack 1WriteRack 2文档版本01(2017-07-30)华为专有和保密信息版权所有c华为技术有限公司
下载说明:请别用迅雷下载,失败请重下,重下不扣分!