新手必备:大数据框架Hadoop主要模块解析

  

<强> hadoop常见:包括hadoop常用的工具类,由原来的hadoop核心部分更名而来。主要包括系统配置工具配置,远程过程调用RPC,序列化机制和hadoop抽象文件系统文件系统等。它们为在通用硬件上搭建云计算环境提供基本的服务,并为运行在该平台上的软件开发提供了所需的API。

  

<强> Hadoop分布式文件系统(HDFS ?): 强分布式文件系统,提供对应用程序数据的高吞吐量,高伸缩性,高容错性的访问。是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行.HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。

  

<强> Hadoop纱:强任务调度和集群资源管理。
<强>
Hadoop MapReduce: 强基于纱线的大型数据集并行处理系统。是一种计算模型,用以进行大数据量的计算.Hadoop的MapReduce实现,和普遍,HDFS一起,构成了Hadoop发展初期的三个组件.MapReduce将应用划分为Map和Reduce两个步骤,其中地图对数据集上的独立元素进行指定的操作,生成键-值对形式中间结果.Reduce则对中间结果中相同“键”的所有“值”进行规约,以得到最终结果.MapReduce这样的功能划分,非常适合在大量计算机组成的分布式并行环境里进行数据处理。

  

<强>其他模块:
<强>
洋麻:是一种基于Web的工具,支持Apache Hadoop集群的供应,管理和监控.Ambari目前已支持大多数Hadoop组件,包括HDFS, MapReduce,蜂巢,猪,Hbase, Zookeper, Sqoop和Hcatalog等.Ambari支持HDFS, MapReduce,蜂巢,猪,Hbase, Zookeper, Sqoop和Hcatalog等的集中管理.Ambari还提供了一个用于查看集群健康状况的仪表板,例如散热图,以及可视化查看MapReduce, Pig和Hive应用程序以及以用户友好的方式诊断其性能特征的功能,也是5个顶级Hadoop管理工具之一。

  

<强> Avro: 数据序列化系统,由Doug Cutting牵头开发,是一个数据序列化系统。类似于其他序列化机制,Avro可以将数据结构或者对象转换成便于存储和传输的格式,其设计目标是用于支持数据密集型应用,适合大规模数据的存储与交换.Avro提供了丰富的数据结构类型,快速可压缩的二进制数据格式,存储持久性数据的文件集,远程调用RPC和简单动态语言集成等功能。

  

<强>卡桑德拉:可扩展的多主数据库,没有单点故障。是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存收件箱等简单格式数据,集GoogleBigTable的数据模型与亚马逊发电机的完全分布式的架构于一身Facebook于2008年将卡桑德拉开源,此后,由于卡桑德拉良好的可扩展性,被Digg, Twitter等知名Web 2.0网站所采纳,成为了一种流行的分布式结构化数据存储方案。

  

卡桑德拉是一个混合型的非关系的数据库,类似于Google的BigTable。其主要功能比发电机(分布式的键值存储系统)更丰富,但支持度却不如文档存储MongoDB(介于关系数据库和非关系数据库之间的开源产品,是非关系数据库当中功能最丰富,最像关系数据库的。支持的数据结构非常松散,是类似json的bjson格式,因此可以存储比较复杂的数据类型).Cassandra最初由Facebook开发,后转变成了开源项目。它是一个网络社交云计算方面理想的数据库。以亚马逊专有的完全分布式的发电机为基础,结合了Google的BigTable基于列族(列族)的数据模型.P2P去中心化的存储。很多方面都可以称之为发电机2.0 .

  

<强> Chukwa: 用于管理大型分布式系统的数据收集系统(2000 +以上的节点,系统每天产生的监控数据量在T级别)。它构建在Hadoop的HDFS和MapReduce基础之上,继承了Hadoop的可伸缩性和鲁棒性.Chukwa包含一个强大和灵活的工具集,提供了数据的生成,收集,排的序,去重,分析和展示等一系列功能,是Hadoop使用者,集群运营人员和管理人员的必备工具。

  

<强> Hbase: 是一个分布式的,面向列的开源数据库,该技术来源于Fay Chang所撰写的谷歌论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了谷歌文件系统(文件系统)所提供的分布式数据存储一样,Hbase在Hadoop之上提供了类似于Bigtable的能力.HBase是Apache的Hadoop项目的子项目.HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是Hbase基于列的而不是基于行的模式。

  

HBase是一个针对结构化数据的可伸缩,高可靠,高性能,分布式和面向列的动态模式数据库。和传统关系数据库不同,HBase采用了BigTable的数据模型:增强的稀疏排序映射表(键/值),其中,键由行关键字,列关键字和时间戳构成.HBase提供了对大规模数据的随机,实时读写访问,同时,HBase中保存的数据可以使用MapReduce来处理,它将数据存储和并行计算完美地结合在一起。

新手必备:大数据框架Hadoop主要模块解析