大数据技术Hadoop入门理论系列之一,Hadoop生态圈介绍

大数据技术Hadoop入门理论系列之一,Hadoop生态圈介绍”>,,</p> <p> Technorati标记:hadoop、生态圈,生态系统,纱,火花,入门</p> <p> </p> <p>, </p> <p> <强> </强> </p> <p> hadoop是一个由Apache基金会所开发的分布式系统基础架构。</p> <p>用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。</p> <p>具有可靠,高效,可伸缩的特点。</p> <p> hadoop的核心是纱,HDFS和Mapreduce </p> <p>下图是hadoop生态系统,集成火花生态圈。在未来一段时间内,hadoop将于火花共存,hadoop与火花</p> <p>都能部署在纱、便的资源管理系统之上</p> <p> <img src=

下面将分别对以上各组件进行简要介绍,具体介绍参见后续系列博文。

源自于谷歌的GFS论文,发表于2003年10月,HDFS是GFS克隆版。

HDFS是hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。

HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。

它提供了一次写入多次读取的机制,数据以块的形式,同时分布在集群不同物理机器上。

源自于谷歌的Mapreduce论文,发表于2004年12月,hadoop Mapreduce是谷歌Mapreduce克隆版。

Mapreduce是一种分布式计算模型,用以进行大数据量的计算。它屏蔽了分布式计算框架细节,将计算抽象成map和reduce两部分,

其地图中对数据集上的独立元素进行指定的操作,生成键-值对形式中间结果.Reduce则对中间结果中相同“键”的所有“值”进行规约,以得到最终结果。

Mapreduce非常适合在大量计算机组成的分布式并行环境里进行数据处理。

<强> 4。HBASE(分布式列存数据库)

源自Google的Bigtable论文,发表于2006年11月,HBASE是Google Bigtable克隆版

HBASE是一个建立在HDFS之上,面向列的针对结构化数据的可伸缩,高可靠,高性能,分布式和面向列的动态模式数据库。

HBASE采用了Bigtable的数据模型:增强的稀疏排序映射表(键/值),其中,键由行关键字,列关键字和时间戳构成。

HBASE提供了对大规模数据的随机,实时读写访问,同时,HBASE中保存的数据可以使用MapReduce来处理,它将数据存储和并行计算完美地结合在一起。

<强> 5。动物园管理员(分布式协作服务)

源自谷歌的胖乎乎的论文,发表于2006年11月,动物园管理员是胖乎乎的克隆版

解决分布式环境下的数据管理问题:统一命的名,状态同步,集群管理,配置同步等。

Hadoop的许多组件依赖于管理员,它运行在计算机集群上面,用于管理Hadoop操作。

<强> 6。蜂巢(数据仓库)

由facebook开源,最初用于解决海量结构化的日志数据统计问题。

蜂巢定义了一种类似SQL的查询语言(HQL),将SQL转化为MapReduce任务在Hadoop上执行。通常用于离线分析。

HQL用于运行存储在Hadoop上的查询语句,蜂巢让不熟悉MapReduce开发人员也能编写数据查询语句,然后这些语句被翻译为Hadoop上面的MapReduce任务。

<强> 7.猪(特别脚本)

由雅虎开源,设计动机是提供一种基于MapReduce的特别(计算在查询时发生)数据分析工具

猪定义了一种数据流语言猪拉丁语,它是MapReduce编程的复杂性的抽象,猪平台包括运行环境和用于分析Hadoop数据集的脚本语言(拉丁语)。

其编译器将拉丁语翻译成MapReduce程序序列将脚本转换为MapReduce任务在Hadoop上执行。通常用于进行离线分析。

<强> 8. Sqoop(数据ETL/同步工具)

Sqoop是SQL-to-Hadoop的缩写,主要用于传统数据库和Hadoop之前传输数据。数据的导入和导出本质上是MapReduce程序,充分利用了先生的并行化和容错性。

Sqoop利用数据库技术描述数据架构,用于在关系数据库,数据仓库和Hadoop之间转移数据。

<强> 9。水槽(日志收集工具)

Cloudera开源的日志收集系统,具有分布式,高可靠,高容错,易于定制和扩展的特点。

它将数据从产生,传输,处理并最终写入目标的路径的过程抽象为数据流,在具体的数据流中,数据源支持在水槽中定制数据发送方,从而支持收集各种不同协议数据。

同时,水槽数据流提供对日志数据进行简单处理的能力,如过滤,格式转换等。此外,水槽还具有能够将日志写往各种数据目标(可定制)的能力。

大数据技术Hadoop入门理论系列之一,Hadoop生态圈介绍