让我们一起走进大数据开源项目——第1节

  

最近大数据领域最火的消息莫过于关键兑现了其年初对于开源其大数据核心产品GemFire,干,Greemplum DB的承诺。这个消息也让关键在国内技术社区风风光光的火了一把,程序猿们可以看到真正的企业级数据仓库是如何设计和实现的。

  

与此同时,开源社区中也存在很多类似的优秀大数据相关项目,涵盖了分布式数据存储与计算,数据处理,数据仓库,机器学习等与数据有关的方方面,面下面就让我们看看开源社区中的这些大数据项目典型代表。

  

首先,说起大数据开源项目,第一个必须要提的当然就是Apache Hadoop下的三个子项目Apache HDFS, Apache MapReduce, Apache纱,这基本上可以认为是大数据处理的国际标准,是整个大数据生态系统的基石。

  

分布式存储

  

在分布式存储领域,可以按存储模型分为文件系统,KV存储,柱状存储,文档存储,图存储。

  

分布式文件系统是整个分布式存储的最底层,鼻祖正是谷歌大名鼎鼎的GFS.Apache HDFS是GFS的开源版本,应该不用再介绍了.RedHat从而作为Linux社区老大的产品,也是值得一看的。

  

KV存储是最简单的存储模型,比较典型的系统包括亚马逊DynamoDB, Memcached,复述,BerkeleyDB,谷歌LevelDB

  

柱状存储是KV存储的直接扩展,对价值应列族或是列映射。这类系统最基本的是Apache HBase,谷歌早期三架马车之一BigTable开源版,本类似的还有ApacheCassandra, Hypertable, Facebook HydraBase。

  

文档存储主要有MongoDB, Facebook阿波罗等.Graph存储系统大部分基于谷歌的Pregel,主要开源实现有:Apache Giraph, Apache火花面包圈,福玻斯。另外谷歌也开源了自家的图像数据库凯莱。

  

分布式计算

  

分布式计算方面,主要体现在各种计算框架,数据处理模型,典型代表有Apache MapReduce,最经典的大数据处理引擎.Apache火花,目前最火的大数据处理引擎,速度相比MapReduce有数量级的提升,基于火花也构建了一整套生态系统,SQL,流媒体,机器学习,图像。其他的项目包括Apache风暴,Apache猪,Apache特斯,Apache S4, OpenMPI等。

  

分布式任务调度

  

分布式任务调度与集群管理,这类系统主要实现分布式任务管理,资源调度,集群管理等基础任务,包括Apache纱,Apache极光,Apache猎鹰,Apache Oozie, Linkedin阿兹卡班,Apache洋麻,Apache Bigtop, Apache便等。

  

SQL与SQL的处理,这类系统正是关键开源的主要产品形态,基本上是在分布式系统上搭建SQL查询引擎,有传统的MPP SQL数据库,SQL-on-Hadoop,也有类似SQL类的大数据查询系统。包括Greenplum DB, Apache蜂巢,Apache干,Cloudera黑斑羚、SparkSQL, Apache凤凰,Apache钻,SharkSQL, Facebook PrestoDB CockroachDB等。这类系统现今也越来越多向云端发展,包括亚马逊红移,谷歌BigQuery,雪花等,遗憾的是这类云端产品由于安全性问题大多没有选择开源。

  

分布式服务及数据处理(包括各种日志处理)

  

分布式服务及数据处理领域,主要包括数据获取,日志处理,消息服务等分布式编程必要的组件。主要有Apache管理员,Apache水槽,Apache卡夫卡,Apache Sqoop Cloudera Morphlines, Facebook文士,Logstash, Linkedin Gobblin等。

  

* *分布式服务之上服务

  

在分布式存储,计算,数据处理以及各类基础组件之上,各类分布式应用层出不穷,比如机器学习应用相关* *的Apache Mahout Cloudera羚羊,引发MLlib, MLbase,搜索应用相关的Apache Solr, ElasticSearch, HBase协处理器,Facebook的独角兽,应该说有了这些分布式基础组件的支持,构建新的分布式应用变得方便很多。
本节就到这里,有兴趣的可以看我的下一篇文章。

  
  

很多人都知道我有大数据培训资料,都天真的以为我有全套的大数据开发,hadoop,火花等视

  

频学习资料。我想说你们是对的,我的确有大数据开发,hadoop,火花的全套视频资料。
如果你对大数据开发感兴趣可以加口群领取免费学习资料:763835121

  

让我们一起走进大数据开源项目——第1节