【大数据】2015年博西评选-20个最佳开源大数据技术 - 行业资讯

,,东方云洞察东方云洞察

信息世界”在分布式数据处理,流式数据分析,机器学习以及大规模数据分析领域精选出了2015年的开源工具获奖者,下面我们来简单介绍下这些获奖的技术工具。

1。火花

在Apache的大数据项目中,火花是最火的一个,特别是像IBM这样的重量级贡献者的深入参与,使得火花的发展和进步速度飞快。

与火花产生最甜蜜的火花点仍然是在机器学习领域。去年以来DataFrames API取代SchemaRDD API类似于R和熊猫的发现,使数据访问比原始抽样接口更简单。

引发的新发展中也有新的为建立可重复的机器学习的工作流程,可扩展和可优化的支持各种存储格式,更简单的接口来访问机器学习算法,改进的集群资源的监控和任务跟踪。

在Spark1.5的默认情况下,钨内存管理器通过微调在内存中的数据结构布局提供了更快速的处理能力。最后,新的spark-packages.org网站上有超过100个第三方贡献的链接库扩展,增加了许多有用的功能。

2。风暴

风暴是Apache项目中的一个分布式计算框架项目,主要应用于流式数据实时处理领域。他基于低延时交互模式理念,以应对复杂的事件处理需求。和火花不同,风暴可以进行单点随机处理,而不仅仅是微批量任务,并且对内存的需求更低。在我的经验中,他对于流式数据处理更有优势,特别是当两个数据源之间的数据快速传输过程中,需要对数据进行快速处理的场景。

火花掩盖了很多风暴的光芒,但其实火花在很多流失数据处理的应用场景中并不适合.Storm经常和Apache卡夫卡一起配合使用。

3。水

水是一种分布式的内存处理引擎用于机器学习,它拥有一个令人印象深刻的数组的算法。早期版本仅仅支持R语言,3.0版本开始支持Python和Java语言,同时它也可以作为火花在后端的执行引擎。

使用H2O的最佳方式是把它作为R环境的一个大内存扩展,R环境并不直接作用于大的数据集,而是通过扩展通讯协议例如REST API与H2O集群通讯,水来处理大量的数据工作。

几个有用的R扩展包,如顺铂已经被打包,允许你在处理大规模数据集时,打破本地机器上内存容量的限制。你可以在EC2上运行水,或者Hadoop集群/纱集群,或者码头工人容器。用苏打水(火花+ H2O)你可以访问在集群上并行的访问引发抽样,在数据帧被火花处理后。再传递给一个水的机器学习算法。

4。顶点

顶端是一个企业级的大数据动态处理平台,即能够支持即时的流式数据处理,也可以支持批量数据处理。它可以是一个纱的原生程序,能够支持大规模,可扩展,支持容错方法的流式数据处理引擎。它原生的支持一般事件处理并保证数据一致性(精确一次处理,最少一次,最多一次)

以前DataTorrent公司开发的基于顶点的商业处理软件,其代码,文档及架构设计显示,顶点在支持DevOps方面能够把应用开发清楚的分离,用户代码通常不需要知道他在一个流媒体处理集群中运行。

Malhar是一个相关项目,提供超过300种常用的实现共同的业务逻辑的应用程序模板.Malhar的链接库可以显著的减少开发顶应用程序的时间,并且提供了连接各种存储,文件系统,消息系统,数据库的连接器和驱动程序,并且可以进行扩展或定制,以满足个人业务的要求。所有的Malhar组件都是Apache许可下使用。

5。德鲁伊

德鲁伊在今年二月转为了商业友好的Apache许可证,是一个基于“事件流的混合引擎,能够满足OLAP解决方案。最初他主要应用于广告市场的在线数据处理领域,德鲁伊可以让用户基于时间序列数据做任意和互动的分析。一些关键的功能包括低延迟事件处理,快速聚合,近似和精确的计算。

德鲁伊的核心是一个使用专门的节点来处理每个部分的问题自定义的数据存储。实时分析基于实时管理(JVM)节点来处理,最终数据会存储在历史节点中负责老的数据。代理节点直接查询实时和历史节点,给用户一个完整的事件信息。测试表明50万事件数据能够在一秒内处理完成,并且每秒处理能力可以达100到万的峰值,德鲁伊作为在线广告处理,网络流量和其他的活动流的理想实时处理平台。