怎么掌握火花和Hadoop的架构

介绍

本篇内容主要讲解“怎么掌握火花和Hadoop的架构”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习”怎么掌握火花和Hadoop的架构”吧!

火花和Hadoop的架构有什么不同之处

<强>问:火花和Hadoop的架构区别

<强>:

<强> Hadoop: MapRedcue由Map和Reduce两个阶段,并通过洗牌将两个阶段连接起来的。但是套用MapReduce模型解决问题,不得不将问题分解为若干个有依赖关系的子问题,每个子问题对应一个MapReduce作业,最终所有这些作业形成一个DAG。

<强>火花:是通用的DAG框架,可以将多个有依赖关系的作业转换为一个大的DAG。核心思想是将Map和Reduce两个操作进一步拆分为多个元操作,这些元操作可以灵活组合,产生新的操作,并经过一些控制程序组装后形成一个大的DAG作业。

<强>问:火花和Hadoop的中间计算结果处理区别

<强>:

<强> Hadoop: 在DAG中,由于有多个MapReduce作业组成,每个作业都会从HDFS上读取一次数据和写一次数据(默认写三份),即使这些MapReduce作业产生的数据是中间数据也需要写HDFS。这种表达作业依赖关系的方式比较低效,会浪费大量不必要的磁盘和网络IO,根本原因是作业之间产生的数据不是直接流动的,而是借助HDFS作为共享数据存储系统。

<强>火花:在火花中,使用内存(内存不够使用本地磁盘)替代了使用HDFS存储中间结果。对于迭代运算效率更高。

<强>问:火花和Hadoop的操作模型区别

<强>:

<强> Hadoop: 只提供了Map和Reduce两种操作所有的作业都得转换成Map和Reduce的操作。

<强>火花:强提供很多种的数据集操作类型比如转换包括地图,过滤器,flatMap,样本,groupByKey, reduceByKey,联盟,加入,cogroup, mapValues,排序,partionBy等多种操作类型,还提供操作操作包括统计,收集、减少,查找,节省等多种。这些多种多样的数据集操作类型,给开发上层应用的用户提供了方便。

<强>问:火花中的抽样是什么,有哪些特性?

<强>:

列表分区:一个分区列表,抽样中的数据都存储在一个分区列表中

函数计算每个分裂:作用在每一个分区中的函数

依赖关系列表>到此,相信大家对“怎么掌握火花和Hadoop的架构”有了更深的了解,不妨来实际操作一番吧!这里是网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!

怎么掌握火花和Hadoop的架构