Hadoop上数据本地化的详解

  

<强> Hadoop上数据本地化的详解

  

Hadoop上的数据本地化是指数据与Mapper任务运行时数据的距离接近程度(在Hadoop数据本地化指的是数据的“距离”对Mapper任务工作alt=" Hadoop上数据局部性的详解">

  

<强> 3。数据本地

  

当数据所处的节点与Mapper执行的节点是同一节点,我们称之为本地数据。在这种情况下,数据的接近度更接近计算(在本例中数据的距离接近计算。).JobTracker (MRv1)或ApplicationMaster (MRv2)首选具有映射器所需要数据的节点来执行Mapper。

  

<强> 4。架当地

  

虽然数据本地是理想的选择,但由于受限于集群上的资源,并不总是在与数据同一节点上执行映射器(虽然数据本地是理想的选择,但它并不总是可能执行映射器在同一节点作为数据由于资源约束在一个繁忙的集群)。在这种情况下,优选地选择在那些与数据节点在同一机架上的不同节点上运行映射器(在这种情况下它是倾向于在不同的节点上运行映射器,但在同一架节点的数据。)。在这种情况下,数据将在节点之间进行移动,从具有数据的节点移动到在同一机架上执行映射器的节点,这种情况我们称之为当地。

  

<强> 5。不同的机架

  

在繁忙的群集中,有当地时架也不可能。在这种情况下,选择不同机架上的节点来执行映射器,并且将数据从具有数据的节点复制到在不同机架上执行映射器的节点。这是最不可取的情况。

  

如有疑问请留言或者到本站社区交流讨论,感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!

Hadoop上数据本地化的详解