Hadoop基础概念 - 行业资讯 - 肥雀云_南京肥雀信息技术有限公司

一、基本概念与模型

1,大数据

结构化数据:有严格定义

半结构化数据:html、json、xml等,有结构但没有约束的文档

非结构化数据:没有元数据,比如说日志类文档

搜索引擎:麋鹿,搜索组件,索引组件组成,用来搜索数据,保存在分布式存储中

爬虫程序:搜索的是半结构化和非结构化数据

需要+高效存储能力,高效的分析处理平台

2, Hadoop

Hadoop是用Java语言开发的,是对谷歌公司这3篇论文开发出来的山寨版

2003年:Google文件系统——在HDFS

2004年:MapReduce:简化数据处理alt=" Hadoop基础概念">

(2)组合器:如果mapper产生的键值数据中的键相同,那么将合并键,否则不合,并分散发送,同样由Hadoop开发人员开发。其输入键和输出键必须保证一致。

(3)多个减少时:

:每一个地图在本地排序叫做排序

(4)单个减少时:

(5)洗牌,阶段:

(6)作业提交请求过程:

(7) JobTracker内部结构

作用:作业调度,管理监控等等,所以运行时JobTracker会非常繁忙,它由此也成为了性能瓶颈,不过在MRv2版本后,作业调度,管理和监控功能被切割

(8)版本更迭

MRv1 (Hadoop2)——比;MRv2 (Hadoop2)

MRv1:集群资源管理器,数据处理程序

MRv2:

纱:集群资源管理器

MRv2:数据处理程序

特斯:执行引擎

先生:批处理作业

RT流图:实时流式图处理,图状算法数据结构

(9)第二代Hadoop资源任务运行流程

mapreduce把资源管理和任务运行二者隔离开了,程序运行由自己的应用程序主负责,而资源分配由资源管理器进行。所以当一个客户端提交一个任务时,资源管理器会询问每一个节点管理器有没有空闲的容器来运行程序。如果有,它去找有的这个节点,来启动这个主控进程应用的主人。然后应用Mstr向资源管理器申请资源任务,资源管理器分配好资源任务后会告诉应用Mstr,之后应用Mstr可以使用contrainer来运行作业了。

每一个集装箱在运行过程中都会将反馈自己的作业任务给应用Mstr,当容器中有任务结束了,应用Mstr也会报告给资源管理器,资源管理器会将资源收回来

RM:资源管理器

纳米:节点管理器

问:应用程序管理器