Hbase体系结构理解

<强> 1。Hbase的集群架构

,,首先hbase是hadoop的一个组件。而hadoop内部有很多的组件,这些组件几乎都依赖于hadoop最核心的两个东西建立起来的,一个是hdfs文件系统,另一个是mapreduce。当然hbase也不例外。

,,hbase其实就是一个非关系型的数据库系统,可以将他和关系型数据库mysql类比一下,可能会便于

理解。


 hbase体系结构理解”>,</p> <p>,,Hbase有3种搭建方式:本地模式,伪分布模式和集群模式。那么一般情况下,我们便于学习Hbase的各种特性,只需要搭建伪分布模式即可。伪分布模式和集群模式的区别就是,Hbase这个系统的所有守护进程全部运行在一个物理节点上和真正的分布在不同的物理节点之上。</p> <p>,,那么不论是伪分布和集群模式。其集群都包含几个主要的守护进程:HMaster, HRegionserver,动物园管理员,以及客户端。那么我们通过命令行或者JavaApi或其他方式来使用Hbase时,都是通过客户端向Hbase发送命令的。</p> <p>,,简单理解一下各个守护进程的作用:HMaster并不像hdfs中的Namenode那样,维护了整个系统的元数据,负责与客户交互以实现对分节点的管理控制等全部统筹功能.Hmaster不负责与客户有太多的交互,大部分情况下是由管理员来与客户通信,然后实现对hbase的使用和管理。同时元数据也是由管理员来维护的,包括各个regionserver的地址等等。</p> <p>,,下面是一个简单的总结这两者各自的分工:</p> <ul类= <李>

管理员

,,保证任何时候,集群中只有一个运行主

,,存贮所有地区的寻址入口

,,实时监控区域服务器的状态,将区域服务器的上线和下线信息,实时通知给主人

,,存储Hbase的模式,包括有哪些表,每个表有哪些列族

<李>

主可以启动多个HMaster,通过管理员的主选举机制保证总有一个主运行

,,为地区服务器分配地区

,,负责区域服务器的负载均衡

,,发现失效的区域服务器并重新分配其上的地区

<强> 2。,<强> Hbase的存储方式和结构

<强>,,强要讲Hbase的存储方式,我们从两方面来描述,一个是逻辑存储方式和物理的存储方式。(比如mysql中的二维关系表就是关系型数据库的逻辑存储结构,而这些表在硬盘上实际的存储形式便是所谓的物理存储方式)。

,,,Hbase的逻辑存储方式:

,,, Hbase体系结构理解”>,,表是稀疏表,所以可以类别mysql的关系表来理解,但是实际上并不是一回事。首先表有行健,列簇,列名,时间簇等几个概念。一个表定义之初,应该给出其表名,列簇信息。一行中,有多个固定的列簇,每个列簇下在插入数据时可以设置任意的列名。由一个行健,一个列簇+列名可以标定一个表中的单元格,而一个单元格中有由时间戳区分不同版本的值。表中的所有信息实际上都是以二进制形式存储的。不像关系表中支持那么多的数据类型,所以如果要用各种数据类型,只能由自己在程序中进行维护。</p> <p>,,Hbase的物理存储方式:</p> <p>,,Hbase的数据其实是由Hmaster进行配置,实际上存在各个Hregionserver中的。一个稀疏表是按行健进行排序和存储。这些表会按行被拆分为多个地区存储道不同的regionserver中,一个regionserver中可以存储多地区。这对些地区应了表中的不同部分的行,而这些行实际也被划分为不同的文件存储,划分方式即是列簇,一个列簇一个文件,所以称之为面向列的数据库。那么这些文件实际上是放在hdfs里的,也就是以块的形式存储在硬盘上的。</p> <p>,,那么表是按rowkey的字典顺序来存储的,简单来说,就是对于rowkey,从左到右,译成ascii码来比大小排序。所以呢由于这个原因,在设计rowkey时,最好不要直接把时间戳这样的数据直接作为rowkey,因为这样会导致新产生的数据由于其时间戳都在一个范围内,导致存储的时候全部拥挤到某一个regionserver中。一般可以在时间戳前面加上散列值,设计成:(散列值:时间戳)这样的形式</p> <p>,,,</p> <p> <br/> </p> <p> <br/> </p> <p> <强> <br/> </强> </p> <p> <br/> </p><h2 class=Hbase体系结构理解