Hadoop的相关资料

  

<强> 1 HDF <强> S

<强>

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(硬件)上的分布式文件系统

<强>

<强>

——高度容错性

——硬件要求低

——能提供高吞吐量的数据访问

<强>

<强>

hadoop  fs  -

<强>

hadoop  fs  -ls /hadoop  fs  -ls  -R /user

<强>

,hdfs  getconf  - help   hdfs getconf -namenodes


hdfs version

2 MapReduce

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。

假若一个盘子中有黑豆、黄豆、绿豆、红豆,你现在想挑出其中的红豆。

MapReduce方法则是:

step1 找一个团队来处理(相当于一群服务器组成的集群)

step2 把豆子平均分配给团队里的每成员(相当于给群集中的服务器分配数据)

step3 让团队的成员开始挑选出其中的红豆(相当于群集的计算机并行地处理数据)

step4 把团队成员挑出来的豆子汇聚(相当于群集汇总并输出结果)

3 Hive

Hive是一个基于Hadoop的数据仓库平台。

通过hive,我们可以方便地进行ETL的工作

hive定义了一个类似于SQL的查询语言

HQL能够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行

Hive是Facebook 2008年8月刚开源的一个数据仓库框架,其系统目标与Pig有相似之处,但它有一些Pig目前还不支持的机制。

比如:更丰富的类型系统、更类似SQL的查询语言、Table/Partition元数据的持久化等。

4 impala

Impala 是 Cloudera 在受到 Google 的 Dremel 启发下开发的实时交互 SQL 大数据查询工具,Impala 没有再使用缓慢的 Hive+MapReduce 批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由 Query Planner、Query Coordinator 和 Query Exec Engine 三部分组成),可以直接从 HDFS 或 HBase 中用 SELECT、JOIN 和统计函数查询数据,从而大大降低了延迟。

impala-shell

select version();

show databases;

create database testdb;
  create  database  testdb2; 

数据库存储路径:

hdfs  dfs  -ls /user/蜂巢/仓库/

<强>

use  testdb;

<强>

select  current_database ();

<强>

drop  database  testdb;

<强> <强>

<强>

<强>

create  table  t1  (x  int);   create  table  t3  (id , int, word 字符串);   create  table  city  (id  int, name 字符串,countrycode 字符串,district 字符串,population  int);

<强>

show 表;   show  tables  testdb拷贝;   show  tables  testdb 拷贝;like  t *,

<强>

,describe 城市;

<强>

alter  table  t3  rename 用t2;

<强>

insert  into  t1  values  (1), (3), (2), (4);   insert  into  t2  values (1),“一”),,(3),“三”),,(5,' 5 ');

Hadoop的相关资料