Hadoop的相关资料 - 行业资讯 - 肥雀云_南京肥雀信息技术有限公司

<强> 1 HDF <强> S

<强>

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(硬件)上的分布式文件系统

<强>

——高度容错性

——硬件要求低

——能提供高吞吐量的数据访问

<强>

hadoop fs -

<强>

hadoop fs -ls /hadoop fs -ls -R /user

<强>

,hdfs getconf - help 　　hdfs getconf -namenodes

hdfs version

2 MapReduce

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。

假若一个盘子中有黑豆、黄豆、绿豆、红豆，你现在想挑出其中的红豆。

MapReduce方法则是：

step1 找一个团队来处理（相当于一群服务器组成的集群）

step2 把豆子平均分配给团队里的每成员（相当于给群集中的服务器分配数据）

step3 让团队的成员开始挑选出其中的红豆（相当于群集的计算机并行地处理数据）

step4 把团队成员挑出来的豆子汇聚（相当于群集汇总并输出结果）

3 Hive

Hive是一个基于Hadoop的数据仓库平台。

通过hive，我们可以方便地进行ETL的工作

hive定义了一个类似于SQL的查询语言

HQL能够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行

Hive是Facebook 2008年8月刚开源的一个数据仓库框架，其系统目标与Pig有相似之处，但它有一些Pig目前还不支持的机制。

比如：更丰富的类型系统、更类似SQL的查询语言、Table/Partition元数据的持久化等。

4 impala

Impala 是 Cloudera 在受到 Google 的 Dremel 启发下开发的实时交互 SQL 大数据查询工具，Impala 没有再使用缓慢的 Hive+MapReduce 批处理，而是通过使用与商用并行关系数据库中类似的分布式查询引擎（由 Query Planner、Query Coordinator 和 Query Exec Engine 三部分组成），可以直接从 HDFS 或 HBase 中用 SELECT、JOIN 和统计函数查询数据，从而大大降低了延迟。

impala-shell

select version();

show databases;

create database testdb;
　　create  database  testdb2;

数据库存储路径:

hdfs dfs -ls /user/蜂巢/仓库/

<强>

use testdb;

<强>

select current_database ();

<强>

drop database testdb;

<强> <强>

<强>

create table t1 (x int); 　　create table t3 (id , int, word 字符串); 　　create table city (id int, name 字符串,countrycode 字符串,district 字符串,population int);

<强>

show 表; 　　show tables testdb拷贝; 　　show tables testdb 拷贝;like t *,

<强>

,describe 城市;

<强>

alter table t3 rename 用t2;

<强>

insert into t1 values (1), (3), (2), (4); 　　insert into t2 values (1),“一”),,(3),“三”),,(5,' 5 ');