<强> 1 HDF 强> <强> S 强>
<强> 强> 强>
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(硬件)上的分布式文件系统
<强> 强> 强>
<强> 强> 强>
——高度容错性
——硬件要求低
——能提供高吞吐量的数据访问
<强> 强> 强>
<强> 强> 强> 强>
hadoop fs -
<强> 强> 强> 强>
hadoop fs -ls /hadoop fs  -ls -R /user
<强> 强> 强> 强>
,hdfs getconf - help hdfs getconf -namenodes
hdfs version
2 MapReduce
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。
假若一个盘子中有黑豆、黄豆、绿豆、红豆,你现在想挑出其中的红豆。
MapReduce方法则是:
step1 找一个团队来处理(相当于一群服务器组成的集群)
step2 把豆子平均分配给团队里的每成员(相当于给群集中的服务器分配数据)
step3 让团队的成员开始挑选出其中的红豆(相当于群集的计算机并行地处理数据)
step4 把团队成员挑出来的豆子汇聚(相当于群集汇总并输出结果)
3 Hive
Hive是一个基于Hadoop的数据仓库平台。
通过hive,我们可以方便地进行ETL的工作
hive定义了一个类似于SQL的查询语言
HQL能够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行
Hive是Facebook 2008年8月刚开源的一个数据仓库框架,其系统目标与Pig有相似之处,但它有一些Pig目前还不支持的机制。
比如:更丰富的类型系统、更类似SQL的查询语言、Table/Partition元数据的持久化等。
4 impala
Impala 是 Cloudera 在受到 Google 的 Dremel 启发下开发的实时交互 SQL 大数据查询工具,Impala 没有再使用缓慢的 Hive+MapReduce 批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由 Query Planner、Query Coordinator 和 Query Exec Engine 三部分组成),可以直接从 HDFS 或 HBase 中用 SELECT、JOIN 和统计函数查询数据,从而大大降低了延迟。
impala-shell
select version();
show databases;
create database testdb; create database  testdb2;
数据库存储路径:
hdfs dfs -ls /user/蜂巢/仓库/
<强> 强> 强> 强>
use testdb;
<强> 强> 强> 强>
select current_database ();
<强> 强> 强> 强>
drop database testdb;
<强> 强> 强> <强> 强> 强>
<强> 强> 强> 强>
<强> 强> 强> 强>
create table t1 (x int); create table  t3 (id , int, word 字符串); create table  city (id int, name 字符串,countrycode 字符串,district 字符串,population int);
<强> 强> 强> 强>
show 表; show tables  testdb拷贝; show tables  testdb 拷贝;like t *,
<强> 强> 强> 强>
,describe 城市;
<强> 强> 强> 强>
alter table t3 rename 用t2;
<强> 强> 强> 强>
insert into t1 values (1), (3), (2), (4); insert into  t2 values (1),“一”),,(3),“三”),,(5,' 5 ');Hadoop的相关资料