(TOC)
数据仓库h5>
<人力资源/>
蜂巢笔记整理(一)
蜂巢蜂巢由facebook贡献给Apache是一款建立在Hadoop之上的数据仓库的基础框架。
数据仓库h5> <代码类=" language-shell ">特点,关于存放在数据仓库中的数据的说明:
是能够为企业的各个级别的决策提供数据支撑的数据
其实说白了,就是一个存放数据的仓库代码>
数据库和数据仓库之间的区别h5> <代码类=" language-shell ">现代数据仓库,是构建在数据库之上的,使用数据库作为载体存放数据。
数据仓库着重强调的是存放的历史数据,数据库着重强调的是存放在线的数据。
数据仓库着重强调的是OLAP的操作,数据库着重强调的是OLTP的操作
OLAP联机分析处理:联机分析处理——→对数据进行分析查询选择、负载
OLTP:在线事务处理处理联机事务处理——→对数据进行事务性操作更新删除
数据仓库操作的都是历史数据,数据库操作的几乎都是在线交易数据代码>
ETL——是用来构建我们一个数据仓库的概念
<代码> E(提取提取)获取数据的过程,就称之为提取,采集
T(变换转化)对进入仓库的数据进行分类,清洗
L(负载加载)数据进入仓库的过程就是负载代码>
BI(商业智能)
<代码>蜂巢是一款SQL的解析引擎,能够将HQL转移成为先生在hadoop计算hdfs上面的数据。代码>
蜂巢的概述
存储结构h5> <代码>蜂巢的数据存储基于Hadoop的HDFS
蜂巢没有专门的数据存储格式
存储结构主要包括:数据库,文件,表,视图,索引
蜂巢默认可以直接加载文本文件(文本文件),还支持SequenceFile, RCFile, ORCFile,拼花
创建表时,指定蜂巢数据的列分隔符与行分隔符,蜂巢即可解析数据代码>
系统架构h5> <代码>用户接口:包括CLI, JDBC/ODBC, WebUI
元数据存储:通常是存储在关系数据库如mysql, derby等等中
司机:解释器,编译器,优化器,执行器
Hadoop:用HDFS进行存储,利用MapReduce进行计算代码>
蜂巢的安装
三个前提
<代码> JDK
HADOOP
MySQL
也就是确保上面三步都安装完成后再安装蜂巢代码>
第一步:安装MySQL(离线)
<代码类=" language-shell ">操作目录:/home/uplooking/软——→安装包所在目录
1°,查询linux中已有的mysql依赖包
[uplooking@uplooking01 ~]美元rpm qa | grep mysql mysql - libs 5.1.71 el6.x86_64——1.
2°,删除linux中已有的mysql依赖包
(uplooking@uplooking01 ~) $ sudo rpm - e - nodeps的rpm qa | grep mysql的
3°,安装服务端和客户端
(uplooking@uplooking01 ~) $ sudo rpm -ivh软/mysql - server - 5.5.45 1. linux2.6.x86_64.rpm
(uplooking@uplooking01 ~) $ sudo rpm -ivh软/mysql -客户- 5.5.45 - 1. - linux2.6.x86_64.rpm
4°,启动mysql服务器服务
(uplooking@uplooking01 ~) $ sudo服务mysql开始(注意:离线安装后mysql的服务名称为mysql,在线安装后的服务名称为msyqld)
5°,加入到开机启动项
(uplooking@uplooking01 ~) $ sudo chkconfig mysql> 1°,解压蜂巢文件:
进入HIVE_HOME美元/conf/修改文件
cp hive-env.sh。模板hive-env.sh
cp hive-default.xml。模板hive-site.xml
2°,修改HIVE_HOME美元/bin的hive-env.sh,增加以下三行
出口JAVA_HOME=/opt/jdk
出口HADOOP_HOME=/home/uplooking/app/hadoop
出口HIVE_HOME=/home/uplooking/app/蜂巢
3°,修改HIVE_HOME/conf/hive-site.xml美元
& lt; property>
& lt; name> javax.jdo.option.ConnectionURL
& lt; value> jdbc: mysql://uplooking01:3306/蜂巢? createDatabaseIfNotExist=true
& lt;/property>
& lt; property>
& lt; name> javax.jdo.option.ConnectionDriverName
& lt; value> com.mysql.jdbc.Driver
& lt;/property>
& lt; property>
& lt; name> javax.jdo.option.ConnectionUserName
& lt; value> root
& lt;/property>
& lt; property>
& lt; name> javax.jdo.option.ConnectionPassword
& lt; value> uplooking
& lt;/property>
& lt; property>
& lt; name> hive.querylog.location
& lt; value>/home/uplooking/app/蜂巢/tmp
& lt;/property>
& lt; property>
& lt; name> hive.exec.local.scratchdir
& lt; value>/home/uplooking/app/蜂巢/tmp
& lt;/property>
& lt; property>
& lt; name> hive.downloaded.resources.dir蜂巢笔记整理(一)
<代码类=" language-shell ">现代数据仓库,是构建在数据库之上的,使用数据库作为载体存放数据。 数据仓库着重强调的是存放的历史数据,数据库着重强调的是存放在线的数据。 数据仓库着重强调的是OLAP的操作,数据库着重强调的是OLTP的操作 OLAP联机分析处理:联机分析处理——→对数据进行分析查询选择、负载 OLTP:在线事务处理处理联机事务处理——→对数据进行事务性操作更新删除 数据仓库操作的都是历史数据,数据库操作的几乎都是在线交易数据代码>
ETL——是用来构建我们一个数据仓库的概念
<代码> E(提取提取)获取数据的过程,就称之为提取,采集 T(变换转化)对进入仓库的数据进行分类,清洗 L(负载加载)数据进入仓库的过程就是负载代码>
BI(商业智能)
<代码>蜂巢是一款SQL的解析引擎,能够将HQL转移成为先生在hadoop计算hdfs上面的数据。代码>
蜂巢的概述
存储结构h5> <代码>蜂巢的数据存储基于Hadoop的HDFS
蜂巢没有专门的数据存储格式
存储结构主要包括:数据库,文件,表,视图,索引
蜂巢默认可以直接加载文本文件(文本文件),还支持SequenceFile, RCFile, ORCFile,拼花
创建表时,指定蜂巢数据的列分隔符与行分隔符,蜂巢即可解析数据代码>
系统架构h5> <代码>用户接口:包括CLI, JDBC/ODBC, WebUI
元数据存储:通常是存储在关系数据库如mysql, derby等等中
司机:解释器,编译器,优化器,执行器
Hadoop:用HDFS进行存储,利用MapReduce进行计算代码>
蜂巢的安装
三个前提
<代码> JDK
HADOOP
MySQL
也就是确保上面三步都安装完成后再安装蜂巢代码>
第一步:安装MySQL(离线)
<代码类=" language-shell ">操作目录:/home/uplooking/软——→安装包所在目录
1°,查询linux中已有的mysql依赖包
[uplooking@uplooking01 ~]美元rpm qa | grep mysql mysql - libs 5.1.71 el6.x86_64——1.
2°,删除linux中已有的mysql依赖包
(uplooking@uplooking01 ~) $ sudo rpm - e - nodeps的rpm qa | grep mysql的
3°,安装服务端和客户端
(uplooking@uplooking01 ~) $ sudo rpm -ivh软/mysql - server - 5.5.45 1. linux2.6.x86_64.rpm
(uplooking@uplooking01 ~) $ sudo rpm -ivh软/mysql -客户- 5.5.45 - 1. - linux2.6.x86_64.rpm
4°,启动mysql服务器服务
(uplooking@uplooking01 ~) $ sudo服务mysql开始(注意:离线安装后mysql的服务名称为mysql,在线安装后的服务名称为msyqld)
5°,加入到开机启动项
(uplooking@uplooking01 ~) $ sudo chkconfig mysql> 1°,解压蜂巢文件:
进入HIVE_HOME美元/conf/修改文件
cp hive-env.sh。模板hive-env.sh
cp hive-default.xml。模板hive-site.xml
2°,修改HIVE_HOME美元/bin的hive-env.sh,增加以下三行
出口JAVA_HOME=/opt/jdk
出口HADOOP_HOME=/home/uplooking/app/hadoop
出口HIVE_HOME=/home/uplooking/app/蜂巢
3°,修改HIVE_HOME/conf/hive-site.xml美元
& lt; property>
& lt; name> javax.jdo.option.ConnectionURL
& lt; value> jdbc: mysql://uplooking01:3306/蜂巢? createDatabaseIfNotExist=true
& lt;/property>
& lt; property>
& lt; name> javax.jdo.option.ConnectionDriverName
& lt; value> com.mysql.jdbc.Driver
& lt;/property>
& lt; property>
& lt; name> javax.jdo.option.ConnectionUserName
& lt; value> root
& lt;/property>
& lt; property>
& lt; name> javax.jdo.option.ConnectionPassword
& lt; value> uplooking
& lt;/property>
& lt; property>
& lt; name> hive.querylog.location
& lt; value>/home/uplooking/app/蜂巢/tmp
& lt;/property>
& lt; property>
& lt; name> hive.exec.local.scratchdir
& lt; value>/home/uplooking/app/蜂巢/tmp
& lt;/property>
& lt; property>
& lt; name> hive.downloaded.resources.dir蜂巢笔记整理(一)
<代码>用户接口:包括CLI, JDBC/ODBC, WebUI 元数据存储:通常是存储在关系数据库如mysql, derby等等中 司机:解释器,编译器,优化器,执行器 Hadoop:用HDFS进行存储,利用MapReduce进行计算代码>
蜂巢的安装
三个前提
<代码> JDK HADOOP MySQL 也就是确保上面三步都安装完成后再安装蜂巢代码>
第一步:安装MySQL(离线)
<代码类=" language-shell ">操作目录:/home/uplooking/软——→安装包所在目录 1°,查询linux中已有的mysql依赖包 [uplooking@uplooking01 ~]美元rpm qa | grep mysql mysql - libs 5.1.71 el6.x86_64——1. 2°,删除linux中已有的mysql依赖包 (uplooking@uplooking01 ~) $ sudo rpm - e - nodeps的rpm qa | grep mysql的 3°,安装服务端和客户端 (uplooking@uplooking01 ~) $ sudo rpm -ivh软/mysql - server - 5.5.45 1. linux2.6.x86_64.rpm (uplooking@uplooking01 ~) $ sudo rpm -ivh软/mysql -客户- 5.5.45 - 1. - linux2.6.x86_64.rpm 4°,启动mysql服务器服务 (uplooking@uplooking01 ~) $ sudo服务mysql开始(注意:离线安装后mysql的服务名称为mysql,在线安装后的服务名称为msyqld) 5°,加入到开机启动项 (uplooking@uplooking01 ~) $ sudo chkconfig mysql> 1°,解压蜂巢文件: 进入HIVE_HOME美元/conf/修改文件 cp hive-env.sh。模板hive-env.sh cp hive-default.xml。模板hive-site.xml 2°,修改HIVE_HOME美元/bin的hive-env.sh,增加以下三行 出口JAVA_HOME=/opt/jdk 出口HADOOP_HOME=/home/uplooking/app/hadoop 出口HIVE_HOME=/home/uplooking/app/蜂巢 3°,修改HIVE_HOME/conf/hive-site.xml美元 & lt; property> & lt; name> javax.jdo.option.ConnectionURL & lt; value> jdbc: mysql://uplooking01:3306/蜂巢? createDatabaseIfNotExist=true & lt;/property> & lt; property> & lt; name> javax.jdo.option.ConnectionDriverName & lt; value> com.mysql.jdbc.Driver & lt;/property> & lt; property> & lt; name> javax.jdo.option.ConnectionUserName & lt; value> root & lt;/property> & lt; property> & lt; name> javax.jdo.option.ConnectionPassword & lt; value> uplooking & lt;/property> & lt; property> & lt; name> hive.querylog.location & lt; value>/home/uplooking/app/蜂巢/tmp & lt;/property> & lt; property> & lt; name> hive.exec.local.scratchdir & lt; value>/home/uplooking/app/蜂巢/tmp & lt;/property> & lt; property> & lt; name> hive.downloaded.resources.dir蜂巢笔记整理(一)