Apache火花是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象.Spark最大的特点就是快,可比Hadoop MapReduce的处理速度快100倍。本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群,而是使用三台电脑来搭建一个小型分布式集群环境安装。
本教程采用Spark2.0以上版本(比如Spark2.0.2, Spark2.1.0等)搭建集群,同样适用于搭建Spark1.6.2集群。
火花分布式集群的安装环境,需要事先配置好Hadoop的分布式集群环境。
这里采用3台机器(节点)作为实例来演示如何搭建火花集群,其中1台机器(节点)作为大师节点,另外两台机器(节点)作为奴隶节点(即作为工人节点),主机名分别为Slave01和Slave02。
在主节点机器上,访问火花官方下载地址,按照如下图下载。
下载完成后,执行如下命令:
sudo焦油-zxf ~/下载/spark-2.0.2-bin-without-hadoop。tgz - c/usr/local/cd/usr/local sudo mv/spark-2.0.2-bin-without-hadoop//火花 sudo乔恩- r hadoop。/火花
在mst节点主机的终端中执行如下命令:
vim ~/. bashrc
在. bashrc添加如下配置:
出口SPARK_HOME=/usr/地方/火花 导出路径=$路径:SPARK_HOME/bin: SPARK_HOME美元/sbin
执行如下命令使得配置立即生效:
源~/. bashrc
在主节点主机上进行如下操作:
配置奴隶文件
将奴隶。模板拷贝到奴隶
cd/usr/local/spark/cp/conf/奴隶。模板。/conf/奴隶
奴隶文件设置工人节点。编辑奴隶内容,把默认内容localhost替换成如下内容:
slave01 slave02
配置spark-env。上海文件
将spark-env.sh。模板拷贝到spark-env。sh
cp/conf/spark-env.sh。模板。/conf/spark-env.sh
编辑spark-env.sh,添加如下内容:
出口SPARK_DIST_CLASSPATH=$ (/usr/地方/hadoop/bin/hadoop类路径) 出口HADOOP_CONF_DIR=/usr/地方/hadoop/etc/hadoop 出口SPARK_MASTER_IP=192.168.1.104
SPARK_MASTER_IP指定火花集群主节点的IP地址;
配置好后,将主主机上的/usr/地方/火花文件夹复制到各个节点上。在主主机上执行如下命令:
cd/usr/local/焦油-zcf ~/spark.master.tar。广州。/火花 cd ~ scp。/spark.master.tar。广州slave01:/home/hadoop scp。/spark.master.tar。广州slave02:/home/hadoop
在slave01, slave02节点上分别执行下面同样的操作:
sudo rm射频/usr/local/spark/sudo焦油-zxf ~/spark.master.tar。广州- c/usr/local sudo乔恩- r hadoop/usr/local/spark
<>强启动Hadoop集群强>
启动火花集群前,要先启动Hadoop集群。在主节点主机上运行如下命令:
cd/usr/local/hadoop/sbin/start-all.sh
<>强启动火花集群强>
1。启动主节点
在主节点主机上运行如下命令:
cd/usr/local/spark/sbin/start-master.sh
在主节点上运行jps命令,可以看到多了个主进程:
15093年译本 14343年SecondaryNameNode 14121年NameNode 14891年主 14509年ResourceManager
2。启动所有奴隶节点
在主节点主机上运行如下命令:
sbin/start-slaves.sh
分别在slave01, slave02节点上运行jps命令,可以看到多了个工人进程
37553年DataNode 37684年NodeManager 37876年工人 37924年Jps
3。在浏览器上查看火花独立集群管理器的集群信息