Python搭建火花分布式集群环境 - 行业资讯 - 肥雀云

Apache火花是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象.Spark最大的特点就是快,可比Hadoop MapReduce的处理速度快100倍。本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群,而是使用三台电脑来搭建一个小型分布式集群环境安装。
　　

本教程采用Spark2.0以上版本(比如Spark2.0.2, Spark2.1.0等)搭建集群,同样适用于搭建Spark1.6.2集群。

火花分布式集群的安装环境,需要事先配置好Hadoop的分布式集群环境。

这里采用3台机器(节点)作为实例来演示如何搭建火花集群,其中1台机器(节点)作为大师节点,另外两台机器(节点)作为奴隶节点(即作为工人节点),主机名分别为Slave01和Slave02。
　　

在主节点机器上,访问火花官方下载地址,按照如下图下载。
　　

下载完成后,执行如下命令:

　　　　　　sudo焦油-zxf ~/下载/spark-2.0.2-bin-without-hadoop。tgz - c/usr/local/cd/usr/local 　　sudo mv/spark-2.0.2-bin-without-hadoop//火花　　sudo乔恩- r hadoop。/火花　　　　

在mst节点主机的终端中执行如下命令:

　　　　　　vim ~/. bashrc 　　　　

在. bashrc添加如下配置:

　　　　　　出口SPARK_HOME=/usr/地方/火花　　导出路径=$路径:SPARK_HOME/bin: SPARK_HOME美元/sbin 　　　　

执行如下命令使得配置立即生效:

　　　　　　源~/. bashrc 　　　　

在主节点主机上进行如下操作:

配置奴隶文件
　　

将奴隶。模板拷贝到奴隶
　　

　　　　　　cd/usr/local/spark/cp/conf/奴隶。模板。/conf/奴隶　　　　

奴隶文件设置工人节点。编辑奴隶内容,把默认内容localhost替换成如下内容:

　　　　　　slave01 　　slave02 　　　　

配置spark-env。上海文件
　　

将spark-env.sh。模板拷贝到spark-env。sh
　　

　　　　　　cp/conf/spark-env.sh。模板。/conf/spark-env.sh 　　　　

编辑spark-env.sh,添加如下内容:

　　　　　　出口SPARK_DIST_CLASSPATH=$ (/usr/地方/hadoop/bin/hadoop类路径) 　　出口HADOOP_CONF_DIR=/usr/地方/hadoop/etc/hadoop 　　出口SPARK_MASTER_IP=192.168.1.104 　　　　

SPARK_MASTER_IP指定火花集群主节点的IP地址;

配置好后,将主主机上的/usr/地方/火花文件夹复制到各个节点上。在主主机上执行如下命令:

　　　　　　cd/usr/local/焦油-zcf ~/spark.master.tar。广州。/火花　　cd ~ 　　scp。/spark.master.tar。广州slave01:/home/hadoop 　　scp。/spark.master.tar。广州slave02:/home/hadoop 　　　　

在slave01, slave02节点上分别执行下面同样的操作:

　　　　　　sudo rm射频/usr/local/spark/sudo焦油-zxf ~/spark.master.tar。广州- c/usr/local 　　sudo乔恩- r hadoop/usr/local/spark 　　　　

<>强启动Hadoop集群
　　

启动火花集群前,要先启动Hadoop集群。在主节点主机上运行如下命令:

　　　　　　cd/usr/local/hadoop/sbin/start-all.sh 　　　　

<>强启动火花集群
　　

1。启动主节点
　　

在主节点主机上运行如下命令:
　　

　　　　　　cd/usr/local/spark/sbin/start-master.sh 　　　　

在主节点上运行jps命令,可以看到多了个主进程:

　　　　　　15093年译本　　14343年SecondaryNameNode 　　14121年NameNode 　　14891年主　　14509年ResourceManager 　　　　

2。启动所有奴隶节点
　　

在主节点主机上运行如下命令:
　　

　　　　　　sbin/start-slaves.sh 　　　　

分别在slave01, slave02节点上运行jps命令,可以看到多了个工人进程

　　　　　　37553年DataNode 　　37684年NodeManager 　　37876年工人　　37924年Jps 　　　　

3。在浏览器上查看火花独立集群管理器的集群信息