Python搭建火花分布式集群环境

  

  

Apache火花是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象.Spark最大的特点就是快,可比Hadoop MapReduce的处理速度快100倍。本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群,而是使用三台电脑来搭建一个小型分布式集群环境安装。
  

  

本教程采用Spark2.0以上版本(比如Spark2.0.2, Spark2.1.0等)搭建集群,同样适用于搭建Spark1.6.2集群。

  


  

  

火花分布式集群的安装环境,需要事先配置好Hadoop的分布式集群环境。

  

  

这里采用3台机器(节点)作为实例来演示如何搭建火花集群,其中1台机器(节点)作为大师节点,另外两台机器(节点)作为奴隶节点(即作为工人节点),主机名分别为Slave01和Slave02。
  

  

在主节点机器上,访问火花官方下载地址,按照如下图下载。
  

  

 Python搭建火花分布式集群环境

  

下载完成后,执行如下命令:

        sudo焦油-zxf ~/下载/spark-2.0.2-bin-without-hadoop。tgz - c/usr/local/cd/usr/local   sudo mv/spark-2.0.2-bin-without-hadoop//火花   sudo乔恩- r hadoop。/火花      

  

在mst节点主机的终端中执行如下命令:

        vim ~/. bashrc      

在. bashrc添加如下配置:

        出口SPARK_HOME=/usr/地方/火花   导出路径=$路径:SPARK_HOME/bin: SPARK_HOME美元/sbin      

执行如下命令使得配置立即生效:

        源~/. bashrc      


  

  

在主节点主机上进行如下操作:

  

配置奴隶文件
  

  

将奴隶。模板拷贝到奴隶
  

        cd/usr/local/spark/cp/conf/奴隶。模板。/conf/奴隶      

奴隶文件设置工人节点。编辑奴隶内容,把默认内容localhost替换成如下内容:

        slave01   slave02      

配置spark-env。上海文件
  

  

将spark-env.sh。模板拷贝到spark-env。sh
  

        cp/conf/spark-env.sh。模板。/conf/spark-env.sh      

编辑spark-env.sh,添加如下内容:

        出口SPARK_DIST_CLASSPATH=$ (/usr/地方/hadoop/bin/hadoop类路径)   出口HADOOP_CONF_DIR=/usr/地方/hadoop/etc/hadoop   出口SPARK_MASTER_IP=192.168.1.104      

SPARK_MASTER_IP指定火花集群主节点的IP地址;

  

配置好后,将主主机上的/usr/地方/火花文件夹复制到各个节点上。在主主机上执行如下命令:

        cd/usr/local/焦油-zcf ~/spark.master.tar。广州。/火花   cd ~   scp。/spark.master.tar。广州slave01:/home/hadoop   scp。/spark.master.tar。广州slave02:/home/hadoop      

在slave01, slave02节点上分别执行下面同样的操作:

        sudo rm射频/usr/local/spark/sudo焦油-zxf ~/spark.master.tar。广州- c/usr/local   sudo乔恩- r hadoop/usr/local/spark      


  

  

<>强启动Hadoop集群
  

  

启动火花集群前,要先启动Hadoop集群。在主节点主机上运行如下命令:

        cd/usr/local/hadoop/sbin/start-all.sh      

<>强启动火花集群
  

  

1。启动主节点
  

  

在主节点主机上运行如下命令:
  

        cd/usr/local/spark/sbin/start-master.sh      

在主节点上运行jps命令,可以看到多了个主进程:

        15093年译本   14343年SecondaryNameNode   14121年NameNode   14891年主   14509年ResourceManager      

2。启动所有奴隶节点
  

  

在主节点主机上运行如下命令:
  

        sbin/start-slaves.sh      

分别在slave01, slave02节点上运行jps命令,可以看到多了个工人进程

        37553年DataNode   37684年NodeManager   37876年工人   37924年Jps      

3。在浏览器上查看火花独立集群管理器的集群信息

Python搭建火花分布式集群环境