这篇文章给大家介绍独立模式如何在火花中进行配置,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。
火花有很多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则运行在集群中,目前能很好的运行在纱线和便中,当然火花还有自带的独立模式,对于大多数情况独立模式就足够了,如果企业已经有纱或者便环境,也是很方便部署的。
1.当地(本地模式):常用于本地开发测试,本地还分为当地单线程和本地集群多线程;
2.独立(集群模式):典型的主/从模式,不过也能看出大师是有单点故障的;火花支持饲养员来实现HA
3。纱(集群模式):运行在纱资源管理器框架之上,由纱负责资源管理,火花负责任务调度和计算
4。便(集群模式):运行在便资源管理器框架之上,由便负责资源管理,火花负责任务调度和计算
5。云(集群模式):比如AWS的EC2,使用这个模式能很方便的访问Amazon的S3,火花支持多种分布式存储系统:HDFS和S3
1。这里我下载的是火花的编译版本,否则需要事先自行编译
2。火花需要Hadoop的HDFS作为持久化层,所以在安装火花之前需要安装Hadoop,这里Hadoop的安装就不介绍了,给出一个教程Hadoop单机安装配置教程
3。实现创建Hadoop用户,Hadoop,火花等程序都在该用户下进行安装
4. ssh无密码登录,火花集群中各节点的通信需要通过ssh协议进行,这需要事先进行配置。通过在Hadoop用户的. ssh目录下将其他用户的id_rsa . pub公钥文件内容拷贝的本机的authorized_keys文件中,即可事先无登录通信的功能
5. java环境的安装,同时将JAVA_HOME,类路径等环境变量放到主目录的。. bashrc bashrc,(执行来源使之生效
这里配置工作需要以下几个步骤:
1。解压引发二进制压缩包
2。配置conf/spark-env.sh文件
3。配置conf/奴隶文件
下面具体说明一下:
配置火花的运行环境,将spark-env.sh.template模板文件复制成spark-env。sh,然后填写相应需要的配置内容:
出口SPARK_MASTER_IP=hadoop1 出口SPARK_MASTER_PORT=7077 出口SPARK_WORKER_CORES=1 出口SPARK_WORDER_INSTANCES=1 出口SPARK_WORKER_MEMORY=3 g
其他选项内容请参照下面的选项说明:
#选项守护进程使用的独立部署模式: #——SPARK_MASTER_IP主绑定到一个不同的IP地址或主机名 # - SPARK_MASTER_PORT/SPARK_MASTER_WEBUI_PORT,使用非默认端口的主人 #——SPARK_MASTER_OPTS设置配置属性>出口SPARK_MASTER_IP=杰森 出口SPARK_MASTER_PORT=7077 出口SPARK_WORKER_CORES=1 出口SPARK_WORDER_INSTANCES=1 出口SPARK_WORKER_MEMORY 3 g=
奴隶文件中,填写自己的主机名,比如我的主机名杰森
关于独立的模式如何在火花中进行配置就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看的到。