火花监控调优 - 行业资讯 - 肥雀云_南京肥雀信息技术有限公司

一、火花运行时架构:

火花分布式结构采取主/从结构模式。主是驱动器(司机)节点,这个节点负责中央协调,调度各个工作(执行器执行人)节点。

从是执行器(执行者)节点。

火花驱动器节点和执行器节点统称为火花应用.Spark应用通过集群管理器在集群的机器上启动。

二,驱动器和执行器的任务:

驱动器任务:负责运行组成火花作业的任务,

执行器任务:为要求缓存的抽样提供内存式存储。

三,集群管理器

集群管理器可以用来启动驱动器节点,执行器节点。一般来说,包含以下的集群管理器:Hadoop纱,Apache便引发自带的集群管理器。

四,spark-submit的格式:

/bin/spark-submit[选项]& lt;应用程序jar | python file>(应用程序选项)

五,引发性能调优:

如何调优和调试生产环境中的火花工作负载。

1。调整火花应用的运行时配置选项。通过SparkConf类对火花进行配置。

val相依=new SparkConf ()

conf.set (“spark.app.name”、“我的火花应用”)

conf.set (“spark.master”,“当地[4]”)

conf.set (“spark.ui.port”、“36000”)

val sc=new SparkContext(参看)

2。在提交任务给spark-submit时,可以通过——之选项来只

例如bin/spark-submit com.vip——类。SimpleClass——掌握当地[4]的名字“我的火花应用”——conf spark.ui。=36000 myapp港。jar

3。通过spark-submit的——属性文件标记来指定配置文件的路径:

spark-submit com.vip——类。SimpleClass——属性文件my-config.conf

既然上边介绍了3种不同的方法来设置参数,所以如果在3个情况都配置之后,会发生冲突,那么这3种方式有一个优先级区别。优先级从高到低分别是1,2,3。如果冲突时,以第1种为准。