一、火花运行时架构:
火花分布式结构采取主/从结构模式。主是驱动器(司机)节点,这个节点负责中央协调,调度各个工作(执行器执行人)节点。
从是执行器(执行者)节点。
火花驱动器节点和执行器节点统称为火花应用.Spark应用通过集群管理器在集群的机器上启动。
二,驱动器和执行器的任务:
驱动器任务:负责运行组成火花作业的任务,
执行器任务:为要求缓存的抽样提供内存式存储。
三,集群管理器
集群管理器可以用来启动驱动器节点,执行器节点。一般来说,包含以下的集群管理器:Hadoop纱,Apache便引发自带的集群管理器。
四,spark-submit的格式:
/bin/spark-submit[选项]& lt;应用程序jar | python file>(应用程序选项)
五,引发性能调优:
如何调优和调试生产环境中的火花工作负载。
1。调整火花应用的运行时配置选项。通过SparkConf类对火花进行配置。
val相依=new SparkConf ()
conf.set (“spark.app.name”、“我的火花应用”)
conf.set (“spark.master”,“当地[4]”)
conf.set (“spark.ui.port”、“36000”)
val sc=new SparkContext(参看)
2。在提交任务给spark-submit时,可以通过——之选项来只
例如bin/spark-submit com.vip——类。SimpleClass——掌握当地[4]的名字“我的火花应用”——conf spark.ui。=36000 myapp港。jar
3。通过spark-submit的——属性文件标记来指定配置文件的路径:
spark-submit com.vip——类。SimpleClass——属性文件my-config.conf
既然上边介绍了3种不同的方法来设置参数,所以如果在3个情况都配置之后,会发生冲突,那么这3种方式有一个优先级区别。优先级从高到低分别是1,2,3。如果冲突时,以第1种为准。