火花概述与编程模型

  


火花快的原因
1。内存计算

2。DAG


引发壳已经初始化好了SparkContext,直接用sc调用即可



火花概述与编程模型


血统血统

广义和狭义依赖抽样

每个抽样分区最多被一个子抽样partirion依赖


火花概述与编程模型


/sbin(系统二进制)放的都是涉及系统管理的命令。
有些系统里面,普通用户没有执行这些命令的权限。
有些系统里面,普通用户的路径不包括/sbin



data.cache 数据放到内存中

提交任务

火花概述与编程模型


scala代码

package  cn.chinahadoop.spark      import  org.apache.spark。{SparkContext,, SparkConf}   import  scala.collection.mutable.ListBuffer   import  org.apache.spark.SparkContext._/* *   ,* Created  by  chenchao 提醒14-3-1。   ,*/class  Analysis  {      }      {object 分析      def 才能;主要(args :数组(String)) {      ,,,如果(args.length  !=, 2) {   ,,,,,println (“Usage : java  -jar  code.jar , file_location  save_location”)   ,,,,,system . exit (0)   ,,,}      ,,      ,,,val  conf =, new  SparkConf ()   ,,,conf.setSparkHome(“/数据/软件/crazyjvm/火花”)   ,,,,      ,,,val  sc =, new  SparkContext(配置)   ,,,val  data =, sc.textFile (args (0))      ,,data.cache      ,,,println (data.count)      ,,,data.filter (_.split (', ') .length ==, 3) . map (_.split (', ') (1)) . map ((_, - 1)) .reduceByKey (_ + _)   ,,,. map (x =祝辞,(x._2, x._1)) .sortByKey (false) . map (=, x 祝辞,(x._2, x._1)) .saveAsTextFile (args (1))   ,,}      }


火花概述与编程模型