火花概述与编程模型 - 行业资讯 - 肥雀云_南京肥雀信息技术有限公司

火花快的原因
1。内存计算

2。DAG

引发壳已经初始化好了SparkContext,直接用sc调用即可

血统血统

广义和狭义依赖抽样

每个抽样分区最多被一个子抽样partirion依赖

/sbin(系统二进制)放的都是涉及系统管理的命令。
有些系统里面,普通用户没有执行这些命令的权限。
有些系统里面,普通用户的路径不包括/sbin

data.cache 数据放到内存中

提交任务

scala代码

package cn.chinahadoop.spark 　　　　import org.apache.spark。{SparkContext,, SparkConf} 　　import scala.collection.mutable.ListBuffer 　　import org.apache.spark.SparkContext._/* * 　　,* Created by chenchao 提醒14-3-1。　　,*/class Analysis { 　　　　} 　　　　{object 分析　　　　def 才能;主要(args :数组(String)) { 　　　　,,,如果(args.length !=, 2) { 　　,,,,,println (“Usage : java -jar code.jar , file_location save_location”) 　　,,,,,system . exit (0) 　　,,,} 　　　　,, 　　　　,,,val conf =, new SparkConf () 　　,,,conf.setSparkHome(“/数据/软件/crazyjvm/火花”) 　　,,,, 　　　　,,,val sc =, new SparkContext(配置) 　　,,,val data =, sc.textFile (args (0)) 　　　　,,data.cache 　　　　,,,println (data.count) 　　　　,,,data.filter (_.split (', ') .length ==, 3) . map (_.split (', ') (1)) . map ((_, - 1)) .reduceByKey (_ + _) 　　,,,. map (x =祝辞,(x._2, x._1)) .sortByKey (false) . map (=, x 祝辞,(x._2, x._1)) .saveAsTextFile (args (1)) 　　,,} 　　　　}