Spark2.4.2源码编译

  

软件版本:

jdk: 1.8

maven: 3.61 http://maven.apache.org/download.cgi

火花:https://archive.apache.org/dist/spark/spark-2.4.2/

hadoop 2.42版本:hadoop-2.6.0-cdh6.7.0(火花编译支持的hadoop版本,不需要安装)

#配置环境变量   #猫/etc/profile.d/maven.sh root@hadoop004软   MAVEN_HOME=/usr/地方/maven   导出路径=$ MAVEN_HOME/bin: $路径      #确认maven版本   (root@hadoop004 maven) # mvn——版本   Apache Maven 3.6.1 (d66c9c0b3152b2e69ee9bac180bb8fcc8e6af555;2019 - 04 - 05 - t03:00:29 +喂饲)   Maven:/usr/local/maven   Java版本:1.8.0_111,供应商:甲骨文公司,运行时:/usr/java/jdk1.8.0_111/jre   默认语言环境:en_US、平台编码:utf - 8   操作系统名称:“linux”,版本:“3.10.0-862.3.2.el7。x86_64“弓:“amd64 unix“,家庭:      #配置mvn的本地存放地址:settings.xml文件   & lt; localRepository>/usr/本地maven/repo      #配置mvn下载源为阿里云的maven仓库,加速下载   & lt; mirror>   & lt; id> alimaven   & lt; name>王坚maven   & lt; url> http://maven.aliyun.com/nexus/content/groups/public/</url>   & lt; mirrorOf> central   & lt;/mirror>


tar xf spark-2.4.2.tgz   cd spark-2.4.2.tgz      #修改pom.xml文件,添加云仓库   & lt; repository>   & lt; id> cloudera   & lt; url> https://repository.cloudera.com/artifactory/cloudera-repos/</url>   & lt;/repository>

#在火花目录下执行   ,/dev/让分配。sh——名字2.6.0-cdh6.7.0 tgz -Pyarn phadoop - 2.6 -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh6.7.0      注:本次编译时长大约为35分钟,中间无任何报错;      注:默认使用的scala版本为最新的,如果要指定scala版本,通过以下方式修改   比如把scala版本改为2.10   ,/dev/change-scala-version。sh 2.10

参数说明:

——名称:生成压缩包的后缀名字;前缀默认为火花版本的名字,本例为:spark-2.4.2-bin

——tgz:采用压缩格式为焦油、压缩的后缀名为。tgz

-Pyarn:表示火花需要运行在纱线上面

phadoop - 2.6:表示火花使用hadoop的概要文件的id

-Dhadoop.version=2.6.0-cdh6.7.0:表示火花使用hadoop的版本;如果不指定,默认使用的是2.2.0的hadoop

-Phive -Phive-thriftserver:表示支持蜂巢

其它参数:

-DskipTests:跳过测试

生成的文件:

在火花目录下:spark-2.4.2-bin-2.6.0-cdh6.7.0。tgz


tar xf spark-2.4.2-bin-2.6.0-cdh6.7.0.tgz   ln - s spark-2.4.2-bin-2.6.0-cdh6.7.0火花      #配置火花的环境变量   [hadoop@hadoop001 ~] vim . bash_profile美元   出口SPARK_HOME=/home/hadoop/app/spark-2.4.2-bin-2.6.0-cdh6.7.0   导出路径=$ {SPARK_HOME}/bin:美元的道路   美元(hadoop@hadoop001 ~) . bash_profile来源      #运行火花测试   [hadoop@hadoop001 ~] spark-shell美元   19/04/29 10:51:04 NativeCodeLoader警告:无法加载native-hadoop库为您的平台……使用builtin-java类适用的地方   使用火花的默认log4j配置文件:org/apache/spark/log4j-defaults.properties   默认日志级别设置为“警告”。   调整日志级别使用sc.setLogLevel(中的)。对于SparkR,使用setLogLevel(中的)。   火花上下文可用在http://hadoop001:4040 Web UI   火花上下文可用“sc”(主=当地[*],app id=当地- 1556506274719)。   火花会话可用“火花”。   欢迎来到   ____ __/__/__ ___ _____//__   _/_ \ \ \/_/_/_//___/.__/\ _,_/_/_ \ _ \ 2.4.2版本/_/使用Scala版本2.11.12 (Java HotSpot (TM) 64位服务器虚拟机,Java 1.8.0_111)   输入表达式计算。   类型:帮助的更多信息。      scala>


Spark2.4.2源码编译