软件版本:
jdk: 1.8
maven: 3.61 http://maven.apache.org/download.cgi
火花:https://archive.apache.org/dist/spark/spark-2.4.2/
hadoop 2.42版本:hadoop-2.6.0-cdh6.7.0(火花编译支持的hadoop版本,不需要安装)
#配置环境变量 #猫/etc/profile.d/maven.sh root@hadoop004软 MAVEN_HOME=/usr/地方/maven 导出路径=$ MAVEN_HOME/bin: $路径 #确认maven版本 (root@hadoop004 maven) # mvn——版本 Apache Maven 3.6.1 (d66c9c0b3152b2e69ee9bac180bb8fcc8e6af555;2019 - 04 - 05 - t03:00:29 +喂饲) Maven:/usr/local/maven Java版本:1.8.0_111,供应商:甲骨文公司,运行时:/usr/java/jdk1.8.0_111/jre 默认语言环境:en_US、平台编码:utf - 8 操作系统名称:“linux”,版本:“3.10.0-862.3.2.el7。x86_64“弓:“amd64 unix“,家庭: #配置mvn的本地存放地址:settings.xml文件 & lt; localRepository>/usr/本地maven/repo #配置mvn下载源为阿里云的maven仓库,加速下载 & lt; mirror> & lt; id> alimaven & lt; name>王坚maven & lt; url> http://maven.aliyun.com/nexus/content/groups/public/</url> & lt; mirrorOf> central & lt;/mirror>
tar xf spark-2.4.2.tgz cd spark-2.4.2.tgz #修改pom.xml文件,添加云仓库 & lt; repository> & lt; id> cloudera & lt; url> https://repository.cloudera.com/artifactory/cloudera-repos/</url> & lt;/repository>
#在火花目录下执行 ,/dev/让分配。sh——名字2.6.0-cdh6.7.0 tgz -Pyarn phadoop - 2.6 -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh6.7.0 注:本次编译时长大约为35分钟,中间无任何报错; 注:默认使用的scala版本为最新的,如果要指定scala版本,通过以下方式修改 比如把scala版本改为2.10 ,/dev/change-scala-version。sh 2.10
参数说明:
——名称:生成压缩包的后缀名字;前缀默认为火花版本的名字,本例为:spark-2.4.2-bin
——tgz:采用压缩格式为焦油、压缩的后缀名为。tgz
-Pyarn:表示火花需要运行在纱线上面
phadoop - 2.6:表示火花使用hadoop的概要文件的id
-Dhadoop.version=2.6.0-cdh6.7.0:表示火花使用hadoop的版本;如果不指定,默认使用的是2.2.0的hadoop
-Phive -Phive-thriftserver:表示支持蜂巢
其它参数:
-DskipTests:跳过测试
生成的文件:
在火花目录下:spark-2.4.2-bin-2.6.0-cdh6.7.0。tgz
tar xf spark-2.4.2-bin-2.6.0-cdh6.7.0.tgz ln - s spark-2.4.2-bin-2.6.0-cdh6.7.0火花 #配置火花的环境变量 [hadoop@hadoop001 ~] vim . bash_profile美元 出口SPARK_HOME=/home/hadoop/app/spark-2.4.2-bin-2.6.0-cdh6.7.0 导出路径=$ {SPARK_HOME}/bin:美元的道路 美元(hadoop@hadoop001 ~) . bash_profile来源 #运行火花测试 [hadoop@hadoop001 ~] spark-shell美元 19/04/29 10:51:04 NativeCodeLoader警告:无法加载native-hadoop库为您的平台……使用builtin-java类适用的地方 使用火花的默认log4j配置文件:org/apache/spark/log4j-defaults.properties 默认日志级别设置为“警告”。 调整日志级别使用sc.setLogLevel(中的)。对于SparkR,使用setLogLevel(中的)。 火花上下文可用在http://hadoop001:4040 Web UI 火花上下文可用“sc”(主=当地[*],app id=当地- 1556506274719)。 火花会话可用“火花”。 欢迎来到 ____ __/__/__ ___ _____//__ _/_ \ \ \/_/_/_//___/.__/\ _,_/_/_ \ _ \ 2.4.2版本/_/使用Scala版本2.11.12 (Java HotSpot (TM) 64位服务器虚拟机,Java 1.8.0_111) 输入表达式计算。 类型:帮助的更多信息。 scala>