火花入门及安装与配置

  


<强> Hadoop

Hadoop是分布式计算引擎,含有四大模块,常见,hdfs, mapreduce和纱线。

<强>并发和并行

并发通常指针对单个节点的应对多个请求的能力,是单一节点上计算能力的衡量,并行通常针对集群来讲,是利用多个节点进行分布式协同作业,我们称之为并行计算。

<强>火花

快如闪电集群计算引擎,应用于大规模数据处理快速通用引擎,使用内存计算。

<强> 1。速度

内存计算速度是hadoop的100倍以上,硬盘计算是hadoop是10倍以上,火花使用高级DAG(直接acycle   图)执行引擎。

<强> 2。易于使用

提供了80 +高级算子,能够轻松构建并行应用,也可以使用scala, python, r的壳进行交互式操作。

3。通用性

对SQL,流计算,复杂分析可进行组合应用.spark提供了类库栈,包括SQL, MLlib, graphx和引发流。

<强> 4。架构

包括:火花,火花SQL,流火花,火花mllib和火花graphx

<强> 5。到处运行

火花可以运行在hadoop,便,独立和克劳德上,同时可以访问多种数据源,如hdfs, hbase,蜂巢,卡桑德拉,   S3等。

<强>火花集群部署模式

<强> 1.当地

不需要启动任何火花进程,使用一个JVM运行火花所有组件,主要用于调试和测试。

<强> 2.独立

独立模式,需要安装火花集群,分别启动主节点和工人节点,主人是管理节点,工人是任务的执行节点。

<强> 3.纱

不需要单独部署火花集群,可以说根本没有火花集群的概念。

该模式下,使用的完全是Hadoop的工作执行流程,只是到末端启动任务时使用火花的任务执行发生,相当于火花是一个Hadoop的工作,将引发的所有jar包打入工作运行的依赖包中,流程按照Hadoop的执行流程来进行。

<>强安装火花

<强> 1。下载spark-2.1.0-bin-hadoop2.7.tgz

以下是火花的官方下载地址:https://www.apache.org/dyn/closer.lua/spark/spark-2.3.0/spark-2.3.0-bin-hadoop2.7.tgz

<强> 2。解压文件到/软目录下

美元在焦油-xzvf spark-2.3.0-bin-hadoop2.7。tgz - c/软

<强> 3。创建软连接

创建软连接后,编译各种文件配置以及后期进行版本升级和替换非常方便。

美元在cd/软

美元在ln - s spark-2.3.0-bin-hadoop2.7火花

<强> 4。配置环境变量

编辑/etc/profile环境变量文件:

美元在nano sudo/etc/profile

在文件末尾添加如下内容:

SPARK_HOME=/软/火花

=$ PATH: $ SPARK_HOME/bin: $ SPARK_HOME/sbin

注意:将引发的本目录和sbin目录都添加到环境变量路径中,而且Linux使用“:”作为分隔符。

<强> 5。环境变量生效

美元在源/etc/profile

<强> 6。进入Spark-shell命令行

在美元/软/火花/Spark-shell

#进入scala命令提示符

scala>美元;

<强> 7。体验Spark-shell

因为火花使用scala的语言,因此同scala的使用完全一致。

scala>美元;1 + 1

#输出结果


火花入门及安装与配置