<强> Hadoop 强>
Hadoop是分布式计算引擎,含有四大模块,常见,hdfs, mapreduce和纱线。
<强>并发和并行强>
并发通常指针对单个节点的应对多个请求的能力,是单一节点上计算能力的衡量,并行通常针对集群来讲,是利用多个节点进行分布式协同作业,我们称之为并行计算。
<强>火花强>
快如闪电集群计算引擎,应用于大规模数据处理快速通用引擎,使用内存计算。
<强> 1。速度强>
内存计算速度是hadoop的100倍以上,硬盘计算是hadoop是10倍以上,火花使用高级DAG(直接acycle 图)执行引擎。
<强> 2。易于使用强>
提供了80 +高级算子,能够轻松构建并行应用,也可以使用scala, python, r的壳进行交互式操作。
3。通用性
对SQL,流计算,复杂分析可进行组合应用.spark提供了类库栈,包括SQL, MLlib, graphx和引发流。
<强> 4。架构强>
包括:火花,火花SQL,流火花,火花mllib和火花graphx
<强> 5。到处运行强>
火花可以运行在hadoop,便,独立和克劳德上,同时可以访问多种数据源,如hdfs, hbase,蜂巢,卡桑德拉, S3等。
<强>火花集群部署模式强>
<强> 1.当地强>
不需要启动任何火花进程,使用一个JVM运行火花所有组件,主要用于调试和测试。
<强> 2.独立强>
独立模式,需要安装火花集群,分别启动主节点和工人节点,主人是管理节点,工人是任务的执行节点。
<强> 3.纱强>
不需要单独部署火花集群,可以说根本没有火花集群的概念。
该模式下,使用的完全是Hadoop的工作执行流程,只是到末端启动任务时使用火花的任务执行发生,相当于火花是一个Hadoop的工作,将引发的所有jar包打入工作运行的依赖包中,流程按照Hadoop的执行流程来进行。
<>强安装火花强>
<强> 1。下载spark-2.1.0-bin-hadoop2.7.tgz 强>
以下是火花的官方下载地址:https://www.apache.org/dyn/closer.lua/spark/spark-2.3.0/spark-2.3.0-bin-hadoop2.7.tgz
<强> 2。解压文件到/软目录下强>
美元在焦油-xzvf spark-2.3.0-bin-hadoop2.7。tgz - c/软
<强> 3。创建软连接强>
创建软连接后,编译各种文件配置以及后期进行版本升级和替换非常方便。
美元在cd/软
美元在ln - s spark-2.3.0-bin-hadoop2.7火花
<强> 4。配置环境变量强>
编辑/etc/profile环境变量文件:
美元在nano sudo/etc/profile
在文件末尾添加如下内容:
…
SPARK_HOME=/软/火花
=$ PATH: $ SPARK_HOME/bin: $ SPARK_HOME/sbin
注意:将引发的本目录和sbin目录都添加到环境变量路径中,而且Linux使用“:”作为分隔符。
<强> 5。环境变量生效强>
美元在源/etc/profile
<强> 6。进入Spark-shell命令行强>
在美元/软/火花/Spark-shell
#进入scala命令提示符
scala>美元;
<强> 7。体验Spark-shell 强>
因为火花使用scala的语言,因此同scala的使用完全一致。
scala>美元;1 + 1
#输出结果