一,flink——架构,运行,调度原理

  

一、flink概述

  

1.1流处理技术语义

  

最多alt="一,flink——架构,运行,调度原理”>
?图1.1 flink——基本架构

  

?上图为Flink技术栈的核心组成部分,值得一提的是,Flink分别提供了面向流式处理的接口(DataStream数据API)和面向批处理的接口(数据API)。因此,Flink既可以完成流处理,也可以完成批处理.Flink支持的拓展库涉及机器学习(FlinkML),复杂事件处理(CEP),以及图计算(葛里炸药),还有分别针对流处理和批处理的表API。
?能被Flink运行时执行引擎接受的程序很强大,但是这样的程序有着冗长的代码,编写起来也很费力,基于这个原因,Flink提供了封装在运行时执行引擎之上的API,以帮助用户方便地生成流式计算程序.Flink提供了用于流处理的DataStream数据API和用于批处理的数据集API。值得注意的是,尽管Flink运行时执行引擎是基于流处理的,但数据集是API先于DataStream数据API被开发出来,这是因为工业界对无限流处理的需求在Flink诞生之初并不大。
?DataStream数据API可以流畅地分析无限数据流,并且可以用Java或者Scala来实现。开发人员需要基于一个叫DataStream数据的数据结构来开发,这个数据结构用于表示永不停止的分布式数据流。
?Flink的分布式特点体现在它能够在成百上千台机器上运行,它将大型的计算任务分成许多小的部分,每个机器执行一部分.Flink能够自动地确保发生机器故障或者其他错误时计算能够持续进行,或者在修复bug或进行版本升级后有计划地再执行一次。这种能力使得开发人员不需要担心运行失败.Flink本质上使用容错性数据流,这使得开发人员可以分析持续生成且永远不结束的数据(即流处理)。

  

1.4无穷数据流和有限数据流

  

无穷数据集:无穷的持续集合的数据集合
有限数据集:有限不会改变的数据集合

  

常见的无穷数据集合有:
用户与客户端的实时交互数据
应用实时产生的日志
金融市场的实时交易记录

  

1.5 Flink和风暴对比

              风暴   flink               状态管理   无状态,需用户自行进行状态管理   有状态         窗口支持   对事件窗口支持较弱,缓存整个窗口的所有数据,窗口结束时一起计算   窗口支持较为完善,自带一些窗口聚合方法,并且会自动管理窗口状态。         消息投递语义   最多alt="一,flink——架构,运行,调度原理”>
?图2.1 flink——JobManager与TaskManager

  

主和工人处理器可以直接在物理机上启动,或者通过像纱这样的资源调度框架.Worker连接到主人,告知自身的可用性进而获得任务分配。

  

2.2 * * *数据流与有界数据流

  

* * *数据流:
* * *数据流有一个开始但是没有结束,它们不会在生成时终止并提供数据,必须连续处理* * *流,也就是说必须在获取后立即处理事件。对于* * *数据流我们无法等待所有数据都到达,因为输入是* * *的,并且在任何时间点都不会完成。处理* * *数据通常要求以特定顺序(例如事件发生的顺序)获取事件,以便能够推断结果完整性。

  

有界数据流:
有界数据流有明确定义的开始和结束,可以在执行任何计算之前通过获取所有数据来处理有界流,处理有界流不需要有序获取,因为可以始终对有界数据集进行排序,有界流的处理也称为批处理。

  

?Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它能够基于同一个Flink运行时(Flink运行时),提供支持流处理和批处理两种类型应用的功能。现有的开源计算方案,会把流处理和批处理作为两种不同的应用类型,因为它们要实现的目标是完全不相同的:流处理一般需要支持低延迟,仅一次保证,而批处理需要支持高吞吐,高效处理,所以在实现的时候通常是分别给出两套实现方法,或者通过一个独立的开源框架来实现其中每一种处理方案,例如,实现批处理的开源方案有MapReduce,特斯,紧缩,火花,实现流处理的开源方案有Samza,风暴。
Flink在实现流处理和批处理时,与传统的一些方案完全不同,它从另一个视角看待流处理和批处理,将二者统一起来:Flink是完全支持流处理,也就是说作为流处理看待时输入数据流是* * *的,批处理被作为一种特殊的流处理,只是它的输入数据流被定义为有界的。基于同一个Flink运行时(Flink运行时),分别提供了流处理和批处理API,而这两种API也是实现上层面向流处理,批处理类型应用框架的基础。

一,flink——架构,运行,调度原理