流式处理新秀Flink原理与实践

随着大数据技术在各行各业的广泛应用,要求能对海量数据进行实时处理的需求越来越多,同时数据处理的业务逻辑也越来越复杂,传统的批处理方式和早期的流式处理框架也越来越难以在延迟性,吞吐量,容错能力以及使用便捷性等方面满足业务日益苛刻的要求。

在这种形势下,新型流式处理框架Flink通过创造性地把现代大规模并行处理技术应用到流式处理中来,极大地改善了以前的流式处理框架所存在的问题。飞马网于3月13日晚,邀请到大数据技术高级架构师——旷东林,在线上直播中,旷老师向我们分享了Flink在诸多方面的创新以及它本身所具有的独特能力。

流式处理新秀Flink原理与实践“> </p> <p>我们主要从以下几个部分来看:</p> <p> <强>一。流式处理的背景:</强> </p> <p>传统的大数据处理方式一般是批处理式的,也就是说,今天所收集的数据,我们明天再把今天收集到的数据算出来,以供大家使用,但是在很多情况下,数据的时效性对于业务的成败是非常关键的。</p> <p>, </p> <p> 1。流式处理的背景的必要性</p> <p> <img src=

”状态管理”,我们在实时变换的过程中,要有与外部的交互,如* * *检测,以此来保护环境和数据的安全。

“容错能力”和“容错负荷”要求当流式处理在正常进行中,即使有某些机器挂掉,系统仍能正常运行,整个流式处理框架不受影响。

“流控”,也就是流量控制,我们在数据传输的过程中,可能会数据突然增多,为了保证系统不至于负荷过重而崩溃,这时候就需要控制数据密度。

"编程复杂性”,相对而言,API设计地越高级,编程负担越低。

,

4。流式处理的背景——选型

了解流式处理框架的考核标准之后,那么我们为什么选择Flink ? Flink有哪些优势呢?

流式处理新秀Flink原理与实践“> </p> <p>“保证带状态计算下的精确一次语义”,对于某些特定的计算而言非常有必要。</p> <p>一般在流式处理框架中,数据的处理一般有两种方式,一种是按照处理时间来处理数据,另一种就是按照事件时间来处理数据,“事件时间语义支持“方式更为复杂。</p> <p> Flink的API非常高级,在处理流式数据的逻辑业务中,效率更高。</p> <p> </p> <p> <强>二。Flink的原理:</强> </p> <p>了解Flink的背景之后,我们一起来看一看它的原理。</p> <p>, </p> <p> 1。概述</p> <p> Flink的整个组件类似于火花,它的核心是一个分布式的流式处理框架,在核心之上,有两套API,一套应用于批处理数据API,一套应用于流式处理datastream数据API。<h2 class=流式处理新秀Flink原理与实践