基于openLooKeng的交互式分析是怎样的 - 行业资讯 - 肥雀云

介绍

本篇文章给大家分享的是有关基于openLooKeng的交互式分析是怎样的,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。

在这个“信息爆炸”的时代,大数据已经成为这个时代的关键词之一。随着云计算,物联网,移动计算,智慧城市,人工智能等领域日新月异的发展,人类社会已经步入了“信息高速路”的行驶轨道,数据量增长迅速,各类应用对大数据处理的需求也发生着变化。

与此同时,“久经沙场”的数据仓库不再一统江湖,而以实时分析,离线分析,交互式分析等为代表的计算引擎势头迅猛。

华为云3年前发布的Serverless大数据分析服务,数据湖探索DLI,经过这几年的迭代升级,已经包含用于实时分析的Flink引擎,用于离线分析的火花引擎。今年基于华为开源openLooKeng引擎的交互式分析功能,也将于第四季度重磅发布,便于用户构建轻量级流,批,交互式全场景数据湖。

openLooKeng使用了业界著名的开源SQL引擎转眼间来提供交互式查询分析基础能力,并继续在融合场景查询,跨数据中心/云,数据源扩展,性能,可靠性、安全性等方面发展,让数据治理,使用更简单。

<强>关键特性

<强> 1。毫秒级查询性能

DLI使用的openLooKeng引擎在内存计算框架的基础上,还利用许多查询优化技术来满足高性能毫秒级的交互式分析的需要。

<强> 1.1索引

openLooKeng提供基于位图索引,布隆过滤器以及Min-max指数等索引。通过在现有数据上创建索引,并且把索引结果存储在数据源外部,在查询计划编排时便利用索引信息过滤掉不匹配的文件,减少需要读取的数据规模,从而加速查询过程。

<强> 1.2缓存

openLooKeng提供丰富多样的缓存,包括元数据缓存,执行计划缓存,兽人行数据缓存等。通过这些多样的缓存,可加速用户多次对同一SQL或者同一类型SQL的查询时延响应。

<强> 1.3动态过滤

所谓的动态过滤是指是在运行时(运行时)将加入一侧表的过滤信息的结果应用到另一侧表的过滤器的优化方法,openLooKeng不仅提供了多种数据源的动态过滤优化特性,还将这一优化特性应用到了数据中心连接器,从而加速不同场景关联查询的性能。

<强> 1.4算子下推

openLooKeng通过连接器框架连接到RDBMS等数据源时,由于RDBMS具有较强的计算能力,一般情况下将算子下推到数据源进行计算可以获取到更好的性能.openLooKeng目前支持多种数据源的算子下推,包括甲骨文,韩亚等,特别地,针对直流连接器也实现了算子下推,从而实现了更快的查询时延响应。

<强> 2。高可用

<强> 2.1公顷AA双活

openLooKeng引入了高可用的AA特性,支持协调员AA双活机制,能够保持多个协调员之间的负载均衡,同时也保证了openLooKeng在高并发下的可用性。

<强> 2.2伸缩

openLooKeng的弹性伸缩特性支持将正在执行任务的服务节点平稳退服,同时也能将处于不活跃状态的节点拉起并接受新的任务.openLooKeng通过提供”已隔离”与“隔离中”等状态接口供外部资源管理者(如纱、Kubernetes等)调用,从而实现对协调员和工人节点的弹性扩缩容。

<强> 3。融合场景

实时分析,离线分析,交互式分析这三种场景中在很多实际业务中都是同时存在的,DLI引入openLooKeng引擎之初就考虑了如何跟已有的火花引擎进行元数据层面的互通,从而实现离线分析结果,免数据搬迁直接就可以用openLooKeng引擎进行交互式分析.Spark和openLooKeng都支持蜂巢的建表方式,通过这种方式,实现了元数据层面的互通。

<强> 4。统一目录,跨域跨直流查询

DLI老用户使用比较多的功能是跨多种数据源的联合查询,用于更全面地对数据进行关联分析,释放数据价值。这次引入openLooKeng引擎将跨源查询的能力进一步延伸,开发了跨域跨直流查询的数据中心连接器。通过这个新连接器可以连接到远端另外的openLooKeng集群,从而提供在不同数据中心间协同计算的能力,其中的关键技术如下:

<强> 4.1并行数据访问

工人可以并发访问数据源以提高访问效率,客户端也可以并发从服务端获取数据以加快数据获取速度。