Hadoop与数据仓库的关系是什么 - 行业资讯 - 肥雀云

Hadoop与数据仓库的关系是什么,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。

<强> RDBMS福利包

全球已经在基础设施上投资了数十亿美元,以运行这些数据库,并由人们进行操作和完善以适应各种垂直市场应用。对于交易处理,他们仍然是无可争议的王者。

RDBMS的其他好处包括:

<李>

从故障中恢复的能力非常好,在大多数情况下可以恢复到最新状态

<李>

RDBMS可以轻松地分布在多个物理位置

<李>

RDBMS实际上保证了高度的数据一致性

<李>

SQL很容易学习

<李>

有大量熟悉RDBMS的这人才已安装

<李>

用户可以执行相当复杂的数据查询

缺点是什么?事实是,只要所管理的数据具有结构性和关系性,就没有什么弊端。可伸缩性是一个问题,因为大多数这些系统都是专有的,而且核心存储非常昂贵,尤其是随着数据库的增长。但是,这些古老的数据库及其随行的工具和应用程序在每家《财富》,1000强公司中都是显而易见的,这有充分的理由:它们可以带来价值。

但是随后出现了大数据,其中很多来自非结构化的腹地。它包含来自点击流,网站日志,照片,视频,音频剪辑,XML文档,电子邮件,推文等的数据。

最初对它部门而言,大多数数据类似于从宇宙深处发出的背景噪声——只是很多噪声。但是请记住这一点:一个名叫阿诺和压力彭齐亚斯(阿诺,彭齐亚斯)的人在1964年破译了深空背景噪声,最终将其解释为已得到验证的宇宙大爆炸理论的证明。他获得了诺贝尔奖。

大数据也是如此。事实证明,锁定在所有这些不同的大数据源中的是对客户行为,市场趋势,服务需求以及许多其他方面的宝贵见解。这是信息技术的大爆炸。

大数据已经成为数据量整体增长中最大的组成部分,并且传统分析平台和解决方案相对无法有效地处理非结构化数据,因此分析领域正在发生深刻的变化。

<强>它演进,而非革命

但是这里要牢记重要的事情。大数据分析不会取代传统的结构化数据分析,当然在可预见的将来也不会。

恰恰相反,正如《Executive&,年代指导大数据,Apache Hadoop》所述，“当您将大数据与传统信息源相结合以提出可产生巨大业务价值的创新解决方案时，一切都会令人着迷。”

因此，您可能会看到制造商将其库存系统(在RDBMS中)与基于文档商店的产品目录中的图像和视频说明联系在一起。这将帮助客户帮助自己立即选择并订购合适的零件。

或者，一家连锁酒店可以将基于Web的房地产搜索结果及其自身的历史入住指标加入RDBMS中，以优化夜间定价并通过更好的收益管理来增加收入。

共存，而不是替代。这是查看基于Hadoop的大数据分析与RDBMS和MPP世界之间关系的正确方法。因此，组织明智地专注于Hadoop发行版，以优化基于Hadoop的数据湖与传统系统之间的数据流。换句话说，保留旧的，并用新的创新。

使用哪个平台?

共有三种常用的基本数据架构：数据仓库，大规模并行处理系统(MPP)和Hadoop。每个都以不同的方式容纳SQL。

数据仓库本质上是大型数据库管理系统，已针对跨结构化数据的只读查询进行了优化。它们是关系数据库，因此对SQL非常友好。它们提供了快速的性能和相对容易的管理，这在很大程度上是因为它们的对称多处理(SMP)体系结构共享内存和操作系统等资源，并通过单个处理节点路由所有操作。

最大的缺点是成本和灵活性。大多数数据仓库都建立在专有硬件上，并且比其他方法贵了多个数量级。在Wikibon进行的一次财务比较中，发现传统数据仓库的收支平衡时间是数据湖实施时间的六倍以上。

传统的数据仓库也只能对他们知道的数据进行操作。它们具有固定的模式，并且在处理非结构化数据时不太灵活。它们对于事务分析很有用，在事务分析中，必须根据一组定义的数据元素快速做出决策，但在关系不明确的应用程序(例如推荐引擎)中效率较低。

MPP数据仓库是传统仓库的发展，它利用了通过公共互连捆绑在一起的多个处理器。SMP架构在处理器之间共享所有内容，而MPP架构则不共享任何内容。每个服务器都有自己的操作系统，处理器，内存和存储。多个处理器的活动由主处理器协调，该主处理器跨节点分布数据并协调动作和结果。