1.1什么是数据仓库

  

数据仓库是一个databas旨在实现商业智能活动:旨在帮助用户了解和增强其组织的绩效。它专为查询和分析而不是事务处理而设计,通常包含从事务数据派生的历史数据,但可以包含来自其他来源的数据。数据仓库将分析工作负载与事务工作负载分开,并使组织能够合并来自多个源的数据。这有助于:

  

维护历史记录

  

分析数据以更好地了解业务并改善业务

  

除了关系数据库之外,数据仓库环境还可以包括提取,传输,转换和加载(ETL)解决方案,统计分析,报告,数据挖掘功能,客户端分析工具以及管理数据收集过程的其他应用程序,将其转化为有用的,可操作的信息,并将其交付给业务用户。

  

为了实现增强商业智能的目标,数据仓库使用从多个源收集的数据。源数据可能来自内部开发的系统,购买的应用程序,第三方数据聚合器和其他来源。它可能涉及交易,生产,营销,人力资源等。在当今的大数据世界中,数据可能是网站上数十亿次点击,或者来自内置于复杂机器中的传感器的大量数据流。

  

数据仓库与在线事务处理(OLTP)系统不同。使用数据仓库,您可以将分析工作负载与事务工因此,数据仓库是非常面向读取的系统。与写入和更新相比,它们具有更高的数据读取量。这样可以实现更好的分析性能,并避免影响您的事务系统。可以优化数据仓库系统,以整合来自多个来源的数据,以实现关键目标:它成为您组织的“单一事实来源”。拥有所有用户可以关注的一致数据源是非常有价值的;它可以防止许多争议并提高决策效率。

  

数据仓库通常存储数月或数年的数据以支持历史分析。数据仓库中的数据通常通过来自多个数据源的提取,转换和加载(ETL)过程加载。现代数据仓库正朝着提取,加载,转换(英语教学)架构发展,其中所有或大多数数据转换都在托管数据仓库的数据库上执行。重要的是要注意,定义ETL过程是数据仓库设计工作的很大一部分。同样,ETL操作的速度和可靠性是数据仓库启动和运行后的基础。

  

数据仓库的用户执行通常与时间相关的数据分析,例如,包括去年的销售数据,库存分析以及按产品和客户分类的利润。但是时间关注与否,用户希望他们认为合适的数据“切片和切块”,而设计良好的数据仓库将足够灵活以满足这些需求。用户有时需要高度聚合的数据,有时他们需要深入了解详细信息。更复杂的分析包括趋势分析和数据挖掘,它们使用现有数据来预测趋势或预测未来。数据仓库充当中间件商业智能环境使用的底层引擎,为最终用户提供报告,仪表板和其他界面。

  

虽然上面的讨论集中在术语“数据仓库”上,但还有两个重要的术语需要提及。这些是数据集市和操作数据存储(ODS)。

  

数据集市与数据仓库具有相同的作用,但其范围有限。它可以服务于某个特定部门或业务线。数据集市与数据仓库的优势在于,由于其有限的覆盖范围,它可以更快地创建。但是,数据集市也会产生不一致的问题。在数据集市中保持数据和计算定义一致需要严格的纪律。这个问题已被广泛认可,因此数据集市有两种风格。独立数据集市是直接从源数据馈送的数据集市。他们可以变成信息不一致的岛屿。从属数据集市从现有数据仓库提供。依赖数据集市可以避免不一致的问题,但它们要求已经存在企业级数据仓库。

  

存在操作数据存储以支持日常操作。ODS数据被清理和验证,但它在历史上并不深刻:它可能只是当天的数据。ODS不是支持数据仓库可以处理的历史丰富的查询,而是为数据仓库提供了访问最新数据的位置,这些数据尚未加载到数据仓库中。ODS还可以用作加载数据仓库的源。随着数据仓库加载技术变得更加先进,数据仓库可能不再需要ODS作为加载数据的源。相反,恒定的涓流进给系统可以近乎实时地加载数据仓库。

  

引入数据仓库的常用方法是参考威廉Inmon提出的数据仓库的特征:

  

主题导向

  

集成   

非易失   

时间变化

  

主题导向

  

数据仓库旨在帮助您分析数据,例如,要了解有关公司销售数据的更多信息,您可以构建专注于销售的数据仓库。使用此数据仓库,您可以回答诸如“去年谁是我们这个项目的最佳客户?”之类的问题。或“明年谁有可能成为我们最好的客户?”这种按主题定义数据仓库的能力,在这种情况下是销售,使数据仓库面向主题。

1.1什么是数据仓库