AWS红移ETL的几个性能最佳实践

  

亚马逊红移是一个支持SQL查询的,快速,可扩展的列式存储数据库,它支持PB级的数量查询,是适用于企业级的数据仓库。同时红移支持大规模并发查询,支持结果集缓存,响应查询时间最快至亚秒,比起其他数据仓库快将近十倍。借助红移,您的等待时间更少,可将更多时间用于获取数据见解。

  

ETL在计算机领域是一个很流行的概念,意指将数据从一个或多个源头复制到目标系统的一个过程,其中包含三个步骤:
1,提取从数据源中选择/提取需要导出的数据
2,变换将导出的数据根据业务需要进行必要的格式/表现形式上的转换
3,负载将转换后的数据导入目标系统

  

在使用红移之前需要将数据导入红移,即红移的ETL,例如数据库的迁移,将旧数据库中的数据转移到红移等等。
本文旨在分享我们bosicloud在日常工作中关于红移ETL方面的一些技巧及建议:

  

1,使用本命令将多个,大小相当的文件加载到红移
亚马逊红移是一个MPP数据库,即大规模并行处理数据库,红移的背后是一个EC2集群,每个计算节点(EC2)进一步细分为片,所有片平分计算节点的处理能力。每个节点的片数量取决于群集的节点类型,例如,每个DS2.XLARGE计算节点都有两个部分,而每个DS2.8XLARGE计算节点有16个片。
 AWS红移ETL的几个性能最佳实践“> <br/>进行加载数据工作时,最好的情况是整个工作量平分给所有的计算节点(EC2节点)的一部分。当只加载一个大文件,或者加载多个大小差异较大的文件时,都可能导致计算节点工作量分配不均等,进而导致整个红移加载数据时性能低下,例如,我们红移有两个计算节点,在加载一个大文件时每个节点的工作负载如下:<br/> <img src=AWS红移ETL的几个性能最佳实践