亚马逊红移是一个支持SQL查询的,快速,可扩展的列式存储数据库,它支持PB级的数量查询,是适用于企业级的数据仓库。同时红移支持大规模并发查询,支持结果集缓存,响应查询时间最快至亚秒,比起其他数据仓库快将近十倍。借助红移,您的等待时间更少,可将更多时间用于获取数据见解。
ETL在计算机领域是一个很流行的概念,意指将数据从一个或多个源头复制到目标系统的一个过程,其中包含三个步骤:
1,提取从数据源中选择/提取需要导出的数据
2,变换将导出的数据根据业务需要进行必要的格式/表现形式上的转换
3,负载将转换后的数据导入目标系统
在使用红移之前需要将数据导入红移,即红移的ETL,例如数据库的迁移,将旧数据库中的数据转移到红移等等。
本文旨在分享我们bosicloud在日常工作中关于红移ETL方面的一些技巧及建议:
1,使用本命令将多个,大小相当的文件加载到红移
亚马逊红移是一个MPP数据库,即大规模并行处理数据库,红移的背后是一个EC2集群,每个计算节点(EC2)进一步细分为片,所有片平分计算节点的处理能力。每个节点的片数量取决于群集的节点类型,例如,每个DS2.XLARGE计算节点都有两个部分,而每个DS2.8XLARGE计算节点有16个片。
AWS红移ETL的几个性能最佳实践