蚂蚁金服数据质量治理架构与实践

  

  <强>   摘要      :以“数字金融新原力(数字金融的新力量)”为主题,蚂蚁金服ATEC城市峰会于2019年1月4日上海如期举办。金融智能专场分论坛上,蚂蚁金服数据平台部高级数据技术专家李俊华做了主题为《蚂蚁金服数据治理之数据质量治理实践》的精彩分享。   

  

  演讲中,李俊华介绍了蚂蚁金服数据架构体系的免疫系统,数据质量治理体系,此外还着重介绍了数据质量实施的相关内容,以及蚂蚁的数据质量治理实践与所面对的实际挑战。   
  蚂蚁金服数据质量治理架构与实践”>
  <br>
  <强>
  李俊华蚂蚁金服数据平台部高级数据技术专家
  </强>
  </p>
  <p>
  本文将主要围绕以下三部分进行分享:
  </p>
  <ol>
  <李>
  <p>
  数据治理概况
  </p>
  李</>
  <李>
  <p>
  数据质量治理挑战
  </p>
  李</>
  <李>
  <p>
  数据质量治理实践
  </p>
  李</>
  </ol>
  <h3 id=            一、数据治理概况      

  近年来,蚂蚁金服不断在数据架构上进行升级改造,其目的在于解决蚂蚁所面临的数据物理孤岛问题。如今,蚂蚁以及整个阿里巴巴集团的底座都统一到了同一个平台上,这样当实现第五代数据架构体系升级时,就降低了一站式研发的整体门槛,并使得蚂蚁金服的所有工程师都可以在平台上轻松玩转数据。如今,在蚂蚁的数据架构中已经能够很好地解决数据孤岛问题,而如今在数据治理体系中所需要关注的就是逻辑的孤岛。   
  蚂蚁金服数据质量治理架构与实践”>
  <br>
  在对数据治理展开论述之前,先谈一谈数据价值。之前的情况是,当数据首先需要经过专门团队负责处理,删除没有价值的数据,负责上线或者下线数据。但是,对于数据价值的判断也是一个非常令人头疼的问题,大部分的数据只会上线不会下线,这样就造成了大量没有价值的数据的堆积。而如今,蚂蚁不仅关心下线没有价值的数据,同时也侧重数据资产的价值最大化。在数据价值方面,蚂蚁有一套完整的数据资产等级以及数据资产的易用模型,这样就能够驱动自身充分利用数据资产,来创造更多的价值。但是如果这些数据被使用了,但是质量却很低,这样就会使得数据资产的价值大打折扣。
  <p>
  <强>
  数据质量产生分析
  </强>
  </p>
  <p>
  接下来将重点介绍蚂蚁金服在数据治理质量领域的实践思路和方案,并与大家分享两个案例。如下图所示的是抽象数据抽取的全流程图。当某个业务同学录入数据的时候出现一点错误,就会造成数据的质量问题,比如把客户的行业信息填错或者打错了一个字都会造成数据质量问题,而这样的问题很容易出现。在基于传统数据库资产开发数据应用的时候,基本都是从数据源端产数据过来,经过加工,分析再将数据发送出去,也就是“从业务中来,最后回到业务中去”。现在的方案与之前存在很大区别,以前做数据处理时,从数据生产的采集数据来,加工之后就给出去了,而如今蚂蚁很多数据应用将数据处理之后还会回到数据系统中。比如芝麻信用分的计算中存在很多大家看不到的场景,这些数据处理之后还会回到系统之中,而这个过程中每个环节都可能存在数据质量问题。
  <br>
  <img src=            二、数据质量治理的挑战      

  在下图中的左侧展示了蚂蚁的业务形态。如今,蚂蚁的业务场景已经不再仅限于统计分析,而在蚂蚁的芝麻分,花呗,借呗以及“310”放款的背后都是数据在进行支撑并驱动着其发展。今天,蚂蚁的业务形态成为了“技术+数据+算法”三者的融合来追求价值最大化。与此同时,数据质量治理也存在着诸多挑战,它们来自于业务方面,数据方面,用户方面。   
  蚂蚁金服数据质量治理架构与实践”>
  <h3 id=            三、数据质量治理实践      

  <强>   数据质量治理思路   

蚂蚁金服数据质量治理架构与实践