从难以普及的数据增强技术,看人工智能的性价比时代

  

  数据是AI训练的核心,这一点已经被确认再确认了。虽然数据驱动不是AI算法训练的唯一途径,但在产业中已经出现了很明显的趋势,那些数据丰富廉价的领域,就是会更容易孕育出人工智能技术。像是汉英之间的机器翻译能力会大大强于小语种间的机器翻译,数据收集更容易的人脸识别应用率也高于虹膜,眼纹等等生物特征的智能识别。   

  

  可以说数据的缺乏或昂贵,往往是阻碍AI发展的直接缘由。   

  

  当然面对这种情况,也出现了相应的技术解决方案——数据增强技术。   

  

     

  

  所谓数据增强技术,可以理解为数据的繁殖皿,可以让数据进行”有丝分裂”,增强样本扩大数据集。   

  

  以图像数据为例,当图像数据不足时,可以对图像进行一些轻微的改变,例如裁剪,旋转,镜像反转,轻微的扭曲,增加噪点,增加遮挡物等等。对于人类来说,虽然可以一眼识破两者之间没有区别。但对于AI来说,即使几个像素点的变动,也是全新的数据样本。   

     从难以普及的数据增强技术,看人工智能的性价比时代”>
  <p>
  </p>
  
  <p>
  而应用于文本数据,则有互译和词向量替换两种方法。通过机器翻译,将一句话从中文翻译成英文,再由英文翻译成中文,就可以实现语序,同义词等等的调整替换,得到语料乘二的效果。以及通过自然语言生成技术,将一句话中的不同对象进行划分并替换生成新的句子。
  </p>
  <p>
  这些数据增强技术也开始通过深度学习的加持逐渐提升效率,例如去年4月谷歌就推出了一项名为AutoAugment的技术,这一模式设计了一个自动搜索空间,利用搜索算法来确定适合数据集的图像增强策略(例如上述的平移,缩放等等),制定执行的顺序并且自动执行。
  </p>
  <p>
  例如将一个动物照片数据集输入给AutoAugment, AutoAugment通过计算会确定出先平移再剪裁是让AI对于数据“陌生感”最大化的解决方案,然后开始自动执行。
  </p>
  <p>
  
  </p>
  <p>
  看到了这些解决方案,大家是不是有种“天亮了“感觉?既然数据可以“自我繁殖”,那么数据的累积和采集就再也不是AI发展的阻碍。小语种的翻译,冷门植物动物的识别都可以快速AI化,巨头移动互联网企业霸权下的数据垄断也即将被破解……等等,如果数据增强技术有如此之强的能力,这项技术至少应该像伯特一样在学术界和产业界引起极高的关注,并且迅速形成产业链。
  </p>
  <p>
  可实际上今天我们仍然能看到大量AI企业为如何获取数据而忧虑。
  </p>
  <p>
  为什么数据增强技术没能彻底解决他们的问题呢?这背后其实是老生常谈的成本问题。
  </p>
  <p>
  数据增强技术从来都不是免费利用的,很多时候AI技术接口本身就需要按调用次数收费,更别提背后的计算成本和时间成本了。
  </p>
  
  <img src=从难以普及的数据增强技术,看人工智能的性价比时代