数据是AI训练的核心,这一点已经被确认再确认了。虽然数据驱动不是AI算法训练的唯一途径,但在产业中已经出现了很明显的趋势,那些数据丰富廉价的领域,就是会更容易孕育出人工智能技术。像是汉英之间的机器翻译能力会大大强于小语种间的机器翻译,数据收集更容易的人脸识别应用率也高于虹膜,眼纹等等生物特征的智能识别。
可以说数据的缺乏或昂贵,往往是阻碍AI发展的直接缘由。
当然面对这种情况,也出现了相应的技术解决方案——数据增强技术。
所谓数据增强技术,可以理解为数据的繁殖皿,可以让数据进行”有丝分裂”,增强样本扩大数据集。
以图像数据为例,当图像数据不足时,可以对图像进行一些轻微的改变,例如裁剪,旋转,镜像反转,轻微的扭曲,增加噪点,增加遮挡物等等。对于人类来说,虽然可以一眼识破两者之间没有区别。但对于AI来说,即使几个像素点的变动,也是全新的数据样本。
从难以普及的数据增强技术,看人工智能的性价比时代