从数据收集到信息挖掘,我们该看重什么?

  

  说到人工智能,深度学习,大家总会第一时间想到算法和模型,再然后就是最根本的,提供动力源的数据,由于人工智能技术的飞速进步与广泛应用,我们对待数据的方式已从收集为主转变为以获取信息为主。   

  

  如果你不把存储的数据转化为可用的信息,那么这些数据,狭隘点说,就只是一堆字节而已。而完成这个转化的过程之前,有时也需要多年时间来收集足够的数据,比如医学方面新工艺,药物或设备的试验,基于不常发生的外部因素的群体行为,气候变化。   

  

  从数据收集到信息挖掘,我们该看重什么?”>
  </p>
  <p>
  <强>首先,数据保存的重要性无法否认</强>
  </p>
  <p>
  关于数据,有一句很拗口的话,你不知道什么是你不知道的。有个很好的例子:“垃圾DNA”。这一术语是20世纪70年代某遗传学家发明的,用来表示基因组中95% - -98%的不编译任何蛋白质或酶的DNA。当时的生物学家认为,既然几乎所有具体的生理机能都要蛋白质来完成,那么不编码蛋白质的DNA应该是没有用的,可以称为“垃圾DNA”。到本世纪初,人们发现一些垃圾DNA其实调控着染色体的复制方式和时间。
  </p>
  <p>
  对于当时的人们来说,存储数据的成本是很高的。当然DNA测序的成本更大,这也是当初人们要保留垃圾DNA数据的原因之一。收集数据的成本很高,存储数据的成本也很高,正是因此,我们要更加感谢那些在我们之前做出正确事情的人。他们顶着成本压力储存了这些旧的数据,让我们有机会从中发现更多信息。
  </p>
  <p>
  我们知道,一些天气预报中心每天都会保存所有收集到的数据,包括其预报模型的输出。当这些网站有一个新的预测模型时,他们通过新的模型运行旧的数据,查看模型的输出和观察,看看新模型是否比旧模型更好,以及有多好。对于一个城市来说,这个工作似乎很容易,但对整个地球来说,是大量的数据和信息比较。
  </p>
  <p>
  因此,存储和数据架构师面临的挑战往往是如何通过开发满足性能,可伸缩性和治理需求的架构来保存这些数据。
  </p>
  <p>
  <强>由数据收集向信息挖掘的转变</强>
  </p>
  <p>
  从有数据收集开始,其唯一目的就是要使所收集的所有数据都有实际意义。手工进行数据收集和分析非常耗时,将数据转换为信息也既费时又费的钱。
  </p>
  <p>
  信息时代始于1890年美国人口普查时何勒内斯打孔卡片的使用,尽管它们是空白的,但与你见过的格式化卡片不同。这里的关键问题是,在1890年以前虽然有大量的数据,但并没有工具来进行分析,而且将其转化为信息的成本很高。
  </p>
  <p>
  很明显,在1890年的人口普查中产生的信息在今天的标准下是非常基础性的。但按照19世纪90年代的标准,却是革命性的。通过这个办法,人们能够非常迅速地查看人口普查的结果并做出决定(例如,基于数据的可操作的信息)。
  </p>
  <p>
  到了今天,我们已经不再把1890年人口普查数据的表格化称为信息。信息的定义,与数据相比,应该基于当代的标准,同样的,许多其他领域中的某些定义也在发生变革。
  </p>
  <p>
  信息分析市场的规模和范围在不断扩大,从自动驾驶汽车到安全摄像头分析再到医疗发展。在每一个行业,在我们生活的每一个角落,都有快速的变化,并且变化的速度也正在增加。所有这些都是数据驱动的,所有收集的新旧数据都被用来开发新的可用信息类型。围绕数据收集与信息发展的需求,有很多问题也因此浮现。
  </p>
  <p>
  <img src=从数据收集到信息挖掘,我们该看重什么?