大数据概念想必大家都不陌生,毕竟是近年来最热门的话题之一。在计算机以及互联网如此普及的今天,我们所有人每天都会在互联网上产生大量的数据,例如在淘宝浏览商品时会产生数据,使用社交应用进行即时通讯时也会产生数据,每天股市的上涨下跌及交易量也是数据……如此可见,每天互联网上产生的数据是有多庞大,数据可谓是无处不在:
但是数据量大,只是大数据概念的特征之一,大数据有4个特征简称4 v特征:
在2001年,高德纳分析员道格·莱尼在一份与其2001年的研究相关的演讲中指出,数据增长有三个方向的挑战和机遇:量(体积),即数据多少;速(速度),即资料输入,输出的速度;类(品种),即多样性。
在莱尼的理论基础上,IBM提出大数据的4 v特征,得到了业界的广泛认可。第一,数量(体积),即数据巨大,从结核病级别跃升到PB级别;第二,多样性(品种),即数据类型繁多,不仅包括传统的格式化数据,还包括来自互联网的网络日志,视频,图片,地理位置信息等;第三,速度(速度),即处理速度快,如果处理不够高速则无法应用在实时更新数据的场景上;第四,价值(价值),即追求高质量的,有价值的数据。
大数据4 v特征:
-
<李>大体积量,既然叫大数据,那么数据量肯定得大李>
<李>品种多样性、数据可以多种结构,可以是结构性数据,半结构性数据以及非结构性数据李>
<李>值价值,这些大量的数据需要能够被挖掘出有价值的数据,因为无价值的数据只是一堆占用存储空间的垃圾李>
<李>速度高速,数据的处理速度要快,时效性强,因为很多场景下要实时更新,检测数据李>
想要详细了解大数据的4 v特征可以参考以下文章:
http://www.mahaixiang.cn/sjfx/803.html
引用> <人力资源/>
https://www.jianshu.com/p/b3281082edb3 https://www.leiphone.com/news/201410/NgTsZw3yDjEbk9on.html
大数据要解决的问题
大数据是要用来从中挖掘有价值的数据的,如果数据不能给企业带来价值,不能给用户带来更好的体验,那么这些数据就是无用的。而从数据中挖掘价值就是大数据要解决的问题,这就好像淘金,挖矿一样,我们利用大数据技术从海量数据中挖掘有用的数据,剔除无用的数据:
<人力资源/>
大数据带来的挑战
<强>大数据涉及到的技术:强>
1。数据采集:
我们需要将分散的数据都采集起来,集中在一起,才能够进行数据的分析2。数据存储:
将大量的数据采集起来后,存储就是个问题,需要存储空间足够大3。数据处理/分析/挖掘:
存储的问题解决后,才开始对这些数据进行处理,分析,挖掘有价值的数据出来4。可视化:
最后就是将这些挖掘出来的数据进行可视化,图形化后呈现给别人看,总不可能让你领导来看一堆数字或字符串吧<强>大数据在技术架构上带来的挑战:强>
1。对现有数据库管理技术的挑战:
海量的数据想要存储到传统的关系型数据库是不太现实的,虽然数据库可以进行集群,但是基本上也不能处理TB级以上的数据分析的,所以现阶段无法使用结构化的查询及处理去解决这些问题2。传统数据库技术并没有考虑数据的多类别:
关系型数据库的结构都是库在祝辞表在祝辞字段的关系结构,而大数据具有数据多样化的特征,所以不好存储3。实时性的技术挑战:
数据所产生的价值会随着时间的推移而降低,所以要让数据实时展现是个问题4。网络架构,数据中心,运维的挑战:
由于数据一直呈大幅增长的状态,而数据又要实时地呈现,这对网络传输上是一个挑战。而且数据量大,肯定得多台服务器进行存储,这就给数据中心以及运维带来一定的挑战<强>大数据带来的其他挑战:强>
1。数据隐私:
这个不用说,海量数据里肯定会包含一些用户的隐私数据,我们得保障这些数据不外泄2。数据源复杂多样:
之前也提到过大数据的特征之一就是数据的多样性,如何处理好多样的数据是个问题大数据基本概念