哪个大数据属性用来衡量数据量
发布网友
发布时间:2023-03-16 23:43
我来回答
共1个回答
热心网友
时间:2023-10-31 19:16
大数据是数据分析的前沿技术,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术,也正是这一点促使该技术具备走向众多企业的潜力。大数据最核心的价值就是在于对于海量数据进行存储和分析,相比起现有的其他技术而言,大数据的“廉价、迅速、优化”这三方面的综合成本是最优的。尽管有些网络数据披着大数据的外衣,但并不是每一种数据融合都可以叫做大数据。有些数据拥有以下4种属性中的一种或多种,也不能被归类为大数据,要完全拥有以下4种特性(大数据的4个“V”)才能称得上是大数据。
1)体量(Volume)。大数据由大量数据组成,从几个TB到几个ZB。百度资料表明,其新首页导航每天需要提供的数据超过1.5PB(1PB=1024TB),这些数据如果打印出来将超过5千亿张A4纸。有资料证实,到目前为止,人类生产的所有印刷材料的数据量仅为200PB。这些数据可能会分布在许多地方,通常是在接入因特网的计算网络中。一般来说,凡是满足大数据的几个V条件的数据都会因为太大而无法被单独的计算机处理。单单这一个问题就需要一种不同的数据处理思路,这也使得并行计算技术(例如MapRece)得以迅速崛起。
2)多样(Variety)。在过去,数据或多或少是同构的,这种特点也使得它更易于管理。这种情况并不出现在大数据中,由于数据的来源各异,因此形式各异。这体现为各种不同的数据结构类型,半结构化以及完全非结构化的数据类型。在过去的几年里,半结构化数据和结构化数据成为了大数据的主体数据类型。数据类型繁多不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。
3)准确(Veracity)。只要合理利用数据并对其进行正确、准确的分析,将会带来很高的价值回报。准确是一个在讨论大数据时时常被忽略的一个属性,部分原因是这个属性相对来说比较新,尽管它与其他的属性同样重要。准确是一个与数据是否可靠相关的属性,也就是那些在数据科学流程中会被用于决策的数据(而这不同于与传统的数据分析流程),精确性与信噪比有关。
在大数据中发现哪些数据对商业是真正有效的,这在信息理论中是个十分重要的概念。并不是所有的数据源都具有相等的可靠性,在这个过程中大数据的精确性会趋于变化,如何增加可用数据的精确性是大数据面临的主要挑战。数据价值密度低,商业价值高,以视频为例,在连续不间断监控过程中,可能有用的数据仅仅有一两秒。
4)高速(Velocity)。大数据是在运动着的,通常处于很高的传输速度之下。它经常被认为是数据流,而数据流通常是很难被归档的(考虑到有限的网络存储空间,单单是高速就已经是一个巨大的问题)。这就是为什么只能收集到数据其中的某些部分。如果我们有能力收集数据的全部,长时间存储大量数据也会显得非常昂贵,所以周期性的收集数据遗弃一部分数据以节省空间,仅保留数据摘要(如平均值和方差)。这个问题在未来会显得更为严重,因为越来越多的数据正以越来越快的速度产生。数据处理遵循“1秒定律”,可从各种类型的数据中快速获得高价值的信息,这一点也是和传统的数据挖掘技术有着本质的不同。