数据稀疏的准确概念
发布网友
发布时间:2022-08-08 00:56
我来回答
共1个回答
热心网友
时间:2024-11-16 20:36
在数据库中,稀疏数据是指在二维表中含有大量空值的数据;即稀疏数据是指,在数据集中绝大多数数值缺失或者为零的数据。稀疏数据绝对不是无用数据,只不过是信息不完全,通过适当的手段是可以挖掘出大量有用信息。
稀疏数据是指,数据框中绝大多数数值缺失或者为零的数据。在现代社会中,随着信息的爆炸式增长,数据量也呈现出爆炸式增长,数据形式也越来越多样化。在数据挖掘领域,常常要面对海量的复杂型数据。其中,稀疏数据这一特殊形式的数据正在越来越为人们所注意。
稀疏数据绝对不是无用数据,只不过是信息不完全,通过适当的手段是可以挖掘出大量有用信息的。然而在一些情况下,数据的稀疏程度甚至会达到 95%以上,这使得传统的统计方法不适于处理此类数据。
稀疏数据的来源与产生原因可以有很多种。大致归结起来,主要可以概括为以下几个种类:
由于调查不当产生的稀疏数据
这种稀疏数据常见于问卷调查和电话调查中,如果问卷问题设置不当,过于繁杂难懂,就会导致被调查者产生厌烦心理,草草回答几个问题了事。然而已经回答的问题又是有效问卷的一部分,不能做遗弃处理,假若这种问卷大量出现,那么就会出现稀疏数据。
由于天然*产生的稀疏数据
这种稀疏数据常见于电子商务领域,例如淘宝网、沃尔玛等网购网站或超市中。由于每个客户客观上不可能把所有商品购买一遍,所以他们的客户购买记录必然只是对海量商品中一小部分的记录。这样,客户购买记录必然是一个稀疏数据。
文本挖掘中产生的稀疏数据
在文本挖掘领域,为了比较几篇文章是否属于同一主题,常用的算法是首先选定一批关键词,通过不同文章中这些关键词出现的频率来进行判断。而这一批关键词常常会有成千上万个,而每篇文章基本只包含其中几十到几百个关键词,那么由此产生的数据也就是一个稀疏数据了。
医学造影成像领域
现代医学常常要借助 CT、B 超、核磁等手段造影成像,作为判断病情的重要手段。其中 CT 成像是由若干射线源与接收器来采集数据,在实际应用中,受到设备、病人条件等*,常常不能做到全角度扫描,故而在成像算法上也常常要面对稀疏数据。