问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

数据清理中,处理缺失值的方法是

发布网友 发布时间:2022-11-29 10:01

我来回答

1个回答

热心网友 时间:2023-10-27 05:22

缺失值的处理方法:

对于缺失值的处理,从总体上来说分为删除存在缺失值的个案和缺失值插补。对于主观数据,人将影响数据的真实性,存在缺失值的样本的其他属性的真实值不能保证,那么依赖于这些属性值的插补也是不可靠的,所以对于主观数据一般不推荐插补的方法。插补主要是针对客观数据,它的可靠性有保证。

删除含有缺失值的个案:

主要有简单删除法和权重法。简单删除法是对缺失值进行处理的最原始方法。它将存在缺失值的个案删除。如果数据缺失问题可以通过简单的删除小部分样本来达到目标,那么这个方法是最有效的。当缺失值的类型为非完全随机缺失的时候,可以通过对完整的数据加权来减小偏差。

把数据不完全的个案标记后,将完整的数据个案赋予不同的权重,个案的权重可以通过logistic或probit回归求得。如果解释变量中存在对权重估计起决定行因素的变量,那么这种方法可以有效减小偏差。如果解释变量和权重并不相关,它并不能减小偏差。对于存在多个属性缺失的情况,就需要对不同属性的缺失组合赋不同的权重,这将大大增加计算的难度,降低预测的准确性,这时权重法并不理想。

可能值插补缺失值

它的思想来源是以最可能的值来插补缺失值比全部删除不完全样本所产生的信息丢失要少。在数据挖掘中,面对的通常是大型的数据库,它的属性有几十个甚至几百个,因为一个属性值的缺失而放弃大量的其他属性值,这种删除是对信息的极大浪费,所以产生了以可能值对缺失值进行插补的思想与方法。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
找专业防水队做完还漏水怎么维权 法院会受理房屋漏水造成的纠纷吗? 巴西龟最长活多久,家养!!! 养胃的药最好的是什么啊 婴儿积食发烧不愿吃药怎么办 板门穴位在哪个部位 手机设置放偷看的方法? 凝结水回收器生产厂家? 个人账户养老金预测公式:现有5万元,缴费20年,能领多少钱? 临沂比较有名的男装品牌 中铁十九局成自高铁土方有多少 宁夏成人自考都有哪些项目 大学校园安全教育的调研报告 施州民族小学一年级下册数学练习册32页到33页1,2,3,4,5题怎么做 小学一年级上册数学同步第33页5小题怎么做人教版 小学一年级数学下册达标训练第33页思维拓展赞美做啊 小学1年级数学33页第9题怎么做? iqooneo7和iqooz5哪个好 钱包里放什么招财?钱包放哪些东西能招财 哪位大神有生命的奇迹(2013)布莱恩·考克斯主演的英国纪录片的免费百度云资源链接地址 过期板蓝根吃了很多会干嘛 玉楼春百度网盘txt下载地址谁有? 板蓝根颗粒过期了能喝吗 板蓝根颗粒过期了怎么处理好 求《投资至简》全文免费下载百度网盘资源,谢谢~ 看完升国旗,3岁娃回酒店默默练习,孩子的爱国精神该怎样培养呢? 誓死守卫,打一数 守卫是什么意思 2009守卫守小舞是哪一期狼人杀 广式香肠蒸多长时间熟 广式香肠是熟的吗 百思达干香肠是熟的吗 牧野区李丽理发店在哪 四都的艺铭理发店在哪 新安嘉苑边理发店在哪里 昌邑市围子道街发名轩理发店位置在哪 宽甸大志理发店在哪 空昌市区高级美发店在哪里 2k23理发店在哪 小学监控开机有时间段吗 金山文档已截止收集还可以开放 云顶之弈隐秘海域怎么进 近期北京可以出入吗 2020年7月20号可以去北京大兴林校路吗?还需要隔离或者做核酸检测吗 亦步亦趋的读音 亦步亦趋的成语故事 阿里云忘记登录名或者密码怎么办?如何找回登录名和密码? mac冷门口红色号有哪些 mac口红冷门色 宝马3系运动版和曜夜版的区别有什么? 全新BMW 3系的运动套装怎么样? 广东物联天下科技集团股份有限公司具体是做什么的? 兴海物联有多少员工