问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

解决正负样本数据不平衡

发布网友 发布时间:2023-02-12 05:26

我来回答

1个回答

热心网友 时间:2023-05-08 10:18

解决这一问题的基本思路是让正负样本在训练过程中拥有相同的话语权,比如利用采样与加权等方法。为了方便起见,我们把数据集中样本较多的那一类称为“大众类”,样本较少的那一类称为“小众类”。

采样方法是通过对训练集进行处理使其从不平衡的数据集变成平衡的数据集,在大部分情况下会对最终的结果带来提升。

采样分为 上(过)采样(Oversampling) 和 下(欠)采样(Undersampling) ,上采样是把小众类复制多份,下采样是从大众类中剔除一些样本,或者说只从大众类中选取部分样本。

随机采样最大的优点是简单,但缺点也很明显。上采样后的数据集中会反复出现一些样本,训练出来的模型会有一定的过拟合;而下采样的缺点显而易见,那就是最终的训练集丢失了数据,模型只学到了总体模式的一部分。

上采样 会把小众样本复制多份,一个点会在高维空间中反复出现,这会导致一个问题,那就是运气好就能分对很多点,否则分错很多点。为了解决这一问题,可以在每次生成新数据点时加入轻微的随机扰动,经验表明这种做法非常有效。

因为 下采样 会丢失信息,如何减少信息的损失呢? 第一种方法叫做EasyEnsemble,利用模型融合的方法(Ensemble) :多次下采样(放回采样,这样产生的训练集才相互独立)产生多个不同的训练集,进而训练多个不同的分类器,通过组合多个分类器的结果得到最终的结果。 第二种方法叫做BalanceCascade ,利用增量训练的思想(Boosting):先通过一次下采样产生训练集,训练一个分类器,对于那些分类正确的大众样本不放回,然后对这个更小的大众样本下采样产生训练集,训练第二个分类器,以此类推,最终组合所有分类器的结果得到最终结果。 第三种方法是利用KNN试图挑选那些最具代表性的大众样本 ,叫做NearMiss,这类方法计算量很大。

数据合成方法是利用已有样本生成更多样本,这类方法在小数据场景下有很多成功案例,比如医学图像分析等。

SMOTE 为每个小众样本合成相同数量的新样本,这带来一些潜在的问题:一方面是增加了类之间重叠的可能性,另一方面是生成一些没有提供有益信息的样本。为了解决这个问题, 出现两种方法:Borderline-SMOTE与ADASYN 。

Borderline-SMOTE 的解决思路是寻找那些应该为之合成新样本的小众样本。即为每个小众样本计算K近邻,只为那些K近邻中有一半以上大众样本的小众样本生成新样本。直观地讲,只为那些周围大部分是大众样本的小众样本生成新样本,因为这些样本往往是边界样本。确定了为哪些小众样本生成新样本后再利用SMOTE生成新样本。

对不同类别分错的代价不同。如下图

横向是真实分类情况,纵向是预测分类情况,C(i,j)是把真实类别为j的样本预测为i时的损失,我们需要根据实际情况来设定它的值。

这种方法的难点在于设置合理的权重,实际应用中一般让各个分类间的加权损失值近似相等。当然这并不是通用法则,还是需要具体问题具体分析。

对于正负样本极不平衡的场景,我们可以换一个完全不同的角度来看待问题:把它看做一分类(One Class Learning)或异常检测(Novelty Detection)问题。这类方法的重点不在于捕捉类间的差别,而是为其中一类进行建模,经典的工作包括One-class SVM等。

说明:对于正负样本极不均匀的问题,使用异常检测,或者一分类问题,也是一个思路。

1、在正负样本都非常之少的情况下,应该采用数据合成的方式;

2、在负样本足够多,正样本非常之少且比例及其悬殊的情况下,应该考虑一分类方法;

3、在正负样本都足够多且比例不是特别悬殊的情况下,应该考虑采样或者加权的方法。

4、采样和加权在数学上是等价的,但实际应用中效果却有差别。尤其是采样了诸如Random Forest等分类方法,训练过程会对训练集进行随机采样。在这种情况下,如果计算资源允许上采样往往要比加权好一些。

5、另外,虽然上采样和下采样都可以使数据集变得平衡,并且在数据足够多的情况下等价,但两者也是有区别的。实际应用中,我的经验是如果计算资源足够且小众类样本足够多的情况下使用上采样,否则使用下采样,因为上采样会增加训练集的大小进而增加训练时间,同时小的训练集非常容易产生过拟合。

6、对于下采样,如果计算资源相对较多且有良好的并行环境,应该选择Ensemble方法。

参考https://blog.csdn.net/lujiandong1/article/details/52658675?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.control&dist_request_id=1328641.21496.16155984958537047&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.control
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
找专业防水队做完还漏水怎么维权 法院会受理房屋漏水造成的纠纷吗? 巴西龟最长活多久,家养!!! 养胃的药最好的是什么啊 婴儿积食发烧不愿吃药怎么办 板门穴位在哪个部位 手机设置放偷看的方法? 凝结水回收器生产厂家? 个人账户养老金预测公式:现有5万元,缴费20年,能领多少钱? 临沂比较有名的男装品牌 [翻译]处理样本不均衡的8个方法 自大骄傲近义 如何处理不平衡数据(一)——欠采样 看待的意思-看待造句 看待的造句 qq拼音3.4 手写输入怎么安装不了词库 为什么格式化SD卡时会出现Windows无法格式化 合肥保安证在哪里考的 诺基亚手机开机出现slm not vslid 三门峡装修公司有哪些 三门峡装修一套140的房子平均需要多少钱? 三门峡东鹏整装家居怎么样 三门峡正一装饰怎么样 洛克王国金藤草王怎么打 安字写法 为什么我会那么笨呢而且又没记性怎么办啊 波音737-700使用寿命 波音737告别中国 波音737能坐多少人?飞机选座位什么位置好 什么是波音737? 用虎贲造句(大约30个左右) 学海鲜焖面需要多少钱 哪里学海鲜焖面技术 北京师范大学珠海分校 汉语言文学,这个专业怎么样 wt拉链是哪里产的 ...铂金标志。请问,wt与pt有什么区别?代表的纯度又是多少? 铂金项链里写个wt是什么意思 也的读音 ifirmlybelievethat…写一个句子 高二英语分词问题 请问美图手机照相机的闪光灯怎么关闭呢 过去分词做伴随状语造句 句子 抖音别人的喜欢为什么看不到? 河虾如何清洗干净 河虾怎么清洗干净 后悔的英文单词 可以这样造句 l regret...touch with you come to regret 货拉拉拉一趟,公司收多少钱? 多肽和鱼子酱哪个更抗皱 vivo y79,vivo y85,魅族E3比起来哪个好 今晚英雄联盟维护吗 dnf9.22几点维护