判断模型是否过拟合、欠拟合、数据问题?
发布网友
发布时间:2022-10-08 17:22
我来回答
共1个回答
热心网友
时间:2023-12-06 04:29
该篇文章探索的是用pytorch搭建的模型是否出现过拟合、欠拟合、数据问题。
怎么知道知道自己的模型是过拟合,欠拟合,数据问题?
1)学习曲线(learning curves)
2)交叉验证(corss-validation)
3)我们可以先通过训练集和测试集准确率的大小,直观的判断模型是否过拟合;当没有把握断定模型是否过拟合时,再借助学习曲线。
详细介绍请查看此 文章
一份可运行的学习曲线(learning curves) 1 2 3
过拟合是模型对训练集数据拟合能力太强,甚至将训练数据中的noise都学习进去了,造成了在测试集上预测能力差的情况。
出现过拟合的原因
·训练数据量级小于模型的复杂度;
·训练集和测试集特征分布不一致;
·样本里的噪声数据过大,大到模型过分记住了噪声特征,反而忽略了真实的输入输出的关系;
·权值学习迭代次数足够多(overtraining)
过拟合,克服思路
1·利用dropout
2·利用L2/L1 regularization
torch.optim集成了很多优化器,如SGD,Adadelta,Adam,Adagrad,RMSprop等,这些优化器中有一个参数weight_decay,用于指定权值衰减率,相当于L2正则化中的λ参数。L2正则化:
缺点:torch.optim的优化器只能实现L2正则化,不能实现L1正则化。
3·调小batch_size
4·搜集更多数据
5·对神经元归一化BatchNorm
pytorch中BatchNorm有BatchNorm1d、BatchNorm2d、BatchNorm3d三种,根据具体数据选择不同的BatchNorm,BatchNorm层的使用与普通的层使用方法类似。
参考文章:
【1】 sklearn模型调优(判断是否过拟合及选择参数)
【2】 过拟合(出现的原因4种、解决方案6种)
【3】 深度学习过拟合解决方案(pytorch相关方案实现)
【4】 欠拟合、过拟合及其解决方法