Winsorize数据处理和删除异常值的区别是什么
发布网友
发布时间:2022-04-24 05:37
我来回答
共2个回答
热心网友
时间:2023-05-30 16:02
您好,1、winsorize是用相应分位数的值替代分位数之外的值,而不是删掉,这样可以最大限度的保存数据信息另外,这个跟数据多少没关系。主要是根据已有文献来的,如果别人用winsorize你也要用,否则你的结论和别人的没有可比性。不过就我看来,至少在金融领域,使用winsorize比较普遍,删除异常值的做法越来越少的被使用了。
2、异常值处理,原理大致是将异常值修建成与正常分布最大值or 最小值相同。
eg,如果你的log_size都在20左右,例如在15~20之间区间浮动,有些特别大或特别小的值出现,用winsorize就会把他们变成区间的最大值or最小值。这个“特别大”or“特别小”是你自己可以定义的,如果你认为比20高出10%算作异常值,那么22就会被修改成20,放在样本里。
热心网友
时间:2023-05-30 16:03
不是删掉,有些特别大或特别小的值出现,这个跟数据多少没关系,那么22就会被修改成20,使用winsorize比较普遍,如果你认为比20高出10%算作异常值。
数据处理:数据处理(data processing),是对数据的采集、存储、检索、加工、变换和传输。根据处理设备的结构方式、工作方式,以及数据的时间空间分布方式的不同,数据处理有不同的方式。不同的处理方式要求不同的硬件和软件支持。每种处理方式都有自己的特点,应当根据应用问题的实际环境选择合适的处理方式。