发布网友 发布时间:2023-03-18 06:14
共1个回答
热心网友 时间:2023-11-03 19:50
处理离群值的方法有:直方图、箱线图、 散点图等方法。
离群值的介绍:
根据维基百科定义,"在统计学中,离群点是指与其他观测值有显著差异的数据点。离群点可能是由于测量中的变异性,也可能表示实验错误;后者有时会从数据集中排除。离群点会在统计分析中造成严重的问题"。
所以,离群点是指一个数据与其他数据相比,其数值过高或过低。例如,在一个高中班级里,几乎所有的学生都在18岁左右,然而有一个学生的年龄是35岁。
离群值是由许多原因造成的,如改变传感器的灵敏度,实验错误或数据处理错误。无论如何,在我们数据分析师或科学家处理数据之前,离群值可能在任何步骤中造成。
离群值检验:
不同的离群值情景(单个,多个可能的离群值,单边还是双边等)和检验方法会有不同设计的统计量与对应的概率分布。检验的方法有许多种,有的甚至是简单的半经验方法。通常文献、教课书上看到的方法有简单切尾均值法,a切尾均值/标准差。
*人发明的拉伊达准则,MAD (Median Absolute Deviation)法, Tukey’s 箱线图法,Grubbs ESD 统计量法,Tiejen-Moore 统计量法,Huber’s M-estimator等(大都假设原本数据属于正态分布,或者偏离正态分布不远)。有一次检测一个离群值的方法,有一次可以检测多个单边或双边的离群值的方法。各种方法都有它的局限性。