怎样检验一组数据是否符合伯努力分布啊?
发布网友
发布时间:2022-06-06 00:59
我来回答
共1个回答
热心网友
时间:2024-04-17 14:27
1
方法
性质1:
设x是一个随机变量,其分布函数为f(x),则y=f(x)服从在〔0,1〕的均匀分布。
性质2:
设x1,k,xn是某个分布的一个简单样本,其分布函数为f(x),由性质1可知,在概率意义下,f(x1),f(x2),k,f(xn)在(0,1)上呈均匀分布,按从小到大依次排序,记为f(x1),f(x2),k,f(xn),其相应理论值应为ri=i-0,5[]n,i=1,2,…,n,对应分布函数的反函数值f-1(r1),f-1(r2),k,f-1(rn)(在卡方分布中即为卡方分数)应非常接近x1,x2k,xn,故在概率意义下,这些散点(x1,f-1(r1)),(x2,f-1(r2)),l,(xn,f-1(rn))应在一条直线上。
根据性质2,如果x服从正态分布,则散点理论上应落在一直线上,可以用pearson系数刻画这种分布。但由于随机变异的存在,pearson系数并不等于1,所以通过随机模拟的方法,制定出pearson系数的95%界值下限。
性质3:
由条件概率公式p(x,y)=p(y|x)p(x)可知:(x,y)服从二元正态分布的充分必要条件是固定x,y服从正态分布(条件概率分布)并且x的边际分布为正态分布。由线性回归的性质ε=y-(α+βx)可知,固定x,y的条件概率分布为正态分布的充分必要条件是线性回归的残差ε服从正态分布,由此可得:(x,y)服从二元正态分布的充分必要条件是x的边际分布为正态分布以及线性回归模型y=α+βx+ε中的残差服从正态分布。
设x来自于正态总体,从正态总体中随机模拟抽样5000次,每次抽样样本含量分别为7至50,对f(x)求秩,求出排序后的f(x)和排序后的x的pearson相关系数。表1
随机模拟5000次得到的检验正态分布的pearson相关系数的界值(略)
类似地,我们也可以用同样的方法得到检验卡方分布的pearson相关系数的界值表(简化表)表2
相关系数界值表(略)
2
随机模拟验证
21
pearson相关系数界值表的随机模拟验证
设x来自于正态总体,从正态总体中随机模拟抽样5000次,每次抽样样本含量分别为10,20,30,40,50,并计算相应的pearson卡方系数,以及落在界值外面的比例,即拒绝比例,再在同一批数据的前提下用mcnemar检验比较本方法和swilk法的差别。表3
(一元正态分布)模拟次数(略)表4(一元偏态分布,χ2)模拟次数(略)
以上方法拒绝比例在样本量为7的可信区间为[78.37%,94.12%],在其余样本量时都接近100%,可以证实是正确的。
22
卡方分布界值表的随机模拟验证
表5
卡方分布:模拟5000次(略)
23
马氏距离的随机模拟验证
根据马氏距离的定义,从正态分布总体中随机抽取样本量分别为10,20,30,40,50的样本模拟5000次,根据上面提到的方法以卡方分数对x1,x2k,xn求pearson系数,并根据以上的相关系数界值表,计算相应的统计量,即拒绝比例。表6
马氏距离落在pearson系数界值表外的比例(略)
24
二元正态分布资料的随机模拟验证
设定一个二维矩阵a,分别求出特征值p和特征向量z,设x的元素均来自于正态总体分布,则y=z′×x必服从二元正态分布,随机模拟5000次,根据性质三介绍的方法验证的拒绝比例如下。表7
(二元正态分布)模拟次数(略)表8
(二元偏态分布,χ2)模拟次数(略)
25
三元正态分布资料的随机模拟验证
类似地,随机模拟5000次,用同样方法进行验证,得到对于三元正态分布数据的拒绝比例。表9
(三元正态分布)模拟次数:5000次