怎么做方差分析
发布网友
发布时间:2022-04-22 07:05
我来回答
共2个回答
热心网友
时间:2022-06-17 05:10
方差分析就是每个取样和平均值之间差的平方,然后看这个范围的大小分布。
热心网友
时间:2022-06-17 05:11
两物件的质量a,b都未知,把它们各放在一架天平上称若干次,要根据其结果来判断a和b是否相同。天平称量的结果带有随机误差,故通过称量结果对a,b作估计,其估计值不一定可靠。显然,这是一个假设检验格局的问题,可以用以前文章中介绍的t检验法进行处理。今天我们从另一个角度来考察这个问题,由此引出一个重要的方法一一方差分析法。
方差分析法是费希尔20世纪20年代在英国罗瑟姆斯泰德农业试验站工作时发展起来的,当时在该试验站有一个由卡尔・皮尔逊领导的统计分析室。费希尔于1921年来此工作后,即从事研究田间试验的设计及其统计分析的研究,他全面革新了设计的思想,提出了随机化、重复与分区组三大原则,莫定了统计试验设计的扎实基础。他还发展了方差分析法作为分析这种试验数据的有力方法。试验设计和方差分析是统计学发展史上一座重要的里程碑。
以x1,…,xm记对a称量m次的结果,以xm+1,…,xn记对b称量n-m次的结果,全部试验数据为x1,…,xn。这组数据有一定的散布度,可以用
去衡量。SST是方差分析中的习惯记法,叫作总平方和。为什么会形成这个散布度呢?
显然有两个原因:
一是a,b可能不同,这使全部数据x1,…,xn有两个“中心”;
二是随机误差的影响,使数据在每个中心附近有散布。
a,b差别愈大,前一条愈重要,即它在构成SST中占的份额大。若a=b,则SST全部是由随机误差而来的。因此,若能把SST用适当方式分解为两部分:SST=SS1+SS2,使SS1和SS2分别能反映在SST的构成中,由“a≠b”和“有随机误差”这两个原因所占的份额,可知SS1/SS2愈大,判断a≠b(就是说否定原假设a=b)就愈有理由。
如果物件不止2个,而有3个、4个,或一般地有c个,即把c看成是一个因子的c个水平(如因子为玉米品种,c个水平代表玉米的亩产量指标值等),上述思想仍适用,同时还可以进一步外延,从一个因子推广到多个因子的试验中。如:设为试制一种新产品,其某项质量指标X可能与配方、温度、压力以及试验只分成若干个区组部分实施等因子有关。则如果能设法将全部试验结果算出的总平方和SST分解为几部分的和:
SST=SS配方+ SS温度+ SS压力+ SS区组+ SSe
SSe是因随机误差的存在而带来的平方和。分别将分解式的前面四项和SSe对比,比值大的则说明该因子有显著性。那么就需要进一步探究,在以后的生产中该因子需要控制在怎样的水平上,才能取得良好的效果。反之,若这个比值不大,则说明该因子对质量指标所起的影响与随机误差所起的影响相同,则这个因子不重要,以后的生产中,则不需要考虑将该因子控制在一定的水平上。
当然,SST能否作出如上式的分解,如何分解,取决于具体的设计——水平取多少个,多少部分实施,怎样分区组等。优良设计的一项标准就是要便于以后的统计分析。因此,为了后续的分析,就是要求设计要使得SST能作出如上式的分解。
今天我们通过最简单的完全随机化设计来介绍方差分析法的运用:
完全随机化设计指的是不分区组,试验单元指给哪个处理,全凭实施随机化的结果。
设有c个玉米品种,要选一个品种在田间大面积播种。经过随机化设计,预先决定第i个品种重复ni次(在ni块试验地上种植),其试验结果(每亩产量以千克计)为xi1,xi2,…,xini(i=1,…,c)。则全部试验数据x11,x12,…,x1n1;x21,x22,…,x2n2;…; xc1,xc2,…,xcnc的算术平均值为
其中n=n1+n2+…+nc,于是得到全部数据的总平方和为
现在要设法把这个量分解为两部分,其一可解释为因各品种产量不同所引起的,另一则解释为因随机误差所引起的。为此,注意
固定i,对j从1到ni求和。注意到
在求和时保持不变,而
所以
于是得到
A表示“品种“这个因子。这个分解满足了所提的要求。
SSA称为品种平方和,因为`xi是第i个品种(平均)产量的估计值,而
故如果各品种产量有较大差距,则SSA将倾向于取较大的值,因此SSA这一项确实反映因“品种”这个因子各水平的差别而在SST中作出贡献的部分。
SSe称为误差平方和,是同一品种重复试验的结果,其散布度纯系由随机误差而来。
接下来需要把SSA与SSe作比较。但在比较前,需要“规格化“一下,把每个平方和去除以其自由度,得平均平方和MSA和MSe。SSA的自由度为c-1,SSe的自由度为n-c。将以上的计算结果列成表将得到完全随机化的方差分析表:
表中MSA/MSe称为F比,用它来检验因子A对指标是否有影响有如下优点:
1) 消除了指标值的单位的影响;
2) 好比把随机误差的影响(规格化为MSe)作为一把尺子,拿这把尺子去度量别的因子的影响,如果比值显著,用它来说明因子的作用显著胜过随机误差的作用,这才有实际意义。
3) 如果有若干因子A,B,C,…,则比值之和MSA/MSe+ MSB/MSe+…并不以1为界,故每一个的平方和是各自起作用,不受其他因子的影响。
4) MSA/MSe还有一个很重要的好处:在试验结果服从正态分布的条件下,这个比值作为一个随机变量(因为其值取决于有随机性的试验结果),有一种在统计学上称为F分布的简单分布,这正是把这个比值称为F比的原因。这个分布的密度函数的形状与卡方分布的密度函数形状大体相似,与卡方分布不同的是,卡方分布只有一个自由度,而MSA/MSe的F分布有自由度n1,n2,其中n1,n2分别为MSA和MSe的自由度(次序不能乱)。自由度为(n1,n2)的F分布常记为F n1,n2。
现在就可以由这个F分布定出所要的界限:给定水平α后,从F分布表上查出值F n1,n2(α),它就是所要的界限。用这个界限,即当
MSA/MSe>F n1,n2(α)
时,否定“因子A对指标无影响”的原假设,不然就不否定。照这样做,判断出错(即:当因子A其实对指标无影响时,而判断它有影响)的概率不超过α。上面的检验式就叫作F检验。当然和其他检验法一样,我们也可以借助F分布计算试验数据对于“因子A对指标无影响”这个原假设的拟合优度。