怎么做方差分析

发布网友发布时间：2022-04-22 07:05

共2个回答

热心网友时间：2022-06-17 05:10

方差分析就是每个取样和平均值之间差的平方，然后看这个范围的大小分布。

热心网友时间：2022-06-17 05:11

两物件的质量a，b都未知，把它们各放在一架天平上称若干次，要根据其结果来判断a和b是否相同。天平称量的结果带有随机误差，故通过称量结果对a，b作估计，其估计值不一定可靠。显然，这是一个假设检验格局的问题，可以用以前文章中介绍的t检验法进行处理。今天我们从另一个角度来考察这个问题，由此引出一个重要的方法一一方差分析法。

方差分析法是费希尔20世纪20年代在英国罗瑟姆斯泰德农业试验站工作时发展起来的，当时在该试验站有一个由卡尔・皮尔逊领导的统计分析室。费希尔于1921年来此工作后，即从事研究田间试验的设计及其统计分析的研究，他全面革新了设计的思想，提出了随机化、重复与分区组三大原则，莫定了统计试验设计的扎实基础。他还发展了方差分析法作为分析这种试验数据的有力方法。试验设计和方差分析是统计学发展史上一座重要的里程碑。

以x1，…，xm记对a称量m次的结果，以xm+1，…，xn记对b称量n-m次的结果，全部试验数据为x1，…，xn。这组数据有一定的散布度，可以用

去衡量。SST是方差分析中的习惯记法，叫作总平方和。为什么会形成这个散布度呢?

显然有两个原因：

一是a，b可能不同，这使全部数据x1，…，xn有两个“中心”；

二是随机误差的影响，使数据在每个中心附近有散布。

a，b差别愈大，前一条愈重要，即它在构成SST中占的份额大。若a＝b，则SST全部是由随机误差而来的。因此，若能把SST用适当方式分解为两部分：SST=SS1+SS2，使SS1和SS2分别能反映在SST的构成中，由“a≠b”和“有随机误差”这两个原因所占的份额，可知SS1/SS2愈大，判断a≠b(就是说否定原假设a＝b)就愈有理由。

如果物件不止2个，而有3个、4个，或一般地有c个，即把c看成是一个因子的c个水平（如因子为玉米品种，c个水平代表玉米的亩产量指标值等），上述思想仍适用，同时还可以进一步外延，从一个因子推广到多个因子的试验中。如：设为试制一种新产品，其某项质量指标X可能与配方、温度、压力以及试验只分成若干个区组部分实施等因子有关。则如果能设法将全部试验结果算出的总平方和SST分解为几部分的和：

SST=SS配方+ SS温度+ SS压力+ SS区组+ SSe

SSe是因随机误差的存在而带来的平方和。分别将分解式的前面四项和SSe对比，比值大的则说明该因子有显著性。那么就需要进一步探究，在以后的生产中该因子需要控制在怎样的水平上，才能取得良好的效果。反之，若这个比值不大，则说明该因子对质量指标所起的影响与随机误差所起的影响相同，则这个因子不重要，以后的生产中，则不需要考虑将该因子控制在一定的水平上。

当然，SST能否作出如上式的分解，如何分解，取决于具体的设计——水平取多少个，多少部分实施，怎样分区组等。优良设计的一项标准就是要便于以后的统计分析。因此，为了后续的分析，就是要求设计要使得SST能作出如上式的分解。

今天我们通过最简单的完全随机化设计来介绍方差分析法的运用：

完全随机化设计指的是不分区组，试验单元指给哪个处理，全凭实施随机化的结果。

设有c个玉米品种，要选一个品种在田间大面积播种。经过随机化设计，预先决定第i个品种重复ni次(在ni块试验地上种植)，其试验结果(每亩产量以千克计)为xi1，xi2，…，xini(i＝1，…，c)。则全部试验数据x11，x12，…，x1n1；x21，x22，…，x2n2；…; xc1，xc2，…，xcnc的算术平均值为

其中n＝n1+n2+…+nc，于是得到全部数据的总平方和为

现在要设法把这个量分解为两部分，其一可解释为因各品种产量不同所引起的，另一则解释为因随机误差所引起的。为此，注意

固定i，对j从1到ni求和。注意到

在求和时保持不变，而

所以

于是得到

A表示“品种“这个因子。这个分解满足了所提的要求。

SSA称为品种平方和，因为`xi是第i个品种(平均)产量的估计值，而

故如果各品种产量有较大差距，则SSA将倾向于取较大的值，因此SSA这一项确实反映因“品种”这个因子各水平的差别而在SST中作出贡献的部分。

SSe称为误差平方和，是同一品种重复试验的结果，其散布度纯系由随机误差而来。

接下来需要把SSA与SSe作比较。但在比较前，需要“规格化“一下，把每个平方和去除以其自由度，得平均平方和MSA和MSe。SSA的自由度为c-1，SSe的自由度为n-c。将以上的计算结果列成表将得到完全随机化的方差分析表：

表中MSA/MSe称为F比，用它来检验因子A对指标是否有影响有如下优点：

1）消除了指标值的单位的影响；

2）好比把随机误差的影响（规格化为MSe）作为一把尺子，拿这把尺子去度量别的因子的影响，如果比值显著，用它来说明因子的作用显著胜过随机误差的作用，这才有实际意义。

3）如果有若干因子A，B，C，…，则比值之和MSA/MSe+ MSB/MSe+…并不以1为界，故每一个的平方和是各自起作用，不受其他因子的影响。

4） MSA/MSe还有一个很重要的好处：在试验结果服从正态分布的条件下，这个比值作为一个随机变量(因为其值取决于有随机性的试验结果)，有一种在统计学上称为F分布的简单分布，这正是把这个比值称为F比的原因。这个分布的密度函数的形状与卡方分布的密度函数形状大体相似，与卡方分布不同的是，卡方分布只有一个自由度，而MSA/MSe的F分布有自由度n1，n2，其中n1，n2分别为MSA和MSe的自由度(次序不能乱)。自由度为(n1，n2)的F分布常记为F n1，n2。

现在就可以由这个F分布定出所要的界限：给定水平α后，从F分布表上查出值F n1，n2（α），它就是所要的界限。用这个界限，即当

MSA/MSe＞F n1，n2（α）

时，否定“因子A对指标无影响”的原假设，不然就不否定。照这样做，判断出错(即:当因子A其实对指标无影响时，而判断它有影响)的概率不超过α。上面的检验式就叫作F检验。当然和其他检验法一样，我们也可以借助F分布计算试验数据对于“因子A对指标无影响”这个原假设的拟合优度。