发布网友 发布时间:2023-04-13 10:25
共1个回答
热心网友 时间:2023-10-09 10:21
统计研究分实验性研究和观测性研究。前者需要控制无关变量,通过实验产生我们需要的数据,后者往往通过抽样调查等方式获得。
本章介绍三种类型的实验设计:完全随机化设计、随机化区组设计和析因实验。
例子:供水过滤系统的部件组装方法有A、B和C。问题:哪种方法使每周产量最多。
在这个实验中,装备方法是独立变量或因子(factor)。对应三种方法,所以这个实验有三个处理,每个处理(treatment)对应一种装配方法。并且是单因子实验(single-factor experiment),因为只涉及装配方法一个因子。也可以有多因子,因子分定性和定量的。
该实验对应三个总体:三个总体分别使用A、B和C其中一种方法。每个总体的因变量或响应变量是每周装配的过滤系统的数量。
实验目的:确定三个总体的因变量是否相同。
假设我们抽取三名工人组成一个随机样本,三名工人构成实验单元,下面将使用完全随机化设计(completely randomized design),要求每种方法随机给其中一个工人,这里相当于工有 种分配方法。(随机化的概念是所有实验设计的一个重要原则)
上述方法,每个装配方法只能得到一个因变量的测度,但是我们可以随机抽15个人,每种方法随机分5人。这样就得到了更多因变量的测度。这个过程叫复制。(复制的过程是实验设计的另一个重要原则。)
通过收集数据得到
应用方差分析需要三个假定:
样本均值彼此接近,则越支持 ,反之支持
如果原假设( )成立,我们利用样本均值之间地变异性简历 的一个估计。则所有样本都来自同一个总体。这些样本均值 同样服从正态分布,且均值为 ,方差为 。
回到过滤系统的例子中,我们假设 , , 都来自同一个总体(样本容量相同), 抽样分布的均值的估计值为: , 抽样分布的方差 的估计可以由三个样本均值的方差给出 。
再由 解得 因为 是用 作为估计量,所以这里得 也是估计量。
所得的结果 称作 的处理间估计。
上述都是基于 为真的情形,如果 为假,且均值全不相同,则三个抽样分布来自三个总体。于是 会比较大,从而使得 的处理间估计也变得较大。
当我们从每个总体抽取一个随机样本时,每个样本方差都给出了 的一个无偏估计,我们将 的个别估计组合或合并成一个总体估计。这种方法得到值称作 的合并估计或处理内估计。因为这里的每个样本方差给出的 的估计仅以每个样本内部的变异为依据。
的处理内估计
我们看到 的处理间估计(260)远大于处理内估计(28.33),比值为9.18。
当原假设为真,处理间估计方法才是总体方差 的一个好的估计量,
当原假设为假,处理间估计将高估总体方差 。
不过这两种情形下,处理内估计都是总方差 的一个好的估计量。因此原假设为真,两估计量接近,比值接近1;如果原假设为假,则处理间估计将大于处理内估计,比值也会比较大。
总结:
ANOVA背后的逻辑是以共同总体方差 的两个独立的估计量为基础,即处理间估计和处理内估计。通过比较两个估计量,来确定总体均值是否相等。
完全随机化实验设计中,如何用方差分析来检验k个总体均值是否相等:
我们称处理间估计的 为均方处理(mean square e to treatments, MSTR)
式中分子称作处理平方和(sum of squares e to treatments, SSTR)。分母k-1表示与SSTR相联系的自由度。
均方处理:
若 为真,则MSTR给出了 的一个无偏估计。但 为假时,则MSTR就不是 的无偏估计,会高估总体方差
回到例子:
对 的处理内估计称作均方误差(mean square e to error,MSE)
分子称作误差平方和(sum of squares e to error,SSE)
均方误差:
我们注意到:MSE是以每个处理内部的变异性为依据,它不受原假设是否为真的影响。因此,MSE永远给出 的一个无偏估计
回到例子:
如果原假设 为真,则MSTR和MSE给出的 的两个独立的无偏估计量。 的两个独立的估计量纸币的抽样分布服从 分布。
k个总体均值相等的检验统计量:
检验统计量服从分子自由度为k-1,分母自由度为 的F分布(ANOVA的假定要得到满足)
回到生产过滤系统的例子:在 的显著水平下,进行假设实验,我们计算得到 ,分子自由度为2,分母自由度为12.
当然也可以用临界值法,当 时,F的临界值是3.8853<9.18。所以也拒绝
总结:
前面的计算结果,可以使用方差分析表或ANOVA表表示出来。一个完全随机化实验设计的ANOVA表的一般形式如下:
总平方和SST的计算公式:
且:
我们可以吧SST看作“处理平方和”与“误差平方和”的和。且自由度 也可由对应的SSTR和SSE的自由度加起来。
方差分析可以被看作将总平方和及其自由度分解成它们对应的来源(处理与误差)的一个过程。
例子:NCP公司对工厂员工的生产意识进行考试,共有3个工厂,每个工厂抽取6人。成绩如下:
总结:
方差分析只能告诉我们k个总体均值是否相等,但是具体哪些总体相等,哪些不相等,我们需要用多重比较方法在成对的总体均值之间进行统计比较。
在方差分析钟拒绝了 ,在这种情况下Fisher的最小显著性差异(least significant difference,LSD)方法可以用来确定哪些均值存在差异。
检验统计量:
拒绝法则:
p-值法:如果 p-值 ,则拒绝
临界值法:如果 或者 ,则拒绝
其中 是自由度为 时,t分布的上侧面积为 的t值。
我们令 ,判断总体1(方法A)和总体2(方法B)的均值是否存在差异。
经过excel计算,t=-1.19,自由度为12时,的下侧面积为0.1285,双侧加起来即为p-值=0.2571>0.05所以,我们拒绝原假设,认为方法1和方法2的均值不相等。
基于检验统计量 的Fisher的LSD方法:
检验统计量:
显著水平 下的拒绝法则:如果 ,则拒绝
其中:
在过滤系统的例子中,通过计算得到
计算后,我们可以把三个总体的样本均值计算出来,比如总体1和总体3的样本均值差为62-52=10>7.34,这就意味着我们拒绝认为总体1和总体3均值相等。
Fisher的LSD方法的两个总体均值之差的置信区间估计
其中 是自由度为 时,t分布的上侧面积为 的t值。
如果置信区间包含数值0,则不能拒绝两个总体均值相等的原假设。如果不包含则拒绝 。
Fisher的LSD方法被称为保护性或*性LSD检验,这是因为只有当我们首先找到一个用于方差分析的显著的F值时,才能使用LSD检验。
第Ⅰ类错误概率和实验方式的第Ⅰ类错误概率
我们都是用 的显著水平,对每个检验来说犯 为0.05,我们把这个概率称作比较方式的第Ⅰ类错误概率,表示单个的两两比较相联系的显著性水平。
在三次检验中至少有一次犯第Ⅰ类错误的概率为 ,我们称这个概率为实验方式的第Ⅰ类错误概率,记作
当总体较多时,实验方式的第Ⅰ类错误概率就会比较大。
如何控制 呢?-使用Bonferrani修正方法
假设我们想要检验C个成对的两两比较( )
我们令 ,例如针对5个总体,10种比较,想让实验方式的第Ⅰ类错误概率为0.05,则
但是一类错误和二类错误是成反比的,所以如何去权衡是个问题。也有其他方法,如Turkey方法、Duncan多重区域检验等,哪种更优有争议。
有时外部因素(实验中没有考虑到的因素)引起MSE变大时,F将会变小。让我们误以为处理间没有差异,但是事实上是存在的。
本节将会介绍随机化区组设计(randomized block design)的实验设计。这个方法主要是通过消除MSE来自外部的变异,来达到控制变异外部来源的目的。
举例:探究不同工作系统是否产生不同的压力。现有3种设计方案,我们要探究不同方案之间有多大差异。
管理者希望管理员个人的变异性是MSE项的主要贡献者,将个人差异分离出来的一种办法是使用随机化区组设计。随机化区组需要管理员的一个单样本,分别在三个工作站接受检验。即工作站是影响因子,管理员是区组。(后面简称工作站为系统A、B和C)
每个个体都需要接受三次检验,检验顺序也需要是随机的。值是工作压力的度量。
随机化区组设计的ANOVA方法,要求我们将总平方和(SST)分解成:处理平方和(SSTR)、区组平方和(SSBL)和误差平方和(SSE)。
随机化区组设计,主要功能就是通过划分区组,将个人的差异从MSE中剔除。
步骤:
计算得到:
上述的例子是完全区组设计,即每个区组都要做k个处理。对应不完全区组设计,即某些(不是全部)处理被用于每个区组(如每个人都完成了系统A和B的检验,只有个别人完成了系统C的检验)
注释:
由于有b个区组,使得自由度减少了b-1,所以随机化区组设计的误差自由度小雨完全随机化设计的误差自由度。如果n很小,因为误差自由度的减少,区组的潜在影响可能被掩盖;当n很大时,这种影响被最小化了。
有时,我们需要得到一个以上变量或因子的统计结论。析因实验(factorial experiment)是一种实验设计。
举例:GMAT考试(商学院研究生考试),分数在200~800之间。现在有3种GMAT辅导课程。考生本科来自3种类型的院校。对应有9种处理组合,每个处理组合容量为2,意味着有两个复制。
从种类型学校,每个学校取6人,分三组,随机分配到一个辅导课程。
我们希望得到的答案:
两因子析因实验的ANOVA方法要求我们将总平方和(SST)分为四个部分:因子A的平方和(SSA)、因子B的平方和(SSB)、交互作用的平方和(SSAB)、误差平方和(SSE)。
得到计算结果:
一般中型到大型的析因实验中涉及大量计算,需要用计算机。
综上,
链接: https://pan.baidu.com/s/1fc0q-Q4kj3g-7Fr4MHZaqw 提取码: 333c 复制这段内容后打开百度网盘手机App,操作更方便哦