发布网友 发布时间:2023-01-10 20:14
共1个回答
热心网友 时间:2023-10-26 07:50
《极简统计学》共计21章,分为两部分来组织全文,第一部分主要介绍一些统计量,第二部分通过这些统计量来完成一些推论统计的过程。通读全书之后可以发现,本书的最终目的只是为了完成了两件很有意义的推导:
本文自然不会再完成这样一个推导过程。和原书的结构一样,本文也会分为两部分来做摘要,一部分是统计量,一部分是区间估计的方法。
平均值= (组值*相对频数)的合计
平均值= (数据总和) / (数据数)
上述两个公式都被用来计算算术平均值,事实上第一个可能用得更多。但是要明白,上面的两个公式都是用来计算算术平均值的,但是取平均值的方法并不止一个。
一般来说:如果想在合计意义上保持数据的本质,则使用算术平均值;想在乘积的意义上保持数据的本质,则用几何平均值,如成长率;对待速度则一般用调和平均值。
偏差= (数据的数值)-(平均值)
方差= [(偏差的平方)的合计]/(数据数)
标准差= 方差的开平方 = 偏差的均方根值
也可以通过分组之后计算相对频数的方式计算方差:
方差= (组值 - 平均值)的平方 * (相对频数) 的合计
平均值是从数据的分布中取出的代表的数。因此,可以认为数据以平均值为基点,在其左右扩散。评价这种扩散、分散的标准就是标准差。标准差将数据平均值的离散方式进行平均化。此时无论向大的方面离散还是小的方面离散,都用正数进行评价,避免相互抵消的平均。
这里和原书一样,通过S.D.来表示标准差,这是原书一个非常重要的统计量。一般会以S.D.作为判断数据特殊性的标准。可以认为只距离平均值1个S.D.的数据为普通数据,距离平均值超过2个S.D.的数据为特殊数据。
S.D.具备如下性质:
标准的数学著作中,正态分布需要有概率密度函数来决定,需要从概率的角度来进行推导,原书为了简便起见,完全不涉及概率的知识,这里也一样,只从应用的角度来对正态分布的性质做一个说明。
可以认为分布规律符合下面的图形的数据是正态分布的(μ代表平均值,σ代表标准差):
标准正态分布是平均值为0,S.D.为1的正态分布。
从上面的图形中可以看出一些正态分布的性质:
使用正态分布的知识,可以进行"预测"。从上面的描述的正态分布的性质可以看出来,如果我们把关注的不确定现象看做正态分布,那么,利用正态分布的性质对将要出现的数据进行预测就将成为可能。
从上面的正态分布曲线图可以知道,如果想加大预测的命中概率,就要扩大区间范围,如果想要100%命中,预测范围将是负无穷到正无穷的范围。通用的是"95%命中"或者"99%命中",原书中选取了世界上最常用的"95%命中"。后续的说明都是基于这一个命中概率来进行的。
从95%命中区间出发,可以得到两个结论:
有关正态分布(或者近似正态分布)的母群体的总体参数为某数值的假设检验,可以按照下面的方法进行:
其总体参数的母群体是正态分布,平均值为μ,标准差为σ时,如果观测到的数据x的不等式:
成立,假设不被舍弃(接受);否则,假设被舍弃。
这里,其实并没有开始预测,只是对一个随意的总体参数是否合理做了一个检验,而检验的依据是我们一般认为我们观测的数据都会落在总体数据分布的95%置信区间内,如果假设的总体参数不满足让观测数据落到置信区间,则将假设舍弃,否则接受。
区间估计是这样一种估计方法:它针对母群体的总体参数,在假定其总体参数的情况下,只集合了现实观测到的数据在观测数据“95%预测命中区间”的总体参数。根据区间估计确定的总体参数的范围叫做"95%置信区间"。由区间估计求得的区间,是对所有的总体参数进行上面应用1中的检验操作,不舍弃而保留下来的集合。
关于正态母群体已知标准差σ时,对未知的平均值μ进行区间估计的方法:使用观测到的数据x,解关于μ的一元一次不等式
得出 "* <= μ <= *"的形式即可。
95%置信区间是这样一种区间:它有各种各样的观测值用相同的方法进行区间估计,其中95%包含正确的总体参数。
统计量部分的描述就此结束了,这部分主要是通过不同的统计量来刻画数据的特征,并简单地说明了对正态母群体进行“统计检验”和"区间估计"的方法。
在现实生活中,我们是基本不可能观测到总体的全部数据的,很多时候只能获取到总体中一部分的数据。但是我们从一些现象中也可以得出这样的结论“如果进行充分的观测,就能相当鲜明地捕捉母群体的情况”。但是我们的目标是:“不进行那么大量的观测而推测出母群体的情况”。
我们知道,从母群体中观测到的数据是受母群体的总体特征制约的。原书给出了这样的结论:
我们回到先前的目标,就是要通过样本数据推测母群体即总体的情况。这依赖母群体的一些数学性质,原书作为统计的入门书,并没有也不需要给出这些数学理论的证明,这里直接拿来用就可以。
从上面的性质可以得到这样的结论:
对于均值为μ、标准差为σ的一个正态总体的n个样本均值来说,其95%置信区间为有下面的不等式解出来的范围,a为样本均值
本部分其实就是要达到四个目标:
下面来分别说明。
这个估计是很简单的,通过公式:
可以推出μ的95%置信区间是:
正态母群体的样本均值是符合正态分布的,而且样本均值也体现了总体均值的性质,可以通过上面的不等式来推导出总体均值的估计。样本方差当然也体现了总体方差的性质,但是样本方差并不服从正态分布。样本方差服从的是卡方分布。
卡方分布若n个相互独立的随机变量ξ₁、ξ₂、……、ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution)。
卡方分布的分布曲线如下:
从前面的知识我们可以知道,对于从正态母群体中观测到的n个样本,用如下公式表示的统计量V是自由度为n的卡方分布:
卡方分布的分布的临界值表如下:
通过查表可以知道V在95%置信区间的范围,从而求出总体方差的95%置信区间。如对于自由度为5的卡方分布V来说。95%的置信区间可以按照 0.83 <= V <= 12.83来计算最终的总体方差的置信区间。
从上面根据正态母群体的总体均值来推测总体方差的估计中我们可以看到,必须先要有知道总体均值,才能对总体方差进行估计,这是一个很不自然的假设。在实际应用中也是不太可能知道总体均值的存在的。那么如果不知道总体均值的时候,如何估计总体方差呢。
自然的想法是能不能通过样本的均值和方差来对总体的方差的估计。事实是统计学家们已经证明了下面的统计量W也是一个卡方分布,只不过自由度不是样本数据数n,而是n-1,(其中):
这里不用考虑如何证明W是自由度为n-1的卡方分布,直接去使用这一结论即可。我们有样本方差的公式:
从而可以推导出:
因为W是自由度为n-1的卡方分布,通过对w的95%置信区间的估计就可以得到一个不等式,解这个不等式就可以得到总体方差的95%的置信区间,完成对总体方差的估计。
现在只剩下最后一个困难的问题了,如何在只知道样本数据的情况下的得到总体均值的估计。从前面的讨论中其实可以看出,除总体均值μ以外,如果我们能只用样本数据得到的统计量,清楚其分布,我们自然就可以得到总体均值的估计。
英国化学家戈塞特发现了这样一个分布,并命名为t分布。我们可以看一下t分布的定义和特征。
如下公式表示的统计量T服从自由度为n-1的t分布:
我们知道,从正态母群体中的n个样本数据得到的统计量z服从标准正态分布:
但是在现实中,统计量σ往往是未知的,所有不能通过z来求得总体均值的估计。事实上统计量T和z形式上很像,不难看出,如果n足够大的时候,T的分布趋近于标准正态分布,但是当n并不是足够大的时候,T的分布和标准正态分布的偏差并不能被忽略。
t分布的概率密度分布图和特征如下:
特征
t分布速查表
对于每一个指定的自由度,如果求T的95%置信区间,只需要左右分别去掉0.025即可。如自由度为10的t分布的95%置信区间是-2.228 <= T <= 2.228。通过前面推导出来的T的统计量即可得到对总体均值μ的估计。
至此,在未知总体方差时,对总体均值的估计也已经完成
以上介绍了一些常见的统计量和比较常用的通过样本数据估计总体统计量的几个方法。原书毕竟只是一本统计学的入门书籍,通过本文可以对原书的结构和内容做一次概括的了解。如果想知道这些统计量具体的应用场景,可以查阅原书。对于统计学更高深的知识,读者可以去学习更专业的统计学课程。
事实上,作为统计学中最基础的两个统计量:平均值和标准差,已经能够刻画出来数据很重要的一些特征,如果能够从样本数据中推导出总体的的平均值和标准差,可以说是很了不起的一件事儿,能在现实生活生产实践中给予我们很多帮助了。
最后附上本书主要内容的思维导图