问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

《极简统计学》-帮你快速入门统计学

发布网友 发布时间:2023-01-10 20:14

我来回答

1个回答

热心网友 时间:2023-10-26 07:50

《极简统计学》共计21章,分为两部分来组织全文,第一部分主要介绍一些统计量,第二部分通过这些统计量来完成一些推论统计的过程。通读全书之后可以发现,本书的最终目的只是为了完成了两件很有意义的推导:

本文自然不会再完成这样一个推导过程。和原书的结构一样,本文也会分为两部分来做摘要,一部分是统计量,一部分是区间估计的方法。

平均值= (组值*相对频数)的合计

平均值= (数据总和) / (数据数)

上述两个公式都被用来计算算术平均值,事实上第一个可能用得更多。但是要明白,上面的两个公式都是用来计算算术平均值的,但是取平均值的方法并不止一个。

一般来说:如果想在合计意义上保持数据的本质,则使用算术平均值;想在乘积的意义上保持数据的本质,则用几何平均值,如成长率;对待速度则一般用调和平均值。

偏差= (数据的数值)-(平均值)

方差= [(偏差的平方)的合计]/(数据数)

标准差= 方差的开平方 = 偏差的均方根值

也可以通过分组之后计算相对频数的方式计算方差:

方差= (组值 - 平均值)的平方 * (相对频数) 的合计

平均值是从数据的分布中取出的代表的数。因此,可以认为数据以平均值为基点,在其左右扩散。评价这种扩散、分散的标准就是标准差。标准差将数据平均值的离散方式进行平均化。此时无论向大的方面离散还是小的方面离散,都用正数进行评价,避免相互抵消的平均。

这里和原书一样,通过S.D.来表示标准差,这是原书一个非常重要的统计量。一般会以S.D.作为判断数据特殊性的标准。可以认为只距离平均值1个S.D.的数据为普通数据,距离平均值超过2个S.D.的数据为特殊数据。

S.D.具备如下性质:

标准的数学著作中,正态分布需要有概率密度函数来决定,需要从概率的角度来进行推导,原书为了简便起见,完全不涉及概率的知识,这里也一样,只从应用的角度来对正态分布的性质做一个说明。

可以认为分布规律符合下面的图形的数据是正态分布的(μ代表平均值,σ代表标准差):

标准正态分布是平均值为0,S.D.为1的正态分布。

从上面的图形中可以看出一些正态分布的性质:

使用正态分布的知识,可以进行"预测"。从上面的描述的正态分布的性质可以看出来,如果我们把关注的不确定现象看做正态分布,那么,利用正态分布的性质对将要出现的数据进行预测就将成为可能。

从上面的正态分布曲线图可以知道,如果想加大预测的命中概率,就要扩大区间范围,如果想要100%命中,预测范围将是负无穷到正无穷的范围。通用的是"95%命中"或者"99%命中",原书中选取了世界上最常用的"95%命中"。后续的说明都是基于这一个命中概率来进行的。

从95%命中区间出发,可以得到两个结论:

有关正态分布(或者近似正态分布)的母群体的总体参数为某数值的假设检验,可以按照下面的方法进行:

其总体参数的母群体是正态分布,平均值为μ,标准差为σ时,如果观测到的数据x的不等式:

成立,假设不被舍弃(接受);否则,假设被舍弃。

这里,其实并没有开始预测,只是对一个随意的总体参数是否合理做了一个检验,而检验的依据是我们一般认为我们观测的数据都会落在总体数据分布的95%置信区间内,如果假设的总体参数不满足让观测数据落到置信区间,则将假设舍弃,否则接受。

区间估计是这样一种估计方法:它针对母群体的总体参数,在假定其总体参数的情况下,只集合了现实观测到的数据在观测数据“95%预测命中区间”的总体参数。根据区间估计确定的总体参数的范围叫做"95%置信区间"。由区间估计求得的区间,是对所有的总体参数进行上面应用1中的检验操作,不舍弃而保留下来的集合。

关于正态母群体已知标准差σ时,对未知的平均值μ进行区间估计的方法:使用观测到的数据x,解关于μ的一元一次不等式

得出 "* <= μ <= *"的形式即可。

95%置信区间是这样一种区间:它有各种各样的观测值用相同的方法进行区间估计,其中95%包含正确的总体参数。

统计量部分的描述就此结束了,这部分主要是通过不同的统计量来刻画数据的特征,并简单地说明了对正态母群体进行“统计检验”和"区间估计"的方法。

在现实生活中,我们是基本不可能观测到总体的全部数据的,很多时候只能获取到总体中一部分的数据。但是我们从一些现象中也可以得出这样的结论“如果进行充分的观测,就能相当鲜明地捕捉母群体的情况”。但是我们的目标是:“不进行那么大量的观测而推测出母群体的情况”。

我们知道,从母群体中观测到的数据是受母群体的总体特征制约的。原书给出了这样的结论:

我们回到先前的目标,就是要通过样本数据推测母群体即总体的情况。这依赖母群体的一些数学性质,原书作为统计的入门书,并没有也不需要给出这些数学理论的证明,这里直接拿来用就可以。

从上面的性质可以得到这样的结论:

对于均值为μ、标准差为σ的一个正态总体的n个样本均值来说,其95%置信区间为有下面的不等式解出来的范围,a为样本均值

本部分其实就是要达到四个目标:

下面来分别说明。

这个估计是很简单的,通过公式:

可以推出μ的95%置信区间是:

正态母群体的样本均值是符合正态分布的,而且样本均值也体现了总体均值的性质,可以通过上面的不等式来推导出总体均值的估计。样本方差当然也体现了总体方差的性质,但是样本方差并不服从正态分布。样本方差服从的是卡方分布。

卡方分布若n个相互独立的随机变量ξ₁、ξ₂、……、ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution)。

卡方分布的分布曲线如下:

从前面的知识我们可以知道,对于从正态母群体中观测到的n个样本,用如下公式表示的统计量V是自由度为n的卡方分布:

卡方分布的分布的临界值表如下:

通过查表可以知道V在95%置信区间的范围,从而求出总体方差的95%置信区间。如对于自由度为5的卡方分布V来说。95%的置信区间可以按照 0.83 <= V <= 12.83来计算最终的总体方差的置信区间。

从上面根据正态母群体的总体均值来推测总体方差的估计中我们可以看到,必须先要有知道总体均值,才能对总体方差进行估计,这是一个很不自然的假设。在实际应用中也是不太可能知道总体均值的存在的。那么如果不知道总体均值的时候,如何估计总体方差呢。

自然的想法是能不能通过样本的均值和方差来对总体的方差的估计。事实是统计学家们已经证明了下面的统计量W也是一个卡方分布,只不过自由度不是样本数据数n,而是n-1,(其中):

这里不用考虑如何证明W是自由度为n-1的卡方分布,直接去使用这一结论即可。我们有样本方差的公式:

从而可以推导出:

因为W是自由度为n-1的卡方分布,通过对w的95%置信区间的估计就可以得到一个不等式,解这个不等式就可以得到总体方差的95%的置信区间,完成对总体方差的估计。

现在只剩下最后一个困难的问题了,如何在只知道样本数据的情况下的得到总体均值的估计。从前面的讨论中其实可以看出,除总体均值μ以外,如果我们能只用样本数据得到的统计量,清楚其分布,我们自然就可以得到总体均值的估计。

英国化学家戈塞特发现了这样一个分布,并命名为t分布。我们可以看一下t分布的定义和特征。

如下公式表示的统计量T服从自由度为n-1的t分布:

我们知道,从正态母群体中的n个样本数据得到的统计量z服从标准正态分布:

但是在现实中,统计量σ往往是未知的,所有不能通过z来求得总体均值的估计。事实上统计量T和z形式上很像,不难看出,如果n足够大的时候,T的分布趋近于标准正态分布,但是当n并不是足够大的时候,T的分布和标准正态分布的偏差并不能被忽略。

t分布的概率密度分布图和特征如下:

特征

t分布速查表

对于每一个指定的自由度,如果求T的95%置信区间,只需要左右分别去掉0.025即可。如自由度为10的t分布的95%置信区间是-2.228 <= T <= 2.228。通过前面推导出来的T的统计量即可得到对总体均值μ的估计。

至此,在未知总体方差时,对总体均值的估计也已经完成

以上介绍了一些常见的统计量和比较常用的通过样本数据估计总体统计量的几个方法。原书毕竟只是一本统计学的入门书籍,通过本文可以对原书的结构和内容做一次概括的了解。如果想知道这些统计量具体的应用场景,可以查阅原书。对于统计学更高深的知识,读者可以去学习更专业的统计学课程。

事实上,作为统计学中最基础的两个统计量:平均值和标准差,已经能够刻画出来数据很重要的一些特征,如果能够从样本数据中推导出总体的的平均值和标准差,可以说是很了不起的一件事儿,能在现实生活生产实践中给予我们很多帮助了。

最后附上本书主要内容的思维导图

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
ef英语哪个好 EF英孚英语培训怎么样? 英孚英语好不好 EF英孚教育到底好不好 大佬们,麦芒7和荣耀10那个值得入手?2500以下的机子还有啥好推荐的么... 介绍几款2500元以前的手机 像素一定要高 其他的不做要求 近期想入手一部安卓手机,价格2200到2500左右…买HTC desire Z还是 三星... 笔记本忘记开机密码怎么办急死了 笔记本电脑屏幕开机锁忘记密码 怎么办?急死了 华硕笔记本电脑开机密码忘记了怎样找回?系统是Windows 7旗舰版... 吃饭老是噎着是什么原因 雅乐之舞怎么养雅乐之舞如何养 荣威360mirrorlink怎么连接 小米手机怎么连荣威rx5 抖音火山版不知道在哪里写文案 鲷鱼可以生吃吗 鲷鱼刺身的做法 没关系英语怎样读 苏州洗牙有比较好的吗? 如何能快速降低自己的尿酸值 珀莱雅双抗面膜哪里买便宜 珀莱雅墨角藻净化保湿炭黑面膜用水洗吗 九寨沟附近有什么土特产 书香国网账号密码忘了怎么办 女性上什么环最好 女性上哪类环最好 诚易贷开通电子账户失败 南京银行诚易贷线上申请的客户如何签约? 南京银行诚易贷需要什么资料? 在合肥开平面设计工作室流程等 蒋欣到底是情商低还是真性情,看孙俪和韩红对她的评价 在电视剧《欢乐颂》里,蒋欣饰演的樊胜美是一个什么样的人,如何评价她? 《你一定爱读的极简统计学》——统计学离我们并不远 中央财经大学统计专业大一至大四的书籍网上能买到吗? 盆栽菊花生虫子怎么办 怎样通过抖音添加对方 朋友贷款逾期不还,紧急联系人的我居然要帮他还钱…… 动漫分几类 酸奶做法大全具体怎么做 求《康熙王朝》高清全集bt下载链接 哪位大虾可以给个《康熙王朝》电电视剧的下载地址啊,迅雷现在屏蔽了,所以要能下载的,感激不尽~~~ 吃什么能清肺热啊? LOL这个版本的狼人和狗头打野好不好?说下理由。 360浏览器录屏时可以静音吗 恐龙积分端游游戏是什么 欢乐斗地主积分输了会扣钱吗 番茄牛腩盖饭怎么做? 懒人番茄饭怎么做 番茄饭应放多少盐和油 做番茄饭 蒸米饭和番茄的时候想往里面放菜和肉 是要炒熟了放进去还是生的放进去 邦卫康织物清洗液怎么用 水耗子冰下带可视锚鱼钩怎么带