《你一定爱读的极简统计学》——统计学离我们并不远
发布网友
发布时间:2023-01-10 20:14
我来回答
共1个回答
热心网友
时间:2023-10-26 07:50
做指标管理、数据分析已经2年了,工作已经慢慢有了套路,但对于数据的应用基本上还处于各单位分析,而我来汇总的初级阶段。对于数据的有效性核查基本也只能靠直觉,靠熟悉程度,经验的经历是一定的,但成长的速度可真的是看不见的慢。为了让自己有提升专业能力,提高对数据的分析应用,本年的自我提升特别加入了专业的学习,而且特别制定了第一阶段90天数据分析能力提升入门计划,简单来说就要增加输入,同时以输出倒*输入。
90 天数据分析能力提升计划
输入:
专业的书籍——统计、数据分析
系统的培训——数说1-3季
工具的学习——透视表、仪表盘
公众号、微博
输出:
10篇读书笔记
1个改进项目
1项专项分析报告
指标仪表盘初稿
学习数据分析,统计学可谓是必学的知识之一。相对于其他的统计学书籍,各种正态分布、卡方分布、T分布的晦涩概念,《极简统计学》的内容没有那么的学术化,案例也贴合工作、生活,整个篇幅也就200页,并且每章后都有练习题,非常适合统计学初学者自学。下面记录一下自己读书的一些关键点及启示。
一、几个重要的统计概念
1. 统计、概率的区别
统计是对过去事件的概述
概率是对于未来将发生事件的描述
2. 样本——母体
样本就是我们平时可以获取的数据。
母体就是藏在少数样本后的庞大的全部数据。
3. 平均值——就是直方图的平衡支点,主要作用是抵消偶然的数据分散、得出与实际值接近的值
直方图就是数据的分组频次,很直观,但不便于口头的交流,而且需要很大的空间,因此引入平均值。
样本均值——总体均值:观测的数据越多,样本均值接近总体均值的可能性越大。
4. 方差、标准差——主要作用是表明数据的分散和波动,搞清楚数据的分散程度。
引子: 看看下面2组数据
100 200 平均值150
140 160 平均值150
这两组数据仅用平均值衡量,明显不合理。
再来一个书中的例子
所有引入方差、标准差来表明数据的分散和波动,通过标准差就能衡量是否是特殊的数据。以冲浪为例,平均值就是平静的海水平面,而标准差就是浪涌的激烈程度。
样本方差就是各样本偏差平方再取平均值。
二、重要应用:
1. 如何比较股票的优劣呢?——夏普比率
2. 利用正态分布进行预测——所谓95%的置信区间
一般正态分布:平均值为μ,标准差为σ。(标准正态分布平均值为0,标准值为1。)
(1)数据x是平均值为μ,标准差为σ的正态分布时,95%的预测命中区间的不等式为
(2)已知母体为正态分布,标准差σ已知,平均值μ未知,由观察的数据来对μ进行 母体的 区间估计。 (实际情况较难实现标准差σ已知,可能出现的是机器生产已经给定标准差)
3. 利用T分布估算总体均值
T分布称为“自由度n-1的t分布”。这个分布非常近似于正态分布,主要通过计算样本均值和样本方差,来估算总体的均值。t分布是推论统计中最自然、最实用、最常用的方法。
4. 利用卡方分布估算总体方差