数据分析之自动线性建模
发布网友
发布时间:2022-11-01 04:10
我来回答
共1个回答
热心网友
时间:2023-10-18 08:36
自动线性建模的特点主要有:
(1)连续变量、分类变量均可作为自变量参与建模;
(2)能自动寻找对因变量重要性最大的自变量,舍弃重要性很小或不重要的自变量;
(3)自动进行离群值和缺失值等处理,并输出一系列图表来展示回归模型的效果及相关信息;
一般模型建立后,需要从统计学方*的角度来评价模型建立的效果,如果有多组变量组合就可能建立多组模型,那么久需要得知其中哪些模型效果较好,需要保留,哪些模型效果较差,需要淘汰掉。
评价标准之一就是信息条件,也称为信息准则。在SPSS所有的统计过程中,常见的信息准则有AIC(赤池信息量准则)、BIC(贝叶斯信息量准则)两种,而AICC准则是为了适应小样本数据,在AIC准则准则公式的基础上进行调整修正,适用于任何样本量,AIC准则只适用于大样本数据,所以AICC准则更为通用。信息准则的数值越小表示模型越好,但没有绝对的数值大小标准,只需要通过不同模型的信息准则进行对比选择较优的即可。
模型摘要图用进度条来展现模型拟合的效果。它类似于普通线性回归中的R平方(决定系数),一般模型准确度大于70%就算拟合的不错,60%以下就需要修正模型,可以通过增加或删除一些自变量后再次建模进行修正,本例中模型准确度达到了94.8%,效果不错。
预测-实测散点图用于考察预测效果,如果效果较好,数据点应该是在一条45度线上分布的。
残差是指实际值与预测值之间的差,残差图用于回归诊断,也就是用来判断当前模型是否满足回归模型的假设:回归模型在理想条件下的残差图是服从正态分布的,也就是说,图中的残差直方图和正态分布曲线是一致的。
库克距离越大的个案对回归拟合影响的程度越大,此类个案可能会导致模型准确度下降。
回归效果图用于展示及比较各个自变量对因变量的重要性。每个显著的连续变量均会作为一个模型项,并对应一条线条,如果有显著的分类变量纳入模型,那么模型将分类变量的每一种显著的类别分布作为模型项,并分布对应一条线条。
线条上下顺序是按照自变量的重要性大小降序排列的,由此可以判断各个自变量的重要性。线条粗细则表示显著性水平,显著性水平越高其线条越粗。