IBM SPSS Statistics探索性分析提供了数据过滤、离群值识别、假设检验等分析功能。在《应用SPSS探索性分析,快速检查数据异常值》一文中,我们应用探索性分析检查到数据中存在着极端值的情况。本节,将会继续应用检验功能检查数据的正态分布情况。
一、图分析功能简介
如图1所示,IBM SPSS Statistics探索性分析中的图功能包含了图表的可视化以及正态性检验,简单介绍如下:
1.箱图,以最大值、最小值、中位数和两个四分位数描述数据,可检查数据的对称性与分散程度。
2.描述性,包含茎叶图和直方图。
3.带检验的正态图,包含正态性检验以及正态Q-Q图。
4.含莱文检验的分布-水平图,控制分布-水平图的数据转换。
接下来,我们将简单应用以上功能到本文的例子中,用以检验不同性别的客单价数据是否符合正态分布。
图1:图分析功能
二、应用图分析功能
1、设置图分析选项
如图2所示,分别勾选“直方图”以及“含检验的正态图”两个选项,然后单击“继续”,获取分析结果。
图2:图分析选项
2、解读图分析结果
首先,我们来看一下正态性检验的数值。如图3所示,可以看到,男性客单价在两种检验中均低于0.05的置信度,因此可以拒绝其正态分布的假设。
而女性客单价在柯尔莫哥洛夫-斯米诺夫检验(K-S检验)中高于0.05的置信度,在夏皮洛-威尔克检验(S-W检验)中低于0.05的置信度,因本例女性只有49个样本,属于小样本,要采用S-W检验结果,即拒绝其正态分布的假设。
图3:正态性检验
除了使用正态性检验数据,我们还可以通过正态Q-Q图,简单看一下不同性别客单价的实测值与期望正态值的关系。当数值分布于正态曲线上,表明变量符合正态分布。
如图4所示,可以看到,男性的客单价偏离正态曲线,不符合正态分布。
图4:男性客单价正态Q-Q图
如图5所示,女性的数值虽然都接近于正态曲线,但也有一些离散的值,如果样本量大一点,可能效果会更好一点。
图5:女性客单价正态Q-Q图
然后,如图5所示,选中已添加的地区变量,在新名词处输入重新编码后的变量名称:地区编码,并将其添加为新名称。
图6:女性客单价直方图