回归分析是数据处理中较为常用的一类方法,它可以找出数据变量之间的未知关系,得到较为符合变量关系的数学表达式,以帮助用户完成数据分析。
接下来我们要介绍的就是回归分析中的多元回归分析方法,IBM SPSS Statistics为用户提供了成熟的多元logistic回归分析算法。
一、概述
1.数据
图1:数据样本
这是一份对不同人群早餐选择的调查数据,通过SPSS的多元回归分析,可以将人群特征变量对早餐类型进行分析,找到它们之间的关系。
2.功能位置
图2:功能位置
在“分析”菜单下,我们可以找到“回归”中的“多元logistic”分析,进入多元回归分析的窗口。
二、分析方法
1.因变量设置
图3:因变量设置
因变量就是跟随自变量变化的量,本例中指的是“首选的早餐”这一变量。
点击“参考类别”,设置因变量的参考类别,这是分析时的参考样,我们设置为所有类别都和最后一个类别对比,类别顺序选择升序。
2.因子和协变量
图4:因子和协变量
因子可以简单理解为自变量,我们这里将年龄分段、婚姻状况和生活方式作为因变量处理。
协变量是分析过程中需要控制的、对因变量有一定影响的控制变量,这里设置为性别。
3.分析模型
图5:分析模型
SPSS的多元回归分析有三类模型可选,主效应是指设置好的因子和协变量与因变量之间的关系分析;全因子模型既包括主效应,也包括因子和协变量之间的交互分析;定制步进式则可以有用户自己定义分析类型。
我们这里选择主效应进行分析即可。
4.统计设置
图6:统计设置
这个窗口内设置的是需要进行的统计数据分析,包括多类统计数据可选,我们勾选模型下的伪R方、单元格可能性、步骤摘要、分类表、模型拟合度信息和拟合度,参数下的估计(置信区间设置为95%)和似然比检验。
定义子群体选择“由因子和协变量定义的协变量模式”。
5.收敛条件
图7:收敛设置
在条件对话框中,进行收敛设置。
最大迭代数是数据进行回归分析时可进行迭代的次数,这个数值必须是大于或小于100的整数,最大步骤对分设置的是迭代时的等分数,系统默认是5。
对数似然收敛可设置收敛值,回归过程中对数似然比函数是大于设定值的;参数收敛的数值设置类似。
本例中该对话框保持默认即可。
6.选项设置
图8:选项设置
在选项对话框中设置离散度量为“无”。
数据的进入概率为0.05,出去概率为0.1,这两个参数中,前者越大,进入模型的数据越多;后者越小,数据被剔除的越多,进入和出去方法均选择似然性。
其余保持默认即可。
7.保存设置
图9:保存设置
在这个对话框中设置需要保存的变量,如果需要将模型信息输出到XML文件,也可以在次设置。
8.完成分析
图10:结果输出
完成上述设置后,就可以在日志输出窗口中查看分析结果啦!分析结果包含多个表格,每个数值都有特定含义,大家在分析的时候也要认真观察数据哦!
三、小结
多元logistic回归分析实质上是二元logistic回归分析的加和,在操作方法和结果分析上都有一定的相似之处,如果大家认为多元回归分析理解起来有困难,可以先学习一下IBM SPSS Statistics二元回归分析的操作和分析。