-
SPSS
作业
8
:二项
Logistic
回归分析
为研究和预测某商品消费特点和趋势,收集到以往胡消费数据
。数据项包括是否购买,性别,年龄和收入水平。这里采用
Logistic
回归的方法,是否购
买作为被解释变量(
0/1<
/p>
二值变量)
,其余各变量为解释变量,且其中性别和收入水平为品
质变量,年龄为定距变量。变量选择采用
Enter
方法,性别
以
男为参照类,收入以低收入为参照类。
(一)基本操作:
(
1
)选择菜单
Analyz
e
-
Regression
-
Binary Logistic;
(
2
)选择是否购买作为被解释变量到
Depen
dent
框中,选其余各变量为解释变量到
Covariate
s
框中,采用
Enter
方法,结果如
下:
消费的二项
< br>Logistic
分析结果(一)(强制进入策略)
Categorical Variables
Codings
收入
低收入
中收入
高收入
Frequency
132
144
155
191
240
Parameter
coding
(1)
.000
1.000
.000
.000
1.000
(2)
.000
.000
1.000
性别
男
女
分析:
上表显示了对品质变量产生虚
拟变量的情况,产生的虚拟变量命名为原变量名(编码)
。可以看到,对收入生成了两个
虚拟变量名为
Income
(
1
)
和
Income
(
2
)
,分别表示是否中收入和是否高收
入,两变量均为
0
时表示低收入;对性别生成了一个虚拟变量名
为
Gedder
(
1
< br>)
,表示是否女,取值为
0
时表
示为男。
消费的二项
Logistic
分析结果(二)(强制进入策略
)
Block 0: Beginning Block
Classification Table
a,b
Step 0
Observed
是否购买
不购买
购买
Overall Percentage
a.
Constant is included in the model.
b.
The cut value is .500
Predicted
是否购买
不购买
269
162
购买
0
0
Percentage
Correct
100.0
.0
62.4
分析:
上
表显示了
Logistic
分析初始阶段
(第零步)
方程中只有常数项时的错判矩阵。
可以看到:
p>
269
人中实际没购买且模型预测正确,
正
确率为
100
%;
162
人中实际购买了但模型均预测错误,正确率为
0%
。
模型总的预测正确率为
62.4
%。
消费的二项
Logistic
分析结果(三)(强制进入策略)
Variables in the Equation
B
S.E.
Wald
df
Sig.
Exp(B)
Variables in the Equation
Step 0
Constant
B
-.507
S.E.
.099
Wald
26.002
df
1
Sig.
.000
Exp(B)
.602
分析:
< br>上表显示了方程中只有常数项时的回归系数方面的指标,各数据项的含义依次为回归系数,回归系数标准误 差,
Wald
检验统计量的观测值,自由
度,
Wald
检验统计量的概率
p<
/p>
值,发生比。由于此时模型中未包含任何解释变量,因此该表没有实际意义。
消费的二项
Logistic
分析结果(四)(强制进入策略)
Variables not in the
Equation
Step 0
Variables
age
gender(1)
income
income(1)
income(2)
Score
1.268
4.667
10.640
2.935
10.640
18.273
df
1
1
2
1
1
4
Sig.
.260
.031
.005
.087
.001
.001
Overall Statistics
分析:
上表显示了待进入方程的各个
变量的情况,各数据项的含义依次为
Score
检验统计量的观
测值,自由度和概率
p
值。可以看到,如果下一步
Age
进入方程,则
Score
检验统计量的观测值为
1.268
,概率
< br>p
值为
0.26
。如果显著性水
平
a
为
0.05
,由于
Age
的概率
p
值大于显著性水平
a
,所以是不能进
入方程的。但在这里,由于解释变量的筛选策略为
Enter
< br>,所以这些变量也被强行进入方程。
消费的二项
Logistic
分析结果(五)(强制进入策略)
Block 1: Method = Enter
Omnibus Tests of Model
Coefficients
Step 1
Step
Block
Model
Chi-
square
18.441
18.441
18.441
df
4
4
4
Sig.
.001
.001
.001
分析:
上表显示了
< br>Logistic
分析第一步时回归方程显著性检验的总体情况,
各数据项的含义依次为似然比卡方的观测值,
自由度和概率
p
值。
可以看到,
在本步所选变量
均进入方程(
Method=Enter
)
。与前一步相比,似然比卡方检验的观测值
18.441
,
概率
p
值为
0.001
。如果显著性水平
a
为
0.0
5
,由于概
率
p
值小于显著性水平
a
,应拒绝零假设,认为所有回归系数不同
时为
0
,解释变量的全体与
Logit
P
之间的线性关系显著,采用该模型是合理的。
在这里分别输出了三行似然比卡方值。
其中,
Ste
p
行是本步与前一步相比的似然卡方比;
Block
行是本块
(
Block
)
与前一块相比的似然卡方比;
Model
行是本模型与前一模型相比的似然卡方比。在本例中,由于没有设置解释变量块,且解释变量是一次性强制进入
模型,所以三行结果都相同。
<
/p>
消费的二项
Logistic
分析结果(
六)(强制进入策略)
Model
Summary
Cox & Snell R
Step
1
-2 Log
likelihood
552.208
a
Nagelkerke R
Square
.057
Square
.042
a.
Estimation terminated at iteration number 4
because
parameter estimates changed by
less than .001.
分析:
< br>上表显示了当前模型拟合优度方面的指标,各数据项的含义依次为
-2
倍的对数似然函数值,
Cox&SnellR^2
。
-2
倍的对数似然函数值越小则模型的
拟合优度越高。这里该值较大,所以模型的拟合优度并不理想。从
Nagelkerk
eR^2
也可以看到其值接近零,因此拟合优度比较低。
消费的二项
Logistic
分析结果(七)(强制进入策略)
Classification Table
a
Step 1
Observed
是否购买
不购买
购买
Overall Percentage
a. The
cut value is .500
Predicted
是否购买
不购买
236
131
购买
33
31
Percentage
Correct
87.7
19.1
61.9
p>
分析:
上表显示了当前所得模型的错判矩阵。可以看到,脚注中的<
/p>
The Cut value is .500
意味着:如果预测
概率值大于
0.5
,则认为被解释变量的分类预
测值为
1
,
如果小于
0.5
,
则认为被解释变量的分类预测值为
p>
0.
;
在实际没购买的
269
人中,
模型正确识别了
23
6
人,
识别错误了
131
人,
正确率为
19.1%
。
模型总的预测正确率为
61.9%
。与
前一步相比,对未购买的预测准确度下降了,对购买的预测准确度上升了,但总体预测精度仍下降了。因此模型预
测
效果并不十分理想。
消费的二项
Logistic
分析结果(八)(强制进入策略)
Variables in the Equation
Step 1
a
age
gender(1)
income
income(1)
income(2)
Constant
B
.025
.511
S.E.
.018
.209
Wald
1.974
5.954
12.305
df
1
1
2
1
1
1
Sig.
.160
.015
.002
.703
.002
.005
Exp(B)
1.026
1.667
.101
.787
-2.112
.263
.253
.754
.146
9.676
7.843
1.106
2.196
.121
a. Variable(s) entered
on step 1: age, gender, income.
分析:
上
表显示了当前所得模型中各个回归系数方面的指标。可以看出,如果显著性水平
a
为
0.05
,由于
A
ge
的
Wald
检验概率
p
值大于显著性水平
a
,<
/p>
不应拒绝零假设,认为该回归系数与
0
无
显著差异,它与
Logit P
的线性关系是不显著的,不应保
留在方程中。由于方程中包含了不显著的解释变量,因
此该模型是不可用的,应重新建模
。
下面
是对模型做进一步分析,解释变量的筛选采用基于极大似然估计的逐步筛选策略(
For
ward
:
LR
)
,分析的具体操作以及结果如下:
(二)基本操作:
(
1
)选择菜单
Analyz
e
-
Regression
-
Binary Logistic;
(
2
)选择是否购买作为被解释变量到
Depen
dent
框中,选其余各变量为解释变量到
Covariate
s
框中,采用
Forward:LR
方
法,在
Option
框中对模型做近
一
步分析,结果如下:
消费的二项<
/p>
Logistic
分析结果(一)(逐步筛选策略)
Block 1: Method = Forward
Stepwise (Likelihood Ratio)
Omnibus
Tests of Model Coefficients
Step 1
Step
Block
Model
Chi-
square
10.543
10.543
10.543
5.917
16.459
16.459
df
2
2
2
1
3
3
Sig.
.005
.005
.005
.015
.001
.001
Step 2
Step
Block
Model
消费的二项
Logistic
分析结果(二)(
逐步筛选策略)
Model if Term
Removed
Model Log
Variable
Step 1
Step 2
income
gender
income
Likelihood
-285.325
-280.053
-282.976
Change in -2 Log
Likelihood
10.543
5.917
11.761
df
2
1
2
Sig. of the
Change
.005
.015
.003
分析:
< br>上面第一个表显示了变量逐步筛选过程中对数似然比卡方检验的结果,用于回归方程的显著性检验。这里略 去了第零步分析的结果。结果上面的
两个表共同分析。在
Ste
p1
中,模型中包含常数项和
INCOME
。如果此时剔除
INCOME
将使
-2LL
减少
10.543
,即
10.543
是
INCOME
进入模型引起的,
-285.325
即为零模型的对数
似然比;
在
Step2
中,
模型中包含常数项,
INCOME
,
GENDER
。
此时剔除
G
ENDER
,
即
-2LL
将减少
5.917
,
即
p>
5.917
是在
Step1
基础上
GENDER
所引起的,
-280.053
即为
Step1
模
型的对数似然比,此时
-2*285.325+2*280.053=10.543
p>
,即
INCOME
引起的。其他同理。可以
看到,如
果显著性水平
a
为
0.05
,由于各步的概率
p
值均小于显著性水平
a
,因此此时模型中的解释变量全体与
Logit
P
的线性关系是显著,模型合理。
消费的二项
Logistic
分析结果(三)(逐步筛选策略)
Variables in the Equation
Step
1
a
income
income(1)
income(2)
Constant
B
S.E.
Wald
10.512
.259
.247
.187
.209
.001
7.424
16.634
5.824
11.669
.263
.251
.240
.134
9.147
21.432
df
2
1
1
1
1
2
1
1
1
Sig.
.005
.982
.006
.000
.016
.003
.714
.002
.000
1.101
2.139
.329
1.006
1.958
.467
1.656
Exp(B)
95.0% EXP(B)
Lower
Upper
.006
.672
-.762
.504
.606
1.208
1.670
3.174
1.099
2.493
Step
2
b
gender(1)
income
income(1)
income(2)
Constant
.096
.761
-1.113
.658
1.307
1.843
3.502
a. Variable(s)
entered on step 1: income.
b.
Variable(s) entered on step 2: gender.
p>
分析:
上表显示了解释变量筛选的过程和各解释变量的回归系数检验
结果。可以看到,最终的模型(第二步)中包含了性别和收入变量,各自回归系数
显著性
检验的
Wald
观测值对应的概率
p<
/p>
值都小于显著性水平
a
,因此均拒绝零假
设,意味它们与
Logit P
的线性关系是显著,应保留在方
程中。表中的第
七,第八列分别是发生比的
95%
的置信区间。
最终年龄变量没有引入方程,因为如
果引入则相应的
Score
检验的概率
p
值大于显著性水平
a
,不应拒绝零假
设,它与
Logit
P
的线性关系不
显著,
不应进入方程。具体结果如下:
消费的二项
Logistic
分析结果(四)(逐步筛选策略)
Variables not in the
Equation
Step 1
Variables
age
gender(1)
Score
1.848
5.865
7.824
1.984
1.984
df
1
1
2
1
1
Sig.
.174
.015
.020
.159
.159
Overall Statistics
Step 2
Variables
age
Overall Statistics
< br>消费的二项
Logistic
分析结果(五)(逐步筛选
策略)
Model Summary
Cox & Snell R
Step
1
2
-2 Log
likelihood
560.107
554.190
b
a
Nagelkerke R
Square
.033
.051
Square
.024
.037
a. Estimation terminated at iteration
number 3 because
parameter estimates
changed by less than .001.
b.
Estimation terminated at iteration number 4
because
parameter estimates changed by
less than .001.
分析:
< br>上表显示了模型拟合优度方面的测度指标。最终模型的
-2
倍的对数似然函数值为
554.190
,仍然较高,说明模型
的拟合优度不甚理想。同时,
NagelkerkeR^2
距<
/p>
1
较远,也说明了模型的拟合优度不高。
消费的二项
Logistic
分析结果(六)(逐步筛选策略)
Hosmer and Lemeshow Test
Step
1
2
Chi-square
.000
8.943
df
1
4
Sig.
1.000
.063
消费的二项
Logistic
分析结果(七)(逐步筛选策略)
Contingency Table for Hosmer and
Lemeshow Test
Step 1
1
2
3
是否购买
=
不购买
Observed
90
98
81
35
58
55
40
37
Expected
90.000
98.000
81.000
32.363
53.602
57.637
44.398
44.035
是否购买
=
购买
Observed
42
46
74
8
15
34
31
38
Expected
42.000
46.000
74.000
10.637
19.398
31.363
26.602
30.965
Total
132
144
155
43
73
89
71
75
Step 2
1
2
3
4
5
Contingency Table for Hosmer and
Lemeshow Test
Step 1
1
2
3
是否购买
=
不购买
Observed
90
98
81
35
58
55
40
37
44
Expected
90.000
98.000
81.000
32.363
53.602
57.637
44.398
44.035
36.965
是否购买
=
购买
Observed
42
46
74
8
15
34
31
38
36
Expected
42.000
46.000
74.000
10.637
19.398
31.363
26.602
30.965
43.035
Total
132
144
155
43
73
89
71
75
80
Step 2
1
2
3
4
5
6
分析:
上面是
Hosmer-
Lemeshow
检验的结果。最终模型中,
Hosmer-L
emeshow
统计量的观测值为
8.943
< br>,概率
p
值为
0.063
,大于显著性水平
a
,因此不
应拒绝零假设,认为该组的划分与被解释变量的取值不相关,说明模型的拟合优度较低。它与
NagelkerkeR^2
分析的结果是一致的。
消费的二项
< br>Logistic
分析结果(八)(逐步筛选策略)
Classification Table
a
Observed
Predicted
是否购买
Percentage