-
卡方检验
,是
针对无序分类变量的一种非参数检验,其理论依据
是:
实际观察
频数
f
0
与理论频数
< br>f
e
(又称期望频数)
之差的平
方再除
以理论频数所得的统计量,近似服从
?
< br>2
分布,即
(
f
0
?
f
e
)
2
2
?
?
?
~
p>
?
(
n
)
f
e
2
卡方检验的一般
是用来检验无序分类变量的实际观察频数和理
论频数分布之间是否存在显著差异,二者差
异越小,
?
2
值越小。
卡方检验要求
:
(
1
)分类相互排斥,互不包容;
(
2
)观察值相互独立;
(
3
)
p>
样本容量不宜太小,
理论频数≥
5
,
否则需要进行校正
(合
并单元格、增加样本数、去除样本法、使用校正公式校正卡方值)
。
< br>
卡方校正公式为:
?
2
?
?
(
f
0
?
f
e
?
0
.
5
)
2
f
e
卡方检验的原假设
H
0
:
?
2
= 0;
备择假设
H
1
:
?
2
≠
0;
< br>
卡方检验的用途
:
(
1
)
检验某连续变量
的数据是否服从某种分布
(拟合优度检验)
;
< br>
(
2
)检验某分类变量各类的
出现概率是否等于指定概率;
(
3<
/p>
)检验两个分类变量是否相互独立(关联性检验)
;
(
4
)检验控制某几个分
类因素之后,其余两个分类变量是否相
互独立;
(
5
)检验两种方法的结果是否一致,例如两种方法
对同一批人
进行诊断,其结果是否一致。
(一)检验单样本某水平概率是否等于某指定概率
一、单样本案例
例如,检验彩票中奖
号码的分布是否服从均匀分布(概率
=
某常
值)
;检验某产品市场份额是否比以前更大;检验某疾病的发病率是
否比以前降低。
有数据文件:
检验“性别”的男女比例是否相同(各占
1/2
)
。
1.
【分析】——【非参数检验】——【单样本】
,打开“单样本
非参数检验”窗口,
【目标】界面勾选“自动比较观察数据和假设数
据”
2.
【字段】界面,勾选“使用定制字段分配”
,将变量“性别”
选入【检验字段】框;
注意
:变量“性别”的度量标准必须改为“名义”类型。
3.
【
设置】界面,选择“自定义检验”
,勾选“比较观察可能性
和假
设可能性(卡方检验)
”
;
4.
点
【选项】
,打开“卡方检验选项”子窗口,本例要检验男女
概率
都
=
,勾选“所有类别概率相等”
;<
/p>
注:若有类别概率不等,需要勾选“
自定义期望概率”
,在其表
中设置各类别水平及相应概率。
p>
点【确定】回到原窗口,点【运行】得到
双击上表,得到更多的描述:
结果说明
:
(
1
)男生的观察频数为
28
,理论频数为
25
,残
差
=3
;女生的观
察频数为
22
,理论频数为
25
,
残差
=-3
;可以计算
卡方值
=[3
2
+(-3)
2
]/25=
(
2
)卡方检验的
P
值
=>,
故接受原假设
H<
/p>
0
,即认为男女性别人
数无差异。
注:卡方检验的
P
值是近似
P
值,若用“二项分布检验”计算出
< br>精确
P
值
=.
另外,上述卡方检验也可以用:
【分析】——【非参数检
验】——【旧对话框】——【卡方】
得到的结果是一致的。
二、两样本或多样本案例——比较不同类的构成比或发生率的差异
问题
:两组收入不同的受访家庭其轿车拥有率的比较。
使用【交叉表】的卡方检验来实现,需要注意:若交叉表中存在
有序分类变量,则适合用秩和检验而不是卡方检验。
有数据文件:
变量
O1
表示是否拥有轿车:
“<
/p>
1=
有,
2=
没
有”
;
变量
Ts9
表示收入级别:
“
1=
万以上,
2=
万以上”
。
1.
【分析】——【描述统计】——【交叉表】
,打开“交叉表”
< br>窗口,将变量“
Ts9
收入级别”选入【行】框,将变量
“
O1
是否拥有
轿车”选入【列】框,
根据需要勾选“显示复式条形图”
;
2.
点【统计量】
,打开“统计量”子窗口,勾选“卡方”表示进
行卡方检验;
< br>
3.
点【继续】回到原窗
口,点【单元格】打开“单元显示”窗
口,
【计数】输出观察频
数和理论频数,默认勾选“观察值”
;
【百分
< br>比】勾选“行”
;
【非整数权重】设置小数权重问题,保
持默认;
注:
“残差”设置残差的输出方式;
“
z-
检验”对多于两组的数据
做两两组间比较;
点【继续】回到原窗口,点【确定】得到
案例处理摘要
有效的
N
家庭收入
2
级
* O1.
是否拥有家用轿
989
车
%
158
%
1147
%
百分比
N
案例
缺失
百分比
N
合计
百分比
家庭收入
2
级
* O1.
是否拥有家用轿车
交叉制表
O1.
是否拥有家用轿车
有
计数
Below 48,000
家庭收入
2
级
中的
%
家庭收入
2
级
计数
Over
48,000
家庭收入
2
级
中的
%
计数
合计
家庭收入
2
级
中的
%
%
%
%
%
257
%
732
%
989
225
429
654
%
%
%
32
没有
303
335
合计
低收入家庭有
%
拥有轿车;高收入家庭
%
拥有轿车。
卡方检验
Pearson
卡方
连续校正
b
似然比
Fisher
的精确检验
线性和线性组合
有效案例中的
N
值
df
1
1
1
渐进
Sig. (
双侧
)
精确
Sig.(
双侧
)
精确
Sig.(
单侧
)
.000
.000
.000
.000
.000
989
1
.000
a. 0
单元格
%)
的期望计数少于
5
。最小期望计数为
。
b.
仅对
2x2
表计算
脚注
a
说明没有单元格的期望频数
<5,
满足
Pearson
卡方检验要
求,故
看
Pearson
卡方检验结果即可:
P
值
=0<,
拒绝原假设
H
0
,即高
低收入不同的
家庭轿车拥有上的差异有统计学意义。
注:(
1
)“
Pearson
卡方”
:最标准最常用;
(
2
)“连续校正”:只适用于
4
格表,样本量
>40,
所有期望频
数都
>1,
只有
1/5
以下的单元格期望频数
< br><5
;
(
3
)“
Fisher
精确检验”:
不需要近似,结果最精确,但耗时
多;若样本量
<40
,有单元格的期望频数
<1
的
< br>4
格表,需要用该检验;
若有单元格的期望频数
<1,
或
<5
的期望
频数较多,也可采用该检验;
(
4<
/p>
)“似然比”:用似然比公式计算卡方,在处理多维表是有
更大优
势;
(
5
)
“线性卡方”:检验的原假设
H0
是行
列变量间无线性相关,
在列联表分类变量中很少用,更多用于连续变量。
(三)检验两分类变量间的关联程度
例如,进行客户满意度研究中,价格、质量、服务都与总体满意
度相关,哪项与总体满意
度关系更密切?
卡方值的大小可以
粗略地反映两变量联系的强弱,
更精确的描述
可以用“相对危险
度”和“优势比”
。
(
1
)
相对危险度(
RR
)
实验组人群反应阳性概率与对照组人群反应阳性概率的比值,
即
RR
?
P
t
a
/
n
t
?
P
c
c
/
n
c
用于反应实验因素与反应阳性的关联程度,
RR=1
表明二者无关联;
RR<1
表明实验因素导致反
应阳性的发生率降低。
(
2
)
优势比(
OR
)
p>
有时反应阳性概率的估计值很难求得(如回顾性研究)
,往往使
用优势比代替
RR
值。优势比是反应阳性人群中实验因素有无的比例
与反应阴性人群中实验因素有无的比
例之比,即
OR
?
< br>a
/
b
ad
?
c
/
d
bc
若
OR>1,
则表明实验因素更容易导致结果为阳性,或者说“采用的
实验因素”与“结果为
阳性”有关联。
注:当反应阳性概率
<
时,
OR
可作为
RR
的近似。
优势比是两个比数
之比,
例如,
女性购买与不购买某产品的比数
< br>是男性该比数的
3
倍。
问题
:描述家庭收入级别与拥有轿车
的关联程度
1.
【分析】——【描
述统计】——【交叉表】
,打开“交叉表”
窗口,将变量“
p>
Ts9
收入级别”选入【行】框,将变量“
O1
是否拥有
轿车”选入【列】框;
2.
点
【统计量】
,打开“统计量”子窗口,勾选“风险”用来计
算<
/p>
OR
值和
RR
值
;
点【继续】回到原窗口,点【确定】得到
-
-
-
-
-
-
-
-
-
上一篇:中外地名中英文对照表
下一篇:20个全球经典企业LOGO进化史