-
第十八章
病例
p>
-
对照研究的设计与分析
[
教学要求
]
了解:
病例
-
对照研究的设计及需要
注意的问题;偏倚的种类与控制方法;病例
对照研究的样本含量估计。
< br>
熟悉:
成组设计资料优势比的假设检验方法;
M-H
分层分析方法及其趋势检验方
法;
1:1
配对设计两分类变量优势比的假设检验方法。
< br>
掌握:
掌握成组设计和配对设计资料的优势比的意义、
计算和置信区间估计的
方法。
[
重点难点
]
第一节
病
例
-
对照研究的基本概念
一、基本概念
病例
< br>-
对照研究
:属回顾性设计,它根据研究对象目前状态(
是否有病)将其分
到病例组或对照组,然后回顾性地询问或调查研究对象过去的危险因素
接触史。
成组设计
:指从产生病例人
群中独立随机抽取有代表性的未患病对照组的设计
形式。
p>
匹配设计
:为了消除重要的已知混杂因素对研究结果的影响,按病例
的混杂因
素水平选择匹配对照的设计形式。
< br>偏倚
:由研究对象的选择、信息收集的过程以及病例组与对照组的部分人群特
p>
征的不均衡等造成的倾向性误差。
优势比
:病例组接触某危险因素相对于不接触某危险因素的优势与对照组类似
< br>优势的比值。当疾病发生率较低时,它是相对危险度的近似估计值。
二、计算
样本含量的估计:分两步,
首先用下式估计
N
’
N
'
p>
?
?
Z
?
?
1
?
1
C
?
PQ
?
Z
?
P
1
Q
1
?
P
0
Q
0
?
P<
/p>
1
?
P
0
?
2
C
?
2
式中
C<
/p>
=对照组例数/病例组例数
,
P
0
为对照中有暴露史者所占比率的估计值,
Q
0
?
1
?
p>
P
0
;
P
1
为病例中有暴露史者所占比率,
Q
1
?
1
?
P
1
,
P
1
?
p>
P
0
OR
1
?
P
0
(
OR
?
1
)
18-1
OR
为对立假设中优势比的数值;
<
/p>
P
?
P
1
?
P
0
,
2
Q
?
p>
?
1
?
P
?
Z
?
为第Ⅰ类错误概率为
?
时的标准正态临界值,
Z
?
为第Ⅱ类错误概率为
?
时的
标准正态临界值。
第二步,计算病例组的样本含量
N
,
计算公式为
N
'
?
4
?
?
?
式中<
/p>
N
?
?
1
?
1
?
4
?
N
'
?
?
?
2
?
?
P
1
?
P
0
。
优势比的计算公式:
p
1
p
q
q
< br>OR
?
1
?
1
0
p
0
p
0
q
1
q
0
三、应用
病例
-
对照研究研究周期短、
样本量相对较小,
< br>适合罕见疾病病因研究,
并可
以在一次研究中同时研究多
个致病危险因素,具有省时、省力和省费用的优点。
病例
-
p>
对照研究的缺点是:
无法直接估计疾病发生频率
;
难以选择合适的对照组,
常常导致严重的偏倚
;
对因果推断的论证强度较低,
特别是无法从
时间先后上判
断何为因,何为果。
第二节
成组设计资料的分析
一、计算
1.
四格表资料的分析:
(1)
优势比的计算
OR
?
?<
/p>
ad
bc
(2)
优势比的假设检验
2
?
n
?
1
??
ad
?
bc
< br>?
?
?
2
n
1
n
0
m
1
m
p>
0
(3)
优势比的区间估计
18-2
Miettinen
法
在
?
2
检验的基础上计算<
/p>
OR
的
95%
置
信区间的上下限,
公式为
?
1
?
1
.
96
p>
OR
2
.多个四格表的分层分析:
?
2
(1)
公
共优势比
OR
M-H
的估计算公式为<
/p>
OR
M<
/p>
?
H
?
a
i
d
i
?
n
i
?
p>
b
i
c
i
?
n
i
(2)
对公共优势比进行假设检验
,
?
2
统计量为
?
其中
T<
/p>
i
?
2
M
?
H
(
?
a
i
?
?
T
i
)
2
?
?
p>
V
i
n
n
i
m
1
i
m
0
< br>i
n
1
i
m
1
i
,
V
i
?
p>
1
i
0
n
i
n
p>
i
3
?
n
i
(3) 95%
置信区间的估计用
Miettinen
法
OR
?
?
1
?
1
.
96
?<
/p>
?
2
?
?
M
?
H
?
?
?
?
?
?
(4)
趋势检验的统计量
p>
?
2
?
[
?
x
i
(
a
i
?
T
< br>i
)]
2
(
n
3
?
n
)
i
?
0
k<
/p>
n
1
p>
n
0
[
n
?
m
i
x
i
2
?
(
< br>?
m
i
x
i
)
2
]
i
?
0
i
?
p>
0
k
k
二、应用<
/p>
成组设计病例
-
对照研究资料的分析步骤:
(1)
整理频数表。
(2)
计算优势比。
(3)
对优势比做假设检验。
(4)
估计优势比的置信区间。
p>
(5)
如果危险因素是多水平等级变量变,可以进一步做趋势检验。
(6)
如果存在混杂因素,可以用分
层分析或后面介绍的多因素
logistic
回归模
型校正混杂因素。
第三节
匹配设计资料的分析
18-3
一、计算
优势比的估计:
OR
?
优势比的假设检验:
p>
?
2
?
b
c
?
b
?
c
?
1
?
< br>
?
2
p>
?
b
?
c
?
优势比的
95%
置信
区间估计用
Miettinen
法。
二、应用
配对设计病例对照研究资料的分析步骤:
(1)
整理频数表。
(2)
估计优势比。
(3)
对优势比做假设检验。
(4)
估计优势比的置信区间。
1: M
或
N: M
< br>配伍设计资料、多个水平危险因素的分析和混杂因素的校正用
后面介绍的条件
p>
logistic
回归模型更为方便,这里不要求掌握。
[
案例讨论参考答案
]
案例
18-1
1.
该研
究设计是在现况调查的基础上作病例
-
对照研究资料分析,
p>
但
该研究没有严格按病例
-
对照研究进行设计,特别是对照的选择不能代表产生病
例的人群,存在严重的偏
倚
,
例如,病例组与对照组的年龄、性别、肥胖和体力
劳动可能有明显差别。
2.
由于在设计上的缺陷,病例组与对照组在一些重要的混杂因素方面存在不均
衡
,因此在分析中必须校正这些混杂因素的影响,如性别、年龄、职业或体力
劳动史等。若
混杂因素只是一、两个,可以用分层分析方法校正;若混杂因素
较多,可采用第
19
章的
logistic
回归。
[
电脑实验及结果解释
]
实验
18-1
Mantel-
Haenszel
分层分析
18-4
程序
18-1
Mantel-
Haenszel
分层分析及说明
行号
01
02
03
04
05
20
21
22
23
24
程
序
DATA
mh;
INPUT fre age drink
id;
CARDS;
5
1
1
0
5
1
2
0
… …
;
PROC
FREQ
;
TABLE
age*id*drink/CHISQ CMH
;
WEIGHT fre;
RUN
;
说
明
建立<
/p>
SAS
数据集
mh
;
定义并输入变量;
调用频数表
FREQ
过程;
定义表
,
要求做
?
2
检验和分层分
析;
指定权重变量;
运行程序;
运行结果:
Output
窗口:
Table 1 of id by drink
Table 2 of id by drink
Controlling for age=1
Controlling for age=2
id drink
id drink
Frequency|
Frequency|
Row Pct | 1|
2| Total Row Pct |
1| 2| Total
---------+--------+--------+
---------+--------+--------+
0
| 5 | 5 | 10
0 | 25 | 21 | 46
| 50.00 | 50.00 |
| 54.35 | 45.65 |
---------+--------+--------+
---------+--------+--------+
1
| 35 | 270 | 305
1 | 29 | 138 | 167
| 11.48 | 88.52 |
| 17.37 | 82.63 |
---------+--------+--------+
---------+--------+--------+
Total
40 275 315 Total
54 159 213
Table 3 of id by drink
Table 4 of id by drink
Controlling for age=3
Controlling for age=4
id
drink id
drink
Frequency|
Frequency|
Row Pct | 1|
2| Total Row Pct | 1|
2| Total
---------+--------+--------+
---------+--------+--------+
0 | 42 | 34 | 76
0 | 24 | 44 | 68
| 55.26 | 44.74 |
| 35.29 | 64.71 |
---------+--------+--------+
---------+--------+--------+
1 | 27 | 139 | 166
1 | 18 | 119 | 137
| 16.27 |
83.73 | |
13.14 | 86.86 |
---------+--------+--------+
---------+--------+--------+
Total
69 173 242 Total
42 163 205
以上是四个年龄层的频数表。
Summary
Statistics for id by drink
Controlling for age
Cochran-Mantel-Haenszel
Statistics (Based on Table Scores)
Statistic
Alternative Hypothesis
DF
Value
Prob
---
--------------------------------------------------
---------------------------
1
Nonzero Correlation
1
86.5130
<.0001
2
Row
Mean Scores Differ
1
86.5130
<.0001
3
General Association
1
86.5130
<.0001
以上是
M-H
分层
?
检验结果。<
/p>
Estimates of the Common
Relative Risk (Row1/Row2)
Type of Study
Method
Value
95% Confidence
Limits
p>
-----------------------------------------
--------------------------------------------
------------
Case-Control
Mantel-Haenszel
5.2873
3.6505
7.6580
(Odds Ratio)
Logit
5.3480
3.6949
7.7406
18-5
2
Cohort
Mantel-Haenszel
3.1750
2.4829
4.0599
(Col1 Risk)
Logit
3.2533
2.5590
4.1359
Cohort
Mantel-Haenszel
0.6093
0.5298
0.7008
(Col2 Risk)
Logit
0.6388
0.5587
0.7305
以上是优势比的估计
,选用
OR
值估计。
Breslow-Day Test for
Homogeneity of the Odds Ratios
--------------------------------------
Chi-Square
1.8676
DF
3
Pr > ChiSq
0.6003
以上是各层相对危险性的齐性检验,差异没有统
计学意义,说明各年龄组吸烟与疾病关联程度相同。
Total Sample Size = 975
实验
18-2
过度匹配
程序
18-2
过度匹配电脑实验的
SAS
程序及说明
程
序
行号
01
DATA
case1;
02
DO
i=
1
TO
100
;
03
no=i;
cough=
1
;
smoke1=
1
;
smoke2=
1
;
04
IF UNIFORM(
0
)>
0.1
THEN DO;
05
cough=
2
;
06
IF UNIFORM(
0
)>
0.2
THEN
smoke1=
2
;
07
IF UNIFORM(
0
)>
0.25
THEN smoke2=
2
;
08
OUTPUT;
09
END;
10
ELSE DO;
11
IF UNIFORM(
0
)>
0.55
THEN
smoke1=
2
;
12
IF UNIFORM(
0
)>
0.6
THEN smoke2=
2
;
13
OUTPUT;
14
END;
END;
15
DATA
case2;
16
DO i=
1
TO
100
;
17
cough=
1
;
smoke=
1
;
id=
1
;
IF UNIFORM(
0
)>
0.9
THEN DO;
18
19
cough=
2
;
IF UNIFORM(
0
)>
0.2
THEN
smoke=
2
;
20
END;
21
22
ELSE DO;
IF UNIFORM(
< br>0
)>
0.55
THEN
smoke=
2
;
23
24
END;
25
OUTPUT;
cough=
1
;
smoke=
1
;
id=
2
;
26
IF UNIFORM(
0
)>
0.1
THEN DO;
27
28
cough=
2
;
29
IF UNIFORM(
0
)>
0.25
THEN
smoke=
2
;
30
END;
31
ELSE DO;
32
IF UNIFORM(
0
)>
0.6
THEN
smoke=
2
;
33
END;
说
明
建立
SA
S
数据集
case1;
设立循环利用随机数模拟产生匹配设计的数据;
设置初始变量,不咳嗽,病例、对照均不吸烟;
如果抽中肺癌病例中有咳嗽的
90%
,
则执行下列语句
咳嗽指示变量
cough
赋值为
2
;
按
80%
的吸烟比例抽
样,抽中则
smoke1=
2
;
按对照中
75%
的
吸烟比例抽样,
抽中则
smoke2=
2
;
写入数据集;
结束条件语句分支;
如果属于肺癌病例不咳嗽的
10%<
/p>
,则
按
45%
的吸烟比例抽样,抽中
smoke1=
2
;
按对照中
40%
的吸烟比例抽样,
抽中则
sm
oke2=
2
;
写入数据集;
结束条件语句;结束循环;
建立
p>
SAS
数据集
case2;
设立循环利用随机数模拟产生成组设计的数据;
设置对照的初始变量,不咳嗽、不吸烟;
如果抽中对照中咳嗽的
10%
,则
咳嗽指示变量
cough
赋值为
2
;
如果抽中咳
嗽病例中吸烟的
80%
部分,则
smo
ke=
2
;
结束条件语句分支;
如果抽中对照中
不咳嗽的
90%
,则
如果抽中不咳嗽病例中吸烟的
45%
,则
smoke=
2
;
结束条件语句;
写入数据集;
设置肺癌病例的初始变量,不咳嗽、不吸烟;
如果抽中病例中咳嗽的
90%
,则
cough=
2
;
如果抽中咳嗽对照中吸烟的
75%
,则
smoke=
2
;
结束条件语句分支;
如果抽中病例中不咳嗽的
10%
,则<
/p>
如果抽中不咳嗽对照中吸烟的
40%<
/p>
,则
smoke=
2
;
结束条件语句;
18-6
-
-
-
-
-
-
-
-
-
上一篇:美国电话号码-各城市的地区区号
下一篇:运用家谱图评估暴力家庭个案研究