-
横断面研究(
Cross-sectional
study
)的设计与分析
横断面研究是调查某特定人群在某时点的患病状况以及
有关危险因素信息的一种研究形式。又称患病率调查或现况
调查
。横断面研究又根据是否调查所有研究对象分成普查
(
cens
us
)和抽样调查(
sampling
survey
)
。
目的:
1.
流行状况和病因研究(疾病分布与危险因素的关系)
例如某县卫生局需决定县医院设多少肿瘤病床,是否投资购
买
CT
和钴
60
机,做该县
肿瘤病人普查。
例如在原发性高血压的普查中,调查了患有原
发性高血压的
病人和健康人的年龄、性别、家族史、吸烟和饮酒习惯、职
业、体力活动和血脂等因素。可以从以上因素中筛选出高血
压的危险因素。
p>
2.
三早(早期发现、早期诊断和早期
治疗)
,筛查(定期的
重复横断面调查)
例如饮食业人员的肝炎普查、宫颈癌筛查、糖尿病抽样调查
等。
横断面研究的优点是研
究周期短,能在较短的时间获得
对研究总体全面的概括性的认识。缺点是只能获得患病率
,
而不能获得发病率。由于是在同一时点调查因和果,因此无
法
对因果关系作判断。
横断面研究设计(示意图)
N
Ne
ED
ED
ED
ED
调查设计的内容(以糖尿病抽样调查为例)
(1)
确定研究目的
了解糖尿病在一般成年人
(
30
岁以上)
(全国、
广东省或城市)
中
的流行情况和危害程度。探讨与糖尿病患病有关的危险因
素(如遗传、肥胖、饮食习惯、
吸烟与饮酒等)
。
(2)
确定研究对象和样本量
研究的总体
(全国、
广东省或广东的城市居民
)
、
居民的定义、
年龄范围、性别比例
抽样的方法与抽样比例(样本量估计)
(3)
确定观察指标
糖尿病的诊断标准
调查方法和检测方法
调查的界定时间
(4)
制定调查表
根据样本量和研究目的确定调查表的内容
样本量少时,每人的调查时间可以稍长,调查表内容可以多
一些。如样本量大,每个
人的调查时间有限,调查表应集中
于关键的内容。
分析项目:如年龄、性别、家族史、体重、身高、饮食习惯、
烟酒嗜好史等
。
核对项目:姓名、身份证号、联系电话、地址等。
调查员的姓名和调查日期
调查前需对
调查人员做培训,统一询问和填表方式。并可以
做试访。
(5)
设计统计分析指标
患病率,标准化率,χ
2
检验等
< br>
随机抽样的方法与标准误计算
1.
单纯随机抽样
(simply
random sampling)
随机化方法:抽签、随机数字表或随机数发生器。
单纯随机抽样是最基本的随机抽样方法,也是其它抽样方法
的基础。优点是
简单易行,适合样本量较少,方便编号的对
象。标准误的计算也较简单。但样本大时不可
能实施。
标准误计算:无限总体抽样,计算同前;有限总体抽
样,乘
上一个比例系数
设总体数为<
/p>
N
,样本数为
n
,则:
S
S
n
x
?
n
1<
/p>
?
N
S
pq
n
p
?
(
n
?
1
)
1
?
N
< br>
2.
系统抽样
(
机械抽样
)
(systematic
sampling)
随机化方法:按一定顺序,等距抽取样本
。距离按抽样比例
定,开始点用随机数定。
< br>系统抽样方法简单易行,容易得到一个按比例分配的样本。
适合抽样对象已经有某
种编号顺序,一般情况抽样误差比单
纯随机抽样小。缺点是如果抽样顺序与某因素的分布
规律吻
合时,可能抽得有偏样本。无专门的标准误计算公式。
标准误计算:无专用的公式,一般用单纯随机抽样公式。
3.
分层抽样
(stratified
sampling)
随机化方法:随机化不能完全避免抽取的
样本在一些重要的
因素出现偏倚。为保证抽取的样本在这些重要的因素达到均
衡,可采取分层抽样的方法。如糖尿病调查中为保证样本的
年龄分布和性别
分布与总体相符,可以将抽样总体按年龄性
别分层。如:
各性别年龄层的总体人数
年龄组
30-
40-
50-
60-
男
女
p>
分层抽样的优点是抽样误差较少,可以对不同层采用不同随
机化方法
,还可对各层作独立的分析。缺点是工作量大,并
且需先对抽样总体有一定了解。
按比例分层随机抽样:对每层中的抽样总体按固定比例随机
抽取样本。
最优分配分层随机抽样:按估计的
各层的样本数随机抽取各
层的样本。
标准误计算:设总体数为
N
,各层的总体数为
< br>Ni
,各层的方
差为
Si
,各层抽取的样本数为
n
i
< br>,则:
2
?
N
i
?
S
S
x
?
?
?
?
?
N
?<
/p>
n
i
?
N
i
?
p
i
q
i
S
p
?
?
?
?
?
N
?
n
i
n
i<
/p>
?
?
N
i
?
S
?
?
1
?
?
S
x
?
?
?
?
?
N
?
n
i
?
N
i<
/p>
?
2
2
2
i
2
2
i
2
n
i
?
?
N
i
?
p
i
q
i
?
?
1
?<
/p>
?
S
p
?
?
?
?
?
N
?
n
i
?
N
i
?
4.
整群抽样
(cluster
sampling)
单纯随机抽样、系统抽样和分层随机抽样
都要求对每名对象
编号,然后随机抽样。当抽样总体非常大时,光编号的工作
量就不堪设想,这时可采用整群抽样。
随机化方
法:整群抽样是将抽样总体分成若干群,如县、市、
学校、班等,然后对群作随机抽样。
整群抽样的优点是方便组织,节省经费,容易控制调查质量。
缺点是抽样误差较大。
标准误计算:
设抽取的整群数为
k
,
各整群内的个体数相等时,
则:
(
x
i
?
x
)
S
x
?<
/p>
?
k
(
k
?
1
)
2
(
p
i
?
p
)
2
S
p
?
?
k
(
k
?
1<
/p>
)
?
(
x
i
?
x
)
2
?
?
k
?
S
x
?
?
?
?
?
1
?<
/p>
?
k
(
k
?
1
)
?
?
K
?
?
?
(
p
i
?
p
)
2
?
?
k
?
?<
/p>
?
1
?
?
S
p
?
?
?
k
(
k
?
1
)
?
?
K
?
?
如各整群的个体数不等时,以上公式中需给每群的计算乘上
一个权数
m
/m
。
在实践中,常常是几种抽样方法结合起来使用。如广东省的
糖尿病抽样调查,将广东省
的县市按经济发展水平分成山区、
丘陵和沿海平原三层,每层又分农村和城市,再以县市
为单
2
i
2
位
实行整群抽样。抽取的县市再以乡或街道为单位作整群抽
样,被抽取的乡和街道进行全部
居民的调查。
横断面研究抽样调查的样本含量估计
在抽样调查时,如目的是估计总体均数或总体率,则需
计算抽样的样本量,以保证抽样得
到的样本均数或样本率不
会与总体参数间有太大的误差。
(一)样本含量估计需要先确定以下参数:
< br>1
.
容许误差δ:
常取置信区间
(
由文献或预调查取得
)
的一半。
2
.总体标准差
σ或总体率π:由文献或预调查取得。
3
.第一类误差的概率α:
(二)样本含量的计算:
1
.
整群抽样样本含量的计算:
2
i
2
m
(
p
i
?
p
)
k
0
?
Z
?
?
2
2
(
k
y
?<
/p>
1
)
m
?
2
0
(1)
无限总体估计总体率时样本含量的计算:
k
y
为预查的群体数
,
m
和
p
i
为预查的群体中第
i
群调查人
i
数和某事件的发生频率;
m
和
p>
p
为
k
y
群的平均调查人数和平均
发生频率。
有限总体:
k
1
=k<
/p>
0
(1-k
0
/
K)
K
为所有群体数。
m
(
x
i
?
x
)
k
0
?
Z
?
?
2
2
(
k
y
?
1
)<
/p>
m
?
2
2
i
2
(2)
无限总体估计总体均数时样本含量的计算:
< br>有限总体:
k
1
=k
0
(1-k
0
/K)
p>
例
15.1<
/p>
:
K=55,
k
y
=2
,
p
1
=0.2536
,
m
1
=4180
,
p
2
=0.1449
,
m<
/p>
2
=4970
,α
=0.05
,
Z
0.05
=1.96,
δ
=0.1
。
m=
(
4180+4970
)
/2=4575
p=
(
1060+720
)
/
(
4180+4970
)
=0.1945