-
一文解析临床研究中的偏倚及控制方法
p>
在临床科研过程中,我们都致力于一点,就是让分析所得的关联性(
association
)尽量
接近病因性(
< br>causation
)
。除了应用统计学方法以外,非常
重要的就是从根本上分析造
成偏倚(
bias
< br>)的原因并控制误差和偏倚。正如
LinkLab
前文所
提及的,我们需要重点
分析和排除的误差包括:随机误差和系统误差(
< br>bias
)
,以及发现和解释效应修正
< br>(
effect
modification
)
。其中随机误差是随机分布且不可预测的,因此除了增加样本量
或重复测量取均值外别无他法。但对于系统误差和效应修正却可以得到控制或解释,
帮助理解所得结论。
系
统误差包括:混淆偏倚(
confounding
)
、选择偏倚(
selection
bias
p>
)和信息偏倚
(
information
bias
)
。
其中,信息偏倚
(information
bias)
是指在研究的实施阶段中从研
究对象获取研究所需的信息时产生的系统
误差,其原因是由于诊断疾病、测量暴露或
结局的方法有问题,导致被比较各组间收集的
信息有差异而引入的误差。本文将不对
其进行描述。
阅读此文前强烈建议您阅读
LinkLab
< br>2015
年
11
月
6
日《流行病学也好玩(四)
:一种
方法教会你理清科研思路》
,之后就能轻松理解清楚误差和偏倚,以及有效的解
决方法。
混淆偏倚(
confounding
)
E
:暴露变量(
exposure
)
p>
;
Y
:结果变量
(
outcome
)
;
C
:混淆因素
在研究暴露与疾病的联系时,
C
p>
作为混淆因素(
confounder
)必
须满足:
1
)与
exposure
相关联;
2<
/p>
)与
outcome
相关联且不是因为<
/p>
exposure
;
< br>3
)不在
E
和
< br>Y
的因果链上。
但并不是满足
这三个条件就是混淆因素。由于混杂变量的存在,造成了观察到的联系
强度偏离了实际情
况,则称为混杂偏倚。
小测试:
假设
A
=
ex
posure
,
Y
=
< br>outcome
,哪些图的
L
不
是混淆因素呢?
答案就是最后一个图。
混淆因素严重干扰我们对于
risk
的估计,所以
必须想办法控制这些
variable
。但是有时
候因为我们需要考虑的混淆因素不可测量,为了能够分析出真实的结果,可以使用
surrogate confounder
来控制混淆因素。
如下图:
U
为不可测量的混淆因素,为了控制
U
,我们可以替代使用能够代表
U
的其他
变量
L
来分析。比如,我们需要考虑社会地位这个因素,因为无
法测量社会地位,所以我们
可以使用教育、收入、住址、学历等因素代表社会地位进行分
析。
切忌:
当进行统计分析的时候,务必仅考虑混淆因素而不对非混淆因素进行处理,所
以并不是
考虑的因素越多越好。因为分析时控制的混淆因素越多,则分析的
power
越
低,甚至因为控制某一非混淆因素而引入新的混淆因素。如下图:
本身该
DAG
不存在混淆因素,但是如果误把
L
p>
当成了混淆因素对其进行控制时,
U1
,<
/p>
U2
则变成了混淆因素对
A
与
Y
的相关性产生干扰。
如何去除混淆因素对分析结果的影响呢?
在试验设计阶段,我们可以采取:
1
)随机化(
randomization
):可以有效控制已知和未知的
confounders
;<
/p>
2
)匹配(
m
atching
)和限制(
restriction
):可以控制已知的
confounders
;<
/p>
?
限制:如
果认为某个或某些因素是可能的或已知的混杂因素,在设计过程中,
可对研究对象的选择
条件进行规定,但限制条件不宜太多。如研究冠心病与吸
烟的关系,年龄与性别可能是混
杂因素,就规定本次调查仅限于
40-50
岁的男
性居民。
?
匹配(
matching
):个体配比将每个指示
病例选择一个或多个对照,该对照与
病例具有某些相同的特征,如年龄、性别等,在各比
较组有相同的分布,以达
到清除混杂作用的目的。频数配比将使对照组在某个潜在的混杂
变量的分布与
指示病例组的分布相同,如暴露组
30-39
p>
岁为
30%
,
40
-49
岁为
30%
,
< br>50-59
岁
为
40%
,那么非暴露组应与暴露组有相同的年龄分布。
3
)选择不存在混淆因素与暴露相关的研究人群
在数据分析阶段,仅可以对已知的混淆因素进行控制。我们可以进行:
?
IP weighting/st
andardization
:通过标准化人群,让混淆因素在暴露和非暴露人群
中的分布是相同的,从而去除混淆因素对分析结果的影响;
?
stratification-
based
methods
(包括
s
tratified
analysis,
restriction,
regression…
):
通过研究各个混淆因素水平下(假设各个水平下混淆因素不影响
p>
exposure
和
outcome
的相关性),
exposure
和
outcome
的相关性以去除混淆因素对结果的
影响。
选择偏倚(
selection
bias
)
A
:暴露变量(
exposure
)
Y
:结果变量(
outcome
)
C
:混淆因素(
confo
under
)
选择偏倚
(selection
bi
as)
是由于选择研究对象的方法有问题,使入选者与未入选者在某
些特征上存在着系统差异,从而导致研究结果偏离真实情况。
选择偏倚是一个普适的概念,可以出现在随机对照试验、队列
研究和病例对照试验。
选择偏倚包括:失访
(loss
to
follow-
up)
、无应答偏倚
(non
response
bias)
、数据
缺失
(missing
data
b
ias)
、志愿者偏倚
(volunteer
bias)
、
self-
selection
、健康工人偏倚
(healthy
worker
e
ffect)
。在病例对照研究中,包括不合适选择对照组
(i
nappropriate
selection
of
p>
controls)
、入院率偏倚
(
Berkson’s bias
)
、现患病例
偏倚
(prevalence-incidence bias)
等。
入院率偏倚
(
Berkson’s
bias)
在病例对照试验中需要
考虑。指的是:利用医院或住院病人作为研究对象时,由于各
种疾病的入院率不同而致的
偏倚。
A
:吸烟
Y
:膀胱癌
F
:其他疾病
C
:住院情况
在没有控制住院因素前,
F
=其他疾病并不是混淆因素;但是如果我们选择对照是仅在
住院人群中筛
选时,那么我们相当于人为的控制了
C
=住院情况。因为吸烟可
能引起
除膀胱癌以外的其他疾病,而这些疾病可能引起住院,因此,挑选的对照组具有相
对
于整体人群更高的吸烟率。因此,当我们分析吸烟与膀胱癌发生率的关系时受到混淆。
看一个例子再次说明:
Hypothetical true
association
Bladder
75
25
4.50
Representative
40
60
cancer cases
population controls
有吸烟史
无吸烟史
OR
可以很明显看到,住院人群中选择的对照组吸烟率明显较高,
且会混淆真实的关联性
分析。
现患病例-新病例偏倚
(prevalence-
incidence bias)
在病例对照试验中需要考
虑。
指的是:在病例对照研究,调查时选择的病例往往是存
活的
现患病例,无法对那些因患病已死亡的病例或轻型、非典型或已痊愈的病例进行
调查,而
队列研究中常采用新发生的病例,因而病例对照研究得出的结论与队列研究
的结果可能发
生差异,此即现患病例
-
新病例偏倚,也称为奈曼偏倚(
Neyman
bias
)
。
Observed
association
Bladder
cancer cases
75
25
Hospital
controls
70
30
1.29
A
:吸烟
-
-
-
-
-
-
-
-
-
上一篇:统计学词汇对照
下一篇:六西格玛管理术语名词及解释