-
基于关联或连锁不平衡的分析方法
中山大学公共卫生学院医学统计与流行病学系
李彩霞
博士
licx@
-83
(
引用时请注明资料来源以及作者信息
)
如果两个基因座上的等位基因是随机关联的,
即不独立,
这种情况就叫做等位基因关联
(
allelic
association
)
或者连锁不平衡(
linkage
disequilibri
um
,
LD
)
。关联通常反映
了分子标记与性状功能突变之间在统计学上的非独立性(连锁不平衡)<
/p>
,但并不一定意味着
因果关系。
如果一个群体在初始状态下连锁不
平衡(
δ
0
≠
0
)
,在随机婚配条件下,在
n
代以后,有
δ
n
=(
1-
θ
)
n
δ
0
。
因此连锁不平衡状态随着代数增加
逐渐演变为平衡状态。
当连锁很弱,
即重组率
< br>θ
很大(接近
1/2
)时,连锁
不平衡参数将随着代数的增加而迅速减小。如果两个基因座紧
密连锁,重组率
θ
很小(接近
0
)
,则不平衡状态将持续很多代。
连锁分析考察重组,因此,考察连锁必须有家庭数据,而由等
位基因关联性(或连锁
不平衡性)
可以由一般的群体数据观察到
,
有的连锁不平衡现象可能是因为群体混杂造成的,
但过大的连
锁不平衡通常被视为紧密连锁的证据。
传统的连锁分析的结果通常是将基因定位
在较大
(例如
~30cM
)
的基因组区域,
而连锁不平衡被视为一种精细定位的方法。
Ott(1999)
指出,对于那些远系繁殖的大群体,连锁不
平衡通常只能延伸到
0.3cM
。
群体关联分析
传统的病例
-
对照研究是基于群体而非家系的疾病关联分析
,它通过随机选择病例和对
照,
然后比较其在标记等位基因和基
因型频率上的差异来说明位点与疾病的关联性。
其缺点
是:阳性
结果可能由混杂因素造成,如不同分层人群(
stratified
< br>populations
)混杂在一
起造成的虚假联系。
为了克服不同分层人群混杂的影响,
相应产生了基于家庭的病例
-对照
研究方法。
单倍型相对风险分析(
HRR
,
haplotype relative
risk
)
单倍型相对风险分析是基
于家系的病例-对照研究方法。
例如:
假定在一个标记基因座<
/p>
上有两个等位基因,假设确定了
n
个患病
的子女,他们分别来自
n
个不同的家庭。在这
< br>n
个家庭中,
父母将有
4
n
个标记基因,
其中
2
n
个传递给了下一代,
构成病例组<
/p>
(受累传递组)
个体的基因型;另外
2<
/p>
n
个没有传递,做为对照组(未传递组)虚拟个体的基因型。通过
传
统的病例-对照研究,
比较传递组与未传递组的标记等位基因
和基因型频率是否有差异。
因
此,基于等位基因的
HRR
分析的统计表格通常整理为如下格式:
表
1
受累
传递组与未传递组的等位基因
M
1
和<
/p>
M
2
的数目
受累传递组
未传递组
合计
基于
基因型的
HRR
分析的统计表格通常整理为如下格式:
表
2
受累传递组与未传递组的基因型的数目
受累传递组
未传递组
合计
传递不平衡检验(
transmission
disequilibrium tests, TDT
)
<
/p>
假定在一个疾病基因座上有两个等位基因
D
1
和
D
2
,
在标记基因座上有两个等位基因
M
1
和
M
2
。
假设确
定了
n
个患病的子女,他们分别来自
n
个不同的家庭。在这
n
个家庭中,
p>
父母
将有
4
n
p>
个标记基因,其中
2
n
个传递给了下一代,另外
2
n
个没
有传递。若标记基因座在疾
病基因座的附近,
且疾病等位基因源
于最近的一次基因突变,
那么,
与疾病等位基因相关联
的标记等位基因将以更高的频率出现在患病的个体中(相对于正常个体而言)
,这个关联的
标记等位基因相对于另一个标记等位基因的不平衡传递表明了标记基因
座和疾病基因座之
间存在连锁与关联。因此,它的统计表格通常整理为如下格式:
表
3
n
个后代的
2n
个父母
传递和没有传递标记等位基因
M
1
和<
/p>
M
2
的数目
<
/p>
M
1
M
1
a
e
a
+
c
M<
/p>
1
M
2
b
f
b
+
f
M<
/p>
2
M
2
c
g
c
+
g
合计
n
n
2
n
M
1
a
c
a+c
M
2
b
d
b+d
合计
2
n
2
n
4
n
传递的等位基因
没有传递的等位基因