-
全基因组重测序数据分析
1.
简介
(Introduction)
通过高通量测序识别发现
de
nov
o
的
somatic
和
germ
line
突变,结构变异
-SNV
,包括重
排突变(
d
eletioin, duplication
以及
copy
number variation
)以及
SNP
的座位;针对重排
突变和
SNP
的功能性进行综合分析;我们将分析基因功能(包括
miRNA
),重组率
(
Recombination
)情况,杂合性缺失(
LOH
)以及进化选择与
mutation
之间的关系;以
及这些关系
将怎样使得在
disease
(
can
cer
)
genome
中的
mutation
产生对应的易感机制和
功能。<
/p>
我们将在基因组学以及比较基因组学,
群体遗传学综合层面上深入
探索疾病基因组和
癌症基因组。
实验设计与样本
< br>(
1
)
Case-
Control
对照组设计
;
(
2
p>
)家庭成员组设计:父母
-
子女组(
4
人、
3
人组或多人
);
初级数据分析
1
.数据量产出:
总碱基数量、
Total Mapping
Reads
、
Uniquely Mapping
Reads
统计,测
序深度分析。
<
/p>
2
.一致性序列组装:与参考基因组序列(
Reference genome sequence
)的比对分析,利
用贝叶斯统计模型检测出每个碱基位点的最大可能性基因型,
并组装出该个
体基因组的一致
序列。
3
.
SNP
检测及在基因组中的分布:提取全基因组
中所有多态性位点,结合质量值、测序深
度、重复性等因素作进一步的过滤筛选,最终得
到可信度高的
SNP
数据集。并根据参考基
因组信息对检测到的变异进行注释。
4
< br>.
InDel
检测及在基因组的分布
:
在进行
mapping
的过程
中,进行容
gap
的比对并检测可
信的
short InDel
。在检测过程中,
gap
的长度为
1~5
个碱基。<
/p>
对于每个
InDel
的检测,至少
需要
3
个
Paire
d-End
序列的支持。
5
.
Structure
Variation
检测及在基因组中的分布
:
能够检测到的结构变异类型主要有:
插入、
缺失、复
制、倒位、易位等。根据测序个体序列与参考基因组序列比对分析结果,检测全基
因组水
平的结构变异并对检测到的变异进行注释。
高级数据分析
1.
测序短序列匹配(
Read
Mapping
)
(
1
)屏蔽掉
Y
染色体上假体染
色体区域(
pseudo-autosomal
region
)
,
将
Read
与参考序
列
NCBI
36
进行匹配(包括所有染色体,未定位的
contig
,以及线粒体序列
mtDNA
(将用
校正的剑桥参考序列做替代)
)
。
采用标准序列匹配处理对原始序列文件进行基因组匹配,
< br>将
Read
与参考基因组进行初始匹配;给出匹配的平均
质量得分分布;
(
2
)碱基质量得分的校准。我们采用碱基质量校准算法对每个
Read
中每个碱基的质量进
行评分,并校准一些显著性误差,包括来自测序循环和
双核苷酸结构导致的误差。
(
3
p>
)
测序误差率估计。
pseudoautosomal
contigs
,
short repeat
regions
(包括
segmental
< br>duplication
,
simple repeat
sequence-
通过
tandem
repeat
识别算法识别)将被过滤;
2. SNP Calling
计算
(
SNP
Calling
)
我们可以采用整合
多种
SNP
探测算法的结果,综合地,更准确地识别出
SNP
。通过对多种
算法各自识别的
SNP
进行一致性分析,保留具有高度一致性的
S
NP
作为最终
SNP
结果。
这些具有高度一致性的
SNP
同时具有非常高的可
信度。在分析中使用到的
SNP
识别算法
包括基于贝叶斯和基因型似然值计算的方法,
以及使用连锁不平衡
LD
或推断技术用于优化
SNP
识
别检出的准确性。
统计
SNV
的等位基因频率在全基因组上的分布
p>
稀有等位基因数目在不同类别的
SNV
中的
比率分布(
a
);
SNV
的类别主要考虑:
(
1
)无
义(
nonsense
)
,
(
2
)化学结构中非同义
,(
3
)所有非同义,(
4
)保守的非同义,(
5
)
非编码,
(
6
)
同义,
等类型
SNV
;
另外,
针对保守性的讨论,
我们将分析非编码区域
SNV
的保守型情况及其分布(图
p>
a, b
)
3.
短插入
/
缺失探测(
Short Insertion
/Deletion
(
Indel
)
Call
)
(1).
计算全基因组的
indel
变异和基因型检出值的过程
计算过程
主要包含
3
步:(
1
< br>)潜在的
indel
的探测;(
2
)通过局部重匹配计算基因型的似
然值;(
< br>3
)基于
LD
连锁不平衡的基因
型推断和检出识别。
Indel
在
X<
/p>
,
Y
染色体上没有检
出值得出。
(2). Indel
过滤处理
4.
融合基因的发现(
Fusion gene
Discovery
)
选择注释的基因信息来自于当前最新版本的
Ensemble
Gene
数据库,
RefSeq
数据库和
Vega
Gene
数据库。下面图例给出的是融合基因的形成,即来自不同染色体的各自外显子
经
过重组形成融合基因的模式图。
5.
结构变异(
Structure
Variation
)
结构变异
(
Structure Va
riation
-
SV
)
是基因组变异的一类主要来源,
主要由大片段序列
(
一
般
>1kb
)
的拷贝数变异
(
copy number
variation, CNV
)
以及非平衡倒位
(
unbalance inversion
)
p>
事件构成。目前主要一些基因组研究探测识别的
SV
大约有
20,000
个(
DG
V
数据库)。在
某些区域上,甚至
SV
形成的速率要大于
SNP
的速率,并与
疾病临床表型具有很大关联。
我们不仅可以通过测序方式识别公共的
SV
,
也可以识别全新的
SV
p>
。
全新的
SV
的生
成一般
在
germ line
和突变机
制方面都具有所报道。然而,当前对
SV
的精确解析需要更好的
算法
实现。同时,我们也需要对
SV
的
形成机制要有更重要的认知,尤其是
SV
否起始于祖先基
因组座位的插入或缺失,而不简单的根据等位基因频率或则与参考基因组序列比对判断。
SV
的功能性也结合群体遗传学和进化生物学结合起来,我们综合的考
察
SV
的形成机制类
别。
SV
形成机制分析,包括以下几种可能存在的主要
机制的识别发现:
(
A
)同源性介导的直系同源序列区段重组(
NAHR
)
;
(
B
)与
DNA
双链断裂修复或复制叉停顿修复相关的非同源重组(
p>
NHR
);
(<
/p>
C
)通过扩展和压缩机制形成可变数量的串联重复序列(
VNTR
);
(
p>
D
)转座元件插入(一般主要是长/短间隔序列元件
LINE/SINE
或者伴随
TEI
< br>相关事件
的两者的组合)。
结
构变异探测和扩增子(
Amplicon
)的探测与识别分析<
/p>
:
如下图所示
6.
测序深度分析
测序深度分析就是指根
据基因组框内覆盖度深度与期望覆盖度深度进行关联,
并识别出
SV
。
我们也将采用不同算法识别原始测序数据中的缺失片段<
/p>
(
deletion
)
< br>和重复片段
(
duplication
< br>)
。
7. SV
探测识别结果的整合与
FDR
推断
< br>(
可选步骤
)
(1).
PCR
或者芯片方式验证
SV
(2).
计算
FDR-
错误发现率(配合验证试验由客户指定)
(3)
筛选
SV
检出结果用于
SV
的合并和后续分析:我们通过不同方式探测识别
S
V
的目的
极大程度的检出
SV
,并且降低其
FDR
(
<=10%
)。通过下属筛选方法决定后续分析所使
用到的
p>
SV
集合。每种
SV
探测识别算法得到的
SV
的
FDR<
/p>
要求小于
10%
,并将各自符合
条件的
SV
合并;对于
FDR
大于
10%
的算法计算识别的
SV
结果,如果有
PCR
和芯片平
台验证数据,同样可以纳入后续
SV
分析中。最后,针对不同算法得到的
SV
,整
合处理根
据
breakpoint
断点
左右重合覆盖度的置信区间来评定;
8.
变异属性分析
(1)
neutral coalescent
分析
测序数据可以探测到低频率的变异体(
MAF<=5%
)。根据来自群体遗传学理论(
neutral
coales
cent
理论)的期望值可以计算低频度变异的分布。我们用不同等位基因频率下每
p>
Mb
变异数目与
neutral
coalescent
选择下的期望值比值,
即每
Mb
p>
基因组
windows
内的
theta
观测值,
来刻画和反映自然纯化选择与种群
(
cancer cell-line
可以特定的认为是可以区分的
种群)增长速率。该分布分别考察
SNP
(蓝色线),
Indel
(红色
线),具有基因型的大片
段缺失
(黑色线)
,
以及外显子区域上的
SNP<
/p>
(绿色线)
在不同等位基因频率区间上的
theta
情况(参见下图)。
(2).
全新变异体
(novel
variant)
的等位基因频率和数量分布
分析对象包括全新预测的
SNP
,
indel
,
large deletion,
以及外显子
SNP
在每个等位基因频
率类别下的数目比率(
fraction
)(参见
下图);全新预测是指预测分析结果与
dbSNP
(当
前版本
129
)以及
d
eletion
数据库
dbVar
(<
/p>
2010
年
6
月
份版本)和已经发表的有关
indels
研究的基因组数据经过
比较后识别确定的全新的
SNP
,
in
del
以及
deletion
。
dbSNP
包含
SNP
和
indels;
dbVAR
包含
有
deletion,duplication,
以及
mobile
element
insert
ion
。
dbRIP
以及其他基因组学
研究(
JC
Ventrer
以及
Watson
基因组,炎黄计划
亚洲人基因组)结果
提
供
的
short
indels
和
large
deletion
。
(3).
变异体的大小分布以及新颖性分布
计
算
SNP
,
Deletion
,以及
Insertion
大小分布;计算<
/p>
SNP
,
Deletion
,以及
Insertion
中属
于全新预测结果的数目占已有各自参考数据库数目的比例
(相对于
< br>dbSNP
数据库;
dbSNP
包含
SNP
和
indels;dbVA
R
包含有
deletion,duplication,
以及
mobile
element
insertion
。
dbRIP
以及其他基因组学研究
(
JC Ventrer
以及
Watson
基因组,
炎黄计划亚洲人基因组)
结果提供的
short
indels
和
large deletion
)其中,可以给出
LINE
,
Alu
的特征位置。
(4).
结构变异
SV
的断点联结点
(BreakPoint
Junction)
分析
根据
SV
不同检出结果经过一些列筛选步骤构建所有结构变异
SV
的断点联结点数据库,
保
留长度大于等于
50bp
的
SV
p>
;
分析断点联结点处具有
homology
或者
microhomology
的<
/p>
SV
;
并将同一染色体,起始和终止位置
坐标下的不同
SV
进行去冗余处理。
分析识别
SV
的断点联结点
(
Breakpoint
)
:
将
Breakpoint
按照
可能形成的方式可以分类为
以下几类:
(
a
)非等位基因同源重组型(
no
n-allelic homologous recombination-
NAHR
)
;
(
b
)
非同源重组
(
nonhomologous recombination-NHR
)
,
包括
nonhomologous
end-joining
(NHEJ)
和
fork
stalling /template switching
(
FoSTeS/MMBIR
);
(
c
)可变串联重复(
VNTR
)
(
d
)转座插入元件(
TEI
)。
图
C
SV
形成偏好性分析
分析
SV
形成机制与断裂点临近区域序列的关系,包括
染色质界标(端粒,中心粒),重组
高发热点区域,重复序列以及GC含量,短
DNA
motif
和微同源区域(
microhomology
region
)。
-
-
-
-
-
-
-
-
-
上一篇:什么叫立论和驳论+议论文
下一篇:UCSC 操作步骤