关键词不能为空

当前您在: 主页 > 英语 >

全基因组重测序数据分析详细说明

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-02-27 21:31
tags:

-

2021年2月27日发(作者:muller)


全基因组重测序数据分析



1.


简介


(Introduction)



通过高通量测序识别发现


de


nov o



somatic



germ


line


突变,结构变异


-SNV


,包括重


排突变(


d eletioin, duplication


以及


copy number variation


)以及


SNP


的座位;针对重排


突变和


SNP

的功能性进行综合分析;我们将分析基因功能(包括


miRNA

),重组率



Recombination


)情况,杂合性缺失(


LOH


)以及进化选择与


mutation


之间的关系;以


及这些关系 将怎样使得在


disease



can cer



genome


中的

< p>
mutation


产生对应的易感机制和


功能。< /p>


我们将在基因组学以及比较基因组学,


群体遗传学综合层面上深入 探索疾病基因组和


癌症基因组。




实验设计与样本



< br>(


1



Case- Control


对照组设计






2


)家庭成员组设计:父母


-


子女组(


4


人、


3


人组或多人 );




初级数据分析




1


.数据量产出:



总碱基数量、


Total Mapping Reads



Uniquely Mapping Reads


统计,测


序深度分析。


< /p>


2


.一致性序列组装:与参考基因组序列(


Reference genome sequence


)的比对分析,利

< p>
用贝叶斯统计模型检测出每个碱基位点的最大可能性基因型,


并组装出该个 体基因组的一致


序列。



3

< p>


SNP


检测及在基因组中的分布:提取全基因组 中所有多态性位点,结合质量值、测序深


度、重复性等因素作进一步的过滤筛选,最终得 到可信度高的


SNP


数据集。并根据参考基

因组信息对检测到的变异进行注释。



4

< br>.


InDel


检测及在基因组的分布

:


在进行


mapping


的过程 中,进行容


gap


的比对并检测可


信的


short InDel


。在检测过程中,

gap


的长度为


1~5


个碱基。< /p>


对于每个


InDel


的检测,至少


需要


3



Paire d-End


序列的支持。



5



Structure Variation


检测及在基因组中的分布


:


能够检测到的结构变异类型主要有:


插入、


缺失、复 制、倒位、易位等。根据测序个体序列与参考基因组序列比对分析结果,检测全基


因组水 平的结构变异并对检测到的变异进行注释。




高级数据分析




1.


测序短序列匹配(


Read Mapping





1


)屏蔽掉


Y


染色体上假体染 色体区域(


pseudo-autosomal region



,



Read


与参考序



NCBI 36


进行匹配(包括所有染色体,未定位的


contig


,以及线粒体序列


mtDNA


(将用


校正的剑桥参考序列做替代)


)



采用标准序列匹配处理对原始序列文件进行基因组匹配,


< br>将


Read


与参考基因组进行初始匹配;给出匹配的平均 质量得分分布;




2


)碱基质量得分的校准。我们采用碱基质量校准算法对每个


Read

< p>
中每个碱基的质量进


行评分,并校准一些显著性误差,包括来自测序循环和 双核苷酸结构导致的误差。




3



测序误差率估计。



pseudoautosomal contigs



short repeat regions


(包括


segmental

< br>duplication



simple repeat sequence-


通过


tandem repeat


识别算法识别)将被过滤;




2. SNP Calling


计算




SNP Calling




我们可以采用整合 多种


SNP


探测算法的结果,综合地,更准确地识别出


SNP


。通过对多种


算法各自识别的

< p>
SNP


进行一致性分析,保留具有高度一致性的


S NP


作为最终


SNP


结果。

< p>
这些具有高度一致性的


SNP


同时具有非常高的可 信度。在分析中使用到的


SNP


识别算法


包括基于贝叶斯和基因型似然值计算的方法,


以及使用连锁不平衡

LD


或推断技术用于优化


SNP


识 别检出的准确性。




统计

< p>
SNV


的等位基因频率在全基因组上的分布



稀有等位基因数目在不同类别的


SNV


中的 比率分布(


a


);


SNV


的类别主要考虑:



1


)无


义(


nonsense



,



2


)化学结构中非同义 ,(


3


)所有非同义,(


4

< p>
)保守的非同义,(


5



非编码,



6



同义,


等类型


SNV




另外,


针对保守性的讨论,


我们将分析非编码区域


SNV


的保守型情况及其分布(图


a, b






3.


短插入


/


缺失探测(


Short Insertion /Deletion



Indel



Call




(1).


计算全基因组的


indel


变异和基因型检出值的过程



计算过程 主要包含


3


步:(


1

< br>)潜在的


indel


的探测;(


2


)通过局部重匹配计算基因型的似


然值;(

< br>3


)基于


LD


连锁不平衡的基因 型推断和检出识别。


Indel



X< /p>



Y


染色体上没有检

出值得出。



(2). Indel


过滤处理



4.


融合基因的发现(


Fusion gene Discovery




选择注释的基因信息来自于当前最新版本的


Ensemble


Gene


数据库,


RefSeq


数据库和


Vega


Gene


数据库。下面图例给出的是融合基因的形成,即来自不同染色体的各自外显子


经 过重组形成融合基因的模式图。





5.


结构变异(


Structure Variation




结构变异



Structure Va riation



SV



是基因组变异的一类主要来源,


主要由大片段序列


( 一



>1kb



的拷贝数变异



copy number variation, CNV



以及非平衡倒位



unbalance inversion



事件构成。目前主要一些基因组研究探测识别的


SV


大约有


20,000


个(


DG V


数据库)。在


某些区域上,甚至


SV


形成的速率要大于


SNP


的速率,并与 疾病临床表型具有很大关联。


我们不仅可以通过测序方式识别公共的

SV



也可以识别全新的


SV



全新的


SV


的生 成一般



germ line


和突变机 制方面都具有所报道。然而,当前对


SV


的精确解析需要更好的 算法


实现。同时,我们也需要对


SV


的 形成机制要有更重要的认知,尤其是


SV


否起始于祖先基


因组座位的插入或缺失,而不简单的根据等位基因频率或则与参考基因组序列比对判断。


SV


的功能性也结合群体遗传学和进化生物学结合起来,我们综合的考 察


SV


的形成机制类


别。



SV


形成机制分析,包括以下几种可能存在的主要 机制的识别发现:




A


)同源性介导的直系同源序列区段重组(


NAHR


) ;




B


)与


DNA


双链断裂修复或复制叉停顿修复相关的非同源重组(


NHR


);



(< /p>


C


)通过扩展和压缩机制形成可变数量的串联重复序列(


VNTR


);




D


)转座元件插入(一般主要是长/短间隔序列元件


LINE/SINE


或者伴随


TEI

< br>相关事件


的两者的组合)。



结 构变异探测和扩增子(


Amplicon


)的探测与识别分析< /p>


:


如下图所示





6.


测序深度分析



测序深度分析就是指根 据基因组框内覆盖度深度与期望覆盖度深度进行关联,


并识别出


SV



我们也将采用不同算法识别原始测序数据中的缺失片段< /p>



deletion


< br>和重复片段



duplication

< br>)




7. SV


探测识别结果的整合与


FDR


推断

< br>(


可选步骤


)


(1). PCR


或者芯片方式验证


SV


(2).


计算


FDR-


错误发现率(配合验证试验由客户指定)



(3)


筛选


SV


检出结果用于


SV


的合并和后续分析:我们通过不同方式探测识别


S V


的目的


极大程度的检出


SV


,并且降低其


FDR



<=10%


)。通过下属筛选方法决定后续分析所使


用到的


SV


集合。每种


SV


探测识别算法得到的


SV



FDR< /p>


要求小于


10%


,并将各自符合


条件的


SV


合并;对于


FDR


大于


10%


的算法计算识别的


SV


结果,如果有


PCR


和芯片平


台验证数据,同样可以纳入后续


SV


分析中。最后,针对不同算法得到的


SV


,整 合处理根



breakpoint


断点 左右重合覆盖度的置信区间来评定;



8.


变异属性分析



(1) neutral coalescent


分析



测序数据可以探测到低频率的变异体(


MAF<=5%


)。根据来自群体遗传学理论(


neutral


coales cent


理论)的期望值可以计算低频度变异的分布。我们用不同等位基因频率下每


Mb


变异数目与


neutral coalescent


选择下的期望值比值,


即每


Mb


基因组


windows


内的


theta


观测值,


来刻画和反映自然纯化选择与种群



cancer cell-line


可以特定的认为是可以区分的


种群)增长速率。该分布分别考察


SNP


(蓝色线),


Indel


(红色 线),具有基因型的大片


段缺失


(黑色线)


以及外显子区域上的



SNP< /p>


(绿色线)


在不同等位基因频率区间上的


theta


情况(参见下图)。





(2).


全新变异体


(novel variant)


的等位基因频率和数量分布



分析对象包括全新预测的


SNP


indel



large deletion,


以及外显子


SNP


在每个等位基因频

< p>
率类别下的数目比率(


fraction


)(参见 下图);全新预测是指预测分析结果与


dbSNP


(当


前版本


129


)以及


d eletion


数据库


dbVar


(< /p>


2010



6


月 份版本)和已经发表的有关


indels


研究的基因组数据经过 比较后识别确定的全新的


SNP



in del


以及


deletion



dbSNP


包含


SNP



indels;


dbVAR


包含 有


deletion,duplication,


以及


mobile


element


insert ion



dbRIP


以及其他基因组学 研究(


JC


Ventrer


以及


Watson


基因组,炎黄计划 亚洲人基因组)结果




< p>
short


indels



large


deletion




(3).


变异体的大小分布以及新颖性分布



计 算


SNP



Deletion


,以及


Insertion


大小分布;计算< /p>


SNP



Deletion


,以及


Insertion


中属

于全新预测结果的数目占已有各自参考数据库数目的比例


(相对于

< br>dbSNP


数据库;


dbSNP


包含


SNP



indels;dbVA R


包含有


deletion,duplication,


以及


mobile


element


insertion



dbRIP

< p>
以及其他基因组学研究



JC Ventrer


以及


Watson


基因组,


炎黄计划亚洲人基因组)


结果提供的


short indels



large deletion


)其中,可以给出


LINE



Alu


的特征位置。




(4).


结构变异


SV


的断点联结点


(BreakPoint Junction)


分析



根据


SV


不同检出结果经过一些列筛选步骤构建所有结构变异


SV


的断点联结点数据库,



留长度大于等于


50bp



SV



分析断点联结点处具有


homology


或者


microhomology


的< /p>


SV



并将同一染色体,起始和终止位置 坐标下的不同


SV


进行去冗余处理。



分析识别


SV


的断点联结点



Breakpoint


:



Breakpoint


按照 可能形成的方式可以分类为


以下几类:




a


)非等位基因同源重组型(


no n-allelic homologous recombination- NAHR



;


b



非同源重组



nonhomologous recombination-NHR




包括


nonhomologous end-joining


(NHEJ)



fork stalling /template switching



FoSTeS/MMBIR


);




c


)可变串联重复(


VNTR





d


)转座插入元件(


TEI


)。







C



SV


形成偏好性分析



分析


SV


形成机制与断裂点临近区域序列的关系,包括 染色质界标(端粒,中心粒),重组


高发热点区域,重复序列以及GC含量,短


DNA


motif


和微同源区域(

< p>
microhomology


region


)。


-


-


-


-


-


-


-


-



本文更新与2021-02-27 21:31,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/676155.html

全基因组重测序数据分析详细说明的相关文章