全基因组重测序数据分析详细说明_高中生题库网|高考真题|高考试题-「密云二中」

-

2021年2月27日发(作者：muller)

全基因组重测序数据分析

简介

(Introduction)

通过高通量测序识别发现

nov o

的

somatic

和

germ

line

突变，结构变异

-SNV

，包括重

排突变（

d eletioin, duplication

以及

copy number variation

）以及

SNP

的座位；针对重排

突变和

SNP

的功能性进行综合分析；我们将分析基因功能（包括

miRNA

），重组率

（

Recombination

）情况，杂合性缺失（

LOH

）以及进化选择与

mutation

之间的关系；以

及这些关系将怎样使得在

disease

（

can cer

）

genome

中的

mutation

产生对应的易感机制和

功能。

我们将在基因组学以及比较基因组学，

群体遗传学综合层面上深入探索疾病基因组和

癌症基因组。

实验设计与样本

 （

1

）

Case- Control

对照组设计

；

（

2

）家庭成员组设计：父母

-

子女组（

4

人、

3

人组或多人）；

初级数据分析

1

．数据量产出：

总碱基数量、

Total Mapping Reads

、

Uniquely Mapping Reads

统计，测

序深度分析。



2

．一致性序列组装：与参考基因组序列（

Reference genome sequence

）的比对分析，利

用贝叶斯统计模型检测出每个碱基位点的最大可能性基因型，

并组装出该个体基因组的一致

序列。

3

．

SNP

检测及在基因组中的分布：提取全基因组中所有多态性位点，结合质量值、测序深

度、重复性等因素作进一步的过滤筛选，最终得到可信度高的

SNP

数据集。并根据参考基
因组信息对检测到的变异进行注释。

4
 ．

InDel

检测及在基因组的分布
:

在进行

mapping

的过程中，进行容

gap

的比对并检测可

信的

short InDel

。在检测过程中，
gap

的长度为

1~5

个碱基。

对于每个

InDel

的检测，至少

需要

3

个

Paire d-End

序列的支持。

5

．

Structure Variation

检测及在基因组中的分布

:

能够检测到的结构变异类型主要有：

插入、

缺失、复制、倒位、易位等。根据测序个体序列与参考基因组序列比对分析结果，检测全基

因组水平的结构变异并对检测到的变异进行注释。

高级数据分析

1.

测序短序列匹配（

Read Mapping

）

（

1

）屏蔽掉

Y

染色体上假体染色体区域（

pseudo-autosomal region

）

,

将

Read

与参考序

列

NCBI 36

进行匹配（包括所有染色体，未定位的

contig

，以及线粒体序列

mtDNA

（将用

校正的剑桥参考序列做替代）

)

。

采用标准序列匹配处理对原始序列文件进行基因组匹配，

 将

Read

与参考基因组进行初始匹配；给出匹配的平均质量得分分布；

（

2

）碱基质量得分的校准。我们采用碱基质量校准算法对每个

Read

中每个碱基的质量进

行评分，并校准一些显著性误差，包括来自测序循环和双核苷酸结构导致的误差。

（

3

）

测序误差率估计。

pseudoautosomal contigs

，

short repeat regions

（包括

segmental
 duplication

，

simple repeat sequence-

通过

tandem repeat

识别算法识别）将被过滤；

2. SNP Calling

计算

（

SNP Calling

）

我们可以采用整合多种

SNP

探测算法的结果，综合地，更准确地识别出

SNP

。通过对多种

算法各自识别的

SNP

进行一致性分析，保留具有高度一致性的

S NP

作为最终

SNP

结果。

这些具有高度一致性的

SNP

同时具有非常高的可信度。在分析中使用到的

SNP

识别算法

包括基于贝叶斯和基因型似然值计算的方法，

以及使用连锁不平衡
LD

或推断技术用于优化

SNP

识别检出的准确性。

统计

SNV

的等位基因频率在全基因组上的分布

稀有等位基因数目在不同类别的

SNV

中的比率分布（

a

）；

SNV

的类别主要考虑：

（

1

）无

义（

nonsense

）

,

（

2

）化学结构中非同义，（

3

）所有非同义，（

4

）保守的非同义，（

5

）

非编码，

（

6

）

同义，

等类型

SNV

；

另外，

针对保守性的讨论，

我们将分析非编码区域

SNV

的保守型情况及其分布（图

a, b

）

3.

短插入

/

缺失探测（

Short Insertion /Deletion

（

Indel

）

Call

）

(1).

计算全基因组的

indel

变异和基因型检出值的过程

计算过程主要包含

3

步：（

1
 ）潜在的

indel

的探测；（

2

）通过局部重匹配计算基因型的似

然值；（
 3

）基于

LD

连锁不平衡的基因型推断和检出识别。

Indel

在

X

，

Y

染色体上没有检
出值得出。

(2). Indel

过滤处理

4.

融合基因的发现（

Fusion gene Discovery

）

选择注释的基因信息来自于当前最新版本的

Ensemble

Gene

数据库，

RefSeq

数据库和

Vega

Gene

数据库。下面图例给出的是融合基因的形成，即来自不同染色体的各自外显子

经过重组形成融合基因的模式图。

5.

结构变异（

Structure Variation

）

结构变异

（

Structure Va riation

－

SV

）

是基因组变异的一类主要来源，

主要由大片段序列

（一

般

>1kb

）

的拷贝数变异

（

copy number variation, CNV

）

以及非平衡倒位

（

unbalance inversion

）

事件构成。目前主要一些基因组研究探测识别的

SV

大约有

20,000

个（

DG V

数据库）。在

某些区域上，甚至

SV

形成的速率要大于

SNP

的速率，并与疾病临床表型具有很大关联。

我们不仅可以通过测序方式识别公共的
SV

，

也可以识别全新的

SV

。

全新的

SV

的生成一般

在

germ line

和突变机制方面都具有所报道。然而，当前对

SV

的精确解析需要更好的算法

实现。同时，我们也需要对

SV

的形成机制要有更重要的认知，尤其是

SV

否起始于祖先基

因组座位的插入或缺失，而不简单的根据等位基因频率或则与参考基因组序列比对判断。

SV

的功能性也结合群体遗传学和进化生物学结合起来，我们综合的考察

SV

的形成机制类

别。

SV

形成机制分析，包括以下几种可能存在的主要机制的识别发现：

（

A

）同源性介导的直系同源序列区段重组（

NAHR

）；

（

B

）与

DNA

双链断裂修复或复制叉停顿修复相关的非同源重组（

NHR

）；

（

C

）通过扩展和压缩机制形成可变数量的串联重复序列（

VNTR

）；

（

D

）转座元件插入（一般主要是长／短间隔序列元件

LINE/SINE

或者伴随

TEI
 相关事件

的两者的组合）。

结构变异探测和扩增子（

Amplicon

）的探测与识别分析

:

如下图所示

6.

测序深度分析

测序深度分析就是指根据基因组框内覆盖度深度与期望覆盖度深度进行关联，

并识别出

SV

。

我们也将采用不同算法识别原始测序数据中的缺失片段

（

deletion

）
 和重复片段

（

duplication
 ）

。

7. SV

探测识别结果的整合与

FDR

推断
 (

可选步骤

)

(1). PCR

或者芯片方式验证

SV

(2).

计算

FDR-

错误发现率（配合验证试验由客户指定）

(3)

筛选

SV

检出结果用于

SV

的合并和后续分析：我们通过不同方式探测识别

S V

的目的

极大程度的检出

SV

，并且降低其

FDR

（

<=10%

）。通过下属筛选方法决定后续分析所使

用到的

SV

集合。每种

SV

探测识别算法得到的

SV

的

FDR

要求小于

10%

，并将各自符合

条件的

SV

合并；对于

FDR

大于

10%

的算法计算识别的

SV

结果，如果有

PCR

和芯片平

台验证数据，同样可以纳入后续

SV

分析中。最后，针对不同算法得到的

SV

，整合处理根

据

breakpoint

断点左右重合覆盖度的置信区间来评定；

8.

变异属性分析

(1) neutral coalescent

分析

测序数据可以探测到低频率的变异体（

MAF<=5%

）。根据来自群体遗传学理论（

neutral

coales cent

理论）的期望值可以计算低频度变异的分布。我们用不同等位基因频率下每

Mb

变异数目与

neutral coalescent

选择下的期望值比值，

即每

Mb

基因组

windows

内的

theta

观测值，

来刻画和反映自然纯化选择与种群

（

cancer cell-line

可以特定的认为是可以区分的

种群）增长速率。该分布分别考察

SNP

（蓝色线），

Indel

（红色线），具有基因型的大片

段缺失

（黑色线）
，

以及外显子区域上的

SNP

（绿色线）

在不同等位基因频率区间上的

theta

情况（参见下图）。

(2).

全新变异体

(novel variant)

的等位基因频率和数量分布

分析对象包括全新预测的

SNP

，
indel

，

large deletion,

以及外显子

SNP

在每个等位基因频

率类别下的数目比率（

fraction

）（参见下图）；全新预测是指预测分析结果与

dbSNP

（当

前版本

129

）以及

d eletion

数据库

dbVar

（

2010

年

6

月份版本）和已经发表的有关

indels

研究的基因组数据经过比较后识别确定的全新的

SNP

，

in del

以及

deletion

。

dbSNP

包含

SNP

和

indels;

dbVAR

包含有

deletion,duplication,

以及

mobile

element

insert ion

。

dbRIP

以及其他基因组学研究（

JC

Ventrer

以及

Watson

基因组，炎黄计划亚洲人基因组）结果

提

供

的

short

indels

和

large

deletion

。

(3).

变异体的大小分布以及新颖性分布

计算

SNP

，

Deletion

，以及

Insertion

大小分布；计算

SNP

，

Deletion

，以及

Insertion

中属
于全新预测结果的数目占已有各自参考数据库数目的比例

（相对于
 dbSNP

数据库；

dbSNP

包含

SNP

和

indels;dbVA R

包含有

deletion,duplication,

以及

mobile

element

insertion

。

dbRIP

以及其他基因组学研究

（

JC Ventrer

以及

Watson

基因组，

炎黄计划亚洲人基因组）

结果提供的

short indels

和

large deletion

）其中，可以给出

LINE

，

Alu

的特征位置。

(4).

结构变异

SV

的断点联结点

(BreakPoint Junction)

分析

根据

SV

不同检出结果经过一些列筛选步骤构建所有结构变异

SV

的断点联结点数据库，

保

留长度大于等于

50bp

的

SV

；

分析断点联结点处具有

homology

或者

microhomology

的

SV

；

并将同一染色体，起始和终止位置坐标下的不同

SV

进行去冗余处理。

分析识别

SV

的断点联结点

（

Breakpoint

）
:

将

Breakpoint

按照可能形成的方式可以分类为

以下几类：

（

a

）非等位基因同源重组型（

no n-allelic homologous recombination- NAHR

）

;

（
b

）

非同源重组

（

nonhomologous recombination-NHR

）

，

包括

nonhomologous end-joining

(NHEJ)

和

fork stalling /template switching

（

FoSTeS/MMBIR

）；

（

c

）可变串联重复（

VNTR

）

（

d

）转座插入元件（

TEI

）。

图

C

SV

形成偏好性分析

分析

SV

形成机制与断裂点临近区域序列的关系，包括染色质界标（端粒，中心粒），重组

高发热点区域，重复序列以及ＧＣ含量，短

DNA

motif

和微同源区域（

microhomology

region

）。

-

-

-

-

-

-

-

-

本文更新与2021-02-27 21:31，由作者提供，不代表本网站立场，转载请注明出处：https://www.bjmy2z.cn/gaokao/676155.html

返回列表：英语

上一篇：什么叫立论和驳论+议论文
下一篇：UCSC 操作步骤

当前您在：主页 > 英语 >

全基因组重测序数据分析详细说明

-

-

-

-

-

-

-

-

-

返回列表：英语

全基因组重测序数据分析详细说明的相关文章

爱心与尊严的高中作文题库

爱心与尊严高中作文题库

爱心与尊重的作文题库

爱心责任100字作文题库

爱心责任心的作文题库

爱心责任作文题库

爱心长在作文题库

爱心中国感恩励志作文题

爱心助考作文题库

爱心助农作文题库

爱心尊重宽容拒绝作文题

爱心尊重作文题库

爱心作文题库好段

爱心作文题库120字

爱心作文题库读者

爱心作文题库分论点

爱心作文题库简短

爱心作文有哪些题库

爱需要被尊重作文题库

爱需要传递200字作文题库

爱需要公平作文题库

爱需要行动作文800高中作

爱需要行动作文题库

爱需要交流与沟通作文题

当前您在： 主页 > 英语 >

-

-

-

-

-

-

-

-

-

全基因组重测序数据分析详细说明的相关文章

当前您在：主页 > 英语 >