-
大规模测序
测序(
RNA
Sequencing
)—高速序列比对
2.
转录组测序(
Transcriptome
sequencing
)
3.
宏基因组测序
< br>1.
转录组
是指某个物种的特定组织或细胞在某一生理功
能状态下
所
有转录的
mRNA
产物
的集合,是基因组遗传信息传递和表达的重要步
骤和过程。
高通量转录组测序
可
以获得大量
转录本序列信息
,
定量基因
转录表达
水平
,
获得基因组转录区域及
其位点信息等,
在基因组序列拼接注释、
样
品间基因转录差异表达
(
差异表达分析为考点
)
及其功能研究等方
面有重要作用。
1.
有参考基因组的转录组分析技术路线
推荐平台:
Illumina HiSeq
2000
、
Illumina MiSeq
2.
无参考基因组的转录组分析
推荐平台:
Roche 454
FLX+
二、生物信息学分析
1)
有参考基因组的转录组
1.
原始数据整理、
过滤及质量评估
2.
转录组测序分析
?
与参考基因组比对
?
蛋白编码基因的
表达量分析
?
蛋白编码基因的
表达量差异分析
?
差异表达的蛋白编码基因的
聚类分析
(热图)
?
差异表达基因
富集分析
(
GO
、
KEGG
)
?
SNPs
的分析
(
SNPs
鉴定、
同义
/
非同义突变、
与已有
SNPs
数据库
比对)
?
可变剪切分析
?
UTR
区域鉴定
?
新基因
/
新转录本分析
3.
根据客户需求进行个性化分析
2)
无参考基因组的转录组
1.
原始数据整理、过滤及质量评估
2.
转录组测序分析:
?
序列拼装及拼装统计
?
Unigene
功能注释
?
Unigene
的功能
聚类分析
(
KOG
、
p>
GO
)
?
Unigene
的
代谢途径分析
(
KEGG
pathway
)
?
Unigene
的
表达量分析
?
Unigene
的
表达量差异分析
?
差异表达的
Unigene
的
聚类分析
(热图)
?
差异表
达的
Unigene
的
富集分析
(
KOG
、
GO
p>
、
KEGG
)
?
SNPs
的鉴定
3.
根据客户需求进行个性化分析
四、经典案例
案例
< br>1
:人前列腺癌融合基因鉴定
背景:
人前列腺癌发病率位于男性恶性肿瘤的首位,
并且发病率
近年
呈上升趋势。
目的:
对人前列腺癌及癌旁组织基因转录组进行检测分析。
了解人前
列腺癌的种族特异性及其可能的分子生物学机制。
结果:
人前列腺癌的融合基因具有种群特异性,
在欧美人群中普
遍高
频表达
(
50-80%
)
的融合基因
TMPRSS2-ERG
在中国人群中的表达率仅
有
20%
左右,而在欧美人群中尚未发现的融合基因
CTAGE5-KHDRBS3
p>
和
USP9Y-TTTY15
在中国人群中
却有很高的表达频率,分别为
37%
和
35.2%
。
案例
< br>2
:玉米不同发育阶段转录组研究
背景:在单子叶植物中,分生组织分化产生叶片和叶鞘。玉米叶片发
育的整个顺序都
是沿着长度分布的,
不同的部位也呈现出不同的发育
阶段。
p>
目的:对玉米叶片转录组进行分析,了解基因结构和表达差异。
结果:定位了超过
120 Mb
条序列
,定量叶片各发育阶段中成熟维管
束鞘和叶肉细胞中的转录本丰度,
发现在发育各个阶段的维管束鞘和
叶肉细胞中分别有
64%
和
21%
的基因差异表达。同时发现一
个动态转
录组,
其中叶基部初级细胞壁和基本细胞代谢的转录本
向顶端次级细
胞壁生物合成和
C4
光合
作用的转录本转变。
案例
3
:
西葫芦(基因组未知)转录组研究
背
景:西葫芦属于葫芦科,
富含维生素等营养成分,是一种重要的蔬
菜。然而与其相关的研究报道较少,限制了分子育种的发展。
目的:采用
Roche
454
p>
FLX
对西葫芦的根、叶、花等组织进行转录组
测序,分析
SSR
和
SNPs
p>
位点。
结果:通过从头组装获得平均长度为
626
bp
的
unigene 49,610
条。
发现超过
60%
的
unigene
被注释分类到一个或者多个
GO
分类信息中。
在检出的
SSR
中共有
1,882
种基序类型和
9,043
个
SNPs
位点。大量<
/p>
的分子标记,
为遗传性状和数量性状位点分析发挥了重要的作用。
五、
常见问题解答
1. Q
:
转录组测序
与基因表达芯片相比有哪些优势?
p>
A
:与基因表达芯片相比,转录组测序具
有如下优势:首先,应用范
围广。
转录组测序无需预先设计探针
或了解物种的基因组信息,
同样
适用于基因组序列未知物种;第
二,准确性高。基因芯片原理是基于
核酸单链间的互补杂交,
当
杂交条件不同时,
或者丢失低拷贝转录本
信息,或者假阳性率高
。而转录组测序是基于对转录本序列的测定,
准确性很高,
而且
当测序深度足够时,
能够检测到极低低丰度表达的
转录本信息。
第三,信息丰富。转录组测序除了可以用于基因组注释
和基因转录表达分析,而且能发现
新基因,检测可变剪切,
SNPs
,融
合基因等。因此,
转录组测序在诸多方面优于基因表达芯片,已经成
为基因注释、表达检测和发现新基因等方面的主流技术。
2.
Q
:如何进行原核生物转录组分析?
A
:
针对原核生物的
mRNA
没有
poly
A
尾巴
的情况,
需要提供去除
rRNA
后经过
纯化的原核生物
mRNA
或
cDNA<
/p>
样品。
3.
Q
:转录组测序需要多少测序量?
A
:转录组测序所需的测序量随物种转录组大小的不同而有所差异。
而转录组的大小受基因数目和丰度双重影响,不同物种间变化很大。
因此在测序之前,
需要对转录组的大小进行评估。
①针对有参考基因
组的物种,
可通过分析基因组信息,
统计编码基因个
数及其碱基数来
评估转录组的大小,同时也可参考相近或相关物种转录组研究的文
章;②针对无参考基因组的物种,只能参考相近物种的转录组大小。
4.
Q
:转录组测序和数字表达谱测序有什么区别?
A
:转录组测序和数字表达谱测序相比,主要有如下不同:第一,测
序目标不同。转录组测序可以测定特定组织中全部
mRNA
,而表达谱
测序只是测定
mRNA
< br>的酶切标签序列(
21 bp
)
;第二,代表性不同。
数字表达谱测序只测定
21bp
序列,而转录组测序测定转录本全长,
因而可以更准确地代表样品转录表
达情况;第三,应用范围不同。转
录组测序应用范围广泛,
不仅
可以检测表达量差异,
而且可以发现新
的转录本和可变剪切等。
而表达谱测序只能粗略检测表达量差异,
不
能反映基因转录表达的特点和规律;第四,参考序列要求不同。转录
组测序不仅可以
适用于基因组序列已知的物种,
而且也适用于基因组
序列未知的
物种。
而表达谱测序只适用于基因组序列已知的物种。
因
此,对于想要检测表达量差异的客户,我们推荐进行转录组测序,以
获
知更精确的转录组信息。
3.
宏基因
组测序(
Metagenome
sequencing
)
宏基因组学
(
Metagenomics
)也称为元基因组学,是以样品中
的微生
物群落作为整体进行研究的学科。自然界中约有
99%<
/p>
的微生物是不能
在实验室条件下进行纯化培养的。
宏基因组学研究不要求对每个微生
物进行分离纯化培养,
而是直接从样品中提取基因组
DNA
后进行测序
分析。通过宏基因组测序,能够解释微生物群落多样性、种群结构、
进化关系
、
功能活性及环境之间的相互协作关系,
极大地扩展了微生
p>
物学研究范围。
目前宏基因组测序可以分
为环境微生物多样性检测和宏基因组
de
novo
测序。其中环境微生物多样性检测是指通过对环境中微生物
16S
rDNA
高变区
/ITS
的
PCR
扩增产物进行高通量测序,分析该环境下
微
生物群落的多样性和分布规律。宏基因组
de
novo
测序是指对环境样
品中所有微生物基因组<
/p>
DNA
片段化后进行高通量测序,
然后进
行序列
组装和基因注释,
获得部分不可纯培养微生物的基因组序
列,
分析该
环境下所有微生物基因集信息。
环
境
微
生
物
多
样
性<
/p>
检
测
(
Envi
ronmental
microbial
diversity
detection
)
一、
技术路线
推荐平台:
Roche 454
FLX+
、
Illumina MiSeq
二、生物信息分析
1.
原始数据整理、过滤及质量评估
2.
OTU
列表生成及注释
3.
基于物种丰度分析:
?
稀释曲线
?
Alpha
多样性分析
?
物种丰度差异分析
?
聚类分析(热图)
?
多元统计分析(根据实验设计)
4.
基于群落结构分析:
?
单样品物种分布
?
多样品物种分布
?
含进化关系的物种分布
?
Beta
多样性分析(
PCoA
、
NMDS
)<
/p>
5.
根据客户需求进行个性化分析
案例<
/p>
1
:人类“肠型”研究
背景:
人体肠道微生物与人类健康息息相关,
是否能以
这些微生物的
多样性来划分不同的肠型是一个值得探讨的问题。
目的:利用
Illumina
和
Roche 454
测序平台对不同年龄、体重、性
< br>别及国籍的人群肠道微生物多样性进行研究。
结果:<
/p>
研究发现人体胃肠道微生物区系并不是随机组合而成的,
在所
p>
有受检人群中大致可以分为三种类型(
enterotypes
p>
)
:拟杆菌型
(
B
acteroides
)
、
普
氏
菌
型
(
Prevotella
)
、
瘤
胃
球
菌
型<
/p>
(
Ruminococcus
)
。
对更大规模的人群
(
154
名美国人和
85
名丹麦人)
p>
进行调查也得到了同样的结论,
这说明在人体的肠道内真正存活较好
的微生物生态组,
其数量可能并不太多。
不过这种分型方法和人体的
年龄、体重、性别或国籍都没有任何关联。
案例
2
:北极多年海冰和表
层海水微生物多样性研究
背景:北极多年海冰(
multiyear
< br>ice
,
MYI
)的急剧减少表
明这种环
境可能在
100
年后就会消失
,为了了解这种微生物多样性丧失的影
响,对北极附近的两处多年海冰的微生物群落进行
研究。
目的:利用
Roche
454
FLX
测序平台对
2
个多年海冰和
3
个海水
样本
中的微生物
16S
rDNA
p>
的
V3
区进行测序,揭示出北极多年海冰和
表层
海水的微生物群落结构。
结果:
北极多年海冰与周围的海水中微生物存在很大的差异。其中,
多年海冰中的微生物群落多
样性与海水相当,但是丰度较少。此外,
还首次在北极海冰中发现蓝藻以及一些过去未曾
报道的低丰度微生
物物种。
五、常见问题解答
1.
Q
:哪些环境样品可以进行微生物多样性检测?
A
:针对宿主相关样品如皮肤、口腔、呼吸道、消化道、生殖道等进
行研究;针对环境相关样品,如土壤、水体、空气、盐湖、沼泽等进
行研
究。
2.
Q
:基于高通量测序的环境微生物多样性检测技术有何优势?
A
:
常规的宏基因组学研究方法
包括基因克隆文库、
变性梯度凝胶
电泳
DGGE/TGGE
等,
但这些方法的通病是信息量太小,
p>
不能充分反映
复杂的环境微生物多样性和分布。
基因克隆文库构建和检测的工作量大,且自然界中
99%
的微生物在实
验室都没有办法纯化培养,
从培养基上挑取克隆菌株,
摇菌转化测序,
效率低下。
DGGE
法曾经广泛应用于检测微生物群落结构的多态性,
但是需要标准菌株,
且受到凝胶电泳特性的局限,
无法检测到稀有菌
群的种类,因此其重复性和分辨率都不甚理想。
第二代高通量测序无需构建质粒克隆文库,
这避免了文库构
建过程中
利用宿主菌对样品进行克隆而引起的系统偏差,
可以直
接对环境样品
中的基因组片段进行测序,简化了基本操作,提高了测序效率,它能
够对一个群落中微生物的多样性作更加深入和全面的描述,
且具有通<
/p>
量高,重复性好,
精确度高的优点,因而在微生物生态学研究中逐
渐
占据了优势。
3.
Q
:人体为什么又叫“超级生物体”?
A
:
1958
年的诺贝尔生理及医学
奖得主
Joshua
Lederberg
提出了
“超
级生物体”
(
Superorganism
)
”的概念,是指
人体由真核细胞与体内
共生的微生物共同组成。研究发现正常人体肠道中存在约
1000-1500
种微生物,
重量达到
1-1.5
kg
。
微生物数量是人体细胞总数的
10
倍,
微生物基因数量是人类基因数量的
100
多倍。
宏基因组
de
novo
测序
(
Metagenome
de novo sequencing
)
一、
技术路线
推荐平台:
Roche 454
FLX+
、
Illumina HiSeq 2000
二、生物信息分析
1.
原始数据整理、过滤及质量评估
2.
基因集分析
?
基因功能注释
?
基因功能丰度差异分析
?
丰度差异的基因
GO
富集分析
?
丰度差异的基因
KEGG
富集分析
?
聚类分析(热图)
?
多元统计分析(根据实验设计)
3.
基于物种丰度分析:
?
稀释曲线
?
Alpha
多样性分析
?
物种丰度差异分析
?
聚类分析(热图)
?
多元统计分析(根据实验设计)
4.
基于群落结构分析:
?
单样品物种分布
?
多样品物种分布
5.
微生物基因组序列组装和拼接
6.
根据客户需求进行个性化分析
三、样品要求
1.
样品采集:采集条件的一致是最为重要的环节,需严格按照标准
采样,采样后立
即冷冻保存。
2.
样品
DNA
:环境因素异常复杂,许多物质或抑制因子会影响后续
PCR
、测序文库构建和序列测定,常规提取方法不一定适合,建议按
公司要求采用专用试剂盒提取。基因组
DNA
浓度>
100
ng/
μ
l
,总量
>
20
μ
g
,
OD
260/280
在
1.8-2.0
p>
之间,并确保电泳检测无明显
RNA
条带,
基因组条带清晰、完整;基因组
DNA
完全无降解;提供
DNA
电
泳检测照片,用自封袋密封后随样品
一起送样。
3.
样品保存期间切忌反复冻融。
4.
送样管务必标清样品编号,管口使用
Parafilm
膜密封。
四、经典案例
案例
< br>1
:牛瘤胃中纤维素降解微生物
de
novo
测序
背景:
纤维素是自然界中最丰富的碳水化合物资源。
牛在反刍过程中
< br>涉及到纤维素的分解,
研究牛的消化机制,
将为寻找可用
于生产生物
燃料的酶奠定基础。
目的:研究人员将柳枝稷样品置于牛的瘤胃中培养
72 h
p>
,采用
Illumina
平台对附着在样品
上的所有微生物进行基因组分析。
结果:测序分析得到
268
Gb
p>
的宏基因组数据,确定了超过
27,775
个
碳水化合物相关的酶基因和
15
个高
丰度不可培养的微生物基因组。
将部分基因导入细菌,然后由这些细菌产生了
90
种蛋白质酶。这一
数据集极大地丰富了纤维素
相关降解微生物基因组及降解基因集。
五、常见问题解答
1. Q
:针对
16S
rDNA
测序和宏基因组
de
novo
测序有什么不同?
A
:
16S rDNA
测序是针对细菌核糖体小亚基的特定高变区进行
PCR
扩
增,反映物种。
测序仪
简介
Read
数据量
< br>耗
时
错误
长度
/run
/run
第
一
带
Sange
Sanger
1000bp
56kb
测序
r/AB
双脱氧
3730D
终止法
NA
Analy
zerr
二
代
测
Solex
边合成
p>
2*75bp
20.5-2
9.5d
替换
序
<
/p>
a/Ill
边
测
5Gb
umina
序,
Genom
e
Analy
zer
454/G
焦磷酸
400bp
400-60
10h
插入,
S FLX
测序
0Mb
缺失
Titan
ium
Serie
s
三
代
测
Helis
边合成
30-35b
21-28G
8d
插入
序
cope/
边测序
p
b
Helic
os
Genet
ic
Analy
sis
Syste
m
技术
原理
替换率
插
入
率
1.5%
0.003
%
0.004%
0.5%
0.2%
4.5%
对于测序仪的评价指标
1
、
读长:长读长在序列拼接、定位、跨越重复区域的应用中有着极
大优势。如在
De novo assembly
(无参考序列基因组)时,困难在
于如何跨越高
/
低
GC
含量而完成整个基因组的拼接。
NGS
的读长都很短(通常为
< br>100-150bp
)
,拼接完整的难度很大,长读
p>
长还可以帮助变异检测的准确定位。
2
、耗时
3
、准确率
第一代测序
:
1
、
Sanger
双脱氧核苷酸末端终止测序法
原理:由于
ddNTP
的
2
?和
3
?都不含羟基,在
DNA
合成反应中
不能形
成磷酸二酯键,因此可以被用来中断
DNA
合成反应
。在
4
个
DN
A
合成反
应体系中分别加入一定比例的带有放射性同位素标记的
某种
ddNTP
,
通过凝胶电泳和放射
自显影后,
可以根据电泳带的位置确定待测分子
的
DNA
序列。
(放射性标记,
对人体有害,后来发明以荧光标记代替放
射性同位素标记、
以
荧光信号接收器和计算机信号分析系统代替放射
性自显影的自动测序仪)
2
、
Gilbert
化学讲解法
原理:用特定的化学试剂标记碱基再用化学方法打断待测序列
毛细管电泳技术
一次可以测
48-384
个独立样品,一天
1-8Mb
p>
的碱基信息。
第一代测序:工作量大,耗
时多,花费更多,
但读取长度大
。
第二代测序(高通量测序)
(NGS)
一、
Illumina
测序仪
原理:
1.
文库制备
将基因组
< br>DNA
打成几百个碱基(或更短)的小片段,在片段的两个末
端加上
接头
(adapter)
。
2.
产生
DNA
簇(
DNA
簇和可逆终止子为其
核心专利技术)
利用专利的芯片,其表面连接有一层单链引物
,
DNA
片段变成单链后
通过与芯片表
面的引物碱基互补被一端“固定”在芯片上。
另外一端
(5’或
3’)随机和附近的另外一个引物互补,也被“固定”住,
形成
“桥
(bridge)
“。反复<
/p>
30
轮扩增,每个单分子得到了
1000
倍
扩增,成为单克隆
DNA
簇
。
DNA
簇产生之后,
扩增子被线性化,测序
引物随后杂交在目标区域一侧的通用序列上。由独立软件自动生成
DNA
簇在
5
小时内完成(手动
30min
)
3.
测序
边合成边测序(
Sequencing By Synthes
is
)
,加入改造过的
DNA
聚
合酶和带有
4
种荧光
标记的
dNTP
。
< br>这些核苷酸是“
可逆终止子
”,
因为
3’羟基末端带有可化学切割的部分,它只容许
每个循环掺
入单
个碱基
。此时,用激光扫描反应板表面,读取每条模板序列
第一轮反
应所聚合上去的核苷酸种类。之后,将这些基团化学切割,恢复
3'
端粘性,继续聚合第二个核苷酸。如此继续下去,直到每条模板序列
都完全被聚合为双链。这样,统计每轮收集到的荧光信号结果,就可
以
得知每个模板
DNA
片段的序列。
目前
的配对末端读长可达到
2×50
bp
,更长的读长也能实现,但错误率会增高
。读长会受到多个引起信
号衰减的因素所影响,如荧光标记的不完全切割。
4.
数据分析
:
自动读取碱基,数据被转移到自动分析通道进行二次
分析。
5
、优点:
(
1
)可扩展的高通量,目前每次运行
后可获得
超过
20 GB
的高品质
p>
过滤数据,流动池支架,使每轮运行所得的高质量数据增加
20%<
/p>
;
(
2
)
需要样品量少,
系统需要的样品量低至
p>
100ng
,能应用在很多
样品有限的实验
(比如免疫沉淀、显微切割等)中。
(
3
)运行成本比其他测序仪可能更低。
(
4
)简单快速自动化,制备样本文库可以在几个小时内完
成,一个
星期就可以得到高质量的数据,
支持超过
100
个测序循环,
易用且自
动
(
5
)
新颖的测序化学技术
-
-
-
-
-
-
-
-
-
上一篇:数据搜索时有用的生物大分子数据库扫描
下一篇:肿瘤个体化治疗检测技术指南(试行)