-
个人总结:
我觉得要做好电子延伸,必须要把它上升到系统的高度。
p>
基本同意
starrweb
战友的提法(那
个图
8
错)
。
电子延伸系统应该有以下几个部分组成:
预处理
(pre
-
process
ing)
、聚类
(clustering)
、拼接
(assembly)
和分析
(analysis)
。
p>
一
.
预处理仅仅去除载体序列是不够的:<
/p>
1.
去除载体序列
,
用
crossmatch
程序。
载体序列库为
ftp:///rep
ository/vector
2.
将
ESTs
序列将与人重复序列库
(
RepBase, )
比较,
去除重复序列,
这样可以提高拼接的效率。
3.
其它潜在的污染序列
(
如鼠<
/p>
DNA
序列、线粒体、核糖体
DNA
序列等
)
前些时候就发现一些
EST
数据中存在线粒体序列污染(发了第
一个
SOS
的帖子,得到了我
在
DXY
的第一分)
,大家应该根据具体的数据
来源来分析可能的污染
.
4.
p>
还有几种污染属于研究前沿,至今没有很好的解决。
包括:来自基因组
DNA
的污染、来自
pre-mRNA
的污染、跨越非常规内含子(不是以
GT
或
GC
开头和
< br>AG
结尾的内含子)的
EST
,
这些都会影响拼接的成功率和正确率。
二
.
聚类
(clustering
)
:
在对大量
ESTs
数据进行分析时
,
情况比
较复杂,
从概念上区分
“
聚类
”
和
“
拼接
”
是必要的。
聚
类过程的
目的是将标记同一基因相同转录本的、具有重叠部分
(over
-
lapping)
的
ESTs
整合
至单一的簇
(cluster)
中。
用
BLAST
和
fasta
进行同源性搜索其实就是聚类的前导工作。
搜
索
UNIGENE
数
据
库
也
是
一
个
完
成
聚
类
的
捷
径
(
本
论
坛
/bbs/post/view?b
id=73&id=13
61500&sty=1&tpg=1&age=0
讲
了
这
个
方法)
,但是我
的经验是
UNIGENE
是一个错误比较多的数据库,最好在选
取了
unigene
的
某个
cluster
以后对它进行处理,再在基因组上校正一下错误,我发现<
/p>
unigene
的含错率还
是比较高的,
会对你的下一步拼接造成很大的影响。所以不可偷懒不校正。
另外各种拼接软件拼接前其实也预先完成了一个聚类的过程。
聚类分为不严格的和严格的聚类
(
loose and stringent clustering
)
:
不严格的聚类
:
不严格的聚类系统产
生大的、
“
松散
”
的类。在所形成的每一类中
,
表达基因
ESTs
数据的覆盖率高
,
含有同一基因不同的转录形式
,
如各
种选择性剪接体、由选择不同
的多腺苷酸位点
(polyade
nylation site)
而产生的不同的转录本等。
其
主要缺点在于每一类中
可能包含旁系同源基因
(paralog
ous expressed gene)
的转录
本
,
信噪比低
,
序列的忠实性低。
这种系统的代表
,
如
STACK
采用的基于字的聚类算法
,
即
d
-
square
聚类。
严格的聚类
:
严格的聚类系统产生高度相关的聚类成员
,
因此忠实性更加可靠。但是
,
表达<
/p>
基因
ESTs
数据的覆盖率低
,
因此所含有的同一基因的不同转录形式少。
这
种系统的代表
,
如
TIGR
的
Gene Indices
所采用的类似于
BLAST
和
FASTA
的序列比对程序
FLAST
。
三
.
几种拼接程序及其评价:前四个比较经典
(phragment
assembly
program)(
/
)
是一个拼接霰弹法产生
的序列片断的程序。
注
意特征为:
允许使用所判读的完整序列而不仅仅是经剪切的高质量部
分;在重复序列出现时可以结合使用者提供的或内部计算的数据质量来提高拼接的正确性;
< br>构建一个由高质量部分镶嵌的拼接程序而不是所谓的一致序列;
可提供广泛的包括
质量值在
内的关于拼接的信息,
可控制非常大的数据集。
但它单独不能提供编辑或浏览的功能。
最佳
搭
配是
PHREP+PHRAP+CONSED
,该套系统就可以
高效、规模化地进行
EST
序列的拼接延
伸。缺点是如果以可变剪切的基因来试验,
Phrap
可正确
地拼接出它所产生的一个蛋白,但
是不能发现其它可变剪切的结果,如
< br>AMP2
基因。
3
该软件是
CAP
< br>(
contig assembly programme
)
的改进版本,
可在线进行。
该软件
适用于
EST
拼接,
可快速去除不能拼
接在一起的序列,
运用动态规划算法可容忍序列的部分错误,
可
剪
切掉所判断序列中
5·
和
3·
端碱基质量不高的区域。它在计算重叠时使用碱基质量值加以控
制,
建立多重比对,
产生一致序列。
并且它可使用正反向约束修正拼接错误和连接片段重叠
群。
PHRAP
可以产生较长的重叠群,
而
CAP3
拼接起来的一致性错误比较少,
同时它运用
正
反向约束机制来处理低质量序列时更容易得到结构框架(
sc
affold
)
。但是它同样不能发现
AMP2
基因的可变剪切变体。
CAP3
在线服务:
/aat/
assembler
可下载到本
地进行,与
PHRAP
一样是针对基因组序列拼接的。采用的是
贪婪算法,我们同
样地拿它检验
AMP2
,
可以拼接出它的蛋白,
而且可以找到由两个
EST
构成的变体,
但是没
有
任何证据和实验能够证明它的真实性。
assembler
zEST
a
ssembler
是专门为
EST
设计
的拼接软件。它由两个步骤组成:
聚类;
b.
拼接
EST
.
< br>运用
zEST assembler
优势在于可以发现不
同变体和多态性。
zEST assembler
不同于其
p>
它程序,采用的是自组织算法,通过
EST
与已有的一致序列相比获得新的一致序列,从而
得到新的变体。
除了上述的四种,还有很多关于序列拼接的程序:
MIRA2: /mira_
GigAssembler:
/~learithe/browse/goldenPath/
Celera Assembler:,1995,2,275-290
ARACHNE: Genome Reserch
2002,177-189