关键词不能为空

当前您在: 主页 > 英语 >

表达序列标签有关知识总结

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-02-27 21:56
tags:

-

2021年2月27日发(作者:脸)


个人总结:



我觉得要做好电子延伸,必须要把它上升到系统的高度。



基本同意


starrweb


战友的提法(那 个图


8


错)





电子延伸系统应该有以下几个部分组成:


预处理


(pre



process ing)


、聚类


(clustering)

、拼接


(assembly)


和分析

(analysis)






.


预处理仅仅去除载体序列是不够的:< /p>



1.


去除载体序列

,



crossmatch


程序。



载体序列库为


ftp:///rep ository/vector



2.



ESTs


序列将与人重复序列库


( RepBase, )


比较,


去除重复序列,


这样可以提高拼接的效率。



3.


其它潜在的污染序列


(


如鼠< /p>


DNA


序列、线粒体、核糖体


DNA


序列等


)



前些时候就发现一些


EST


数据中存在线粒体序列污染(发了第 一个


SOS


的帖子,得到了我



DXY


的第一分)


,大家应该根据具体的数据 来源来分析可能的污染


.



4.


还有几种污染属于研究前沿,至今没有很好的解决。



包括:来自基因组


DNA


的污染、来自


pre-mRNA


的污染、跨越非常规内含子(不是以


GT



GC


开头和

< br>AG


结尾的内含子)的


EST


, 这些都会影响拼接的成功率和正确率。




.


聚类


(clustering )




在对大量


ESTs


数据进行分析时


,


情况比 较复杂,


从概念上区分



聚类





拼接

< p>


是必要的。



类过程的 目的是将标记同一基因相同转录本的、具有重叠部分


(over



lapping)



ESTs


整合


至单一的簇


(cluster)


中。




< p>
BLAST



fasta


进行同源性搜索其实就是聚类的前导工作。






UNIGENE






< p>













/bbs/post/view?b


id=73&id=13 61500&sty=1&tpg=1&age=0






方法)


,但是我 的经验是


UNIGENE


是一个错误比较多的数据库,最好在选 取了


unigene



某个

< p>
cluster


以后对它进行处理,再在基因组上校正一下错误,我发现< /p>


unigene


的含错率还


是比较高的, 会对你的下一步拼接造成很大的影响。所以不可偷懒不校正。



另外各种拼接软件拼接前其实也预先完成了一个聚类的过程。




聚类分为不严格的和严格的聚类


( loose and stringent clustering )




不严格的聚类


:


不严格的聚类系统产 生大的、



松散


的类。在所形成的每一类中


,


表达基因


ESTs


数据的覆盖率高


,


含有同一基因不同的转录形式


,


如各 种选择性剪接体、由选择不同


的多腺苷酸位点


(polyade nylation site)


而产生的不同的转录本等。


其 主要缺点在于每一类中


可能包含旁系同源基因


(paralog ous expressed gene)


的转录




,


信噪比低


,


序列的忠实性低。


这种系统的代表


,



STACK


采用的基于字的聚类算法


,



d



square


聚类。



严格的聚类


:


严格的聚类系统产生高度相关的聚类成员


,


因此忠实性更加可靠。但是


,


表达< /p>


基因


ESTs


数据的覆盖率低

< p>
,


因此所含有的同一基因的不同转录形式少。


这 种系统的代表


,



TIGR



Gene Indices


所采用的类似于


BLAST



FASTA


的序列比对程序


FLAST





< p>
.


几种拼接程序及其评价:前四个比较经典



(phragment


assembly


program)(


/


)


是一个拼接霰弹法产生


的序列片断的程序。


注 意特征为:


允许使用所判读的完整序列而不仅仅是经剪切的高质量部

分;在重复序列出现时可以结合使用者提供的或内部计算的数据质量来提高拼接的正确性;

< br>构建一个由高质量部分镶嵌的拼接程序而不是所谓的一致序列;


可提供广泛的包括 质量值在


内的关于拼接的信息,


可控制非常大的数据集。


但它单独不能提供编辑或浏览的功能。


最佳


搭 配是


PHREP+PHRAP+CONSED


,该套系统就可以 高效、规模化地进行


EST


序列的拼接延


伸。缺点是如果以可变剪切的基因来试验,


Phrap


可正确 地拼接出它所产生的一个蛋白,但


是不能发现其它可变剪切的结果,如

< br>AMP2


基因。




3


该软件是


CAP

< br>(


contig assembly programme



的改进版本,


可在线进行。


该软件 适用于


EST


拼接,


可快速去除不能拼 接在一起的序列,


运用动态规划算法可容忍序列的部分错误,


可 剪


切掉所判断序列中



< p>


端碱基质量不高的区域。它在计算重叠时使用碱基质量值加以控


制,


建立多重比对,


产生一致序列。


并且它可使用正反向约束修正拼接错误和连接片段重叠


群。


PHRAP


可以产生较长的重叠群,



CAP3


拼接起来的一致性错误比较少,


同时它运用 正


反向约束机制来处理低质量序列时更容易得到结构框架(


sc affold



。但是它同样不能发现


AMP2


基因的可变剪切变体。



CAP3


在线服务:


/aat/



assembler


可下载到本 地进行,与


PHRAP


一样是针对基因组序列拼接的。采用的是 贪婪算法,我们同


样地拿它检验


AMP2



可以拼接出它的蛋白,


而且可以找到由两个


EST


构成的变体,


但是没


有 任何证据和实验能够证明它的真实性。




assembler


zEST


a ssembler


是专门为


EST


设计 的拼接软件。它由两个步骤组成:



聚类;


b.


拼接


EST


.

< br>运用


zEST assembler


优势在于可以发现不 同变体和多态性。


zEST assembler


不同于其


它程序,采用的是自组织算法,通过


EST


与已有的一致序列相比获得新的一致序列,从而


得到新的变体。




除了上述的四种,还有很多关于序列拼接的程序:



MIRA2: /mira_



GigAssembler: /~learithe/browse/goldenPath/



Celera Assembler:,1995,2,275-290



ARACHNE: Genome Reserch 2002,177-189


-


-


-


-


-


-


-


-



本文更新与2021-02-27 21:56,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/676345.html

表达序列标签有关知识总结的相关文章