表达序列标签有关知识总结_高中生题库网|高考真题|高考试题-「密云二中」

表达序列标签有关知识总结

作者：高考题库网

来源：https://www.bjmy2z.cn/gaokao

2021-02-27 21:56

tags:

-

2021年2月27日发(作者：脸)

个人总结：

我觉得要做好电子延伸，必须要把它上升到系统的高度。

基本同意

starrweb

战友的提法（那个图

错）

。

电子延伸系统应该有以下几个部分组成：

预处理

(pre

－

process ing)

、聚类

(clustering)

、拼接

(assembly)

和分析

(analysis)

。

一

预处理仅仅去除载体序列是不够的：

去除载体序列

用

crossmatch

程序。

载体序列库为

ftp:///rep ository/vector

将

ESTs

序列将与人重复序列库

( RepBase, )

比较，

去除重复序列，

这样可以提高拼接的效率。

其它潜在的污染序列

(

如鼠

DNA

序列、线粒体、核糖体

DNA

序列等

)

前些时候就发现一些

EST

数据中存在线粒体序列污染（发了第一个

SOS

的帖子，得到了我

在

DXY

的第一分）

，大家应该根据具体的数据来源来分析可能的污染

还有几种污染属于研究前沿，至今没有很好的解决。

包括：来自基因组

DNA

的污染、来自

pre-mRNA

的污染、跨越非常规内含子（不是以

或

开头和

 AG

结尾的内含子）的

EST

，这些都会影响拼接的成功率和正确率。

二

聚类

(clustering )

：

在对大量

ESTs

数据进行分析时

情况比较复杂，

从概念上区分

“

聚类

”

和

“

拼接

”

是必要的。

聚

类过程的目的是将标记同一基因相同转录本的、具有重叠部分

(over

－

lapping)

的

ESTs

整合

至单一的簇

(cluster)

中。

用

BLAST

和

fasta

进行同源性搜索其实就是聚类的前导工作。

搜

索

UNIGENE

数

据

库

也

是

一

个

完

成

聚

类

的

捷
径

（

本

论

坛

/bbs/post/view?b

id=73&id=13 61500&sty=1&tpg=1&age=0

讲

了

这

个

方法）

，但是我的经验是

UNIGENE

是一个错误比较多的数据库，最好在选取了

unigene

的

某个

cluster

以后对它进行处理，再在基因组上校正一下错误，我发现

unigene

的含错率还

是比较高的，会对你的下一步拼接造成很大的影响。所以不可偷懒不校正。

另外各种拼接软件拼接前其实也预先完成了一个聚类的过程。

聚类分为不严格的和严格的聚类

( loose and stringent clustering )

：

不严格的聚类

:

不严格的聚类系统产生大的、

“

松散

”
的类。在所形成的每一类中

,

表达基因

ESTs

数据的覆盖率高

,

含有同一基因不同的转录形式

,

如各种选择性剪接体、由选择不同

的多腺苷酸位点

(polyade nylation site)

而产生的不同的转录本等。

其主要缺点在于每一类中

可能包含旁系同源基因

(paralog ous expressed gene)

的转录

本

,

信噪比低

,

序列的忠实性低。

这种系统的代表

,

如

STACK

采用的基于字的聚类算法

,

即

d

－

square

聚类。

严格的聚类

:

严格的聚类系统产生高度相关的聚类成员

,

因此忠实性更加可靠。但是

,

表达

基因

ESTs

数据的覆盖率低

,

因此所含有的同一基因的不同转录形式少。

这种系统的代表

,

如

TIGR

的

Gene Indices

所采用的类似于

BLAST

和

FASTA

的序列比对程序

FLAST

。

三

.

几种拼接程序及其评价：前四个比较经典

(phragment

assembly

program)(

/

)

是一个拼接霰弹法产生

的序列片断的程序。

注意特征为：

允许使用所判读的完整序列而不仅仅是经剪切的高质量部
分；在重复序列出现时可以结合使用者提供的或内部计算的数据质量来提高拼接的正确性；
 构建一个由高质量部分镶嵌的拼接程序而不是所谓的一致序列；

可提供广泛的包括质量值在

内的关于拼接的信息，

可控制非常大的数据集。

但它单独不能提供编辑或浏览的功能。

最佳

搭配是

PHREP+PHRAP+CONSED

，该套系统就可以高效、规模化地进行

EST

序列的拼接延

伸。缺点是如果以可变剪切的基因来试验，

Phrap

可正确地拼接出它所产生的一个蛋白，但

是不能发现其它可变剪切的结果，如
 AMP2

基因。

3

该软件是

CAP
 （

contig assembly programme

）

的改进版本，

可在线进行。

该软件适用于

EST

拼接，

可快速去除不能拼接在一起的序列，

运用动态规划算法可容忍序列的部分错误，

可剪

切掉所判断序列中

5·

和

3·

端碱基质量不高的区域。它在计算重叠时使用碱基质量值加以控

制，

建立多重比对，

产生一致序列。

并且它可使用正反向约束修正拼接错误和连接片段重叠

群。

PHRAP

可以产生较长的重叠群，

而

CAP3

拼接起来的一致性错误比较少，

同时它运用正

反向约束机制来处理低质量序列时更容易得到结构框架（

sc affold

）

。但是它同样不能发现

AMP2

基因的可变剪切变体。

CAP3

在线服务：

/aat/

assembler

可下载到本地进行，与

PHRAP

一样是针对基因组序列拼接的。采用的是贪婪算法，我们同

样地拿它检验

AMP2

，

可以拼接出它的蛋白，

而且可以找到由两个

EST

构成的变体，

但是没

有任何证据和实验能够证明它的真实性。

assembler

zEST

a ssembler

是专门为

EST

设计的拼接软件。它由两个步骤组成：

聚类；

b.

拼接

EST

.
 运用

zEST assembler

优势在于可以发现不同变体和多态性。

zEST assembler

不同于其

它程序，采用的是自组织算法，通过

EST

与已有的一致序列相比获得新的一致序列，从而

得到新的变体。

除了上述的四种，还有很多关于序列拼接的程序：

MIRA2: /mira_

GigAssembler: /~learithe/browse/goldenPath/

Celera Assembler:,1995,2,275-290

ARACHNE: Genome Reserch 2002,177-189

-

-

-

-

-

-

-

-

本文更新与2021-02-27 21:56，由作者提供，不代表本网站立场，转载请注明出处：https://www.bjmy2z.cn/gaokao/676345.html

返回列表：英语

上一篇：部编人教版五年级道德与法治上册10传统美德源远流长第一课时公开课教案
下一篇：SiRNA序列的设计

当前您在：主页 > 英语 >

表达序列标签有关知识总结

-

-

-

-

-

-

-

-

-

返回列表：英语

表达序列标签有关知识总结的相关文章

爱心与尊严的高中作文题库

爱心与尊严高中作文题库

爱心与尊重的作文题库

爱心责任100字作文题库

爱心责任心的作文题库

爱心责任作文题库

爱心长在作文题库

爱心中国感恩励志作文题

爱心助考作文题库

爱心助农作文题库

爱心尊重宽容拒绝作文题

爱心尊重作文题库

爱心作文题库好段

爱心作文题库120字

爱心作文题库读者

爱心作文题库分论点

爱心作文题库简短

爱心作文有哪些题库

爱需要被尊重作文题库

爱需要传递200字作文题库

爱需要公平作文题库

爱需要行动作文800高中作

爱需要行动作文题库

爱需要交流与沟通作文题

当前您在： 主页 > 英语 >

-

-

-

-

-

-

-

-

-

表达序列标签有关知识总结的相关文章

当前您在：主页 > 英语 >