-
实验六、多序列比对及进化树的构建(
3
学时)
目的:
1
、了解蛋白质序列模式二级数据库的结构、内容及基本使用方法。
2
、了解多序列比对工具
Clus
talW/X
的使用方法并学习对比对结果进行编辑与分析。
3
、学习如何构建系统进化树。
内容:
一、
蛋白质功能位点数据库
PROSITE
、蛋白质序列指纹图谱数据库
Prints
的内容、结
构及使用。
1
、
熟悉<
/p>
PROSITE
数据库的数据结构。
<
/p>
从生物学院
-
国家生物学理科基地
-
课件下载处下载最新的
课程相关内容
.rar,
解包后打开实
验数据
-
实验二中的
CBI EMBL
format_P02753
,找到
Database
cross-references
项中的
PROSITE
p>
,
点击
PS00213
的链接。
则显示
PROSITE
数
据库中
Lipocalin
模式
(<
/p>
AC
号为
PS00213
)
的记录信息。利用网上的
PROSITE user
manual
(
/prosite/#convent36
p>
)
理解每一个字段及内容的含
义。回答问题
:
A
、
Lipocalin
pattern
的长度是多少?
B
、
请解释
/TAXO-
RANGE=??EP?
的含义。
C
、
分别解
释
NR
字段中三行数据的含义。
D
、
Q28
133
蛋白(
ALL2_BOVIN
)
是否符合此
pattern
?
E
、
Is
this a good pattern? Why?
2
、
PROSITE
数据库的检索。
ExPaSy(
/prosite/
)
及
SRS
(
<
/p>
,
)都提供了对
PROSITE
数据库的检索服务
。可以通过
AC
、
ID
、
description
、
author
等信息进行数据库检索,你还可以通过各序列数据库中的交叉引
用链接
(
cross-references
or
xref
等)
< br>找到相应的
PROSITE pattern,
profile
or
rules
信息。
< br>ScanProsite
工具(
/tools/scan
prosite/
)则可以分析查询
序列中可能包含的序列模式
或序列谱,以作为进一步鉴定的基础。同时,
ScanProsite
< br>还可以利用特定的序列模式进行对
SWISS-PROT
、
TrEMBL
及
PDB
数据库的搜索以获得相应
数据库中所有具有此模式的序列。利用
ScanProsite
的
help
页面了解有关的使用方法。
回答问题:
F
、
如果查
找
PLEK_HUMAN
序列中所包含的序列模式或序列谱?<
/p>
G
、
如何利用
ScanProsite
在
SWISSPROT
中查找有多少个人类(
ho
mo
sapiens
)序列包含
有与
PLEK_HUMAN
相同的序列谱?请写明过程。
此查询执行的过程很慢,预先作过的
结
果
可
从
实
验
六
-prosite-
ScanProsite
Results
Viewer
of
PLEK_HUMAN
文件中查看。
3
、
p>
蛋白质序列指纹图谱数据库
Prints
的
数据内容及查询工具。
利用课程相关内容
-
实验数据
-
实验二中的
CBI EMBL
format_P02753
,找到
Database
cross-references
项中的
PRINTS
,点击
PR00179
的链接,即显示
PRINTS
数据库中
Lipocalin
蛋
白
序
列
指
纹
信
息
。
利
用
PRINTS
数
据
库
的
用
户
指
南
(
/dbbrowser/PRINTS/
)
熟悉其中的内容
与含义。利用
FingerPrintScan
(
/finger
PRINTScan/
)
进行查询序列中的序列指纹鉴别(以实
验五中的蛋白质查询序列为例)
:
M
STA
VLENPGLGRKLSDFGQETSYIEDNCNQNGAISLIFS
LKEEVGALAKVLRLFEEN
DVNLTHIESRPSRLKKDEYEF
FTHLDKRSLPALTNIIKILRHDIGATVHELSRDKKKDTV
PWFPRTIQELDRFANQILSYGAELDADHPGFKDPVYRARRKQFADIAYNY
RHGQPIPR
VEYMEEEKKTWGTVFKTLKSL
YKTHACYEYNHIFPLLEKYCGFHEDNIPQLEDVSQF
LQ
TCTGFRLRPV
AGLLSSRDFLGGLAFRVFHCTQYIRHGSK
PMYTPEPDICHELLGHVP
LFSDRSFAQFSQEIGLASLGA
PDEYIEKLATIYWFTVEFGLCKQGDSIKAYGAGLLSSFG
ELQYCLSEKPKLLPLELEKTAIQNYTVTEFQPL
YYV
AESFNDAKEKVRNFAA
TIPRPFS
< br>VRYDPYTQRIEVLDNTQQLKILADSINSEIGILCSALQKIK
回答问题:
H
、
此序列包含了哪种序列指纹?
I
、
此序列指纹包含了几个
motif?
二、
利用网上或下载的
ClustalX/W
进行多序列比对,并对结果进行编辑与分析。
1
、
多序列比对。
1
)
利用
BLAST
进行比对序列的
收集。
(当然,
你也可以利用
SRS<
/p>
系统进行某家族序列的
收集,
并通过
p>
SRS
整合的
clustalW
进行多序列比对。
)
在你的多序列比对中,
可能希望
包含两种类型的序列:
已经过鉴定的
具有良好注释及实验信息的序列,
以及你感兴趣的
未鉴定的序列
(但必须属于此序列家族)
。将后者加入多序列比对的主要目的是确定序
列中不会发生突变的保守位点,同时确定重要性相对小一些的那些区域。
p>
进入
ExPASy
的
BLAST server (
/tools/blast/
),
在检索框内
输入
P20472
p>
(如果在检索框内输入的是蛋白质序列,使用
blastp
程序,如果输入的是
CDS
序列,
则选择
tblastn
程序)
,
从
options
选项中的
p>
Number of best scoring sequences
to
sho
w
以及
Number of best alignments to show
的下拉菜单中选择
1000
。点击
RUN
BLAST
。
2
)
从结果中选择少于
10
条序列进行第一次的多序列比对。
注意选择的序列
要在具有良
好的
E
值(
10
)与不太好的
E
值(
p>
10
)之间平均分配,同时查看具体的
al
ignment
以确定选择的目标序列与查询序列
(
P20472
)
之间具有全序列范围内的相似性。
在选择
的序列前打勾,
如
P20472
,
P80079
,
P02626
,
P02619
p>
,
P43305
,
P32930
,
P91482
,
P02620
,
P02622
。在
Send selected sequences to
项目的下拉菜单中选择合适的序列输出选项,如
clustalW
是将序列发送到
EMBnet
的
ClustalW
服务器上,点击提交查询内容,则将所
选
序列装填入
ClustalW
服务器的检索框内,利用默认参数
,点击
RUN
ClustalW
,则
可
以得到以不同格式保存的多序列比对结果以及
.dnd
格式的向导树(
guide tree
)或称
dendogram
,它并不是真正的系统进化树。
T-coffee
也是一个多序列比对工具,<
/p>
采用的是与
ClustalW
相类似的渐
进式比对算
法,
它产生的比对结果准确度要比
< br>ClustalW
高,
但运行速度要比
< br>ClustalW
慢。
利用默
认
参数,我们可以看到
T-coffee
产生的结果不仅包含了各
种格式的多序列比对情况以
及向导树,还有用颜色标记比对质量的
html
文件及相应的
PDF
文件。
在这些文件中,
红色表示高质量的片段,而兰色则表明比对的区域不可信。
3
)将上步所选的序列以
FASTA
格式进行保存,并将多序列比对结果中的
aln
p>
格式结果
及
.dnd
文件进行保存。
4
)接入
EBI
的
clustalW
服务器(
/clustalw/
)
,将
-40
-5
-
-
-
-
-
-
-
-
-
上一篇:A Wagner Matinee中文翻译
下一篇:功率流-振动传递原理