-
NCBI
在线
Blast
的图文说明
Blast
(
Basic Local
Alignment Search Tool
)是一套在蛋白质数据库或
DNA
数据库中
进行相似性比较的分析工具。
BLAST
程序能迅速与公开数据库进行相似性序列比较。
BLAST
结果中的得分是对一种对相似性的统计说明。
< br>
BLAST
采用一种局部的算法获得两个序列中具有相似性的序列。
Blast
中常用的程序介绍:
1
、
BLASTP
< br>是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每
条所查
序列作一对一的序列比对。
2
、
p>
BLASTX
是核酸序列到蛋白库中的一种查询。先将核酸序列翻译
成蛋白序列(一条核
酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序
列比对。
3
、
BLASTN
< br>是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序
列作一
对一地核酸序列比对。
4
、
TBLASTN
是蛋白序列到核酸库中的一种查询。与
< br>BLASTX
相反,它是将库中的核酸序
列翻译成蛋白序
列,再同所查序列作蛋白与蛋白的比对。
5
< br>、
TBLASTX
是核酸序列到核酸库中的一种查询。此
种查询将库中的核酸序列和所查的
核酸序列都翻译成蛋白(每条核酸序列会产生
6
条可能的蛋白序列),这样每次比对会产生
3
6
种比对阵列。
NCBI
的在线
blast
:
/<
/p>
1
、进入在线
blast
界面,可以选择
blast
特定的物种(如人,小鼠,水稻等),也可
以选择
blast<
/p>
所有的核酸或蛋白序列。不同的
blast
程序上面已经有了介绍。这里以常用的
核酸库作为例子。
NCBI
在线
blast
页面
2
、粘贴
fasta
格式的序列。选择一个要比对的数据
库。关于数据库的说明请看
NCBI
在
线
blast
数据库的简要说明。一般的话参数默认。
NCBI
在线
p>
blast
页面
3
、
blast
参数的设置。注意显示
的最大的结果数跟
E
值,
E
值是比较重要的。筛选的标
准。最后会说明一下。
blast
参数设置
4
、注意一下你输入的序列长度。注意一下比对的数据库的说明。
NCBI
在线索
blast
结果
5
、
blast
结果的图形显示。没啥好
说的。
blast
的图形显示
6
、
blast
结果的描述
区域。注意分值与
E
值。分值越大越靠前了,
< br>E
值越小也是这样。
blast
结果的描述
7
、
blast
结果的详细
比对结果。注意比对到的序列长度。评价一个
blast
结果的
标准
主要有三项,
E
值(
Expect)
,一致性
(Identities)
,缺失或插入(
Gaps
)。加上长度
的
话,就有四个标准了。如图中显示,比对到的序列长度为
14
05
,看
Identities
这一值
,才
匹配到
1344bp,
而输入的序
列长度也是为
1344bp
(看上面的图),就说明比对到的序
列要长
一点。由
Qurey
(起始
p>
1
)和
Sbjct(
起始
35)
的起始位置可知,
5'<
/p>
端是是多了一段的。有时
也要注意
3'<
/p>
端的。
blast
结果的详细区域
1
blast
结果的详细区域
2
附:
E
值(
Expect)
:表示随机匹配的可能性,
E
值越大,随机匹配的可能性也越大。
E
< br>值接
近零或为零时,具本上就是完全匹配了。
一致性
(Identities)
:或相似性。
匹配上的碱基数占总序列长的百分数。
缺失或插入(
Gaps
):插入或缺失。用“—”来表示。
NCBI
在线
blast
数据库的简要说明
Peptide Sequence
Databases
蛋白序列的数据库
◎nr
All non-
redundant GenBank CDS translations +RefSeqProteins
+ PDB + SwissProt +
PIR + PRF
所有非冗余的的
GenBank
CDS
区的翻译序列
+
参考序列的蛋白
+
PDB
数据库
+
SwissProt
蛋白数据库
+
PRF
蛋白数据库
◎refseq
RefSeq
protein sequences fromNCBI's Reference Sequence
Project.
所有
NCBI
的参
考序列
◎swissprot
Last major release of the SWISS-PROT
protein sequence database (no updates).
swissprot
的蛋白数据库
◎pat
Proteins
from the Patent division of GenPept.
专利的蛋白数据库
◎pdb
Sequences
derived from the 3-dimensional structure from
Brookhaven Protein Data
Bank.
PDB
数据库
◎month
All new or
revised GenBank CDS
translation+PDB+SwissProt+PIR+PRF released in the
last 30 days.
一个月内新增加的蛋白序列
◎env_nr
Protein
sequences from environmental samples.
来自
environmental
samples
的蛋白序列
Nucleotide Sequence
Databases
核酸数据库
◎nr
All GenBank +
RefSeq Nucleotides + EMBL + DDBJ + PDB sequences
(excluding
HTGS0,1,2,EST, GSS, STS,
PAT, WGS). No longer
所有
GenBa
nk
的核酸序列
+
参考序列中的核酸序列
+ EMBL +DDBJ +PDB<
/p>
核酸序列(但不包
括
HTG
,
EST
,
GSS
等序列)
◎refseq_rna
RNA
entries from NCBI's Reference Sequence project
NCBI
参考序列中的核酸序列
◎refseq_genomic
Genomic entries from NCBI's Reference
Sequence project
NCBI
参考序列中的基因组序列
◎est
Database of
GenBank + EMBL + DDBJ sequences from EST Divisions
来自
GenBank + EMBL + DDBJ
的
EST
序列
◎est_human
Human
subset of est.
人的
EST
< br>序列
◎est_mouse
Mouse subset.
小鼠的
EST
序列
◎est_others
Non-
Mouse, non-Human subset of est.
除了人与小鼠
之外的
EST
序列
◎gss
Genome
Survey Sequence, includes single-pass genomic
data, exon-trapped
sequences, and Alu
PCR sequences.
◎htgs
Unfinished High Throughput Genomic
Sequences: phases 0, 1 and 2 (finished, phase
3 HTG sequences are in nr)
未发布的高通量的基因组测序
-
-
-
-
-
-
-
-
-
上一篇:Linux操作系统CentOS7.2发行版本的安装与配置
下一篇:戴尔bios界面