-
如何在
ncbi
上检索
NCBI
包括五个部分,
第一部分是欢
迎进入
NCBI
,
包括
NCBI
的最新信
息、
计划与
活动、
读者来信、
服务地址和用户评论等。
第二部分是基因序列数据库
(GenBank)
,
包括基因库概述、检索与投稿。第三部分是数据库服务,包括免费的
Pu
bMed
检索、
Entrez
检索、<
/p>
BLAST
序列族性检索、电子邮件服务
(
详见本章第四节
)
、匿名
FTP
服务。第四部分
是
NCBI
的其它资源。
GenBank
的检索
在
NCBI
主页的第二部分点击
,
即可进入
GenBank
的检索屏幕。
NCBI
?
提供了五种检索,
即
Entrez
浏览检索、
BLAST
序列
类似性检索
、
dbEST
检索、
dbSTS
?
检索和文本检索
(Text
Searching)
。
一、
Entrez
浏览检索
检索的数据库及其检索信息
Entrez
浏览器
(Entrez
Browser)
可以检索以下与
NC
BI
?
链接的基因序列数据库的分子生物数据和书目文献资料。
?
?
?
p>
?
(1) GenBank
、
EMBL
、
DDBJ
p>
中的
DNA
序列
;
?
?
?
?
p>
(2) SWISS-PROT
、
PIR
、
PRF
、<
/p>
PDB
中的蛋白质序列以及
DNA
序列数据库中翻译的蛋白质
序列
;
?
?
?
?
(3)
基因和染色体图像数据
;
?
?
?
?
(4) PDB
以及收入
NCBI
p>
分子模型数据库
(MMDB)
的蛋白质三维
结构
;
?
?
?
?
(5)
通过
PubMed
检索
Medlin
e
和
PreMedline
数据库。<
/p>
?
?
?
?
检索功能
?
?
?
?
p>
Entrez
提供了以下三种检索功能。
?
?
(1)
自由词检索功能
?
?
?
p>
用户可以通过文本词、
关键词、
截词、
p>
期刊名或文献的作者检索
Entrez
数据
库。
截词用
*
号,
期刊名必须用
Medline
刊名缩写,作者姓名必须是姓
在前,名在后,用首字母缩写。
?
?
?
?
(2)
索引词表
(List
Terms)
检索功能
?
?
?
?
索引词表检索是当
你键入检索词,
Entrez
?
在你选
定的字段中显示从该检索词开始的
一个索引词表窗口,
这时,<
/p>
你可以选择一个或几个词进行检索,
这对单词拼写不准确时非常<
/p>
有用。
?
例如
:
在输入框中键入
,选择文本字段
(Text
Words)
和索引词表
(List Terms)
?
检
索功能,
再点击
p>
,
这时返回一个以
开始的索引词表窗口,
浏览选择一个或几个
索引词,点击
,
Entrez
p>
将返回检索结果。
?
?
?
?
(3)
自动检索功能
?
?
?
?
自动检索功能就是
En
trez
浏览器根据用户输入的检索式自动进行检索,返回当前检
索式检出的文献数,
如满意,可进一步取得检索结果,如不满意,
则可对当前检索式进行修
改,直到用户满意为此。例如在输入框键入
,
?
选择所有字段和自动检索
功能,
?
点击
?
Search
?
,
?
Entrez
返回一个
Web
页,
包括当前检出文献数、
加词检索和修改当前检索三
个部分。如果你对检出文献数不满意
(
过多或过少
)
,可以在
加词检索部分增加更专指的检索
词,以提高查准率,也可以在修改当前检索部分选择某一
布尔算符
(AND
、
OR
、
NOT
、
ANDNOT)
,对当前的检索策略进行修改,直到你满意为止。
?
?
?
?
对于检出文献,用户可以选择浏览格式进行浏览,也可以打印或存盘。
?
?
?
p>
?
3
Entrez
检索规则
(1)Ent
rez
支持
号截词检索
;
?
(2)Entrez
对你键入的词可以进行逻辑识别。例如
:
键入
,
Entrez
将它识
别
为
作
者
的
姓
名
Lipman
DJ
和
自
由
词
?
Genomic
s
?
,
?
并<
/p>
将
提
问
式
转
换
为
?
Lipman
?
DJ<
/p>
?
?
AND G
enomics
。对于
Entrez
不
能识别的提问式,如
bac 1
,必
须加双引号,
?
系统
就会将它们作为一
个词进行检索
;
(3)Entrez
支持复杂的布尔逻辑检索
;
(4)Entrez
支持限定字段检索
;
字段标识符的全称如下
:
WORD=Text
Word,
TITL=Title
Word,
MESH=Mesh
Term,
MAJR=MeSH
?
Major
?
Topic,
?
AUTH=Author
Name,
JOUR=Journal
Name,
ECNO=EC/RN
Number,
GENE=Gene
Name,
DATE=Publication
Year,
PDAT=Publication/Creation
Date, MDAT=Modification
Date, PAGE=First
Page,
VOL=V
olume,
KYWD=Keyword,
ORGN=Organism,
ACCN=Accession
Number,
PROT=Protein
Name,
SUBS=Substance,PROP=Property,
FKEY=Feature Key
和
PTYP=Publicaton Type
二、
BLAST
序列类似性检索
序列类似性检索就是将新测定的核酸或蛋白质序列对核酸或蛋
白质序列数据库进行检索,
找出与之相似的序列,
从而评判
新测定的序列是重复别人的工作,
还是在前人的基础上有所创新,
或是发现了新的序列。
现在用于序列类似性检索的软件很多,
下面主要介绍
GenBank
的序列类似性检索工具枣
BLAST
。
1.
BLAST
简介
BLAST
是
Basic Local
Alignment Search Tool
的英文缩写,意即碱基局部对
准检索工具,
是一种序列类似性检索工具。
它采用
统计学记分系统,
能将真正配对的序列同
随机产生的干扰序列区
别开来
;
同时采用启发式算法系统,即采用的是局部对准算法<
/p>
(Local
Alignment
Algorithm)
,而不是全序列对准算法
(Global
Alignment Algorithm)
。全序列对准算
法
是在检索结果中两个被比较序列所有片断均类似
;
而局部对准算
法是找出两个被比较序列
的
最类似
p>
片断,
并得出可能只包含两个序列的某个部
分的对准结果。
在
BLAST
的基础上,
NCBI
又开发了
BLAST 2.0
、
Gapped
BLAST
和
PSI-
BLAST
。
BLAST 2.0
?<
/p>
是一种新的
BLAST
检索工具,它对<
/p>
BLAST
作了改进,运行速度更快,灵敏度更高,同时具有
p>
Gapped BLAST
和
PSI-
BLAST
两种软件的新功能。
Gapped
BLAST
允许在对准的序列中引入空位
(
?
碱基缺
失或插入
)
p>
,
引入
空位
意味着在比较两个相关序列时不会出现中断
(
Break)
现象。
这些
空位对准的记
分系统更能反映相关序列的类似程度。
PSI-
BLAST
的全称是
Position-Specific
?
Iterated
BLAST
p>
,意即特殊位置重复
BLAST
,它提供了
自动、易用的概貌
(Profile)
检索,
< br>是查找序列同源
(Sequence
Homologues)
的有效方法。目前,
PSI-BLAS
T
?
仅用于比较蛋白质
查询序列与蛋白
质数据库中的序列的类似程度。
2.
使用
NCBI
BLAST
服务的四种基本方法
p>
(1)
经由
WWW
使用的
BLAST
使用
BLAST<
/p>
最
容
易
的
方
法
是
WWW
方
式
。
在
用
户
的
浏
览
器
中
键
入
NCBI
的
URL
地
址
:http//
,
p>
进入
NBCI
主页,
然后链接到
BLAST
主页。
BLA
ST
?
主页提
供了好几种
BLAST
检索软件,
包括
BLAST
、
BLAST
2.0
、
Gapped
BLAST
和
PSI-BLAST
等,
其中
BLAST
和
BLAST 2.0
提供了基本检索和高级检索两种模式。
(2)
网络版的
BLAST BLAS
T2
是标准的网络
BLAST
客户软件
,
它可以通过
NCBI
匿名的
FTP
服务器
(
ftp
://
)
下的
/blast/netw
ork/blast2/
获取。
Po
werBlast
是用于大规模分析
基
因
序
列
的
网<
/p>
络
BLAST
客
户
应
用
软
件<
/p>
,
它
可
以
通
过
?
NCBI
p>
?
匿
名
的
FPT
服
务
器
(
ftp://
)
下的
/blast/network/blast2/powerBLAST/
获取。
(3)
独立运行的
BLAST
BLAST 2.0
可以在本地计算机上独立运行,
也可以在自
建的序列数据
库中进行
BLAST
检索
,
?
还可以下载
NCBI
数据库中的记录。
BLAST
运行的软硬件环境为<
/p>
IRIX 6.2
、
Solaris
2.5
、
?
PEC OSF1(
第四版
)
和
Win3
2
系统。
可独立运行的
BLAST 2
.0
在
NCBI
匿名的
FTP
服务器
(
ftp://
)
下的
/blast/executa
bles/
获取。
(4)
电子邮件的
BLAST
通过电子邮件
对基因库进行
BLAST
检索
(
详见本章第四节二
)
。
3.
BLAST
的检索方法
(1)
BLAST
数据库的选择
BLAST
检索的数据库包括两大类
:
一类是肽
序列数据库,另一类是核酸序列数据库。
①
肽序列数据库包括
:
nr:
所有无冗余基因库
CDS
转录产物、
PDB
、
SwissProt
< br>以及
PIR
序
列
month:
最近
30<
/p>
天注释的所有新增的或修订的基因库
CDS
转录产物、
PDB
、
SwissPr
ot
?
和
PIR
序列。
SwissProt: SwissProt
蛋白质序列数据库中最新的主要注释
(
无更新
)
序列。
yeast:
Yeast(Saccharomyces
Cerevisiae)
蛋白质序列。
:
基因
CD
S
转录产物。
pdb:
从
Brookhaven
蛋白质序列数据和三维结
构衍生出来的序列。
Kabat
:
免疫学上感兴趣的蛋白
-
-
-
-
-
-
-
-
-
上一篇:细胞周期CellCycle
下一篇:蛋白质毒素