-
NCBI
(National Center for
Biotechnology Information),
美国国家生物
技术信息中心
[url]/[/url]
NCBI
是
NIH
的国立医学图书馆(
NLM<
/p>
)的一个分支。
NCBI
提供检索的服务包括:
p>
1
.
GenBank
(
NIH
遗传序列数据库)
:一个可
以公开获得所有的
DNA
序列的
注释过
的收集。
GenBank
是由
NCBI
受过分子生物学高级训练的工作人员通过来
自各个实验室递交的
序列和同国际核酸序列数据库(
EMBL
和
DDBJ
)交换数据建
立起数据库的。
它同日本和欧洲分子生物学实验室的
DNA
数据库共同构成
了国际
核酸序列数据库合作。这三个组织每天交换数据。其中的数据以指数形式增长,<
/p>
最近的数据为它已经有来自
47000
个
物种的
30
亿个碱基。
2
.
Molecular
Databases
(分子数据库):
Nucleotide
Sequence
(核酸序列库):从
NCBI
其他如
Genbank
数据库中收
集整理核酸序列,提供直接的检索
。
Protein
Sequence
(蛋白质序列库):与核酸类似,也是从<
/p>
NCBI
多个不同
资源中编译整理的,方
便研究者的直接查询。
Structure
< br>(
结构)
-
——
关于
NCBI
结构小组的一
般信息和他们的研究计划,
另外也可以访问三维蛋白质结构的分子模型数据库
(
MMDB
)
和用来搜索
和显示结
构的相关工具。
MMDB
:<
/p>
分子模型数据库
—
一个关于三维生物分子结构的数据
库,
结构来自于
X-ray
晶体衍射和
NMR
色谱分析。
< br>Taxonomy
(分类学)——
NCBI
的分类数据库,包括大于
7
万余个物种的名
字和种系,
这些物种都至少在遗传数据库中有一条核酸或蛋白序列。
p>
其目的是为
序列数据库建立一个一致的种系发生分类学。
3
.
Literature
Databases
(文献数据库)
(
1
)
PubMed
< br>是
NLM
提供的一项服务,能够对
MEDLINE
上超过
1200
万条
的
上世纪六十年代中期至今的杂志引用和其他的生命科学期刊进行访问,
并可以连
接到参与的出版商网络站点的全文文章和其他相关资源。
(
2
)
< br>PMC/PubMed
Center
:也是
NLM
的生命科学期刊文献的数字化存储数据
库,
用户可以免费获取
PMC
的文章全文,除了部分期刊要求对近期
的文章付费。
(
3
< br>)
OMIM
(孟德尔人类遗传):有关人类基因和无序基
因的目录数据库由
Victor ck
和他的同事共同创造和编
辑的,由
NCBI
网站负责开发,其
中
也包括对
MEDINE
众多资源和
En
trez
系统的序列记录,以及
NCBI
中其他有关
资源的链接。
(
4
)
Books
:<
/p>
NCBI
的书库不断收集生物医学方面的书籍,提供这些书籍的<
/p>
出版信息、
摘要、
目录和全文的连接,<
/p>
用户可以直接在检索文本框内输入一个观
念就可以查询。
4
.
NCBI
提供的附加的软件工具有:
开放阅读框寻觅器(
ORF Finder
),电子
PCR
,和序列提交工具
Sequin
和
BankIt
。所有的
NCBI
数据库和软件工具可以从
WW
W
或
FTP
来获得。
< br>NCBI
还有
E-mail
服务
器,提供用文本搜索或序列相似搜索访问数据库一种可选方法。
NCBI
网站上还提供了一些诸如研究热点问题、研究小组情况、教育培训、联系
p>
方式等信息,还提供了到
NIH
、
NLM
等的链接。
使用方法
:
用户可以免费登陆
NCBI
的网站,
NCBI
< br>为使用者提供了方便的检索系统和检
索方法:
1
.
Entrez
是<
/p>
NCBI
为用户提供整合所有数据库的访问序列,定位,分类,<
/p>
和结构数据的搜索和检索工具系统,同时也提供序列和染色体图谱的图形视图。
用户进入系统或者进入任意一个数据库,
都会看到简单检索的界面,
选择数据库
输入关键词即可进行查询。
Ent
rez
也提供条件限制和高级检索、布尔逻辑查询。
使用新的<
/p>
Linkout
服务,外部资源可以被链接到
Entrez
记录。
2
.
BLAST
是一个
N
CBI
开发的序列相似搜索程序,还可作为鉴别基因和遗传
特点
的手段。
BLAST
能够在小于
15<
/p>
秒的时间内对整个
DNA
数据库执行序列
搜索。
NCBI Education
/Education/
网址详情
:
这是
NCBI
在线教育资源的索引页,
从这里出发你会找到
NCBI
提供的教
学资
源,这些教程不仅囊括了
NCBI
网站提供的最常用的工具和数据库(
BLAST
,
Entrez
,
PubMed
,
NCBI
News
,
Resource
publications
,
Map
Viewer
exercises
,
Structure
,
NCBI <
/p>
Handbook
)的使用方法和信息
,
还有一些相关的分子生物学的
基础入门知识
(NCBI science primer...)
。
教程大多不仅有文字图片还有动画,
直观易懂,
目的就是一个让大家尽可能
快而有效的掌握好
NCBI
的使用,在这个聚宝盆里淘到真金。
当然您如果想对所有
NCBI
的数据库和工具有更透彻深入的了
解,请绝对不
要错过共
24
章的
NCBI
手册
(NCBI
Handbook)
[url]/books/?rid=handbook[/url]
GenBank
数据库简介
1. GenBank
属于一个序列数据库的国际合作组织,包
括
EMBL
和
DDBJ
。是
NIH
遗传序列数据库,一个所有可以公开获得的
DNA
序列的注释过的收集。
GenB
ank
同日本和欧洲分子生物学实验室的
DNA
数据库共同构成了国际核酸序列
数据库合作。唯一人类基因序列集合(
UniGene
),人类基因组基因图谱,分类
学浏览器,同国立癌症研究所合作的癌症基因组剖析计划(
CGAP
)等数据库。
GenBank
以指数形式增长,核酸碱基数
目大概每
14
个月就翻一个倍。
2.
纪录样本
-
关于
GenBank
的各个字段的详细描述,以及同<
/p>
Entrez
搜索
字段的交叉索引。
p>
3.
访问
GenBank
-
通过
Entrez
Nucleoti
des
来查询。
用
accession
number
,
作者姓名,
物种,
基因
/
蛋白名字,
还有许多其他的文本术语来查询。
关于
Entrez
更多的信息请看下文。
用
BLAST
来在
GenBank
和其他
数据库中进行序列相似搜索。
用
E-mail
< br>来访问
Entrez
和
BLAS
T
可以通过
Query
和
BLAST
服务器。
另外一种选
择是可以用
FTP
下载整个的
Ge
nBank
和更新数据。
4.
增长统计
-
参见公布通知的
2.2.6
(每个分类的统计),
2.2.7
(每个
物种的统计),
2.2.8
p>
(
GenBank
增长)小节。
5.
公布通知,最新
-
最近和即将有的变化,
GenBank
的分类,数据增长统
计,
GenBank
< br>的引用。
6.
公布通知,旧
-
同上相同,是过去公布的统计。
7.
遗传密码
- 15
个遗传密码的概要
。用来确保
GenBank
中纪录的编码序
列被正确的翻译。
向
GenBa
nk
提交数据
:
1.
关于提交序列数据,收到
accession
number
,和对纪录作更新的一般信
息。
2.
BankIt
-
用于一条或者少数条提交的基于
W
WW
的提交工具软件。(请在
提交前用
VecScreen
去除载体)
3.
Sequin
-
提交软件程序,用
于一条或者很多条的提交,长序列,完整基
因组,
alignm
ents
,人群
/
种系
/
突变研究的提交。可以独立使用,或者用基于
TCP
/IP
的“network aware”模式,可以链接到其他
NCBI
的资源和软件比如
Entrez
和
PowerBLAST
。(请在提交前用
VecScreen
去除载体)
4. ESTs -
表达序列标签,短的、单次(测序)阅读
的
cDNA
序列。也包括
来自于差异显
示和
RACE
实验的
cDNA
序列。
5.
GSSs
-
基因组调查序列,
p>
短的、
单次
(测序)
阅读的
cDNA
序列,
exon <
/p>
trap
获得的序列,
cosmid/B
AC/YAC
末端,及其他。
6.
HTGs
-
来自于大规模测序中心
的高通量基因组序列,未完成的(阶段
0
,
1
,
2
)
和完成的
(阶段
3
)
< br>序列。
(注意:
完成的人类的
H
TG
序列可以同时在
GenBank
和
Human Genome
Sequencing
页面上访问。)
7.
STSs
-
序列标签位点。短的在基因组上可以被唯一操作的序列,用于产
生作图位点。<
/p>
8.
注:
SNPs -
人类的和其他物种
的遗传变异数据可以提交到
NCBI
数据库
的单核苷酸多态性库中(
dbSNP
)。
< br>
国际核苷酸序列数据库合作组织
:
1.
GenBank
,
DDBJ
,
EMBL
-
合作计划的概述,
并链接到相应的主页。
GenBank
,
DDBJ
(
DNA Data Bank of
Japan
),
and EMBL
(
European Molecular Biology
Laboratory
)
数据库共享的
数据是每天都交换的,
因此他们是相等的。
数据纪录
的格式和搜索方式可能会不一样,但是
accession number
,序列数据和注解都
是一模一样的。即,你可以用
accession number U12345
在
GenBank
,
DDBJ
或
EMBL
中查找相应纪录,得到的结果是完全一样的序列数据,参考内
容等等
2.
DDBJ/EMBJ/GenBank
特性表
—
特性表格式和标准被合作数据库用
在序
列记录的注释上,
使得数据共享成为可能,
包括详细的描述生物特性和特性限定
语的附录,以及
I
UPAC
规定的核苷酸和氨基酸的代号。
FTP GenBank and Daily
Updates
:
1.
GenBank
普通文件格式
—
参见
Ge
nBank
记录样本和在
GenBank
公布通
知中的详细描述,下载大多数最近的完全公告和日常积累或非积累更新数据。<
/p>
2.
ASN.1
格式
—
摘要句法记号
1
,国际标准组织(
ISO
)数据
表示格式,
下载大多数最近的完全公告和日常积累或非积累更新数据。
< br>
3. FASTA
格式
—
定义行号后只跟随序列数据(示例
),参见描述数据库
的
readme
文
件,包括
nt.Z
(每天更新的非冗余
BLAST
核酸数据库,包括
GenBank+EMBL+DD
BJ+PDB
序列,但是不包括
EST, STS, GSS,
or HTGS
序列),
nr.Z
(每
日更新的非冗余蛋白质),
est.Z,
gss.Z,
htg.Z,
sts.Z,
和其它文件。
分子数据库:
1.
核酸序列
1
、
Entrez
核酸:
用
accession
number
,
作者姓名,
物种,
基因
/
蛋白名字,
以及很多其它的文本术语来搜索核酸序
列记录(在
GenBank
+
PD
B
中)。更多的
关于
Entrez
p>
的信息见下。如果要检索大量数据,也可使用
Batch
Entrez
(批量
Entrez
)。
2
、
RefSeq
:
NCBI
数据库的参考序列。校正
的,非冗余集合,包括基因
组
DNA
contigs
,已知基因的
mRNAs
和蛋白,在将来,整个的染色体。
Accession
nu
mbers
用
NT_xxxxxx, NM_xxxxxx,
NP_xxxxxx,
和
NC_xxxxxx
的形式来表示。
3
、
dbEST
< br>:表达序列标签数据库,短的、单次(测序)阅读的
cDNA
序列。
也包括来自于差异显示和
RACE
< br>实验的
cDNA
序列。
4
、
dbGSS
< br>:基因组调查序列的数据库,短的、单次(测序)阅读的
cDNA
序列,
exon trap
获得的序列,
cosmid/BAC/YAC
末端,及其他。
5
、
dbSTS
< br>:
序列标签位点的数据库,
短的在基因组上可以被唯一操
作的序
列,用于产生作图位点。
6.
、
dbSNP
:单核苷酸多态性数据库,包括
SNPs
,小范围的插
入
/
缺失,
多态重复单元,和微卫星变
异。
2.
完整的基因组
:
1
、
参见下
面
Genome
和
Maps
部分,包括各种物种资源,人,小鼠,大鼠,
酵母,线虫,疟原虫,细菌,
病毒,
viroids
,质粒。
2
、
发
UniGene
:
被整理成簇的
EST
和全长
mRNA
序列,每一
个代表一种
特定已知的或假设的人类基因,有定位图和表达信息以及同其它资源的交叉参
考。序列数据可以以
cluster
形
式在
Unigene
网页下载,完整的数据可以从
FTP
站点
repository/UniGene
目录下下载。
1)
人类:
UniGene
2)
小鼠:
UniGene
3)
大鼠:
UniGene
4)
斑马鱼:
UniGene
3
、
BLAST
< br>:将你的序列同核酸库中的的序列比较,检索相似的序列。
(更
< br>详细的信息见下面
Tools/Sequence
相似搜
索部分)
蛋白序列
:
1
、
Entrez
蛋白
:
用
accession
number,
作者姓名,
物种,
基因
/
蛋白名字,
以及很多其
它的文本术语来搜索蛋白序列记录(在
GenPept
+
Swiss-Prot
+
PIR
+ RPF + PDB
中)。更多的关于
Entrez
的信息见下。如果要检索大量数据,也
可使用
Batch Entrez
(批量
En
trez
)。
RefSeq
—
NCBI
数据库的参考序列。
Curated,
非冗余集合包括基因组
DNA
con
tigs,
已知基因的
mRNAs
和蛋
白,在将
来,整个的染色体。
Accession
numbers
用
NT_xxxxxx,
NM_xxxxxx,
NP_xxxxxx,
和
NC_xxxxxx
的形式来表示。
FTPGenPept
—
下载“.Z”文件,这
个文件包含了从
GenBank/E
MBL/DDBJ
记录中翻译过来的
FASTA
格式的氨基酸序
列,这些记录都有一到两个
CDS
p>
特性的描述。
2
、
完整基因组
:参见下面
Genome
和
Maps
部
分,包括各种物种资源,人,
小鼠,大鼠,酵母,线虫,疟原虫,细菌,病毒,
viroids
,质粒。
1) Entrez
基因组
:提供了一个编码区的概要和各种物种的分类表
(
TaxTable
)
。
编码区概要列
出了在基因组中所有的的蛋白,
并提供链接到
FASTA
文件和
BLAST
。分类表总结了蛋白
BLAST
分析的结果,建议他们的可能功能,并
用颜色编码的图来显示物种同其它物种之间的关系(参见下面
'Genomes
p>
和
Maps,'
部分
Entrez
基因组的一般描述)
2)
FTP
基因组蛋白
< br>:从
ftp
站点的
genban
k/genomes
目录下下载各种物种
的
FASTA
格式的氨基酸序列
*.faa
< br>和蛋白表文件
*.ptt
。参见
readme
文件。蛋白
表也可以在
E
ntrez
基因组中看到。
3
、
PROW
:
Web
上的蛋白资源,关于大约<
/p>
200
种人类的
CD
细胞表面分子
的简短官方向导。
互相检索,
为每个
CD
抗原提供大约
20
中标准信息的分类
(生
化功能,配体,
等等)
4
、
BLAST
:
将你的序列同蛋白库
中的的序列比较,
检索相似的序列。
(更
详细的信息见下面
Tools/Sequence
相似搜索部
分)
结构:
1
、
结构主页
—
关于
NCBI
结构小组的一般信息和他
们的研究计划,另外
也可以访问分子模型数据库(
MMDB
p>
)和用来搜索和显示结构的相关工具。
2
、
MMDB
:
分子模型数据库
—
一个关于三维生物分子结构的数据
库,
结构
来自于
X-ray
晶体衍射和
NMR
色谱分析。
MMDB
是来源于
Brookhaven
< br>蛋白数据库
(
PDB
)三维结构
的一部分,排除了那些理论模型。
MMDB
重新组织和验证了这
些
信息,
从而保证在化学和大分子三维结构之间的交叉参考。<
/p>
数据的说明书包括生
物多聚体的空间结构,
这个分子在化学上是如何组织的,
以及联系两者的一套指
针。
利用将化学,序列,和结构信息整合在一起,
MMDB
计划成为
基于结构的同
源模型化和蛋白结构预测的资源服务。
MMDB<
/p>
的记录以
ASN.1
格式存储,可以用<
/p>
Cn3D,
Rasmol,
或
Kinemage
来显示。另外,
数据库中类似的结构已经被用
VAST
确认,新的结构可以用<
/p>
VASTsearch
来同数据库进行比较。
3
、
Cn3D
—
“See in
3
-
D”,
一个用于
NCBI
数据库的结构和序列相似显
< br>示工具,它允许观察
3-D
结构和序列—结构或结构—结
构同源比较。
Cn3D
用起
来就象你浏
览器上的一个帮助工具。
4
、
VAST
—
矢量同源比较搜索工具—一个在<
/p>
NCBI
开发的计算算法,用于
确定相似
的蛋白三维结构。
每一个结构的“结构邻居”都是预先计算好的,
而且
可以通过
MMDB
的结构概要页
面的链接访问。这些邻居可以用来确认那些不能被
序列比较识别的远的同源性。
5
、
VAST
搜索
—
<
/p>
结构—结构相似搜索服务。比较一个新解出的蛋白结构
和在
MMDB/PDB
数据库中的结构的三维坐标。
VAST
搜索计算一系列可能会被交互
浏览的结构邻居,用分
子图形来观察重叠和同源相似。
分类学
:
1
、
NCBI
的分类数据库主页
—
关于分类计划的一般信息,包括分
类资源
和同
NCBI
分类学家合作的外
部管理者的列表。
2
、
分类浏览器
—
搜索
NC
BI
的分类数据库,包括大于
70000
个物种的名
字和种系,
这些物种都至少在遗传数据库中有一条
核酸或蛋白序列。
可以检索一
个特定种或者更高分类(如属,科
)的核酸,蛋白,和结构记录。如果有新物种
的序列数据被放到数据库中,这个物种就北
加到(分类)数据库中。
NCBI
的分
类数据库的目的是为序列数据库建立一个一致的种系发生分类学。
文献数据库概要
:
1
、
PubMed
—
一个关于生物医药科学的检索系统
,包括引用,摘要,和杂
志的索引术语。它包括直接由出版商提供给
NCBI
的文献引用以及链接到在出版
商网址上的全文的<
/p>
URLs
。
PubMed
包括
MEDLINE
和
PRE
MEDLINE
的完整内容。
它还
包括
一些被
MEDLINE
认为超出范围的文章和杂志,
(这些文章或杂志)
由于内容
或在某一时期不在索
引范围内。因此
PubMed
是比
ME
DLINE
的更大的集合。
2
、
杂志浏览器
—
允许你去查找收录到
PubMed
系统的杂志的名字,
MEDLINE<
/p>
的缩写,或
ISSN
号码。
3
、
PubRef
(开发中)
—
一个关于来自于广大范围的科学杂志的数目记录,
和链接到出版商网址的
全文。
PubRef
包含了
PubME
d
,加上了来自其它学科的杂
志出版商提供的引用和摘要。因此
它是比
PubMed
更大的集合。这个计划的启动
是因为
NAS
要求为科学领域的核心刊物提供一个“
白皮书”服务。
4
、
PubMed
中心(开发中)
—
PubMed
中心是一个无障碍的
NIH
资源,用
于在生命科学领域中同
业互查的基础研究报告。从
2000
年一月开始接受杂志文
p>
章。所有在
PubMed
中心的材料将由目
前任一主要的摘要和索引服务中列出的杂
志提供,
或者在编辑委
员会中拥有
3
个以上有主要资金机构的研究经费的拥有人
的杂志提供。
5
、
OMIM
—
在线人类孟德尔遗传—经常更新的
人类基因和遗传失调的目
录,有链接到其它相关的文献参考,序列记录,和相关数据库。