-
NCBI
资源介绍及使用手册
NCBI
资源介绍
本文目录:
NCBI(
美国国立生物技术信息中心
)
简介
NCBI
站点地图
NCBI
癌症基因组研究
NCBI
-
Coffee Break
NCBI
-基因和疾病
NCBI
-
UniGene
Cluster of Orthologous Groups of protei
ns
(
COG
)介绍
< br>
Gene Expression Omnibus
(
GEO
)介绍
LocusLink
介绍
关于
RefSeq
:
N
CBI
参考序列
NCBI(
美国国立生物技术信息中心
)
简介
介绍
理解
自然无声但精妙的关于生命细胞的语言是现代分子生物学的要求。通过只有四个字母来代表
DNA
化学亚基的字母表,出现了生命过程的语法,其最复杂形式就是人类。阐明和使
用这些字母来
组成新的“单词和短语”是分子生物学领域的中心焦点。数目巨大的分子数
据和这些数据的隐秘而
精细的模式使得计算机化的数据库和分析方法成为绝对的必须。挑
战在于发现新的手段去处理这些
数据的容量和复杂性,并且为研究人员提供更好的便利来
获得分析和计算的工具,以便推动对我们
遗传之物和其在健康和疾病中角色的理解。
p>
国立中心的建立
后来的参议员
Claude Pepper
意识到信息计算机化过程方法对指导生物医学研究的重要性,发起了
在
1988
年
11
月
4
日建立国立生物技术信息中心(
NCBI
p>
)
的立法。
NCBI
是在
NIH
的国立医学图书馆
(
p>
NLM
)的一个分支。
NLM
是因为它在创立和维护生物信息学数据库方面的经验被选择的,而且这可
以建
立一个内部的关于计算分子生物学的研究计划。
NCBI
的任务
是发展新的信息学技术来帮助对那
些控制健康和疾病的基本分子和遗传过程的理解。它的
使命包括四项任务:
建立关于分子生物学,生物化学,和遗传
学知识的存储和分析的自动系统
实行关于用于分析生物学重
要分子和复合物的结构和功能的基于计算机的信息处理的,先进方法的
研究
加速生物技术研究者和医药治疗人员对数据库和软件的使用。
全世界范围内的生物技术信息收集的合作努力。
NCBI
通过下面的计划来实现它的四项目的:
基本研究
NCBI
有一个多学科的研究小组包括计算机科学家,分子生物学家,数学家,生物化学家,实验物理
学家,和结构生物学家,集中于计算分子生物学的基本的和应用的研究。这些研究者不仅仅在基础< /p>
科学上做出重要贡献,而且往往成为应用研究活动产生新方法的源泉。他们一起用数学和计
算的方
法研究在分子水平上的基本的生物医学问题。这些问题包括基因的组织,序列的分
析,和结构的预
测。目前研究计划的一些代表是:检测和分析基因组织,重复序列形式,
蛋白
domain
和结构单元,
建立人
类基因组的基因图谱,
HIV
感染的动力学数学模型,数据库搜
索中的序列错误影响的分析,
开发新的数据库搜索和多重序列对齐算法,建立非冗余序列
数据库,序列相似性的统计显著性评估
的数学模型,和文本检索的矢量模型。另外,
p>
NCBI
研究者还坚持推动与
NIH
内部其他研究所及许多
科学院和政府的研究实验室的合作。
数据库和软件
在
1992
年
10
月,
NCBI
< br>承担起对
GenBank
DNA
序列数据库的责任。
NCBI
受过分子生物学高级训练
的工作人员通过来自各个实验室递交的序列和同国际核酸序列数据库(
EMBL
和
DDBJ
)交换数据建
p>
立起数据库。同美国专利和商标局的安排使得专利的序列信息也被整合。
GenBank
是
NIH
遗传序列数据库,
一个所有可以公开获得的
D
NA
序列的注
释过的收集。
GenBa
nk
同日本和欧洲分子生物学实验室的
DNA
< br>数据库共同构成了国际核酸序列数据
库合作。这三个组织每天交换数据。
GenBank
以指数形式增长,
核酸碱基数目大概每
14
个月就翻一个倍。
最近,
GenBank
拥有来自
47,000
个物种的
30
亿个碱基。
孟德尔人类遗传(
OMI
M
),三维蛋白质结构的分子模型数据库(
MMDB
),唯一人类基因序列集合
(
UniGene
p>
),人类基因组基因图谱,分类学浏览器,同国立癌症研究所合作的癌症基因组剖析计
划(
CGAP
)。
Entrez
是
NCBI
的为用户提供整合的访问序列,
定位,
分类,
和结构数据的搜索和检索系统。
Entrez
同时也提供序列和染色体图谱的图形视图。
Entrez
是一个
用以整合
NCBI
数据库中信息的搜寻和检
索工具。
这些数据库包括核酸序列,
蛋白序列,
大分子结构,
全基因组,
和通过
< br>PubMed
检索的
MEDLINE
。
Entrez
的一个强大和独特的特点是检索相关的序列
,
结构,
和参考文献的能力。
杂志文献
通过
PubMed
获得,
PubMed
是一个网络搜索界面,
可以提供对在
M
EDLINE
上的九百万杂志引用的访问,
包含了链
接到参与的出版商网络站点的全文文章。
BL
AST
是一个
NCBI
开发的序列相似
搜索程序,还可作为鉴别基因和遗传特点的手段。
BLAST
能
够在
小于
15
秒的时间内对整个
DNA
数据库执行序列搜索。
NCBI
提供的附加的软件工具有:开放阅读框
寻觅器(
ORF Finder
),电子
PCR
,和序列提交工具,
Sequin
和
BankIt
。所有的
NCBI
数据库
和软
件工具可以从
WWW
或
FTP
来获得。
NCBI
还有
E-mail
服务器,提供用文本搜索或序列相似搜索访问
数据库一种可选方法。
教育和训练
NCBI
通过赞助会议,
研讨会,
和系列演讲来培养在应用于
分子生物学和遗传学的计算机领域的科学
交流。一个科学访问学者项目已经成立,来培养
同外部科学家的合作。作为
NIH
内部的部分研究项
目,也提供博士后工作位置。
NCBI
站点地图
---
关于
D
atabase
的一般介绍
GenBank
Overview
基本信息
什么是
GenBank
?
GenBank
是一个有来自于
70,000
多种生物的核苷酸序列的数据库。每条纪录都有
编码区(
CDS
)特征的注释,还包括氨基酸的翻译。
GenBan
k
属于一个序列数据库的国际合作组织,
包括
< br>EMBL
和
DDBJ
。
纪录样本
-
关
于
GenBank
的各个字段的详细描述,以及同
Entrez
搜索字段的交叉索引。
访问
GenBank -
通过
Entrez
Nucleotides
来查询。用
accession nu
mber
,作者姓名,物种,基因
/
蛋
白名字,还有许多其他的文本术语来查询。关于
Entrez
更
多的信息请看下文。用
BLAST
来在
GenBank
和其他数据库中进行序列相似搜索。用
E-ma
il
来访问
Entrez
和
BLAST
可以通过
Query
< br>和
BLAST
服务器。另外一种选择是可以用
FTP
下载整个的
GenBank
和更新数据。
增长统计
-
参见公布通知的
2.2.6
(每个
分类的统计)
,
2.2.7
(每个物种
的统计)
,
2.2.8
(
GenBank
增长)小节。
公布通知,最新
-
最近和即将有的
变化,
GenBank
的分类,数据增长统计,
GenBank
的引用。
公布通知,旧
-
同上相同,是过去公布的统计。
遗传密码
- 15
个遗传密码的概要
。用来确保
GenBank
中纪录的编码序列被正确的翻译。<
/p>
(向)
GenBank
提交(数据)
关于提交序列数据,收到
accession
number
,和对纪录作更新的一般信息。
BankIt -
用于一条或者少数条提交的基于
WWW
的提交工具软件。(请在提交前用
VecS
creen
去除
载体)
Sequin -
提交软件程序,用于一条或者很多条的提交
,长序列,完整基因组,
alignments
,人群
/
种系
/
突变研究的提
交。可以独立使用,或者用基于
TCP/IP
的“networ
k aware”模式,可以链接
到其他
NCBI
的资源和软件比如
Entrez
和
< br>PowerBLAST
。(请在提交前用
VecScre
en
去除载体)
ESTs - <
/p>
表达序列标签,短的、单次(
测序
)阅读
的
c
DNA
序列。也包括来自于差异显
示和
RACE
实
验的
< br>c
DNA
序列。
GSSs
-
基因组调查序列,
p>
短的、
单次
(
测序
)
阅读的
c
D
NA
序列,
exon
trap
获得的序列,
cosmid/BAC/YAC
末端,及其他。
HTGs
- <
/p>
来自于大规模
测序
中心的高通量基因组序
列,未完成的(阶段
0
,
1
,
2
)和完成的(阶段
3
)
序列。(注意:完成的人类的
HTG
序列可以同时在
GenBank
和
p>
Human Genome
Sequencing
页面上访
问。)
STSs -
序列标签位点。短的在基因组上可以被唯一操作
的序列,用于产生作图位点。
注:
SNPs -
人类的和其他物种
的遗传变异数据可以提交到
NCBI
数据库的单核苷酸多态性库
中
(
dbSNP
)。
< br>
国际核苷酸序列数据库合作组织
GenBank
,
< br>DDBJ
,
EMBL -
合作
计划的概述,并链接到相应的主页。
GenBank
,
DDBJ
(
DNA
Data Bank
of
Japan
),
and EMBL
(
European Molecular Biology
Laboratory
)数据库共享的数据是每天都
交换的,因
此他们是相等的。数据纪录的格式和搜索方式可能会不一样,但是
accession
number
,
序列数据和注解都是一模一样的。
即,
你可以用
accession
number
U12345
在
GenBank
,
DDBJ
< br>或
EMBL
中查找相应纪录,得到的结果是完全一样的序
列数据,参考内容等等。
DDBJ/EMBJ/GenBan
k
特性表
—
特性表格式和标准被合作数据库用在序列记录的注释上,使得数据
共享成为可能,包括详细的描述生物特性和特性限定语的附录,以及
IUPAC
规定的核苷酸和氨基酸
的代号。
FTP
GenBank
and
Daily
Updates
GenB
ank
普通文件格式
—
参见
Ge
nBank
记录样本和在
GenBank
公布通知中的详细描述,下载大多数最近的完全公告和日常积累或非积累更新数据。
ASN.1
格式
—
摘要句法记号
1
,国际标准组织(
ISO
)数据
表示格式,下载大多数最近的完全公告
和日常积累或非积累更新数据。
< br>
FASTA
格式
—
定义行号后只跟随序列数据(示例
),参见描述数据库的
readme
文件,包括
nt.Z
(每天更新的非冗余
BLAST
核酸数据库,
包括
GenBank+EMBL+DD
BJ+PDB
序列,
但是不包括
EST
,
STS,
GSS, or HTGS
序列),
nr.Z
(每日更新的非冗余蛋白质),
est.Z, gss.Z, htg.Z,
sts.Z,
和其它
文件。
分子数据库概览
核酸序列
Entrez
核酸
—
用
accession
number
,
作者姓名,物种,基因
/
蛋白名字,
以及很多其它的文本术语来
搜索核酸序列记录
(在
GenBank + PDB
中)
。
更多的关于
Entrez
的信息见下。
如果要检索大量数据,
也可使用
Batch Entr
ez
(批量
Entrez
)
。
RefSeq
—
NCBI
数据库的参考序列。校正
的,非冗余集合,包括基因组
DNA
contigs
,已知基因的
mRNAs
和蛋白,
在将来,
整个的染色体。
Accession
numbers
用
NT_xxxxxx,
NM_xxxxxx, NP_xxxxxx,
和
NC_xx
xxxx
的形式来表示。
dbEST
—
表达序列标签数据库,短的、单次(
测序
)阅读的
c
DNA
序列。也包括来自于差异显示
和
RACE
实验的
c<
/p>
DNA
序列。
dbGSS
—
基因组调查序列的数据
库,
短的、
单次
(
测序
)
阅读的
c
< br>DNA
序列,
exon trap
获得的序列,
cosmid/BAC/YAC
末端,及其他。
dbSTS
—
序列标签位点的数据库,短的在基因组上可以被唯一操作的序列,用于产生作图位
点。
dbSNP
—
单核苷酸多态性数据库,
包括
SNPs
,
小范围
的插入
/
缺失,
多态重复单元,
和微卫星变异。
完整的基因组
参见下面
Genome
和
Maps
部分,包括各种物种资源,人,小鼠,大鼠,酵母,线虫,疟原虫,细
< br>菌,病毒,
viroids
,质粒。
UniGene
—
被整理成簇的
EST
和全长
mRNA
序列,
p>
每一个代表一种特定已知的或假设的人类基因,
有定位图和表达信息
以及同其它资源的交叉参考。
序列数据可以以
cluster<
/p>
形式在
Unigene
网页下载,
完整的数据可以从
FTP
站点
repository/UniGene
目录下下载。
人类
UniGene
小鼠
UniGene
大鼠
UniGene
斑马鱼
UniGene
BLAST
—
将你的序列同核酸库中的的序列比
较,检索相似的序列。
(更详细的信息见下面
Tools/Se
quence
相似搜索部分)
蛋白序列
Entrez
蛋白
—
用
accession numbe
r,
作者姓名,物种,基因
/
蛋白名字
,以及很多其它的文本术语来搜
索蛋白序列记录(在
GenPe
pt + Swiss-Prot + PIR + RPF + PDB
中)
。更多的关于
Entrez
的信息见下。
如果要检索大量数据,也可使用
Batch Entrez
(批量
Entrez
)
。
RefSeq
—
NCBI
数据库的参考序列。
Curated,
非冗余集合包括基因组
DNA
con
tigs,
已知基因的
mRNAs
和蛋
白,在将来,整个的染色体。
Accession
numbe
rs
用
NT_xxxxxx,
NM_xxxxxx,
NP_xxxxxx,
和
NC_xxxxxx
的
形
式
来
表
示
p>
。
FTPGenPept
—
下载
“.
Z”
文件,
这个文件包含了从
GenB
ank/EMBL/DDBJ
记录中翻译过来
的
FASTA
格式的氨基酸序列,这些记录都有一到两个
CDS
特性的描述。
完整基因组
参见下面
Genome
和
Maps<
/p>
部分,包括各种物种资源,人,小鼠,大鼠,酵母,线虫,疟原虫,细
菌,病毒,
viroids
,质粒。
Entrez
基因组
—
提供了一个编码区的概要和各种物
种的分类表(
TaxTable
)
。编
码区概要列出了在
基因组中所有的的蛋白,并提供链接到
FAS
TA
文件和
BLAST
。分类表总结了
蛋白
BLAST
分析的
结果,建议他们
的可能功能,并用颜色编码的图来显示物种同其它物种之间的关系(参见下
面
’
Genomes
和
Ma
ps,
’
部分
Entrez
基因组的一般描述)
FTP
基因组蛋白
—
从
ftp
站点的
genbank/genomes
目录下下载各种物种的
FASTA
格式的氨基酸序
列
*.faa
和蛋白表文件
*.ptt
。参见
readme
文件
。蛋白表也可以在
Entrez
基因组中看到。
PROW
—
Web
上的蛋白资源,
关于大约
200
种人类的
CD
细胞表面分子的简短官方向导。
互相检索,
为每个
CD
抗原提供大约
20
中标准信息的分类(生化功能,配体,等等)
BLAST
—
将你的序列同蛋白库中的的序列比
较,检索相似的序列。
(更详细的信息见下面
Tools/Se
quence
相似搜索部分)
结构
结构主页
—
关于
NCBI
结构小组的一般信息和他
们的研究计划,另外也可以访问分子模型数据库
(
MMDB
p>
)和用来搜索和显示结构的相关工具。
MMDB
:分子模型数据库
—
一个关于三维生物分子结构的数据
库,结构来自于
X-ray
晶体衍射和
NMR
色谱分析。
MMDB
是来源于<
/p>
Brookhaven
蛋白数据库(
PD
B
)三维结构的一部分,排除了那些
理论模型。
MMDB
重新组织和验证了这些信息,从而保证在化学和大分子三维结构之间的
交叉参
考。数据的说明书包括生物多聚体的空间结构,这个分子在化学上是如何组织的,
以及联系两者的
一套指针。利用将化学,序列,和结构信息整合在一起,
MMDB
计划成为基于结构的同源模型化
和蛋白结构预
测的资源服务。
MMDB
的记录以
AS
N.1
格式存储,
可以用
Cn3D,
Rasmol,
或
Kinemage
来显示。另外,数据库中类似的结构已经被用
V
AST
确认,新的结构可以用
V
ASTsearch<
/p>
来同数据
库进行比较。
Cn3D
—
“See in
3
-
D”
,
一个用于
NCBI
数据库的结构和序列
相似显示工具,它允许观察
3-D
结构
和序列
—
结构或结构
—
结构同源比较。
Cn3D
用起来就象你浏览器上的一个
帮助工具。
V
AST
—
矢量同源比较搜索工具
—
一个在
NCBI
开发的
计算算法,用于确定相似的蛋白三维结构。
每一个结构的
“
p>
结构邻居
”
都是预先计算好的,而且可以通
过
MMDB
的结构概要页面的链接访问。
这些邻居可以用来确认那些不能被序列比较识别的远的同源性。
V
AST
搜索
—
结构
—<
/p>
结构相似搜索服务。比较一个新解出的蛋白结构和在
MMDB/P
DB
数据库中
的结构的三维坐标。
V<
/p>
AST
搜索计算一系列可能会被交互浏览的结构邻居,用分子图形
来观察重叠
和同源相似。
分类学
NCBI
的分类数据库主页
—
关于分类计划的一般信息,包括分
类资源和同
NCBI
分类学家合作的
外
部管理者的列表。
分类浏览器
—
搜索
NC
BI
的分类数据库,包括大于
70000
个物种的名字和种系,这些物种都至少
在遗传数据库中有一条核酸或蛋白序列。可以检
索一个特定种或者更高分类(如属,科)的核酸,
蛋白,和结构记录。如果有新物种的序
列数据被放到数据库中,这个物种就北加到(分类)数据库
中。
NCBI
的分类数据库的目的是为序列数据库建立一个一致的种系发生分类学。
文献数据库概要
PubMed
—
一个关于生物医药科学的检索系统
,包括引用,摘要,和杂志的索引术语。它包括直接
由出版商提供给
NCBI
的文献引用以及链接到在出版商网址上的全文的
U
RLs
。
PubMed
包括
MEDLINE
和
PR
EMEDLINE
的完整内容。
它还包括一些被
MEDLINE
认为超出范围的文章和杂志,
(这些文
章或杂志)由于内容或在某一时期不在索引范围内。因此
PubMed
< br>是比
MEDLINE
的更大
的集
合。
杂志浏览器
—
允许你去查找收录到
PubMed
系统的杂志的名字,
MEDLINE<
/p>
的缩写,或
ISSN
号码。
PubRef
(开发中)
—
一个关于来自于广大范围的科学杂志的数目记录,和链接到
出
版商网址的全文。
PubRef
包含
了
PubMEd
,加上了来自其它学科的杂志出版商提供的引用
和摘要。
因此它是比
PubMed
更大
的集合。
这个计划的启动是因为
NAS
要求为科学领域的电子杂志提供一个
“
白皮书
< br>”
服务。
PubMed
中心(开发中)
—
PubMed
中心是一个无障碍的
NIH
资源,用于在生命
科学领域中同业互查的基础研究报告。
从
2000<
/p>
年一月开始接受杂志文章。
所有在
Pub
Med
中心的材
料将由目前任一主要的摘要和索引服务中列出的
杂志提供,或者在编辑委员会中拥有
3
个以上有主
要资金机构的研究经费的拥有人的杂志提供。
OMIM
—
在线人类孟德尔遗传
—
经常更新的人类基
因和遗传失调的目录,有链接到其它相关的文献参考,序列记录,和相关数据库。
书籍
—
<
/p>
同书
籍出版商合作
NCBI
为网络改编了教科书,并把他们链接到
PubMed
—
生物医药书目数据库。这是
为了给
P
ubMed
提供背景信息,这样使用者可以探究在
PubMed
搜索结果中不熟悉的概念。目前收
录的书有:
< br>
Molecular Biology of the Cell,
3
rd
ed. Alberts B., Bray D.,
Lewis J., Raff M., Roberts K.,
Watson
J.D., 1994, Garland Publishing.
外部链接
—
一个登记服务,用于建立从在
Entrez
中的特定
的文章,杂志,或生物数据到外部网址的链接。第三方可以提供一个
URL
,资源名字,关于他们网
址的简要的描
述,和关于从
NCBI
数据的哪里他们希望建立链接的详细说明
。这个详细说明可以用
对
Entrez
有效的布尔查询来写,也可以用特定的文章或序列的标志列表来写。这样
NCBI
p>
PubMed
的用户将可以通过
“NCBI
小房间
”
服务
(开发中)
来选择哪个外部链接在他们的搜索中是可见的。
引
用匹配
—
允许你找到任何一篇在
PubMed
数据库中的文章的
PubMed
ID
或
MEDLINE UID
,给出
书目信息(杂志,卷,页码等)
。
单篇文章的引用匹配。
许多文章的批量引用匹配。
E-ma
il
引用
匹
配
也
是
可
以
的<
/p>
,
也
可
以
用
于
单
篇
或
许
多
文
章
。
如
果
要
获
得
帮
助
文
件
,
给<
/p>
citation_matcher@
写一封只有内容为
HELP
的
E-Mail
。
Genomes and Maps Overview
<
/p>
Entrez
基因组:人,小鼠,大鼠,酵母,线虫,疟原虫,细
菌,病毒,
viroids
,质粒,和真核细胞
器。
Entrez
基因组(各种物种)
Entrez
基因组
—
超过
80
0
种在
GenBank
中被完整测序的
物种,
包括大于
500
种病毒,
〉
25
种细菌,
酵母
,和许多
viroids
,质粒,和细胞器。还包括正在进行中
的基因组,比如人,小鼠,线虫,疟原
虫,果蝇,利什曼原虫,水稻,和玉米。提供完成
的基因组
/
染色体的图形概览,并可以探究那些逐
步细化的区域。
也提供那些已经被
NCBI
工作人员分析过的物种的编码区的摘要和
TaxTables
。
另外,
Entrez Map Viewer<
/p>
,
Entrez
基因组的一个软件组成部
分,提供整合的果蝇(细胞遗传学和序列图谱)
和人类(细胞遗传学,遗传连锁,序列,
放射杂交,和其它图谱)的染色体图谱的浏览。
通过每个物种的
Entrez
基因组页面来下载〈
350kb
的基因组。
通过
NCBI
ftp
站点来下载〉
350kb
的
基因组
—
参见在
genbank/ge
nomes
目录下的
readme
文件
,
ftp