-
GenBank Overview
基本信息
?
什么是
G
enBank
?
GenBank
是一个
有来自于
70,000
多种生物的核苷酸序列的数据库。
每条纪录都
有编码区(
CDS
)特征的注释,还包括氨基酸的翻译。
GenBank
属于一个序列数据库的国际合作
组织,包括
EMBL
和
DDBJ
。
?
?
纪录样本
-
关于
GenBank
的各个字段的详细描述,以及同
Entrez
搜索字段的交叉索引。
访问
GenBank -
通过
Entrez
Nucleotides
来查询。用
accession nu
mber
,作者姓名,物种,基因
/
蛋
白名字,还有许多其他的文本术语来查询。关于
Entrez<
/p>
更多的信息请看下文。用
BLAST
来在
GenBank
和其他数据库中进行序列相似搜索。用
E-mail
来访问
Entrez
和
BLAST
可以通过
Qu
ery
和
BLAST
服务器。另外一种
选择是可以用
FTP
下载整个的
Gen
Bank
和更新数据。
?
?
?
?
?
?
?
增长统计
-
参见公布通知的
2.2.6
(每个分类的统计)
,
2.2.7
(每个物种的统计)
,
2.2.8
(
GenBank
增长)小节。
公布通知,最新
-
最近和即将有的变化,
GenBank
的分类,数
据增长统计,
GenBank
的引用。
公布通知,旧
-
同上相同,是过去公布的统计。
遗传密码
- 15
< br>个遗传密码的概要。用来确保
GenBank
中纪录的编
码序列被正确的翻译。
关于提交序列数据,收到
accession
number
,和对纪录作更新的一般信息。
BankIt
-
用于一条或者少数
条提交的基于
WWW
的提交工具软件。(请在提交前用
VecScreen
去
除载体)
Sequin
-
提交软
件程序,用于一条或者很多条的提交,长序列,完整基因组,
alignments
p>
,人群
/
种系
/<
/p>
突变研究的提交。
可以独立使用,
或者用
基于
TCP/IP
的
“network
aware”
模式,
可以链接到其
他<
/p>
NCBI
的资源和软件比如
Entrez
和
PowerBLAST
。(请在提交
前用
VecScreen
去除载体)
(向)
GenBank
提交(数据)<
/p>
?
?
?
ESTs -
表达序列标签,短的、单次(测序)阅读的
p>
cDNA
序列。也包括来自于差异显示和
R
ACE
实验的
cDNA
序列。
GSSs
-
基因
组调查序列,短的、单次(测序)阅读的
cDNA
序列,
exon
trap
获得的序列,
cosmid/BAC/YAC
末端,及其他。
HTGs -
来自于大规模测序中心的高通量基因组序列,未
完成的(阶段
0
,
1
< br>,
2
)和完成的(阶段
3
)序列。(注意:完成的人类的
HTG
序列可
以同时在
GenBank
和
Human
Genome
Sequencing
页
面上访问。)
?
?
STSs -
序列标签位点。短的在基因组上可以被唯一操作
的序列,用于产生作图位点。
注:
SNPs
-
< br>人类的和其他物种的遗传变异数据可以提交到
NCBI
数
据库的单核苷酸多态性库中
(
dbSNP
)。
国际核苷酸序列数据库合作组织
?
GenBank
< br>,
DDBJ
,
EMBL - <
/p>
合作计划的概述,并链接到相应的主页。
GenBank
,
DDBJ
(
DNA
Data
Bank of
Japan
),
and EMBL
(
European Molecular Biology
Laboratory
)数据库共享的数据是每天
都交换的,<
/p>
因此他们是相等的。
数据纪录的格式和搜索方式可能会不一样,<
/p>
但是
accession number
,
序列数据和注解都是一模一样的。即,你可以用
access
ion
number
U12345
在
GenBank
,
DDBJ
或
EMBL
中查找相应纪录,得到的结果是完全
一样的序列数据,参考内容等等。
?
DDBJ/EMBJ/GenBank
特性表
< br>
—
特性表格式和标准被合作
数据库用在序列记录的注释上,
使得数
据共享成为可能,
包括详细的描述生物特性和特性限定语的附录,
以及
< br>IUPAC
规定的核苷酸和氨
基酸的代号。
FTP
GenBank and Daily Updates
?
?
?
GenBank
普通文件格式
—
参见
Ge
nBank
记录样本和在
GenBank
公布通知中的详细描述,
下载大
多数最近的完全公告和日常积
累或非积累更新数据。
ASN.1
格式
—
摘要句法记号
1
,国际标准组织(
ISO
)数据
表示格式,下载大多数最近的完全公
告和日常积累或非积累更新数据。
< br>
FASTA
格式
—
定义行号后只跟随序列数据
(示例)
,
参见描述数据库的
readme
文件,
包括
nt
.Z
(每天更新的非冗余
BLAST
核
酸数据库,包括
GenBank+EMBL+DDBJ+PDB
序列,但是不包括
EST, STS, GSS, or HTGS
序列),
nr.Z
(每日更新的非冗余蛋白质),
est.Z, gss.Z, htg.Z,
sts.Z,
和其
它文件。
分子数据库概览
核酸序列
?
Entrez
核酸
—
用
accession
number
,
作者姓名,物种,基因
/
蛋白名字,
以及很多其它的文本术语
来搜索核酸序列记录(在
GenBan
k + PDB
中)。更多的关于
Entrez
的信息见下。如果要检索大量
数据,也可使用
Batc
h Entrez
(批量
Entrez
)。
?
RefSeq
—
NCBI
数据库的参考序列。校正的,
非冗余集合,包括基因组
< br>DNA contigs
,
已知基因的
< br>mRNAs
和蛋白,
在将来,
整
个的染色体。
Accession
numbers
用
NT_xxxxxx,
NM_xxxxxx, NP_xxxxxx,
和
NC_xx
xxxx
的形式来表示。
?
?
?
?
dbEST
—
表达序列标签数据库,短的、单次(测序)阅读的
cDNA
序列。也包括来自于差异显示
和
RACE
实验的
cDNA
序列。
dbGSS
—
基因组调查序列的数据
库,短的、单次(测序)阅读的
cDNA
序列,
exon trap
获得的序
列,
cosmid/BAC/YAC
末端,及其他。
dbSTS
—
序列标签位点的数据库
,短的在基因组上可以被唯一操作的序列,用于产生作图位点。
dbSNP
—
单核苷酸多态性数据库,包括
SNPs
,小范围的插入
p>
/
缺失,多态重复单元,和微卫星变
异。<
/p>
完整的基因组
?
?
p>
参见下面
Genome
和
< br>Maps
部分,包括各种物种资源,人,小鼠,大鼠,酵母,线虫,疟原虫,细<
/p>
菌,病毒,
viroids
,质粒。
p>
UniGene
—
被整理成簇的
EST
和全长
mRNA
序列,每一
个代表一种特定已知的或假设的人类基
因,有定位图和表达信息以及同其它资源的交叉参
考。序列数据可以以
cluster
形式在
Unigene
网
页下载,完整的数据可以从
FTP
站点
repository/UniGene
目录下下载。
o
人类
UniGene
o
小鼠
UniGene
o
大鼠
UniGene
o
斑马鱼
UniGene
?
BLAST
—
将你的序列同核酸库中的的序列比
较,检索相似的序列。(更详细的信息见下面
Tools/Sequence
相似搜索部分)
蛋白序列
?
Entrez
蛋白
—
用
accession numbe
r,
作者姓名,物种,基因
/
蛋白名字
,以及很多其它的文本术语来
搜索蛋白序列记录(在
GenPe
pt + Swiss-Prot + PIR + RPF + PDB
中)。更多的
关于
Entrez
的信息
见下。如果要
检索大量数据,也可使用
Batch Entrez
(批量
p>
Entrez
)。
?
RefSeq
—
NCBI
数据库的参考序列。
Curated,
非冗余集合包括基因组
DNA
con
tigs,
已知基因的
mRNAs
和蛋
白,
在将来,
整个的染色体。
Acce
ssion numbers
用
NT_xxxxxx,
NM_xxxxxx, NP_xxxxxx,
和
NC_xx
xxxx
的形式来表示。
?
FTPGenPept
—
下载
“.
Z”
文件,
这个文件包含了从
GenB
ank/EMBL/DDBJ
记录中翻译过
来的
FASTA
格式的氨基酸序列,这些记录都有一到两个
CDS
特性的描述。
完整基因组
?
?
p>
参见下面
Genome
和
< br>Maps
部分,包括各种物种资源,人,小鼠,大鼠,酵母,线虫,疟原虫,细<
/p>
菌,病毒,
viroids
,质粒。
p>
Entrez
基因组
—
提供了一个编码区的概要和各种物
种的分类表(
TaxTable
)。编码区概要列出
了在基因组中所有的的蛋白,并提供链接到
FASTA
文件和
BLAST
。分类表总结了蛋白
BLAST
分析的结果,建议他们的可能功能,并用颜色编码的图来显示物种同其它
物种之间的关系(参见
下面
'Genomes
< br>和
Maps,'
部分
Entre
z
基因组的一般描述)
?
?
?
结构
?
?
FTP
基因组蛋白
—
从
ftp
站点的
genbank/genomes
目录下下载各种物种的
FASTA
格式的氨基酸
序列
*.faa
和蛋白表文件
*.ptt
。参见
readme
文件
。蛋白表也可以在
Entrez
基因组中看到。
PROW
—
Web
p>
上的蛋白资源,
关于大约
200
种人类的
CD
细胞表面分子的简短官方向导。
p>
互相检
索,为每个
CD
抗原提供大约
20
中标准信息的分类(生化功能,配体,等
等)
BLAST
—
将你的序列同蛋白库中的的序列比
较,检索相似的序列。(更详细的信息见下面
Tools/Sequence
相似搜索部分)
结构主页
—
关于
NCBI
结构小组的一般信息和他
们的研究计划,另外也可以访问分子模型数据
库(
MMDB
p>
)和用来搜索和显示结构的相关工具。
MMDB
:分子模型数据库
—
一个关于三维生物分子结构的数据
库,结构来自于
X-ray
晶体衍射
和
NMR
色谱分析。
MMDB
是来源于
Brookhaven
蛋白数据库(
p>
PDB
)三维结构的一部分,排除了
那些理
论模型。
MMDB
重新组织和验证了这些信息,从而保证在化学
和大分子三维结构之间的交
叉参考。数据的说明书包括生物多聚体的空间结构,这个分子
在化学上是如何组织的,以及联系
两者的一套指针。利用将化学,序列,和结构信息整合
在一起,
MMDB
计划成为基于结构的同源
模型化和蛋白结构预测的资源服务。
MMDB
的记录以
p>
ASN.1
格式存储,
可以用
Cn3D, Rasmol,
或
Kinemage
来显示。
另外,
数据库中类似的结构已经被用
VAST
确认,
新的结构可以用
VASTsearch
来同数据库进
行比较。
?
?
Cn3D
—
“See in
3
-
D”
,
一个用于
NCBI
数据库的结构和序列
相似显示工具,
它允许观察
3-D
结构
和序列
—
结构或结构
< br>—
结构同源比较。
Cn3D
用起
来就象你浏览器上的一个帮助工具。
VAST
—
矢量同源比较搜索工具
—
一个在
NCBI
开发的
计算算法,
用于确定相似的蛋白三维结构。
每一个结构的
“
结构邻居
”
都是预
先计算好的,而且可以通过
MMDB
的结构概要页面的链接访问
。
这些邻居可以用来确认那些不能被序列比较识别的远的同源性。
?
VAST
搜索
—
<
/p>
结构
—
结构相似搜索服务。比较一个新解
出的蛋白结构和在
MMDB/PDB
数据库
中的结构的三维坐标。
VAST
搜索计算一系列可能会被交
互浏览的结构邻居,用分子图形来观察
重叠和同源相似。
分类学
?
?
NCBI
的分类数据库主页
—
关于分类计划的一般信息,
包括分类资源和同
NCBI
分类学家合作的<
/p>
外部管理者的列表。
分类浏览器
—
搜索
NC
BI
的分类数据库,包括大于
70000
个物种的名字和种系,这些物种都至
少在遗传数据库中有一条核酸或蛋白序列。可以检
索一个特定种或者更高分类(如属,科)的核
酸,蛋白,和结构记录。如果有新物种的序
列数据被放到数据库中,这个物种就北加到(分类)
数据库中。
NCBI
的分类数据库的目的是为序列数据库建立一个一致的种系发生分类学。
文献数据库概要
-
-
-
-
-
-
-
-
-
上一篇:博途TIA安装与更新
下一篇:如何恢复数据库文件