-
NCBI
使用方法
NCBI (National Center for Biotechnology
Information),
美国国家生物技术信息
中心
[url]/[/url]
NCBI
是
NIH
的国立医学图书馆(
NLM<
/p>
)的一个分支。
NCBI
提供检索的服务包括:
p>
1
.
GenBank
(
NIH
遗传序列数据库)
:一个可
以公开获得所有的
DNA
序列的注释过的收
集。
GenBank
是由
NCBI
受过分子生物学高级训练的工作人员通过来自各个实验室递交的序
列和同国际核酸序列数据库(
EMBL
和
DDBJ
)交换数据建立起数据库的。它同日本和欧洲分
子
生物学实验室的
DNA
数据库共同构成了国际核酸序列数据库合
作
。
这三个组织每天交换数
据
。
其中的数据以指数形式增长
,
最近的数据为它已经有来自
47000
个物种的
30
亿个碱基。
2
.
Molecular
Databases
(分子数据库):
Nucleotide Sequence
(核酸序列库):从
NCBI
其他如
Genbank
数据库中收集整理核
酸序列,提供直接的检索。
Protein Sequence
(蛋白质序列库)
:与核酸类似,也是从
NCBI
多个不同资源中编
译整理的,方便研究者的直接查询。
Struc
ture
(结构)
-
——
关于
NCBI
结构小组的
一般信息和他们的研究计划,另外也
可以访问三维蛋白质结构的分子模型数据库(
MMDB
)和用来搜索和显示结构的相关工具。
MMDB
:
分子模型数据库
—
一个关于三维生物分子结构的数据
库
,结构来自于
X-ray
晶体衍
p>
射和
NMR
色谱分析。
Taxonomy
(分类学)——
NCBI
的分类数据库,包括大于
7
万余个物种的名字和种系,
这些物种都至少在遗传数据库中有一条核酸或蛋白序列
p>
。
其目的是为序列数据库建立一个一
致的种
系发生分类学。
3
.
Literature
Databases
(文献数据库)
(
1
)
PubMed
是
NLM
提供的一项服务,能够对
MEDLINE
上超过
1200
万
条的上世纪六十
年代中期至今的杂志引用和其他的生命科学期刊进行访问
,
并可以连接到参与的出版商网络
站点的全文文章和其
他相关资源。
(
2
)
PMC/PubMed Center
:也是
NLM
的生命科学期刊文献的数字化存储数据库,用户
可以免费获取
PMC
的文章全文,除了部分期刊要求对
近期的文章付费。
(
3
)
OMIM
(孟德尔人类遗传):有关人类基因和
无序基因的目录数据库由
Victor
ck
< br>和他的同事共同创造和编辑的,由
NCBI
网站负责开发
,其中也包括对
MEDINE
众多资源和
Entrez
系统的序列记录,以及
NCBI
中其他有关资源的链接。
(
4
)
Books
:
NCBI
的书库不断收集生物医学方面的书籍,提供这些书籍的出版信息、
摘要、目录和全文的连接,用户可以直接在检索文本框内输入一个观念就可以查询。
4
.
NCBI
提供的附加的软件工具有:
开放阅读框寻觅器(
ORF
Find
er
),电子
PCR
,和序列提交工具
Sequin
和
BankIt
。所
有的
NCBI
数据
库和软件工具可以从
WWW
或
FTP<
/p>
来获得。
NCBI
还有
< br>E-mail
服务器,提供用
文本搜索或序列相似搜索访
问数据库一种可选方法。
NCBI
网站上还提供了一些诸如研
究热
点问题、研究小组情况、教育培训、联系方式等信息,还提供了到
< br>NIH
、
NLM
等的链接。
p>
使用方法
:
用
户可以免费登陆
NCBI
的网站,
NC
BI
为使用者提供了方便的检索系统和检索方法:
1
.
Entrez
是
p>
NCBI
为用户提供整合所有数据库的访问序列,定位,分类,和结
构数据
的搜索和检索工具系统,
同时也提供序列和染色体图谱的
图形视图
。用户进入系统或者进入
任意一个数据库,都会看到简
单检索的界面,选择数据库输入关键词即可进行查询。
Entrez
也提供条件限制和高级检索、布尔逻辑查询。使用新的
Linkout
服务,外部资源可以被链接
到
Entrez
记录。
2
.
BLAST
是一个
NCBI
< br>开发的序列相似搜索程序,还可作为鉴别基因和遗传特点的手
段。
BLAST
能够在小于
15
秒
的时间内对整个
DNA
数据库执行序列搜索。
< br>
NCBI Education
[url]/Education/[/url]
网址详情
:
这是
< br>NCBI
在线教育资源的索引页,从这里出发你会找到
N
CBI
提供的教学资源,这些
教程不仅囊括了
< br>NCBI
网站提供的最常用的工具和数据库
(
BLAST
,
Entrez
,
PubMed
,
NCBI
News
,
Resource
publications
,
Map Viewer
exercises
,
Structure
,
NCBI Handbook
)
p>
的使用方法和信息
,
还有一些相关的分子生
物学的基础入门知识
(NCBI
science
primer...)
。
教程大多不仅有文字图片还有动画,直观易懂,目的就是一个让大家尽可能快而有效
的掌握好
NCBI
的使用,在这个聚宝盆里淘到真金。
当然您如果想对所有
NCBI
的数据库和工具有更透彻深入的了解
,
请绝对
不要错过共
24
章的
NCBI
手册
(NCBI Handbook)
[url]/books/?rid=handbook[/url]
小何
2007-9-7 09:20
GenBank
数据库简介
[color=green][i]
不错的内容,我来补充下
[/i][/color][color=red]GenBank
数据库
简介
[/color]
[b]
基本信息
:
[/b]
1. GenBank<
/p>
属于一个序列数据库的国际合作组织,包括
EMBL
和
DDBJ
。是
NIH
p>
遗传序
列数据库,一个所有可以公开获得的
DNA
序列的注释过的收集。
GenBank
< br>同日本和欧洲分子
生物学实验室的
DNA
数据库共同构成了国际核酸序列数据库合作。唯一人类基因序列集合
(
UniGene
),人类基因组基因图谱,分类学浏览器,同国立癌症研
究所合作的癌症基因组
剖析计划(
CGAP
)等数据库。
GenBank
以指数形式增长,核酸碱基数
目大概每
14
个月就翻
一个倍。
2.
纪录样本
-
关于
GenBank
的各个字段的
详细描述,
以及同
Entrez
搜索字
段的交叉
索引。
3.
访问
GenBank -
通过
Entrez
Nucleotides
来查询。用
accession nu
mber
,作者姓
名,物种,基因
/<
/p>
蛋白名字,还有许多其他的文本术语来查询。关于
Entrez<
/p>
更多的信息请看
下文。用
BLAST
p>
来在
GenBank
和其他数据库中进行序
列相似搜索。用
E-mail
来访问
E
ntrez
和
BLAST
可以通过
p>
Query
和
BLAST
< br>服务器。另外一种选择是可以用
FTP
下载整个的
GenBank
和更新数据。
4.
增长统计
-
参见公布通知的
2.2.6
(每个分类的统计)
,
2.2.7
(每个物种的统计)
,
2.2.8
(
GenB
ank
增长)小节。
5.
公布通知
,
最新
-
最近和即将有的变化
,
GenBank
的分类
,
数据增长统计
,
GenBank
的引用。
6.
公布通知,旧
-
同上相同,是过去公布的统计。
7.
遗传密码
- 15
个遗传密码的概要。用来确保
GenBank
中纪
录的编码序列被正确的
翻译。
[b
]
向
GenBank
提交数据
:
[/b]
1.
关于提交序列数据,收到
accession
number
,和对纪录作更新的一般信息。
2. BankIt -
用于一条或者少数条提交的基于
p>
WWW
的提交工具软件。(请在提交前用
V
ecScreen
去除载体)
3.
Sequin -
提交软件程序,用于一条或者很多条的提交,长序列,完整基因组,
alignments
,人群
/
种系
/
突变研究的提交。可以独立使用,或者
用基于
TCP/IP
的“
networ
k
aware
”模式,可以链接到其他
NCBI
的资源和软件比如
Entrez
和
PowerBLAST
。(请在提交
前用
VecScreen
去除载体)
4. ESTs
-
表达序列
标签,短的、单次(测序)阅读的
cDNA
序列。也包括来自于
差异
显示和
RACE
实验的
cDNA
序列。
5.
GSSs -
基因组调查序列,短的、单次(测序)阅读的
c
DNA
序列,
exon trap
获得
的序列,
cosmid/BAC/YAC
末端,及其他。
6.
HTGs
-
来自于大规模测序中心的高通量基因组序列,未完成的(阶
段
0
,
1
,<
/p>
2
)和
完成的
(
阶段
3
)
序列
。
(注意
:
完成的人类的
HTG
序列可以同时在
GenBank
和
Human
Genome
Sequencing
页面上访问。)
7. STSs -
序列标签位点。短的在基因组上可以被唯
一操作的序列,用于产生作图位
点。
8.
注:
SNPs
-
人类的和其他物种的遗传变异数据可以提交到
NCBI
数据库的单核苷酸
多态性库中(
dbSNP
)。
[b]
国际核苷酸序列数据库合作组织
:
[/b]
1. GenBank<
/p>
,
DDBJ
,
E
MBL -
合作计划的概述,并链接到相应的主页。
GenB
ank
,
DDBJ
(
< br>DNA Data Bank of Japan
),
and EMBL
(
European Molecular Biology
Laboratory
)数
据库共享的数据是每天都交换的
p>
,因此他们是相等的。数据纪录的格式和搜索方式可能会不
一样,但
是
accession
number
,序列数据和注解都是一模一样的。即,你可以用
accession
number U12345
在
Gen
Bank
,
DDBJ
或
EMBL
中查找相应纪录,得到的结果是完全一样的序列
数据,参考内容等等
2.
DDBJ/EMBJ/GenBank
特性表
—
特性表格式和标准被合作数据库用
在序列记录的注
释上,使得数据共享成为可能,包括详细的描述生物特性和特性限定语的
附录,以及
IUPAC
规定的核苷酸和氨基酸的代号。
[b]FTP GenBank and Daily
Updates
:
[/b]
1.
GenBank
普通文件格式
—
参见
Ge
nBank
记录样本和在
GenBank
公布通知中的详细
描述,下载大多数最近的完全公告和日常积累或非积累更新数据。<
/p>
2.
ASN.1
格式
—
摘要句法记号
1
,国际标准组织(
ISO
)数据
表示格式,下载大多数
最近的完全公告和日常积累或非积累更新数据。
< br>
3. FASTA
格式
—
定义行号后只跟随序列数据(示例
),参见描述数据库的
readme
文件,包括
nt.Z
(每天更新的非冗余
BLAST
核酸数据库,包括
GenBank+EMBL+DDBJ+PDB
序
列,但是不包括
EST,
STS,
GSS,
or
HTGS
序列)
,
nr
.Z
(每日更新的非冗余蛋白质)
,
e
st.Z,
gss.Z, htg.Z,
sts.Z,
和其它文件。
[b]
分子数据库:
[/b]
1.
核酸序列
1
、
Entrez
核酸:
用
accession number,
作者姓名,物种,基因
/
蛋白名字,以及很
< br>多其它的文本术语来搜索核酸序列记录(在
GenBank + PDB
中)。更多的关于
Entrez
的信
息见下。如果要检索大量数据,也可使用
Batch Entrez
(批量
Entrez
)。
2
、
RefSeq
:
NCBI
数据库的参考序列
。
校正的
,
非冗余集
合
,
包括基因组
DNA
contigs
,
已知基因的
mRNAs
和蛋白,在将来,整个的染色体。
Accessi
on numbers
用
NT_xxxxxx,
NM_xxxxxx, NP_xxxxxx,
和
NC_xxxxxx
的形式来表示。
3
、
dbEST
< br>:表达序列标签数据库,短的、单次(测序)阅读的
cDNA
序列。也包括来
自于差异显示和
RACE
< br>实验的
cDNA
序列。
4
、
dbGSS
< br>:基因组调查序列的数据库,短的、单次(测序)阅读的
cDNA
序列,
exon
trap
获
得的序列,
cosmid/BAC/YAC
末端,及其他。
p>
5
、
dbSTS
:序列标签位点的数据库,短的在基因组上可以被唯一操作的序列,用于<
/p>
产生作图位点。
6.
、
dbSNP
:单核苷酸多态性数据库,包括
SNPs
,小范围的插
入
/
缺失,多态重复单
元,和微卫星变
异。
2.
完整的基因组
:
1
、
参见下
面
Genome
和
Maps
部分,包括各种物种资源,人,小鼠,大鼠,酵母,线
虫,疟原虫,细菌,
病毒,
viroids
,质粒。
2
、
发
UniGene
:
被整理成簇的
EST
和全长
mRNA
序列,每一
个代表一种特定已知的
或假设的人类基因,有定位图和表达信息以及同其它资源的交叉参
考。序列数据可以以
cluster
形式在
Unigene
网页下载,完整的数据可以从
FTP
站点
repository/UniGene
目录
下下载。
1)
人类:
UniGene
2)
小鼠:
UniGene
3)
大鼠:
UniGene
4)
斑马鱼:
UniGene
3
、
BLAST
< br>:将你的序列同核酸库中的的序列比较,检索相似的序列。(更详细的信
息见下面
Tools/Sequence
相似搜索部分)
[b]
蛋白序列
:
[/b]
1
、
Entrez
蛋白
:用
accession number,
作者姓名,物种,基因
/
蛋白名字,以及很
多其它的文本术语来搜索蛋白序列记录(在
GenPept
+
Swiss-Prot
+
PIR
+
RPF
+
PDB
中)。
更多的关于
Entrez
的信息见下。如果要检索大量数据
,也可使用
Batch Entrez
(批量
< br>Entrez
)。
RefSeq
—
NCBI
数据库的参考序列。
Curated,
非冗余集合包括基因组
DNA
con
tigs,
已知基因的
mRNAs
和蛋
白
,
在将来
,
整个的染色体
。
Accession
numbers
用
NT_xxxxxx,
NM_xxxxxx, NP_xxxxxx,
和
NC_xxxxxx
的形式来表示。
FTPGenPept
—
下载
p>
“
.Z
”文件,这个文件包含了从
GenBank/EMBL/DDBJ
记录中翻译过来的
FASTA
格式的氨基酸序列,这些记录都有一到两个
CDS
特性的描述。
2
、
完整基因组
:参见下面
Genome
和
Maps
部
分,包括各种物种资源,人,小鼠,大
鼠,酵母,线虫,疟原虫,细菌,病毒,
viroids
,质粒。
1) Entrez
基因组
:提供了一个编码区的概要和各种物种的分类表(
TaxTable
p>
)。编
码区概要列出了在基因组中所有的的蛋白,并提供链接到
p>
FASTA
文件和
BLAST
。分类表总结
了蛋白
BLAST
分析的结果
,建议他们的可能功能,并用颜色编码的图来显示物种同其它物种
之间的关系(参见下面
'Genomes
和<
/p>
Maps,'
部分
Entrez
基因组的一般描述)
2)
FTP
基因组蛋白
:从
ftp
站点的
genbank/genomes
p>
目录下下载各种物种的
FASTA
格式的氨
基酸序列
*.faa
和蛋白表文件
*.
ptt
。参见
readme
文件。蛋白
表也可以在
Entrez
基因组中看到。
3
、
PROW
:
Web
上的蛋白资源,关于大约<
/p>
200
种人类的
CD
细胞表面分子的简短官方
向导。互相检索,为每个
CD
p>
抗原提供大约
20
中标准信息的分类(生化
功能,配体,等等)
4
、
BLAST
:
将你的序列同蛋白库中的的序列比
较,检索相似的序列。(更详细的信
息见下面
Tools/Se
quence
相似搜索部分)
[b]
结构:
[/b]
1
、
结构主页
—
关于
NCBI
结构小组的一般信息和他
们的研究计划,另外也可以访问
分子模型数据库(
MMDB
p>
)和用来搜索和显示结构的相关工具。
2
、
MMDB
:
分子模型数据库
—
一个关于三维生物分子结构的数据
库
,
结构来自于
X-ray
晶体衍射和
NMR
色谱分析。
MMDB
是来源于
Brookhaven
< br>蛋白数据库(
PDB
)三维结构的一部
< br>分,排除了那些理论模型。
MMDB
重新组织和验证了这
些信息,从而保证在化学和大分子三
维结构之间的交叉参考。
数
据的说明书包括生物多聚体的空间结构
,这个分子在化学上是如
-
-
-
-
-
-
-
-
-
上一篇:信令名词解释
下一篇:软件系统运维指导手册定稿版