关键词不能为空

当前您在: 主页 > 英语 >

NCBI资源介绍及使用手册

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-02-24 15:21
tags:

-

2021年2月24日发(作者:女服务员的英文)


NCBI


资源介绍及使用手册



NCBI


资源介绍





本文目录:



NCBI(


美国国立生物技术信息中心


)


简介



NCBI


站点地图



NCBI


癌症基因组研究



NCBI



Coffee Break


NCBI


-基因和疾病



NCBI



UniGene


Cluster of Orthologous Groups of protei ns



COG


)介绍

< br>


Gene Expression Omnibus



GEO


)介绍



LocusLink


介绍



关于


RefSeq



N CBI


参考序列






NCBI(


美国国立生物技术信息中心


)


简介



介绍




理解 自然无声但精妙的关于生命细胞的语言是现代分子生物学的要求。通过只有四个字母来代表


DNA


化学亚基的字母表,出现了生命过程的语法,其最复杂形式就是人类。阐明和使 用这些字母来


组成新的“单词和短语”是分子生物学领域的中心焦点。数目巨大的分子数 据和这些数据的隐秘而


精细的模式使得计算机化的数据库和分析方法成为绝对的必须。挑 战在于发现新的手段去处理这些


数据的容量和复杂性,并且为研究人员提供更好的便利来 获得分析和计算的工具,以便推动对我们


遗传之物和其在健康和疾病中角色的理解。



国立中心的建立



后来的参议员


Claude Pepper

意识到信息计算机化过程方法对指导生物医学研究的重要性,发起了



1988



11



4


日建立国立生物技术信息中心(


NCBI



的立法。


NCBI


是在


NIH


的国立医学图书馆



NLM


)的一个分支。


NLM


是因为它在创立和维护生物信息学数据库方面的经验被选择的,而且这可


以建 立一个内部的关于计算分子生物学的研究计划。


NCBI


的任务 是发展新的信息学技术来帮助对那


些控制健康和疾病的基本分子和遗传过程的理解。它的 使命包括四项任务:



建立关于分子生物学,生物化学,和遗传 学知识的存储和分析的自动系统



实行关于用于分析生物学重 要分子和复合物的结构和功能的基于计算机的信息处理的,先进方法的


研究



加速生物技术研究者和医药治疗人员对数据库和软件的使用。



全世界范围内的生物技术信息收集的合作努力。


< p>
NCBI


通过下面的计划来实现它的四项目的:



基本研究



NCBI


有一个多学科的研究小组包括计算机科学家,分子生物学家,数学家,生物化学家,实验物理

< p>
学家,和结构生物学家,集中于计算分子生物学的基本的和应用的研究。这些研究者不仅仅在基础< /p>


科学上做出重要贡献,而且往往成为应用研究活动产生新方法的源泉。他们一起用数学和计 算的方


法研究在分子水平上的基本的生物医学问题。这些问题包括基因的组织,序列的分 析,和结构的预


测。目前研究计划的一些代表是:检测和分析基因组织,重复序列形式, 蛋白


domain


和结构单元,


建立人 类基因组的基因图谱,


HIV


感染的动力学数学模型,数据库搜 索中的序列错误影响的分析,


开发新的数据库搜索和多重序列对齐算法,建立非冗余序列 数据库,序列相似性的统计显著性评估


的数学模型,和文本检索的矢量模型。另外,


NCBI


研究者还坚持推动与


NIH


内部其他研究所及许多


科学院和政府的研究实验室的合作。

< p>


数据库和软件






1992



10


月,


NCBI

< br>承担起对


GenBank


DNA


序列数据库的责任。


NCBI


受过分子生物学高级训练


的工作人员通过来自各个实验室递交的序列和同国际核酸序列数据库(


EMBL



DDBJ


)交换数据建


立起数据库。同美国专利和商标局的安排使得专利的序列信息也被整合。


GenBank



NIH


遗传序列数据库,


一个所有可以公开获得的


D NA


序列的注


释过的收集。


GenBa nk


同日本和欧洲分子生物学实验室的


DNA

< br>数据库共同构成了国际核酸序列数据


库合作。这三个组织每天交换数据。



GenBank


以指数形式增长,

< p>
核酸碱基数目大概每


14


个月就翻一个倍。


最近,


GenBank


拥有来自


47,000


个物种的


30


亿个碱基。



孟德尔人类遗传(


OMI M


),三维蛋白质结构的分子模型数据库(


MMDB

< p>
),唯一人类基因序列集合



UniGene


),人类基因组基因图谱,分类学浏览器,同国立癌症研究所合作的癌症基因组剖析计


划(


CGAP


)。



Entrez



NCBI


的为用户提供整合的访问序列,


定位,


分类,


和结构数据的搜索和检索系统。


Entrez


同时也提供序列和染色体图谱的图形视图。


Entrez


是一个 用以整合


NCBI


数据库中信息的搜寻和检

索工具。


这些数据库包括核酸序列,


蛋白序列,

< p>
大分子结构,


全基因组,


和通过

< br>PubMed


检索的


MEDLINE


Entrez


的一个强大和独特的特点是检索相关的序列 ,


结构,


和参考文献的能力。


杂志文献 通过


PubMed


获得,


PubMed


是一个网络搜索界面,


可以提供对在


M EDLINE


上的九百万杂志引用的访问,


包含了链

< p>
接到参与的出版商网络站点的全文文章。



BL AST


是一个


NCBI


开发的序列相似 搜索程序,还可作为鉴别基因和遗传特点的手段。


BLAST


能 够在


小于


15


秒的时间内对整个


DNA


数据库执行序列搜索。


NCBI


提供的附加的软件工具有:开放阅读框


寻觅器(


ORF Finder


),电子


PCR


,和序列提交工具,


Sequin



BankIt


。所有的


NCBI


数据库 和软


件工具可以从


WWW


< p>
FTP


来获得。


NCBI


还有


E-mail


服务器,提供用文本搜索或序列相似搜索访问


数据库一种可选方法。



教育和训练



NCBI


通过赞助会议,


研讨会,


和系列演讲来培养在应用于 分子生物学和遗传学的计算机领域的科学


交流。一个科学访问学者项目已经成立,来培养 同外部科学家的合作。作为


NIH


内部的部分研究项

< p>
目,也提供博士后工作位置。



NCBI


站点地图


---


关于


D atabase


的一般介绍



GenBank Overview


基本信息




什么是


GenBank


GenBank


是一个有来自于


70,000


多种生物的核苷酸序列的数据库。每条纪录都有


编码区(

CDS


)特征的注释,还包括氨基酸的翻译。


GenBan k


属于一个序列数据库的国际合作组织,


包括

< br>EMBL



DDBJ




纪录样本


-


关 于


GenBank


的各个字段的详细描述,以及同


Entrez


搜索字段的交叉索引。



访问


GenBank -


通过


Entrez Nucleotides


来查询。用


accession nu mber


,作者姓名,物种,基因


/


蛋 白名字,还有许多其他的文本术语来查询。关于


Entrez


更 多的信息请看下文。用


BLAST


来在


GenBank


和其他数据库中进行序列相似搜索。用


E-ma il


来访问


Entrez


< p>
BLAST


可以通过


Query

< br>和


BLAST


服务器。另外一种选择是可以用

< p>
FTP


下载整个的


GenBank


和更新数据。



增长统计


-


参见公布通知的


2.2.6


(每个 分类的统计)



2.2.7


(每个物种 的统计)



2.2.8



GenBank


增长)小节。



公布通知,最新


-


最近和即将有的 变化,


GenBank


的分类,数据增长统计,


GenBank


的引用。



公布通知,旧


-


同上相同,是过去公布的统计。



遗传密码


- 15


个遗传密码的概要 。用来确保


GenBank


中纪录的编码序列被正确的翻译。< /p>



(向)


GenBank


提交(数据)




关于提交序列数据,收到


accession number


,和对纪录作更新的一般信息。



BankIt -


用于一条或者少数条提交的基于

< p>
WWW


的提交工具软件。(请在提交前用


VecS creen


去除


载体)



Sequin -


提交软件程序,用于一条或者很多条的提交 ,长序列,完整基因组,


alignments


,人群


/


种系


/


突变研究的提 交。可以独立使用,或者用基于


TCP/IP


的“networ k aware”模式,可以链接


到其他


NCBI


的资源和软件比如


Entrez


< br>PowerBLAST


。(请在提交前用


VecScre en


去除载体)



ESTs - < /p>


表达序列标签,短的、单次(


测序


)阅读 的


c


DNA


序列。也包括来自于差异显 示和


RACE



验的

< br>c


DNA


序列。



GSSs


-


基因组调查序列,


短的、


单次



测序



阅读的


c


D NA


序列,


exon


trap


获得的序列,


cosmid/BAC/YAC


末端,及其他。



HTGs


- < /p>


来自于大规模


测序


中心的高通量基因组序 列,未完成的(阶段


0



1

< p>


2


)和完成的(阶段


3



序列。(注意:完成的人类的


HTG


序列可以同时在


GenBank



Human Genome Sequencing


页面上访


问。)



STSs -


序列标签位点。短的在基因组上可以被唯一操作 的序列,用于产生作图位点。



注:


SNPs -


人类的和其他物种 的遗传变异数据可以提交到


NCBI


数据库的单核苷酸多态性库 中



dbSNP


)。

< br>


国际核苷酸序列数据库合作组织




GenBank


< br>DDBJ



EMBL -


合作 计划的概述,并链接到相应的主页。


GenBank



DDBJ



DNA


Data Bank


of Japan


),


and EMBL



European Molecular Biology Laboratory


)数据库共享的数据是每天都


交换的,因 此他们是相等的。数据纪录的格式和搜索方式可能会不一样,但是


accession number



序列数据和注解都是一模一样的。


即,


你可以用


accession


number


U12345



GenBank



DDBJ

< br>或


EMBL


中查找相应纪录,得到的结果是完全一样的序 列数据,参考内容等等。



DDBJ/EMBJ/GenBan k


特性表





特性表格式和标准被合作数据库用在序列记录的注释上,使得数据


共享成为可能,包括详细的描述生物特性和特性限定语的附录,以及


IUPAC


规定的核苷酸和氨基酸


的代号。



FTP


GenBank


and


Daily


Updates


GenB ank


普通文件格式





参见


Ge nBank


记录样本和在


GenBank


公布通知中的详细描述,下载大多数最近的完全公告和日常积累或非积累更新数据。



ASN.1


格式





摘要句法记号

1


,国际标准组织(


ISO


)数据 表示格式,下载大多数最近的完全公告


和日常积累或非积累更新数据。

< br>


FASTA


格式





定义行号后只跟随序列数据(示例 ),参见描述数据库的


readme


文件,包括


nt.Z


(每天更新的非冗余


BLAST


核酸数据库,


包括


GenBank+EMBL+DD BJ+PDB


序列,


但是不包括


EST ,


STS,


GSS, or HTGS

序列),


nr.Z


(每日更新的非冗余蛋白质),


est.Z, gss.Z, htg.Z, sts.Z,


和其它


文件。



分子数据库概览



核酸序列



Entrez


核酸






accession


number ,


作者姓名,物种,基因


/


蛋白名字, 以及很多其它的文本术语来


搜索核酸序列记录


(在


GenBank + PDB


中)



更多的关于


Entrez


的信息见下。


如果要检索大量数据,


也可使用


Batch Entr ez


(批量


Entrez


< p>




RefSeq



NCBI


数据库的参考序列。校正 的,非冗余集合,包括基因组


DNA


contigs


,已知基因的


mRNAs


和蛋白,


在将来,


整个的染色体。


Accession numbers



NT_xxxxxx, NM_xxxxxx, NP_xxxxxx,



NC_xx xxxx


的形式来表示。




dbEST



表达序列标签数据库,短的、单次(


测序


)阅读的


c


DNA


序列。也包括来自于差异显示



RACE


实验的


c< /p>


DNA


序列。




dbGSS



基因组调查序列的数据 库,


短的、


单次


测序



阅读的


c

< br>DNA


序列,


exon trap


获得的序列,


cosmid/BAC/YAC


末端,及其他。




dbSTS


序列标签位点的数据库,短的在基因组上可以被唯一操作的序列,用于产生作图位 点。




dbSNP




单核苷酸多态性数据库,


包括


SNPs



小范围 的插入


/


缺失,


多态重复单元,


和微卫星变异。




完整的基因组



参见下面


Genome



Maps


部分,包括各种物种资源,人,小鼠,大鼠,酵母,线虫,疟原虫,细

< br>菌,病毒,


viroids


,质粒。



UniGene




被整理成簇的

EST


和全长


mRNA


序列,


每一个代表一种特定已知的或假设的人类基因,


有定位图和表达信息 以及同其它资源的交叉参考。


序列数据可以以


cluster< /p>


形式在


Unigene


网页下载,


完整的数据可以从


FTP


站点


repository/UniGene


目录下下载。




人类


UniGene



小鼠


UniGene



大鼠


UniGene



斑马鱼


UniGene



BLAST




将你的序列同核酸库中的的序列比 较,检索相似的序列。


(更详细的信息见下面


Tools/Se quence


相似搜索部分)




蛋白序列




Entrez


蛋白





accession numbe r,


作者姓名,物种,基因


/


蛋白名字 ,以及很多其它的文本术语来搜


索蛋白序列记录(在


GenPe pt + Swiss-Prot + PIR + RPF + PDB


中)


。更多的关于


Entrez


的信息见下。


如果要检索大量数据,也可使用


Batch Entrez

< p>
(批量


Entrez





RefSeq



NCBI


数据库的参考序列。


Curated,


非冗余集合包括基因组


DNA


con tigs,


已知基因的


mRNAs


和蛋 白,在将来,整个的染色体。


Accession


numbe rs



NT_xxxxxx,


NM_xxxxxx,


NP_xxxxxx,



NC_xxxxxx










FTPGenPept




下载


“. Z”


文件,


这个文件包含了从


GenB ank/EMBL/DDBJ


记录中翻译过来



FASTA


格式的氨基酸序列,这些记录都有一到两个


CDS


特性的描述。



完整基因组




参见下面


Genome



Maps< /p>


部分,包括各种物种资源,人,小鼠,大鼠,酵母,线虫,疟原虫,细

菌,病毒,


viroids


,质粒。




Entrez


基因组





提供了一个编码区的概要和各种物 种的分类表(


TaxTable



。编 码区概要列出了在


基因组中所有的的蛋白,并提供链接到


FAS TA


文件和


BLAST


。分类表总结了 蛋白


BLAST


分析的


结果,建议他们 的可能功能,并用颜色编码的图来显示物种同其它物种之间的关系(参见下


< p>


Genomes



Ma ps,



部分


Entrez

< p>
基因组的一般描述)




FTP


基因组蛋白






ftp


站点的


genbank/genomes


目录下下载各种物种的


FASTA


格式的氨基酸序

< p>


*.faa


和蛋白表文件


*.ptt


。参见


readme


文件 。蛋白表也可以在


Entrez


基因组中看到。




PROW



Web


上的蛋白资源,

< p>
关于大约


200


种人类的


CD


细胞表面分子的简短官方向导。


互相检索,


为每个


CD


抗原提供大约


20


中标准信息的分类(生化功能,配体,等等)




BLAST




将你的序列同蛋白库中的的序列比 较,检索相似的序列。


(更详细的信息见下面


Tools/Se quence


相似搜索部分)




结构



结构主页





关于


NCBI


结构小组的一般信息和他 们的研究计划,另外也可以访问分子模型数据库



MMDB


)和用来搜索和显示结构的相关工具。




MMDB


:分子模型数据库





一个关于三维生物分子结构的数据 库,结构来自于


X-ray


晶体衍射和


NMR


色谱分析。


MMDB


是来源于< /p>


Brookhaven


蛋白数据库(


PD B


)三维结构的一部分,排除了那些


理论模型。


MMDB


重新组织和验证了这些信息,从而保证在化学和大分子三维结构之间的 交叉参


考。数据的说明书包括生物多聚体的空间结构,这个分子在化学上是如何组织的, 以及联系两者的


一套指针。利用将化学,序列,和结构信息整合在一起,


MMDB


计划成为基于结构的同源模型化


和蛋白结构预 测的资源服务。


MMDB


的记录以


AS N.1


格式存储,


可以用


Cn3D, Rasmol,



Kinemage


来显示。另外,数据库中类似的结构已经被用


V


AST


确认,新的结构可以用


V


ASTsearch< /p>


来同数据


库进行比较。




Cn3D




“See in 3


-


D”




一个用于


NCBI


数据库的结构和序列 相似显示工具,它允许观察


3-D


结构


和序列



结构或结构



结构同源比较。


Cn3D


用起来就象你浏览器上的一个 帮助工具。



V


AST




矢量同源比较搜索工具

< p>


一个在


NCBI


开发的 计算算法,用于确定相似的蛋白三维结构。


每一个结构的



结构邻居



都是预先计算好的,而且可以通 过


MMDB


的结构概要页面的链接访问。


这些邻居可以用来确认那些不能被序列比较识别的远的同源性。




V


AST


搜索





结构


—< /p>


结构相似搜索服务。比较一个新解出的蛋白结构和在


MMDB/P DB


数据库中


的结构的三维坐标。


V< /p>


AST


搜索计算一系列可能会被交互浏览的结构邻居,用分子图形 来观察重叠


和同源相似。




分类学




NCBI


的分类数据库主页





关于分类计划的一般信息,包括分 类资源和同


NCBI


分类学家合作的


外 部管理者的列表。




分类浏览器





搜索


NC BI


的分类数据库,包括大于


70000


个物种的名字和种系,这些物种都至少


在遗传数据库中有一条核酸或蛋白序列。可以检 索一个特定种或者更高分类(如属,科)的核酸,


蛋白,和结构记录。如果有新物种的序 列数据被放到数据库中,这个物种就北加到(分类)数据库


中。


NCBI


的分类数据库的目的是为序列数据库建立一个一致的种系发生分类学。




文献数据库概要




PubMed




一个关于生物医药科学的检索系统 ,包括引用,摘要,和杂志的索引术语。它包括直接


由出版商提供给

NCBI


的文献引用以及链接到在出版商网址上的全文的


U RLs




PubMed


包括


MEDLINE



PR EMEDLINE


的完整内容。


它还包括一些被


MEDLINE


认为超出范围的文章和杂志,


(这些文 章或杂志)由于内容或在某一时期不在索引范围内。因此


PubMed

< br>是比


MEDLINE


的更大


的集 合。



杂志浏览器





允许你去查找收录到


PubMed


系统的杂志的名字,


MEDLINE< /p>


的缩写,或


ISSN


号码。



PubRef


(开发中)




一个关于来自于广大范围的科学杂志的数目记录,和链接到 出


版商网址的全文。


PubRef


包含 了


PubMEd


,加上了来自其它学科的杂志出版商提供的引用 和摘要。


因此它是比


PubMed


更大 的集合。


这个计划的启动是因为


NAS


要求为科学领域的电子杂志提供一个



白皮书

< br>”


服务。



PubMed


中心(开发中)





PubMed

中心是一个无障碍的


NIH


资源,用于在生命


科学领域中同业互查的基础研究报告。



2000< /p>


年一月开始接受杂志文章。


所有在


Pub Med


中心的材


料将由目前任一主要的摘要和索引服务中列出的 杂志提供,或者在编辑委员会中拥有


3


个以上有主


要资金机构的研究经费的拥有人的杂志提供。



OMIM




在线人类孟德尔遗传



经常更新的人类基

因和遗传失调的目录,有链接到其它相关的文献参考,序列记录,和相关数据库。



书籍




< /p>


同书


籍出版商合作


NCBI


为网络改编了教科书,并把他们链接到


PubMed



生物医药书目数据库。这是


为了给


P ubMed


提供背景信息,这样使用者可以探究在


PubMed


搜索结果中不熟悉的概念。目前收


录的书有:

< br>


Molecular Biology of the Cell, 3


rd


ed. Alberts B., Bray D., Lewis J., Raff M., Roberts K.,


Watson J.D., 1994, Garland Publishing.


外部链接





一个登记服务,用于建立从在


Entrez

中的特定


的文章,杂志,或生物数据到外部网址的链接。第三方可以提供一个


URL


,资源名字,关于他们网


址的简要的描 述,和关于从


NCBI


数据的哪里他们希望建立链接的详细说明 。这个详细说明可以用



Entrez


有效的布尔查询来写,也可以用特定的文章或序列的标志列表来写。这样


NCBI


PubMed


的用户将可以通过


“NCBI


小房间



服务


(开发中)


来选择哪个外部链接在他们的搜索中是可见的。




用匹配





允许你找到任何一篇在

< p>
PubMed


数据库中的文章的


PubMed ID



MEDLINE UID


,给出


书目信息(杂志,卷,页码等)




单篇文章的引用匹配。



许多文章的批量引用匹配。



E-ma il


引用








的< /p>









< p>
















给< /p>


citation_matcher@


写一封只有内容为


HELP



E-Mail






Genomes and Maps Overview


< /p>


Entrez


基因组:人,小鼠,大鼠,酵母,线虫,疟原虫,细 菌,病毒,


viroids


,质粒,和真核细胞


器。




Entrez


基因组(各种物种)




Entrez


基因组





超过


80 0


种在


GenBank


中被完整测序的 物种,


包括大于


500


种病毒,



25


种细菌,


酵母 ,和许多


viroids


,质粒,和细胞器。还包括正在进行中 的基因组,比如人,小鼠,线虫,疟原


虫,果蝇,利什曼原虫,水稻,和玉米。提供完成 的基因组


/


染色体的图形概览,并可以探究那些逐


步细化的区域。


也提供那些已经被


NCBI


工作人员分析过的物种的编码区的摘要和


TaxTables

< p>


另外,


Entrez Map Viewer< /p>



Entrez


基因组的一个软件组成部 分,提供整合的果蝇(细胞遗传学和序列图谱)


和人类(细胞遗传学,遗传连锁,序列, 放射杂交,和其它图谱)的染色体图谱的浏览。



< p>
通过每个物种的


Entrez


基因组页面来下载〈


350kb


的基因组。




通过


NCBI

ftp


站点来下载〉


350kb


的 基因组



参见在


genbank/ge nomes


目录下的


readme


文件 ,


ftp

-


-


-


-


-


-


-


-



本文更新与2021-02-24 15:21,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/670363.html

NCBI资源介绍及使用手册的相关文章

  • 爱心与尊严的高中作文题库

    1.关于爱心和尊严的作文八百字 我们不必怀疑富翁的捐助,毕竟普施爱心,善莫大焉,它是一 种美;我们也不必指责苛求受捐者的冷漠的拒绝,因为人总是有尊 严的,这也是一种美。

    小学作文
  • 爱心与尊严高中作文题库

    1.关于爱心和尊严的作文八百字 我们不必怀疑富翁的捐助,毕竟普施爱心,善莫大焉,它是一 种美;我们也不必指责苛求受捐者的冷漠的拒绝,因为人总是有尊 严的,这也是一种美。

    小学作文
  • 爱心与尊重的作文题库

    1.作文关爱与尊重议论文 如果说没有爱就没有教育的话,那么离开了尊重同样也谈不上教育。 因为每一位孩子都渴望得到他人的尊重,尤其是教师的尊重。可是在现实生活中,不时会有

    小学作文
  • 爱心责任100字作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文
  • 爱心责任心的作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文
  • 爱心责任作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文