关键词不能为空

当前您在: 主页 > 英语 >

数据搜索时有用的生物大分子数据库扫描

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-02-27 21:58
tags:

-

2021年2月27日发(作者:vagueness)


生物大分子数据库扫描



根据“


Nucleic Acids Research


”最新(指


2007


年)公布的数据,目前已 有


968


个有关生物


大分子数据库(参 见文献



Galperin M Y


, The Molecular Biology Database Collection, 2007, 35:


D3


)。有兴趣的读者可以参阅网站“


/nar/database/a


”。我们这


里将主要 类型的数据库列于表


4-2





数据库类别



代表数据库名及应用



DDBJ


:所有已知的核苷酸序列与蛋白质序




国际苷酸序列数据库集



EMBL


:所有已知的核苷酸序列与蛋白质序



< /p>


GenBank


:所有已知的核苷酸序列与蛋白质


序列



ACLAME


:基因移 动因子分类数据库



CUTG



Genbank


数据库中的代码应用分类


数据 库



HERVd


:人类内源性逆转录病 毒数据库



NPRD:


核小体定位区间数据库



TIGR Gene Indices



基因序列与组织专一化


数据库



Ve ctorDB


:核酸向特征及分类数据库


有关代码


DNA


序列


< p>
核苷酸


序列数


据库



DNA


序列:



因 ,


保守序列


模式及调控


位点

< p>


ASD


:选择性剪切数据库



EASED


:扩展选择性剪切


EST

< p>
数据库



基因结构,内含子,

HS3D


:现代人剪切位点数据库



外显子



Splice DB



典型与非典型的哺乳动物剪切位


点数据库



ACTIVITY


:功能


DNA/RNA


位点数据库



DBTBS


:枯草杆菌起动与转录因子数据库



EPD


:真核起动子数据库



转录调节位点与转


录因子


< p>
JASPAR


:转录因子


DNA

< br>结合位点位置专一


化得分矩阵



TESS


:转录子搜索系统



TRED


:转录调控元素数据库



TRANSFAC


:转录因子和连接位点数据库


16S



23S rRNA Mutation Database



16S



23S


核糖体


RNA


突变数据库



RNA


序列数据库


< br>ARED



mRNA



AU


丰富数据库



NC IR



RNA


结构中非典型相互作用数 据库



tmRDB


< br>tmRNA


数据库



Rfam< /p>


:非代码


RNA


家族数据库



EXProt



被实验证 实功能的蛋白质序列数据




PA-G OSUB


:根据模型器官,


GO


数据库 确


蛋白质


序列数


据库

< br>


综合数据库



认及亚细胞定位的蛋白质序列数据库



Swiss- Prot


:蛋白质序列数据库



TrE MBL


:应用计算机注释与翻译


EMBL



据库



UniProt

< p>
:所有蛋白质序列累积数据库



蛋白质性质数据库



AAindex< /p>


:氨基酸理化性质数据库



ProNIT



蛋白质与核酸相互作用热动力学数


据 库



ProTherm



天然型与突变型蛋白质热动力学


数据库


< p>
TECRdb


:酶催化反应热动力学数据库



DDSubLoc


:蛋白质在亚细胞单元定位数据

< br>库



NESbase


:核输出信号数据库



NLSdb


:核定位信号数据库



NMPdb


:核基质联合蛋白质数据库



蛋白质定位与靶向数据库(


Protein


localization and targeting




NOPdb


:核仁蛋白质组数据库


< /p>


PSORTdb



细菌中蛋白质在亚细胞 单元中定


位数据库



SPD


:分泌蛋白质数据库



THGS


:基因组序列中跨膜螺旋蛋白质数据




TMPDB


:由实验确定的跨膜蛋白 拓扑数据




ASC

< br>:活性序列集合:生物活性肽数据库



BLOCKS



蛋白质家族中保守区间比对数据




CSA



催化位点 图谱,


已知三维结构的酶的


蛋白质保守序列模式及活性位点数< /p>


据库



活性位点及催化位点数据库



COMe


:生物有机蛋白分类数据库



CopS


:综合肽信号数据库



eBLOCKS


:高度保守蛋白质序列块


< /p>


eMOTIF


:蛋白质保守序列模式的确定与搜

< br>索



Metalloprotein Site Dat abase


:金属蛋白中金


属连接位点数据库

< br>


O-GlyBase



蛋白质 中用


O



C


连 接的糖基化



位点数据库


< p>
PDBsite


:蛋白质三维结构功能位点数据库



PROSITE



生物学显著的蛋白质 模式与突变


谱数据库



ADDA


:蛋白质功能区域分类数据库



CDD


:保守功能区域数据库:主要来自于

Pfam



SMART



COG



KOG


数据库



CluSTr



Swiss-Prot +TrEMBL


蛋白聚类数据




FunShift


:在同一个蛋白质功能的家族的子


家族之间功能异化数据库



PRINTS


:启发式基因家族指纹谱数据库



Pfam



蛋白质家族数据库:


根据多重序列比


对和突变谱


HMM


构建



蛋白质功能区域;


蛋白质分类数据库



ProtoMap


:将


Swiss- Prot


依不同层次分类的


数据库


< /p>


S4



SCOP


超级家族中基于结构的序列比对


数据库



AARSDB


:酰氨转移


-tRNA


合成酶数据库



ASPD


:人工选择的 蛋白质


/


肽数据库



Bac Tregulators



A raC



TetR


家族转录调节


子数据库



单个蛋白质家族数据库



CSDBas e


:冷休克蛋白功能区阈数据库



GP CRDB



G


蛋白偶联受体数据库



Histone Database


:< /p>


组蛋白折叠序列与结构数


据库



ProLysED


:细菌蛋白酶数据库



TrSDB


:转录因子数据库



小分子数据库



ChEBI


:对生物有反应的化学条目



AANT


:氨基酸与核苷相互作用数据库



CCSD


:复合碳水化合物结构数据库



GlycoSuiteDB



N-



O-


多糖结构与生物资源


数据库



结构数


据库



核酸结构数据库



NDB


:核酸包含结构数据库



NTDB


:核酸热动力学数据库



RNABase


:由


PDB



NDB


中包括


RNA


的结


构数据库



SC OR



RNA


结构分类数据库,有关< /p>


RNA



构,


保 守序列模式,


功能及三级结构相互作




ArchDB


:蛋白质环结构自动分类数据库

< br>


ASTRAL


:已知结构的功能区,被选出的子


集和序列结构相关的序列数据库



BAliB ASE


:多重序列比对比较的数据库



BioMagReBank


:蛋白质与核酸的


NMR

< p>
光谱


数据库



CADB< /p>


:蛋白质数据库的构象角数据库



CAT H


:蛋白质功能区域自动分类数据库




有关蛋白质结构方面的数据库



CE


:蛋白质三级结构比对数据库


< /p>


CKAAPsDB



序列不相似但结构相 似的蛋白


质数据库



Dali


:应用


Dali


搜索引擎得到的蛋白质折叠


分类数据库



Deco


ys ?R? Us



由计算机产生构象的数据库


< /p>


DsiProt


:蛋白质无序结构数据库



DomIns


:已知蛋白质结构功能区阈插入数


据库



eF-site


:功能 位点静电表面数据库:蛋白质


碳水化合物数据库




活性位点的静电势与疏水性



GenDis



蛋白质结构超级家族基因组分 布数


据库



GTOP

< br>:根据基因组序列预测蛋白质折叠数


据库



HOMSTRAD


:同源结构比对数据库



MolMovDB



生物大分子运动数据库,< /p>


主要


描述蛋白质及生物大分子运动



LPFC


:蛋白质核结构家族库



PDB



蛋白质结构数据库,


搜集了所有蛋白


质及核酸结构的数据库


< p>
PDBsum


:对


PDB


结构总结分析数据库



PDB_TM



已知三级结构的跨膜蛋白数据库



ProteinFolding Database



蛋白质折叠实验数


据库



SCOP


:由专家参预的蛋白质结构分类数据




Sloop


:蛋白质环分类数据库



Structure Superposition Database



TIM


桶状


结构的配对叠合 数据库



基因组


数据库

























综合基因数据库



Genew


:人类基因命名



GO


:基因功能的规范描术数据库


< /p>


GOA


:有关


EBI

的基因功能的规范描述数据


基因注


释项,

< br>规范描


述及相


关术语



有关常用命名方面的数据






IUBMB Nomenclat ure


数据库:


有关酶,


跨膜


转移,电子转移蛋白及其它蛋白命名。



IUPAC Nomenclature


数据库:由

< p>
IUBMB



IUPAC


联合委员会通过的生化与有机小分


子的命名



IUPHAR-RD


:国际药学联合会推荐的有关


受体命名和药物分类数据库



分类与鉴定数据库



细菌鉴定与分类的


gyrB


数据库



COG


:蛋白质直系同源组聚类数据库



COGENT



完全基因组跟踪数据库 ,


根据完


全基因序列预测肽



DEG


:细菌与酵母必须基因数据库



FusionDB



细菌与古菌基因剪 切


(融合)



件数据库



Genome Atlas



序列基因组的


DNA


结构性质


数据库



GOLD


:基因组在线数据库



Integr8


:全基因组蛋白质功能分类数据库


KEGG


:基因与基因组京都百科全书,有关

< p>
基因,蛋白质及代谢路径整合组数据库




































TransportDB


:根据


TC


分类系统预测全基因


组中的跨膜转运数据库



WIT3


:有关微生物全序列基因组代谢重建

< br>数据库



HCVDB


:肝炎


C


型病毒数据库



HIV Drug Resistance


数据库:具有抗药性 能



HIV


突变数据库









生物种


类专一


化数据





























真菌




酵母菌类



其它细菌类



大肠杆菌类



Escherichia


coli




原核


生物




枯草杆菌类



细菌类



HIV Molecular Immunology


数据库:


HIV



原决定基数据库



HIV RT and Protease Sequence


数据库:


HIV


逆转录酶及蛋白质酶序列数据库



VIDA


:同源病毒蛋白家族数据库



VirOligo


:有关


PCR


及其杂化的病毒专一化


寡聚核苷酸数据库



总述



BacMap

< br>:注释细菌基因组图谱数据库



MetaGrowh


:细菌病原体生长要求数据库



PGTdb


:原核生物生长温度数据库



ASAP


:对大肠杆菌及其相关基因组系统注

< br>释包裹



CyberCell


数据库:有关


K 12


的应用数


学模型模拟的数据库集合



coliBase


:有大肠杆菌,沙门氏菌属及志贺

< p>
氏杆菌的数据库



PEC


:有关大肠杆菌染色体图谱


< /p>


RegulonDB


:大肠杆菌中转录调节及操纵组


织数据库



BSORF


:京 都大学枯草杆菌基因组数据库



NUSub

:里昂大学非冗枯草杆菌数据库



SubtiList


:巴斯德研究院枯草杆菌基因组数


据库


< /p>


BioCyc


:多种细菌路径及基因组数据库


CampyDB


:弯曲杆菌属基因组分析数据库



ClostriDB


:梭菌属完成的与未完成 的基因


组数据库



Virulence Factors


:有关微生物毒性因子数


据库

< br>


ApiEST-DB



从各种 各样


Apicomplexan


寄生


单 细胞真核生物



虫获得的


EST


序列



CryptoDB

:有关


Cryptosporidium parvum



因组数据库



ToxoDB


:鼠弓形体基因组数据库



AGD



Ashbya


棉花基因组数据库



CandidaDB


:加拿乳头状体基因组数据库



CYGD

< p>


MIPS


综合酵母基因组数据库



SCPD


:酿酒酵母起动子数据库



其它真菌类



CADRE


:中心化曲霉菌数据集


< /p>


MNCDB



MIPS

< br>粗糙链孢霉数据库



Intronerator



s



C. briggsae


内含子


和剪切数据库



RNAiDB:


克氏病基因表型的


RN Ai


表型分析



WILMA


:克氏病注释数据库



WorfDB


:克氏病


ORF


组数据库



FlyBase


:果蝇序列与基因组信息



FlyBrain

< br>:果蝇神经系统数据库



DPDB


:果蝇多聚态数据库



AppaDB


:线虫


Pristionchu s pacificus


数据库



其它无脊椎动物



BeetleBas e



甲虫


Tribolium castaneum


基因组


数据库


< /p>


CnidBase



刺胞动物进化和基因 表达数据库



PPNEMA


:植物寄生 线虫


rRNA


数据库



BRENDA


:酶名称与生物化学性质数据库



ENZYME


:酶命名与性质数据库



Enzyme Nomenclature


< br>IUBMB


命名委员会


酶与酶命名数据库



推荐数据库



IntEnz


:整合酶数据库与酶命名



PDBrtf



PDB


中酶的目标家族代表数据库



SCOPEC

< p>
:功能区阈催化功能图谱数据库



BioSili co


:各类代谢数据库整合



KEGG


路径:全基因组代谢与调节路径数


据库



MetaCyc


:各种生物体代谢路径与酶数据库



3DID


:已知三维结构的蛋白质功能区阈与


功能区阈相互作用蛋白质



aMAZE


:生物化学与信号路径网络的注释,


管理与分析系统



BIND


:生物分子相互作用网络数据库

< p>


分子间相互作用和信号路径数据库


< p>
BioCarta


:代谢与信号路径在线图



DIP


:蛋白质相互作用数据库



DRC


:核糖体交互链接数据库



POINT



人类蛋白质蛋白质相互作用组 数据




STCDB


:信号转导分类数据库


< /p>


AllGene


:人类和小鼠基因,转录及蛋白质


人类与


其它脊


椎动物


基因组< /p>



模型生物与比较基因组数据库



注释数据库



DED


:进化距离数据库


< p>
FANTOM



小鼠全长


cDNA


克隆功能注释数


据库



GALA


:基因组比对,注释与实验结果数据


克氏病





无脊


椎动







黄猩猩果蝇



(Drosophila


melanogaster)



代谢酶


和路


径;信


号路径

数据库



代谢路径数据库





IPI


: 人类,大鼠,小鼠蛋白的非冗余集国


际蛋白索引数据库



Polymorphix


:序列多聚表型数据库



Rat Genome


数据库:


大 鼠遗传与基因组数据




TAED


:自适应进化数据库



VEGA


:脊椎动物基因组数据



AluGene


:人类基因组完全运算图



GroW 21


:人类


21

< p>
号染色体数据库



GDB


:人类基因与基因组图数据库



GeneLoc


:基因定位数据库



人类基因组数据库,图谱及阅读器



HOWDY


:人类组织全基因组数据库



IXDB


:人类


X

染色体物理图



Map Viewer


应用染色体位置基因组信息展


示图



TRBase


:人类基因组串联重复数据库



H-InvDB


:全长人类


cDNA


克隆数据库



HPMR



人类血浆膜受体数据库,


包括序列,


人类蛋白



文献及表达数据库



HPRD


:人类蛋白参考标准数据库,包括功


能区域构建,翻译后修饰及其相关疾 病



LIFEdb


< br>人类蛋白质的定位,


相互作用和功


能数据库



DG- CST


:疾病基因保守序列标签数据库



综合数据库



PMD


:蛋白质突变编译数据库



SOURCE



人类,

小鼠与大鼠的功能基因组


资源数据库


ORFDB


:由


Invitrogen

销售的


ORF


ALFRED


:< /p>


等位基因频率与


DNA


多型态数据




BayGenomics


:与冠心病和肺部相关基因数


人类基


因与疾

< p>
病数据




综合多形态数据


人类突变数据库





据库



Cypriot national mutation database

< p>


塞浦路斯


人群疾病突变数据库

< br>


dbQSNP



SNP


等位基因频率定量数据库



FESD


:功能性


SNP


数据库,包括在人类基


因的起动子,


UTRs


上的

SNP


HGVS


数据库:人类突变编辑数据库



IPD:


免疫多聚形态数据库



JSNP


:日本


SNP


数据库



rSNPs Guide


:调节基因区间


SNP


T opoSNP


:非同义


SNPs


的拓朴 数据库



癌症



Atlas of Genetics and Cytogenetic in


Oncology and Haematology


:在肿瘤 ,血液


及有癌症倾向疾病的癌症相关基因,


染色体


异常的数据库



CGED


:癌症基因表达数据库



Germline p53 mutations


:在人类肿瘤 和细胞


线


p53


基因的突变数据库



MTB



小鼠肿 瘤生物学数据库:


包括肿瘤类


型,基因,分类,发生率及病理学



ALPSbase


:自体免疫淋巴组 织增生综合症


数据库



BTKbase



X-


链接血中丙球蛋白贫乏突变记< /p>


录数据库



CASRDB


:钙敏感受体数据库



ERGDB


:雌激素响应基因数据库



PGDB


:前列腺及前列腺疾病基因数据库


SCAdb


:脊髓与小脑共济失调数据库



5?SAGE



5?


末端基因表达系列分析数据库



ArrayE xpress


:公共搜集微阵列基因表达数


据库



BGED


:脑基因表达数据库



GEO



基因表达公共站数据库,

< p>
主要是搜集


微阵列数据与其它基因表达数据库



基因表达谱方面的数据



GermOn line



有丝分裂与减数分裂细胞周期


中基因表达数据库



GXD


:小鼠基因表达数据库



MethDB



DNA


甲基化数据,模式及图谱数


据库



2 D-PAGE



微生物研究中蛋白组数据库系统



DynaProt 2D



Lactococcus lactis


蛋白质组数


据库



Open Proteomics Database


:人类, 酵母,大


肠杆菌和分







< br>谱






蛋白质组资源数据库








PEP








< br>数

























< br>饰






RESID:







< br>中















ANTIMIC


:自然抗微生物药物肽数 据库



其它分子生物学


数据库



药物与药物设计数据库



AOBase


:反义寡聚核苷酸选择与设计



APD


:抗微生物肽数据库



DART


:药物不良反应靶点数据库



TTD


:治疗靶点数据库



有关探针方面的数据库



IMGT/PRIMER-DB


:免疫遗传寡聚核苷酸


有关基因,系统


或疾病专一性数


据库

< p>


引物数据库



Prim erPCR


:真核与原核基因的


PCR


引物数


据库



QPPD


:人与小鼠定量


PCR


引物数据库


RTPrimerDB


:实时


P CR


引物和探针序列数


据库



未分类数据库



综合数据库



BioImage


:多维生物图像数据库



OGRe


:细胞器基因组修复系统



Organelle DB


:细胞器蛋白与亚细胞结构数


据库



AMPDB


:阿布属线粒体蛋白的数据库



HMPD


:人类线粒体蛋白数据库



细胞器数据库



线粒体基因与蛋白方面的


数据库



Mitochondrome


:多细胞动物线粒体基因数

< p>
据库



MitoDrome


:果蝇核解码线粒体数据库



MITOP2

< br>:线粒体蛋白,基因,疾病数据库



MPLMP


:植物线粒体蛋白输入机器数据库



PLMtR NA


:植物线粒体


tRNA


数据库



BarleyBase


:植物基因组表达 图谱数据库



植物综合数据库



CR- EST


:大麦,豌豆,小麦及土豆数据库


CroNet


:农作物基因组图谱数据库



FLAGdb++


:有关植物基因组综合数据库



Mendel


:已注释的植物


ESTs



STSs


数据库



AGNS


:拟南芥基因网增补数据库,包括基

< br>因表达,转基因与突变形态



AGRIS



阿布属基因调节信息服务器:


包括

< br>拟南芥



植物数据库



起动子,


转录因子及其目标基因方面的数据


库< /p>



CATMA


:完全阿布属转录组微阵列 数据库



MAtDB



MIPS


拟芥南数据库



TAIR


:阿布属信息资源数据库



BGI-RISe



北京基因组研究院 水稻信息系统



INE


:整合水稻基因组浏览器



IRIS


:国际水稻信息系统



水稻



RAD


:水稻注释数据库


< p>
RiceGAAS


:水稻基因组自动注释系统



Rice proteome database


:水稻蛋白质 组数据




其它植物



MaizeGDB


:玉米遗传与基因组数据库



SGMD


:大豆基因组与微阵列数据库



BCIpep



B-

< br>细胞抗原决定基数据库



dbMHC

:人类


MHC


遗传与临床数据库



FIMM


:功能分子免疫学数据库


< /p>


IMGT


:国际免疫学信息系统,包括免疫球

免疫学数据库



蛋白,


T


细胞受体,


MHC



R PI


IMGT/Gene-DB


:脊椎动物免疫球蛋白与


T


细胞受体数据库



MHCBN



MHC


连接与非连接肽 数据库



MHCPEP



MHC


连接肽数据库



MP ID



MHC


肽相互作用数据库



VBASE2


:人与小鼠

< br>Ig


定位可变基因数据库



那么


SwissProt


数据库主要内容及格式是什么呢?我们这里 作一个比较详细的介绍。下


面这段是一个完整的


SwissPr ot


条目,现解释如下:



ID 104K_THEPA STANDARD; PRT; 924 AA.


AC P15711;


DT 01-APR-1990 (Rel. 14, Created)


DT 01-APR-1990 (Rel. 14, Last sequence update)


DT 01-AUG-1992 (Rel. 23, Last annotation update)


DE 104 kDa microneme-rhoptry antigen.


OS Theileria parva.


OC Eukaryota; Alveolata; Apicomplexa; Piroplasmida; Theileriidae;


OC Theileria.


OX NCBI_TaxID=5875;


RN [1]


RP NUCLEOTIDE SEQUENCE.


RC STRAIN=Muguga;


RX MEDLINE=90158697; PubMed=1689460; DOI=10.1016/0166-6851(90)90007-9;


RA Iams K.P., Young J.R., Nene V., Desai J., Webster P., Ole-Moiyoi O.K.,


RA Musoke A.J.;


RT


RT rhoptry protein of Theileria parva.


RL Mol. Biochem. Parasitol. 39:47-60(1990).


CC -!- SUBCELLULAR LOCATION: In microneme/rhoptry complexes.


CC -!- DEVELOPMENTAL STAGE: Sporozoite antigen.


CC ------- -------------------------------------------------- -----------------


CC This Swiss-Prot entry is copyright. It is produced through a collaboration


uniprot_


CC the European Bioinformatics Institute. There are no restrictions on its


CC use as long as its content is in no way modified and this statement is not


CC removed.


CC ---------------------------------- ----------------------------------------


DR EMBL; M29954; AAA18217.1; -.


DR PIR; A44945; A44945.


KW Antigen; Repeat; Sporozoite.


FT DOMAIN 1 19 Hydrophobic.


FT DOMAIN 905 924 Hydrophobic.


SQ SEQUENCE 924 AA; 103626 MW; 289B4B554A61870E CRC64;


MKFLILLFNI LCLFPVLAAD NHGVGPQGAS GVDPITFDIN SNQTGPAFLT AVEMAGVKYL


QVQHGSNVNI HRLVEGNVVI WENASTPLYT GAIVTNNDGP YMAYVEVLGD PNLQFFIKSG


DAWVTLSEHE YLAKLQEIRQ AVHIESVFSL NMAFQLENNK YEVETHAKNG ANMVTFIPRN


GHICKMVYHK NVRIYKATGN DTVTSVVGFF RGLRLLLINV FSIDDNGMMS NRYFQHVDDK


YVPISQKNYE TGIVKLKDYK HAYHPVDLDI KDIDYTMFHL ADATYHEPCF KIIPNTGFCI


TKLFDGDQVL YESFNPLIHC INEVHIYDRN NGSIICLHLN YSPPSYKAYL VLKDTGWEAT


THPLLEEKIE ELQDQRACEL DVNFISDKDL YVAALTNADL NYTMVTPRPH RDVIRVSDGS


EVLWYYEGLD NFLVCAWIYV SDGVASLVHL RIKDRIPANN DIYVLKGDLY WTRITKIQFT


QEIKRLVKKS KKKLAPITEE DSDKHDEPPE GPGASGLPPK APGDKEGSEG HKGPSKGSDS


SKEGKKPGSG KKPGPAREHK PSKIPTLSKK PSGPKDPKHP RDPKEPRKSK SPRTASPTRR


PSPKLPQLSK LPKSTSPRSP PPPTRPSSPE RPEGTKIIKT SKPPSPKPPF DPSFKEKFYD


DYSKAASRSK ETKTTVVLDE SFESILKETL PETPGTPFTT PRPVPPKRPR TPESPFEPPK


DPDSPSTSPS EFFTPPESKR TRFHETPADT PLPDVTAELF KEPDVTAETK SPDEAMKRPR


SPSEYEDTSP GDYPSLPMKR HRLERLRLTT TEMETDPGRM AKDASGKPVK LKRSKSFDDL


TTVELAPEPK ASRIVVDDEG TEADDEETHP PEERQKTEVR RRRPPKKPSK SPRPSKPKKP


KKPDSAYIPS ILAILVVSLI VGIL


//


ID


是指其身份号,


924 AA


是指有该 序列有


924


个氨基酸残基



AC


获取号;



DT


序列测得的时间



DE


对该序列必要的信息的说明,如该分子的分子量为


104 kDa .


OS


来源



OX NCBI


分类身份号



RN [1]


RP NUCLEOTIDE SEQUENCE.


RC STRAIN=Muguga;


RX


有关


Medline


的出版号



RA


作者



RT


引用文献题目



RL


杂志名称,出版日期,卷期页



CC


有关它的功能描述及其它相关信息方面的描述



DR EMBL


数据库中的获取号



DR PIR


数据库中的获取号



KW


关键词



FT


功能区的描述



SQ


有关序列方面的信息,这部分是最主要的,因为该蛋 白质的序列就列在下面。



//


表明这个条目结束。



通过对上面这段 的分析,


读者可以知道


Swiss-Prot

< br>数据库基本框架及所蕴含的生物信息


学内容。


同时,


人们也可在需要


Swiss-Proto


数 据库时根据其格式编制出相应的计算机程序。


这一点其实对生物信息学工作者非常重要,


因为一个生物信息学分析方法首先要得到正确的






< br>确

























< br>用






/


”上获取。


< br>二、


PDB


数据库的基本格式



我们在前面曾经说过,当一个数据库的格式与内容都知道了后,说明对这个数据库的


知识已有初步的掌握。同前面一样,我们现在详细介绍


PDB


数据库的格式。由于蛋白质结


构涉及到蛋白质中每个原子的坐标,二级 结构,一个蛋白质结构所占的容量是比较大的,


因此它不可能象


Swiss-Prot


数据库那样将所有蛋白质序列放在一个文件中,而是一个蛋白


质一个文件。因此,到目前为止,


PDB


数 据库应有


41952


个文件,这样就涉及到其文件名的


问题,


PDB


数据库的文件如图


4-10


所示:





4-10 PDB


数据库中的文件名格式



下面是 一个典型的


PDB


数据库格式的描述:



PDB


中所的分子空间结构信息文件的格式基本上都是一样的。 文件由若干记录组成,


每一记录有


80


个字符(包括空格)。开头的


6


个字符标明该记录的名称,现将 各记录的意


义分别叙述如下:



HEA DER------


该记录列出分子所属功能类,正式收入


PD B


日期以及该分子的判别码



OBSL TE------


该记录列出已被新分子文件取代的一些旧的分子的有关信息。



COMPND------


该记录出分子名< /p>



SOURCE------


该记录说明 分子来源



AUTHOR------


该记录列出提供座标者的姓名



REVDAT------


该记录列出文件历次修改的日期等有关信息



SPRSDE------


该记录列说明此文件取代旧文件的有关信息



JRNL--------


该记录引用与确定该分子 空间结构有关的主要文献



REMARK------


该记录为关于该分子文件的其它信息。其中:


REMARK1

< p>
专用于列出与该


结构有关的其它文献,


REMAR K2



REMARK3


分别是关于晶体 结构的分辨率及精华的信息



SEQRES------


列出蛋白质一级结构



HET------- --


列出非标准基团或残基的信息(主要是指除标准


20


个氨基酸残基以外的


基团信息。具体格式如下:



1-3


列是“


HET


”;


8-10


列是非标准基团表示符;


13


列是链表示符号;


14-17

< br>顺序号;


18


列是插入码;


21 -25


列是非标准基团中的原子数目;


31-70


为注释



HELIX--------


列出分子中有关


α


螺旋的信息。


1-6


列是“


HELIX


”;


8-10


列是顺序号;


12-14


螺旋表示符;


16-18


残基名;


20


链表


示符;


22-25


残基序号;


26


插入码;


28-30


残基名;


32< /p>


链表示符;


34-37


残基序号;


38



入码;


39- 40


螺旋类别;


41-70


注释。



SHEET--------


列出分子 中有关


β


折叠的信息,其格式如下:



1-5


列为


SHEET



8-10


股号;


12-14


折叠表示符;


15-16


股数;


18-20


残基名;


22

链表


示符;


23-26


残基序列号 ;


27


插入码;


29-31


残基名;


33


链表示符;

< p>
34-37


残基序号;


38

插入码;


39-40


类型判别码;


42-45


原子名;


46-48


残 基名;


50


链表示符;


51-54 < /p>


残基序


号;


55


插入码;


57-60


原子名;


61-63


残基名;


65


链表示符;

< p>
66-69


残基序号;


70


插入


码。



TURN------- -


列出分子中有


β


转角


(


发夹结构


)


的信息;



SSBOND------


残出分子中有关 二硫键的信息;



SITE--------

< br>列出重要功能部位


1-4 SITE



8-10


序号;


12-14


功能部位表示符;


16-17


组成功能部位的残基数;


19-61


组成功能部位的四个残基的位置信息。当然如果某


功能部位由四个以上残基组成,则可以增加


SITE

记录以包含全部残基的位置信息,但增加


的记录其功能部位表示符(


12-14


列)就与原来记录一致。



CRYST-------


该记录列出关于晶体结构的单晶胞参数及空间群标识 ;



ORIGX-------


该记录 列出将下交坐变换为用户送交坐标的参数;



SCALE--- ----


由正交坐标变换为分数坐标的参数;



MATRIX------


列出代表非晶体学对称性的变化参数;



TVECT-------


列出无限共价连接结构 的变换向量;



ATOM--------

列出标准基团的各原子的坐标。这是


PDB


的核心。



其格式如下:



1-4 ATOM



7-11


原子序列号;


13-16


原子名;


18-20


残基名;


22


链表示符;


23-26



基序列号;


31-38


原子


X


座标;


39-46


原子的


Y


座标;


47-54


原子


Z


坐标;


55-60


占有


率;

< p>
61-66


温度因子。



SIGATM-------


列出原子参数的标准差;


ANISOU---


列出各向异性温度因子;



SIGUIJ-----


列出各向异性温度因子的标准差;

TER-----


列出链的末端残基。



有时某个蛋白质结构因为某些原因会插入一些不是该蛋白质结构的氨基酸残基,其对

应的原子就不是“


ATOM



,< /p>


而是“


HETATM


< br>,表明这些原子是外来原子,不是蛋白质本身的。




PDB


数据库中有关蛋白质结构的获取



我们前面说过,


PDB


网站为“




,那么如何通过这个网站获取你所要的蛋


白质结构数据呢?有下列几条途径。



第一种描述如下:



1.

< p>
打开





网站,


可得如图


4-11


的界 面,


输入所需要的蛋白质代码如



1g 0v




然后点击“

< br>Site Search


”按钮,得到如图


4-12


所示的界面;



2.

点击图


4-12


左上面的“


Dow nload Files



,得到的界面的部分如图

< p>
4-13


所示。



3.


点击图


4-13


中的“


PDB


File


”就可以得到你所需要的

< p>
PDB


结构。这里在图


4-13

< br>的


右边有相应的蛋白质结构图。






第二种 主要是在


Linux


操作系统中可以比较方便的使用,具体命如 下:



$$ wget



q ftp:///pub/pdb/data/structures/all/pdb/.Z

< br>通过这个命令可以到得蛋白质文件:


.Z


,然后解压缩即 :



$$ gunzip .Z


就可以得到文本文件的蛋白质结构文件。






第三种 则是通过匿名用户登录“



”网页,然后应用“

< br>get


”命令下载你所要


的文件。







通过上述方式,我们可以得到所需要的蛋白质结构。




SCOP


数据库的分类基本原则及其格式


SCOP


是由剑桥大学于


1995


年构建。


其宗旨是将现有的已知结构的蛋白质的功能区域按


类, 折叠方式,超级家族,家族进行逐层次地人工分类。具体如下:




1


)家族


( family): A.


所有蛋白质的相等残基数大于等于


%30


B


低于


%30


但功能与结构非常相似




2


)超级家族


(supe rfamily):


源于一个共同的祖先


< br>(


3


)共同折叠方式


(comm on fold):


相同的主要二级结构有相同的排列和连结方式




4


)类:



同一类折叠方式构成一类



SCOP< /p>


数据库将现有的蛋白质分成


11


类,如表


4-3


所示:



符号



a



4-3 SCOP


数据库中蛋白质结构的分类



意义



符号




α


螺旋



g


意义



小蛋白类



b


c


d


e


f



α


片断



α


/


β



α


+


β



多功能区域蛋白类



膜蛋白类及细胞表面肽类



h


i


j


k



无规卷曲类



低分辩蛋白类



肽类



设计蛋白类





SCOP


数据库与

< br>PDB


数据库的文件格式完全一致,如果有不同,那就是它将

PDB


数据库


中一个蛋白质结构的文件根据其功能区域分别 放在不同文件中存放。


相应的文件名也与


PDB


数据库的文件名密切相关,下图以一个实际的例子来说明其意义:





4-14 SCOP


文件名解析



这里有一点必须 说明,当蛋白质只有一条链(或链没有命名)时,则链名称以下划“


_

< br>”来


表示,如蛋白质“


d1eut_

”。同样的,如果该链只有一个功能区域时,则对


应的位置同样用下划线“


_


”来表示,如蛋白质“


d1hhib_.


”。



为使读者对上述各类别有一个感性的 认识,我们这里举出


6


个蛋白质分别代表


a



b,c



d



e



f


类。见图


4-15


,图


4-16


与图


4-17




三、如何获取整个


SCOP


数据库








SCO P


数据库的网站为“


scop


./


scop


/



,读 者如果忘记了该网站,


也可以在“


google


”网站中输入“


SCOP



, 则出现第一个条目便是


SCOP


网站。其网页可见图

< p>
4-22


,然后点击其中的“


top


of


the


hierarch


”则可得到图


4-23


所示的网站,这样用 户只


可以按照其中的内容逐步点击相关按钮就可以得到自己所需的蛋白质。




这里我们要重点介绍的是如何获取整个


SCOP


数据库。用户可按如下方式操作:


1.


点击网站“


/



,可得图


4-24


的网站 。



2.


按图


4-24


所指示的“点击”下载“


part1

< br>”


,



part2


”及“


part3


”得到如下三个文件:

< p>




< br>,










然后应用命


令“


tar



xf


file

”将其展开,如:



tar



xf



”得 到各个功能区域


蛋白的数据。



3.< /p>


由于我们要知道各个功能域是哪一类,哪一种折叠方式,哪一种超级家族及哪一种家族。< /p>


因此需要下载另一个文件,它在网站


:



/scop/parse/




打开该网站,可以得到图


4-25


所示页面 。



4.


下载图


4-25


所示页面的“



< p>
”的


1.71


版,然后根据我们应用“

< p>
PERL


”语言


编制的程序(见图


4-26


)建立比较实用的即文件名如图


-14


所示的


scop


数据库文件。



5.


执行文件“


< p>
”即




perl pdbstyle-1.71 scop-1.71


所在路径





按回车键即可



PROSITE


中涉及的保守序列模式或功能位点有:



1.


酶的催化位点;



2.


辅基基团连接位点,如血红素,吡哆醛磷酸盐,辅酶


R




3.


与金属离子结合的氨基酸残基



4.


能形成二硫键的半胱氨酸



5.


与其它分子相连的区域,如与


ADP/A TP



GDP/GTP


,钙,


DNA


,另一个蛋白质等


因此,


Prosite


数据库实际上是蛋白质序列功能位点 数据库。




PROSITE


数据库相类似的数据库还有:蛋白质序列指纹图谱数据库


PRINTS< /p>


、蛋白


质序列模块数据库


BLOCKS< /p>


、蛋白质序列家族数据库、蛋白质序列谱数据库


PROFILE< /p>


、蛋


白质序列识别数据库


IDENTIF Y


等。它们的共同特点是基于多重序列比对从不同侧面来描


述蛋 白质有关性质。



一般地,


PROSI TE


数据库使用正则表达式来表示保守序列模式,


具体说明如下 图所示:





4-27 PROSITE


数据库中保守序列模式表达方式



根据上图的正则模式表达方式。


如序列片段


GFxx LxxxxRxxRxGxKPxT


就可以是其中可能的


保守序 列模式之一。



PROSITE


数据库 主要包括两个数据库文件:一个为数据文件为


PROSITE


本 身即



T


,该文件给出了能进行匹配的序 列及序列的详细信息。另一个为说明文件即



< br>,它给出了给出该序列模式的生物学功能及其文献资料来源。从数据库所包


括的条 目(


entry


)来看,它包括:保守序列模式条目(即


MOTIF



PA


T TERN


)和序列突变


谱即


PROFI LE


条目。由于建立序列突变谱需要适当的方法,为此我们首先介绍

PROSITE



建立序列突变谱的方法。



三、


PROSITE


数据库 格式




PROSITE


数据库的众多项中,


其中有关描述序列突变谱读者可以参阅

< br>PROSITE


网站


上的“



”。




PROS ITE


数据库中,每行共有


128


列, 其分配方式如下图所示:





4-29 PROSITE


数据库各列的分配方式



但一般情况下,


除序列突变谱即



M A



行有


128


列外,


其它行的列一般不会超过


78


列。



PROSITE


数据库中,不同 的两个字符的代码代表的含义不同,我们将它们的中英文含义列于如下图:





4-30 PROSITE


数据中各行代码的含义



接下来我们对它们加以详细描述。



(一)


ID


ID

中的第一项为条目的名称,


一般由


2-21


个大写字母组成,


字母可以是


A-Z

< br>,


0-9


及下划


线,如:



ID ENTRY_NAME



ENTRY_TYPE.

< p>
第二项为


PROSITE


数据库条目的类型。目前 ,在


PROSITE


数据库中,它主要有三种:


PATTERN,MATRIX



RULE

< p>
。如:





4-31


三各类型的


ID


(二)


AC


AC


PROSITE


数据库的获取号,类似于人的身份证号, 一个条目中只有一个获取号。当


人们用到


PROSITE


数据库具体某个条目时,一般引用这个获取号。其格式为:



AC PSnnnnn


这里的“


P S


”代表


PROSITE


数据库。“< /p>


nnnnn


”是


5


个阿拉伯数字,如:



AC PS00123


(三)


DT


说明日期项。其格式为:



DT MMM-YYYY



CREATED



; MMM-YYYY(DATA UPDATE); MMM- YYYY(INFO UPDATE)


说明如下:




MMM


”代表月;“


YYYY


”代表年。



第一个时间即“


MMM-YYYY


(< /p>


CREATED


)”说明该条目第一次收载进来的时间;



第二个时间即“


MMM- YYYY



DATA UPDATE


)说明原始基本数据最后一次修改的时间;



第三个时间即“


MMM- YYYY



INFO


UPDATE< /p>


)说明除原始基本数据外其它内容的修改时间;



(四)


DE


这一项主要是提供相关的信息。如



DE Myb DNA-binding domain repeat signature 1.


DE Iron-containing alcohol dehydrogenases signature.


DE Zinc finger, C2H2 type, domain


DE Globin profile


(



)PA


就时我们前面所说的正则模式。


我们在前面曾以一个具体例子作了比较简单的描述,



里我们对它进行比较详细的描述。它包括如下要素:



1.


氨基酸残基用标准的


IUPAC


一个字母代码来表示,如丙氨酸用


A


,甘氨酸用


G


等。



2.



x


”代表任何一 个氨基酸残基;



3.


如果在某个位 置上不是比较确定,


相对比较模糊,


则用方括号来表示,



[ACD]


说明


这 个位置可以是氨基酸残基


A



C



D


组成。



4.


有时这种模糊的位置也可以用大括号即

< br>“


{}



来表示这个位置不可能 含某类氨基酸,


如“


{AD}


”说明在 这个位置上不可能出现丙氨酸


A


和天门冬氨酸

< br>D




5.

重复部分可以用一个字符及相应的数字来表示,如


x(3)


表示“


x-x-x




x(2,4)


表示


x-x


或< /p>


x-x-x



x-x- x-x




6.


如果保守序列模式在蛋白质


N


端或


C


端时,则它们分别用“


<


”或“


>


”来表示。如



。有时也有用方括号来表示,如“


F-[GSTV]-P- R-L-[G>]


”代表



F-[GS TV]-P-R-L-G


”或“


F-[GSTV]-P-R-L >





现我们举几个例子来说明它们:




1 PA [AC]-x-V-x(4)-{ED} < /p>


其含意是“


[Ala


< br>Cys]-


任何残基


-Val-


任何残基


-


任何残基


-


任何残基


-{


任何残基但除


G lu



Asp


”外。

< br>




2 PA


其含意是氨基端即

N


端为丙氨酸,这样可以翻译为“


Ala-


任何残基


-[Ser



Thr ]-[Ser



Thr]-


任何残基或 没有


-Val




(六)


MA


主要是蛋白质序列突变谱。



(七)


PP



主要描述与后处理过程有关系的空容。



(



)NR



主要是以本条目中所代表保守序列模式与


Swiss-Prot


数据库


(扫描)


每个序列进行比


较得到的结果。其基本格式为:



NR / QUALIFIER=data



/QUALIFIER=da ta


;??



这里的修饰词“


QUALIFIER


”主要是指:



/RELEASE Swiss- Prot


数据库发布的版本号和该版本收集的蛋白质条目数;



/TOTAL


找到


Swiss- Prot


数据库命中的条目数;



/POSITIVE


属于当前考虑范围内命中的条目数;



/UNKNOWN


属于当前考虑范围内可能命中的条目数;



/FALSE_POS


假命中点数(即在数值计算中符合条件 但实际上不是相关蛋白的个数)



/PARTRIAL


属于被考虑范围内,


但由于它们只是一个序列片段且与这个保守序列模 式或序列


突变谱不符合的这样的序列个数。




比如:



NR /RELEASE=52.0,260175


NR /TOTAL=1550(351); /POSITIVE=1517(332); /UNKNOWN=0(0); /FALSE_POS=33(19)


NR /FALSE_NEG=0; /PART9IAL=0;



其含意为在


Swiss-Prot


数据 库中,它为


52.0


版本,共有


260 175


个条目,其中对


351


个不同序 列,发现该模式有


1550


次,其中阳性有

332


条序列,出现


1517


次, 假阳性的有


19


条序列,出现


33


次,假阴的为


0


(即没有被发现)


,片段序列的为


0




(九)


CC


其格式为:



CC /QUALIFIER=data; /QUALIFIER=data;


??



修饰辞项即

qualifier


有:



/TAXO_RANGE


分类范围



/MAX-REPEAT


在某个蛋白质内模式或序列突变谱最多重复出现的次数。



/SITE


在该保守序列模式中能引起人们兴趣的位点。



/SKIP-FLAG


由于比较含糊在实际应用时被忽视。



/VERSION


该模式或序列突变谱的版本号



下面我们逐一介绍之。



1. /TAXO-RANGE=ABEPV



A

< br>”代表太古代(


archaea





B


”代表噬菌体




E


”代表真核生物




P


”代表原核生 物




V


”代 表真核生物细菌



2. /MAX-REPEAT

< p>
其意思是对所给保守序列模式或序列突变谱,其出现的最大次数,其格式为:



/MAX-REPEAT=nn;


3. /SITE



主要是对所给的保守序列模式或序列突变谱中出现人 们感兴趣的位点如酶催化活性位


点。其格式为:



/SITE=nn,text_description


例如:



/SITE=3,active_site;


/SITE=5,disulfide;



nn


”是让人感兴趣的位点在该保守序列模式中的位置。如保守序列模式:




含有二硫键,则有:



/SITE=5,disulfide;


再如保守序列模式:



C-{CPWHF}-{CPWR}-C-H-{CFWY}


有:



/SITE=1,heme; /SITE=4,heme; /SITE=5,heme_iron


这说明有两个半 胱氨酸(位点


1



4

< br>)与血红素相连,




5


个位点即


H


与铁血红素相连。




4 /SKIP-FLAG

< p>
这主要针对有翻译后修饰的蛋白质序列,


尽管有用,


但有些程序出于某种考虑将它忽略


掉。为此这些条目将在“


C C


”行中有这方面的标记。如



/SKIP-FLAG=TRUE


5 /VERSION < /p>



PA



MA< /p>


项的数据出现修改时,其数值才增加。主要是说明该条目的变化。在


19.0


版中,其数值均高置为


1


, 即



/VERSION=1;


6 /MATRIX_TYPE


主要叙述由序列突变谱确定的蛋白质区域。具体分如下几个 参数:



Protein_domain


说明该序列突变谱指向蛋白质保守区间;



Repeat_region


说明该序列突变谱指向重复单元的区间;



Localization_signal


说明该序列突变谱指向的区间对蛋白质在细胞的定位很重要



Composition


说明该序列突变谱指向的区间的组成复杂性比较低




7 /SCALING_DB


这个条目主要是用于校正序列突变谱时所用的数据库。



8 /AUTHOR


说明是谁创造这个序列突变谱或这个序列突变谱是由谁更新的。



9 /FT_KEY



/FT_DESC


根据实际需要,


人们要对由序列突变谱确定的区间进行描述,


这 项的设置就是为了能让


计算机能有效地读取。其主要参数有:



NP_BIND,MOTIF,DOMAIN,REPEAT,DNA_BIND



ZN_FING


(



)DR




DR


主要是指向


Swiss- Prot


数据库相应的条目,其格如下:



DR




AC_NB



ENTRY_NAME, C; AC_NB, ENTRY_NAME, C; AC_NB,ENTRY_NAME


这里




AC _NB


”是


Swiss-Prot


数据 库的获取号;



ENTRY_NAME


”是条目名称。而“


C



的含义如下:




T


”为真 阳性;




P


”是一个潜在的命中点,其意思是该该序列已被考虑但没有被选进去


< br>“


N


”为假阴性;



“?”还未确定




F


”假阳性



下面便是一个实际例子:



DR O08775,VGFR2_RA


T



, T; P35916, VGFR3_HUMAN,T; P35917,VGFR3 T


(


十一


) 3D




主要是说明相应的蛋白质的< /p>


PDB


代码,如:



3D




7WGA; 9WGA; 1WGC; 2WGC


(


十二


)PR




主要是用于描述一引起


PROSITE


数据库 的一些规则,它们能给出一些额外的比较有意


义的信息。有关这些规则,有兴趣的读者可 参阅网站:



http://www


./cgi- bin/unirule_?context=PROSITE&browse=description


(十三)


DO


我们知道在

< p>
PROSITE


数据库中,有一个文件叫“




。这里“


DO


”后 面所指的


就是该文件中的获取号。其格式一般为:



DO




DOCnnnnn






DO




DOC00128


(


十四


)


终 止符“


//








主要是指明这个条目已结束。






下面我们给出两个实际的条目,希 望读者结合上面的说明能正确理解其含意。其一个是


关于保守序列模式的;另一个是关于 序列突变谱的。



1.


保守序列模式条目



ID




CUTINASE_1; PATTERN.



AC




PS00155;


DT




APR-1990 (CREATED); NOV-1997 (DATA UPDATE); MAR-2005 (INFO UPDATE).


DE




Cutinase, serine active site.


PA




P -x-[STA]-x-[LIV]-[IVT]-x-[GS]-G-Y-S-[QL]-G.


NR




/RELEASE=46.4,178022;


NR




NR




CC




CC




/TOTAL=20(20); /POSITIVE=20(20); /UNKNOWN=0(0); /FALSE_POS=0(0);


/FALSE_NEG=0; /PARTIAL=0;


/TAXO-RANGE=??EP?; /MAX-REPEAT=1;


/SITE=11,active_site;


DR




P63880, CUT1_MYCBO , T; P63879, CUT1_MYCTU , T; P63882, CUT2_MYCBO , T;


DR




P63881, CUT2_MYCTU , T; P0A537, CUT3_MYCBO , T; P0A536, CUT3_MYCTU , T;


DR




P00590, CUTI1_FUSSO, T; Q96UT0, CUTI2_FUSSO, T; Q96US9, CUTI3_FUSSO, T;


DR




P41744, CUTI_ALTBR , T; P29292, CUTI_ASCRA , T; P52956, CUTI_ASPOR , T;


DR




Q00298, CUTI_BOTCI , T; P10951, CUTI_COLCA , T; P11373, CUTI_COLGL , T;


DR




Q8X1P1, CUTI_ERYGR , T; Q99174, CUTI_FUSSC , T; P30272, CUTI_MAGGR , T;


DR




Q8TGB8, CUTI_MONFR , T; Q9Y7G8, CUTI_PYRBR , T;


3D




1AGY; 1CEX; 1CUA; 1CUB; 1CUC; 1CUD; 1CUE; 1CUF; 1CUG; 1CUH; 1CUS; 1CUU;



3D




1CUV; 1CUW; 1CUY; 1CUZ; 1FFA; 1FFB; 1FFC; 1FFD; 1FFE; 1OXM; 1XZA; 1XZB;



3D




1XZC; 1XZD; 1XZE; 1XZF; 1XZG; 1XZH; 1XZJ; 1XZK; 1XZL; 1XZM; 2CUT;


DO




PDOC00140;


2


序列突变谱条目



ID




HSP20; MATRIX.


AC




PS01031;


DT




JUN-1994 (CREATED); DEC-2001 (DATA UPDATE); MAR-2005 (INFO UPDATE).


DE




Heat shock hsp20 proteins family profile.


MA




/GENERAL_SPEC: ALPHABET='ABCDEFGHIKLMNPQRSTVWYZ'; LENGTH=88;



MA




/DISJOINT: DEFINITION=PROTECT; N1=6; N2=83;


MA




/NORMALIZATION: MODE=1; FUNCTION=LINEAR; R1=-0.7971325; R2=0.0157729;


TEXT='-LogE';


MA




/CUT_OFF: LEVEL=0; SCORE=590; N_SCORE=8.5; MODE=1; TEXT='!';


MA




/CUT_OFF: LEVEL=-1; SCORE=463; N_SCORE=6.5; MODE=1; TEXT='?';


MA




/DEFAULT: M0=-8; D=-20; I=-20; B1=-50; E1=-50; MI=-105; MD=-105; IM=-105;


DM=-105;


MA




/I: B1=0; BI=-105; BD=-105;


MA




/M: SY='D'; M=-10,26,-29,38,34,-34,-14, -2,-33,7,-24,-23,8,-6,8,-4,0,-9,-27,-33,-19,21;


MA




/M: SY='I';


M=-8,-31,-23,-35 ,-28,7,-32,-27,27,-24,15,13,-27,-26,-24,-23,-20,-9 ,25,-4,2,-27;


MA




/M: SY='R'; M=-11,-12,-26,- 12,-1,-13,-23,-1,-8,1,-7,-3,-8,-11,-2,8,-9,-6,-8,- 22,-3,-4;


MA




/M: SY='E'; M=-11,17,-27,23,29,-24,-15, -3,-27,1,-22,-20,9,-1,6,-6,3,-4,-25,-32,-17,17;


MA




/M: SY='D'; M=-7,10,-23,11,2,-25,0,-6,- 26,-4,-23,-18,7,-6,-5,-8,7,7,-20,-31,-17,-2;


MA




/I: I=-4; MD=-22;


MA




/M: SY='D'; M=- 8,17,-27,25,19,-30,-13,-5,-28,6,-25,-20,7,3,4,-1,0 ,-7,-24,-30,-19,10;


D=-4;


MA




/I: I=-4; MI=0; MD=-22; IM=0; DM=-22;


MA




/M: SY='D'; M=-11,20,-25,24 ,16,-29,-12,-1,-27,14,-25,-16,14,-9,10,5,1,-6,-23, -28,-14,13;


D=-4;


MA




/I: I=-4; DM=-22;


..


...


省略一些行



..


MA




/M: SY='K'; M=-9,-5,-25,-6,0,-22,-21,-1 2,-17,30,-21,-6,-3,-16,1,23,-9,-7,-6,-23,-11,0;


MA




/I: E1=0; IE=-105; DE=-105;


NR




/RELEASE=46.4,178022;


NR




/TOTAL=195(194); /POSITIVE=190(189); /UNKNOWN=5(5); /FALSE_POS=0(0);


NR




/FALSE_NEG=1; /PARTIAL=8;


CC




/MATRIX_TYPE=protein_domain;


CC


CC


CC


CC










/SCALING_DB=reversed;


/AUTHOR=P_Bucher;


/TAXO- RANGE=A?EP?; /MAX-REPEAT=2;


/FT_KEY=DOMAIN; /FT_DESC=HSP20;


DR




P0A5B8, 14KD_MYCBO , T; P0A5B7, 14KD_MYCTU , T; P46729, 18K1_MYCAV , T;


DR




P46730, 18K1_MYCIT , T; P46731, 18K2_MYCAV , T; P46732, 18K2_MYCIT , T;


DR




P12809, 18KD_MYCLE , T; P80485, ASP1_STRTR , T; O30851, ASP2_STRTR , T;


..


...


省略一些行



..


DR




P12812, P40_SCHMA



, T; Q06823, SP21_STIAU , T; O34321, YOCM_BACSU , T;


DR




O12987, CRYAB_COLLI, P; O12991, CRYAB_EUDEL, P; Q91518, CRYAB_TRASC,


P;


DR




O12995, CRYAB_TURME, P; P81161, HS22M_LYCES, P; P30220, HS30E_XENLA, P;


DR




P81083, HSP11_PINPS, P; Q9QUK5, HSPB7_RAT



, P;


DR




P22979, HSP6C_DROME, N;


DR




Q29438, ODFP_BOVIN , ?; Q14990, ODFP_HUMAN , ?; Q61999, ODFP_MOUSE , ?;


DR




Q29077, ODFP_PIG




, ?; P21769, ODFP_RAT




, ?;


3D




1SHS;


DO




PDOC00791;


//



二、


BLAST

算法



有了这些基本概念后,我们就可以比较方便地介绍< /p>


BLAST


算法,具体描述如下:



(一)



寻找命中点



先设定两个参数


W



T


。其中参数


W


为整数,其物理含义是词长,而


T


是阈值。然后将


待比对序列中长度为


W


的所有的子序列取出来与数据库中的各条序列比较。其中,长度为


W< /p>


的子序列称为“词”


,自然,


W


就称为词长。图


5-20


列出了一个待比对序列 中的所有“词”



BLAST


将未知序 列中所有的词与数据库中所有序列可能的词进行比较。


当未知序列中的某个


“词”


与数据库中某个序列中的某个片段,


应用某个 得分矩阵如


BLOSUM62,PAM250


等进行比


对得到的得分值大于阈值


T


时,则我们称之为“ 命中点”



hit


< br>。这一点与


FASTA


方法不



:FASTA


方法是寻找相等残基配对(


hot spot



,而


BLAST A


方法直接计算其得分。



具体寻找命中点的方法如下:




1


)根据确定的词长给出所有可能的词。一般地,对蛋白质序列,其 词长选


3-5


个氨


基酸残基,


对核苷酸序列,


其词长选


12

< br>个碱基。


由于词长的选取与生物大分子的组成有关,


因此 ,


这个数值一般不太会变,


换言之,


应 用


BLAST


方法搜索生物大分子数据库,

对不同的


数据库,所的词长是一的。由于蛋白质总共有


20


个残基组成,如果词长选


3


,则总共有


20


3


?


8< /p>


,


000


个词;


核苷酸序列由


4


个碱基组成,


如果词长 选


12



则共有


4


12


?


16


,


777


,


216

< br>个词。如图


5-21


所示(为便于说明,图


5-21



DNA


序列的词 长选


3






2


)根据所给出的词、阈值


T


及相应的得分矩阵,给出所有词的命中点。根据我们的


理解,这可以有两种方式来完成:



其一,这里所说的 “所有词”是泛指,即对所有蛋白质可能的词,即前面所说的


8000

< br>。



其二,是特指,即对某个未知序列可能的词,如图< /p>


5-20


所示的序列。





5-20


待比对序列中的“词”


,词长


w=3




5-21


词长为


3


的蛋白质序列与


DNA


序列所有可能的词



不管是哪一种情况,计 算命中点的计算过程是相同的。为便于理解,我们以图


5-20





“未知序列”

< br>中第一个词即



AAT



为例


,



PAM25 0


得分矩阵为基础,


将其过程总结图


5 -22


中:





5-22


词“

AAT


”命中点的计算过程



根据 图


5-22


,我们不难发现:如果命中点的阈值高,则命中点就 少,否则就多,比如


在图


5-22


中, 如果阈值选


3


,则命中点只有“


AAA





AAT


”等了,而“


AAC


”就不是命中点。



(二)命中点的延伸



将所得到的命中点应用无空段的动态规划法向两端延伸,直到其得分值最大为止即再

< br>向前延伸其得分会下降,向后收缩其得分也下降,如图


5-23

< br>所示。





5-23


命中点延伸示意图



然后检查该延伸所 得到的分数是否大于阈值


S


。如果这个延伸大于


S


,则认为是


HSP


。这里< /p>


有一点要注意,


由于在得分矩阵中往往有负值,

< br>因此在延伸过程中就有可能下降的过程,



此时并不等于 往后延伸时得分不会增加,


有可能后面延伸得到的得分会很高,


因此这里就存


在一个问题:


是否在延伸时发现得分下降马上就中 止延伸?显然,


这在在有些情况时是可以


的,而在另外一些情况 下则会将好的结果丢失。为避免上述问题的出现,


BLAST


的 建立者


在延伸时同样设立了一个阈值


X



如果得分下降程度大于这个阈值,


则不中止延伸,

< p>
否则尽


管下降仍应进一步延伸,如图


5-24


所示:





5-24


命中点伸时得分曲线及确定延伸中止的阈值


X


在图


5-24


中,命中点从


A


开始延伸,到


B


时再向前延伸其得分下 降,此时如果中止延


伸,


则最高得分


D


对应的比对结果就被舍弃,


如果继续向前延伸到


C


是达到一个极小值,



往前 延伸,


其得分走势又开始上升,


到了


D


点又有一个极大值,


再往前延伸则一直下降,

< br>到


E


时,点


D

< br>与点


E


的得分的差值的绝对值达到了

X


,这时就可以中止延伸了。



我 们知道:在数据库搜索中之所以要建立启发式搜索法,主要原因是节省时间,而在


BLA ST


方法中,最耗时间的是命中点延伸。结合前面所阐述的即词长


W


,命中点的确定及这


里的命中点延伸,我们不难发现有如下 的规律:



命中点阈值


T


低,


则命中点个数就多,


考虑到命中点的延伸最耗时 ,


其相应搜索速度就


下降,但由于命中点数多,得到的好的结果 的机率就高,换言之,其搜索灵敏度高;反之,


命中点个数就少,


搜索速度就快,


但由于好的命中点丢失的机会多,


其灵敏度就 下降。


因此,


在实际搜索时,


命中点阈 值的选取比较重要。


这样,


对远距离同源性的序列,

< p>
选择较小的命


中点阈值比较合适,因为这样不至于丢掉好的命中点。



以上介绍就是最早的


BLAST

< p>
方法的基本原理和详细算法。为便于读者对


BLAST

算法


有一个总体上的概念,我们将上述算法总结如图


5-2 5





5-25 BLAST


算法的总结



三.改进的< /p>


BLAST


方法



前面介绍:


BLAST


方法的作者通过多年的潜心研究,到< /p>


1997


年在原来


BLAST

< p>
方法基


础上建立了


GAPPED BLAST



PSIBLAST


。具体改进包括:



其一,将一点命中法改成两点命中法;



其二,得到的命中点向两端延伸时采有空段比对方法即构建了


G APPEDBLAST


法;



其三,建 立了相应的位置专一化迭代


BLAST


法(

Position


Specific


Iterative


BLAST


)< /p>


,


简称为


PSIBLAST


。下面我们将它们逐一介绍。



(一)



两命中点法(


two-hit method

< br>)和


GAPPEDBLAST


方法



从前面的讨论我们知道:如果阈值


T


选得较大,则所得到的命中点(


hit


)就少,计算


速度就快,但搜索结果的灵敏度就下降;反之,所得到的命中点(


hit


)就多,计算速度就


慢,


但灵敏度就升 高。


对任何事物,


人们总是想得到一个两全其美的方法,


所以,



BLAST


方法来说,理想的方法是在不降低灵敏度的情况下提高搜索速度:即要效率也要效果


(< /p>


efficiency and effect




< br>BLAST


的创立者


Altschul

< br>等观察了大量的比对结果,发现在同一个对角线上往往存在


两个命中点,如下图所 示:


-


-


-


-


-


-


-


-



本文更新与2021-02-27 21:58,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/676361.html

数据搜索时有用的生物大分子数据库扫描的相关文章