关键词不能为空

当前您在: 主页 > 英语 >

生物信息学名词解释(个人整理)

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-02-17 18:59
tags:

-

2021年2月17日发(作者:一室户)


一、名词解释:



1.


生物信息学:


< br>研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒


介,


数据库为载体。利用数学知识建立各种数学模型


;


利用计算机为工具对实验所得大量生


物学数据进行储存、检索、处理及分析,并 以生物学知识对结果进行解释。



2.


二级数据库:


在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对


生物学知识和信息的进一步的整理。




序列格式



是将


DNA


或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基

酸字符串,大于号(


>


)表示一个新文件的开始,其他无特 殊要求。



k


序列格式:



GenBank


数据库的基本信息单位,是最为 广泛的生物信息学序列


格式之一。该文件格式按域划分为


4


个部分:第一部分包含整个记录的信息(描述符);第


二部分包含注 释;


第三部分是引文区,


提供了这个记录的科学依据;


第四部分是核苷酸序列


本身,以“


//


”结尾。




检索系统:



NCBI


开发的核心检索系统,集成 了


NCBI


的各种数据库,具有链接


的 数据库多,使用方便,能够进行交叉索引等特点。



< p>


基本局部比对搜索工具,


用于相似性搜索的工具 ,


对需要进行检索的序列与数据


库中的每个序列做相似性比较。


P94


7.


查询序列(


query


sequence



:也称被检索序列,用来在 数据库中检索并进行相似性比较


的序列。


P98


8.


打分矩阵(


scoring ma trix


):


在相似性检索中对序列两两比对的质量评估方法。


包括基于


理论(如考虑核酸和氨基酸之间的类似性)和实际进化 距离(如


PAM


)两类方法。


P29


9.


空位(


gap

):


在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳


比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。

P29


10.


空位罚分


:空位罚 分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入


不代表真正的进化事 件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。


P37


11.E


值:


衡量序列之间相似性是否显著的期望值 。


E


值大小说明了可以找到与查询序列



query


)相匹配的随机或无关序列的概率,


E


值越接近零,越不可能找到其他匹配序列,


E


值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。< /p>


P95


12.


低复杂度区域:


BLAST


搜索的过滤选项。


指序列中包含的重 复度高的区域,



poly



A





13.


点矩阵(


dot matrix



:构建一个二维矩阵,其


X


轴是一条序列,


Y


轴是另一个序列,然


后在


2


个序列相同碱基的对应位置(

< p>
x



y


)加点,如果两条 序列完全相同则会形成一条主对


角线,


如果两条序列相似则会出 现一条或者几条直线;


如果完全没有相似性则不能连成直线。



14.


多序列比对:


通过序列的相似性 检索得到许多相似性序列,将这些序列做一个总体的比


对,以观察它们在结构上的异同, 来回答大量的生物学问题。



15.


分 子钟:


认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断


出物种起源的时间。



16.


系统发育分析:


通过一组相关的基因或者蛋白质的多序列比对或其他性状,可 以研究推


断不同物种或基因之间的进化关系。



17.


进化树的二歧分叉结构:


指在进化树上任何一个 分支节点,一个父分支都只能被分成两


个子分支。


< p>
系统发育图:


用枝长表示进化时间的系统树称为系统发育图,


是引入时间概念的支序图。



18.


直系同源:


指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具 有相似


或不同的功能。


(书:


在缺乏任 何基因复制证据的情况下,


具有共同祖先和相同功能的同源


基因 。)



19.


旁系(并系)同源:


指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这


些 基因在功能上可能发生了改变。


(


书:由于基因重复事件产生的 相似序列。


)


20.


外类群:


是进化树中处于一组被分析物种之外的,具有相近亲缘关系的物种。



21.


有根树:


能够确定所有分析物种 的共同祖先的进化树。



22.


除权配 对算法(


UPGMA


):


最初,每个序 列归为一类,然后找到距离最近的两类将其


归为一类,定义为一个节点,重复这个过程, 直到所有的聚类被加入,最终产生树根。



23.


邻接法(


neighbor- joining method



:是一种不仅仅计算两两比对 距离,还对整个树的长


度进行最小化,从而对树的拓扑结构进行限制,能够克服


UPGMA


算法要求进化速率保持


恒定的缺陷。



24.


最大简约法(


MP



:在一系列能够解释序列差异的的进化树中找到 具有最少核酸或氨基


酸替换的进化树。



25.


最大似然法(


ML


):


它对每个可能的进化位点分配一个概率,然后综合所有位点,找到


概率 最大的进化树。


最大似然法允许采用不同的进化模型对变异进行分析评估,


并在此基础


上构建系统发育树。


< br>26.



致树(


consens us


tree



:在同一算法中产生 多个最优树,合并这些最优树得到的树即


一致树。


< p>
27.


自举法检验(


Bootstrap


):


放回式抽样统计法。通过对数据集多次重复取样,构建多个


进化树,用来检查给定树的分枝可信度。



28 .


开放阅读框(


ORF



:开放阅读框是基因序列的一部分,包含一段可以编码蛋白的碱基


序列。



29.


密码子偏好性(


codon b ias


):


氨基酸的同义密码子的使用频率与相应的同功


tRNA


的水


平相一致,

大多数高效表达的基因仅使用那些含量高的同功


tRNA


所 对应的密码子,


这种效


应称为密码子偏好性。

< br>


30.


基因预测的从头分析:


依据综合利用基因的特征,如剪接位点,内含子与外显子边界,


调控区,预测基因组序列 中包含的基因。



31.


结构域(


domain




保守的结构单元,包含独特的二级结构组合和疏水内核,可能


单独存在,也可能与其他结 构域组合。相同功能的同源结构域具有序列的相似性。



32.


超家族


:进化上相关,功能可能不同的一类蛋白质。

< p>


33.


模体(


moti f




短的保守的多肽段,含有相同模 体的蛋白质不一定是同源的,一般


10-20


个残基。



34.


序列表谱(


p rofile



:是一种特殊位点或模体序列,在多序列比较的 基础上,氨基


酸的权值和空位罚分的表格。


< br>


矩阵:


PAM


指可接受突变百分 率。一个氨基酸在进化中变成另一种氨基酸的


可能性,通过这种可能性可以鉴定蛋白质之 间的相似性,并产生蛋白质之间的比对。


一个


PAM

< p>
单位是蛋白质序列平均发生


1%


的替代量需要的进 化时间。




矩阵:

模块替代矩阵。


矩阵中的每个位点的分值来自蛋白比对的局部块中的替


代频率的观察。每个矩阵适合特定的进化距离。例如,在


BLOSUM62< /p>


矩阵中,比对的分值


来自不超过


62%< /p>


一致率的一组序列。



-BLAST


:位点特异性迭代比对。是一种专门化的的比对,通过调节序列打分矩阵


scoring matrix


)探测远缘相关的蛋白。





给出了对应于基因和蛋白质的索引号码,

< br>对应于最稳定、


最被人承认的


Genbank

< p>
序列。





Protein Data Ban k




PDB


中收录了大量通过实验(


X


射线晶体衍射,核磁共振

< p>
NMR


)测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构 和晶体结构的描


述等。


PDB


数据库的 访问号由一个数字和三个字母组成(如,


4HHB


< p>
,同时支持关键词搜


索,还可以


FASTA


程序进行搜索。



t:


是由


GenBank


中的


DNA


序列翻译得到的蛋白质序列。数据量很大,且随核酸


序列数据库的更 新而更新,


但它们均是由核酸序列翻译得到的序列,


未经试验证 实,


也没有


详细的注释。


< p>
41.


折叠子(


Fold




在两个或更多的蛋白质中具有相似二级结构的大区域,这些 大区域具有


特定的空间取向。





是与


SWISS-PROT


相关的一个数据库。包含从


EMBL


核酸数据库中根据 编码


序列


(CDS)


翻译而得到的蛋白 质序列,并且这些序列尚未集成到


SWISS- PROT


数据库中。



(Molecular Modeling Database)



是(


NCBI


)所开发的生物信息 数据库集成系统


Entrez


的一个部分,数据库的内容包括来 自于实验的生物大分子结构数据。与


PDB


相比,


对于数据库中的每一个生物大分子结构,


MMDB


具 有许多附加的信息,如分子的生物学功


能、产生功能的机制、分子的进化历史等



,还提供生物大分子三维结构模型显示、结构分


析和结构比较工具。




数据库:


提供关于已知结构的蛋白质之间结构和进化关系的详细描述,包括蛋白


质结构数据库


PDB


中的所有条目。


SCOP


数据库除了提供蛋白质结构和进化关系信息外,


对于每 一个蛋白质还包括下述信息:到


PDB


的连接,序列,参考文献 ,结构的图像等。可


以按结构和进化关系对蛋白质分类,


分类结 果是一个具有层次结构的树,


其主要的层次依次


是类(


class



、折叠子(


fold



、超家族(


super family



、家族(


family



、单个


PDB


蛋白结构


记录。



E



是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助< /p>


识别蛋白质家族的统计特征。



PROS ITE


中涉及的序列模式包括酶的催化位点、


配体结合位


点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;


PROSITE


还包括根据多序列比对而构建的序列统计特征,能更敏 感地发现一个序列是否具


有相应的特征。




Ontology


协会:


编辑一组动态的、可控的基因产物不同方面性质的字汇的协会。





3


个方面 描述基因产物的性质,即,分子功能,生物过程,细胞区室。



47.


表谱(


PSSM



:指一张基于多序列比对的打分表,表示一个蛋白质家族,可以用来搜索


序列 数据库。



48.


比较基因组学:


是在基因组图谱和测序的基础上,利用某个基因组研究获得的信息推测


其他原核生物、真核生物类群中的基因数目、位置、功能、表达机制和物种进化的学科。



49.


简约信息位点:


指基于


DNA


或蛋白质序列,利用最大简约法构建系统发育树时,


如果每个位点的状态至少存在两种,每种状态至少出现两次的位点。其它位点为都是


非简约性信息位点。



1.


生物信息学



(狭义)专指应用信息技术储存和分析基因组测序 所产生的分子


序列及其相关数据的学科;


(广义)指生命科学与 数学、计算机科学和信息科学


等交汇融合所形成的一门交叉学科。



2.


人类基因组测序计划:



3


基因组学


p150



以基因组分析为手段,


研究基因组的结构组成、

< p>
时序表达模式


和功能,并提供有关生物物种及其细胞功能的进化信息。



4


基因组


p15 0



是指一个生物体、细胞器或病毒的整套基因。



5.


比较基因组学


p16 6



是指基因组学与生物信息学的一个重要分支。


通过模式生


物基因组之间或模式生物基因组与人类基因组之间的比较与鉴别,


可以为研究生


物进化和分离人类遗传病的候选基因以及预测新的 基因功能提供依据。



6


功能基因组:


表达一定功能的全部基因所组成的


DNA


序列,


包括编码基因


和调控基因。


功 能基因组学:


利用结构基因组学研究所得的各种来源的信


息,建 立与发展各种技术和实验模型来测定基因及基因组非编码序列的生


物学功能。

< p>


7


蛋白质组


p179< /p>



是指一个基因组中各个基因编码产生的蛋白质的总体,


即一个


基因组的全部蛋白产物及其表达情况。



8


蛋白质组学:


指应用各种技术手段来 研究蛋白质组的一门新兴科学,其目的是


从整体的角度分析细胞内动态变化的蛋白质组成 成分、


表达水平与修饰状态,



解蛋白 质之间的相互作用与联系,揭示蛋白质功能与细胞生命活动规律。


9


功能蛋白质组学:


(课件上只能找到

功能蛋白质组


,即细胞在一定阶段或与某


一生理现象相关的 所有蛋白)




10

< br>序列对位排列:


通过插入间隔的方法使不同长度的序列对齐,达到长度一致。



11


分子系统树:


是表达类群(或序列)间系统发育关系的一种树状图。



12


BLAST


搜索


p73



是一种基本的局部对位排列搜索工具。



13


SNP


p152



即单核酸多态性,是指基因组内特定核苷酸位点上存在两种不同

< p>
碱基,其中每种在群体中的频率不小于


1%



SNP


大多数为转换置换。



14


EST


p91

< br>:


即表达序列标签,是从


cDNA


文库中生成的一些很短的序列



300~500bp)



它们代表在特定组织或发育阶段表达的基因,


有时可代表特定的


cDNA




16


基因组作图


< br>p155



是确定界标或基因在构成基因组的每条染色体 上的位置,


以及同条染色体上各个界标或基因之间的相对距离。



17


后基因组时代



p3



其标志是大规模基因组分析、

< br>蛋白质组分析以及各种数据


的比较和整合。



18


电子克隆


p98



又称虚拟克隆,


其原理是 依据大量


EST


具有相互重叠的性质,


通过计算机法获得


cDNA


全长序列。


电子克隆是由一个查询序列开始,


依靠


EST

< br>数据库在计算机上对


EST


进行两端延伸,从而获得全长 的


cDNA


序列。



19


遗传连锁图


< br>p155



是用遗传模式来描述


DNA


标记(基因和其他确定


DNA


序 列)在染色体上的相对位置。



20


物理图谱



p156

< br>:


是标明一些界标(如限制酶切点、单一序列、基因等)在


DNA


分子或染色体上锁处位置的图,图距以物理长度为单位(如核苷酸对的数


目)




1.


生物信息学:



1

)生物信息学包含了生物信息的获取、处理、分析、和解释等在内的一门交叉学科;



2


)它综合运用了数学、计算机学和生物学的各种工具来进行研 究;



3


)目的在于阐明大量生物学数 据所包含的生物学意义。



2.


BLAST



Basic Local Alignment Search Tool





直译:基本局部排比搜索工具



意译:基于局部序列排比的常用数据库搜索工具



含义:蛋白质和核酸序列数据库搜索软件系统及相关数据库



3. PSI-BLAST



是一种迭 代的搜索方法,可以提高


BLAST



FASTA


的相似序列发现率。



4.


一致序列:


这些序列是指把多序列联配的信息压缩至单条序列, 主要的缺点是除了在特


定位置最常见的残基之外,它们不能表示任何概率信息。



5. HMM


隐马尔可夫模型:

< p>
一种统计模型,它考虑有关匹配、错配和间隔的所有可能的组合

-


-


-


-


-


-


-


-



本文更新与2021-02-17 18:59,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/662970.html

生物信息学名词解释(个人整理)的相关文章