生物信息学名词解释(个人整理)_高中生题库网|高考真题|高考试题-「密云二中」

-

2021年2月17日发(作者：一室户)

一、名词解释：

生物信息学：

研究大量生物数据复杂关系的学科，其特征是多学科交叉，以互联网为媒

介，

数据库为载体。利用数学知识建立各种数学模型

;

利用计算机为工具对实验所得大量生

物学数据进行储存、检索、处理及分析，并以生物学知识对结果进行解释。

二级数据库：

在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来，是对

生物学知识和信息的进一步的整理。

序列格式

：

是将

DNA

或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基

酸字符串，大于号（

）表示一个新文件的开始，其他无特殊要求。

序列格式：

是

GenBank

数据库的基本信息单位，是最为广泛的生物信息学序列

格式之一。该文件格式按域划分为

个部分：第一部分包含整个记录的信息（描述符）；第

二部分包含注释；

第三部分是引文区，

提供了这个记录的科学依据；

第四部分是核苷酸序列

本身，以“

//

”结尾。

检索系统：

是

NCBI

开发的核心检索系统，集成了

NCBI

的各种数据库，具有链接

的数据库多，使用方便，能够进行交叉索引等特点。


：

基本局部比对搜索工具，

用于相似性搜索的工具，

对需要进行检索的序列与数据

库中的每个序列做相似性比较。

P94

7.

查询序列（

query

sequence

）

：也称被检索序列，用来在数据库中检索并进行相似性比较

的序列。

P98

8.

打分矩阵（

scoring ma trix

）：

在相似性检索中对序列两两比对的质量评估方法。

包括基于

理论（如考虑核酸和氨基酸之间的类似性）和实际进化距离（如

PAM

）两类方法。

P29

9.

空位（

gap
）：

在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳

比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。
P29

10.

空位罚分

：空位罚分是为了补偿插入和缺失对序列相似性的影响，序列中的空位的引入

不代表真正的进化事件，所以要对其进行罚分，空位罚分的多少直接影响对比的结果。

P37

11.E

值：

衡量序列之间相似性是否显著的期望值。

E

值大小说明了可以找到与查询序列

（

query

）相匹配的随机或无关序列的概率，

E

值越接近零，越不可能找到其他匹配序列，

E

值越小意味着序列的相似性偶然发生的机会越小，也即相似性越能反映真实的生物学意义。

P95

12.

低复杂度区域：

BLAST

搜索的过滤选项。

指序列中包含的重复度高的区域，

如

poly

（

A

）

。

13.

点矩阵（

dot matrix

）

：构建一个二维矩阵，其

X

轴是一条序列，

Y

轴是另一个序列，然

后在

2

个序列相同碱基的对应位置（

x

，

y

）加点，如果两条序列完全相同则会形成一条主对

角线，

如果两条序列相似则会出现一条或者几条直线；

如果完全没有相似性则不能连成直线。

14.

多序列比对：

通过序列的相似性检索得到许多相似性序列，将这些序列做一个总体的比

对，以观察它们在结构上的异同，来回答大量的生物学问题。

15.

分子钟：

认为分子进化速率是恒定的或者几乎恒定的假说，从而可以通过分子进化推断

出物种起源的时间。

16.

系统发育分析：

通过一组相关的基因或者蛋白质的多序列比对或其他性状，可以研究推

断不同物种或基因之间的进化关系。

17.

进化树的二歧分叉结构：

指在进化树上任何一个分支节点，一个父分支都只能被分成两

个子分支。


系统发育图：

用枝长表示进化时间的系统树称为系统发育图，

是引入时间概念的支序图。

18.

直系同源：

指由于物种形成事件来自一个共同祖先的不同物种中的同源序列，具有相似

或不同的功能。

（书：

在缺乏任何基因复制证据的情况下，

具有共同祖先和相同功能的同源

基因。）

19.

旁系（并系）同源：

指同一个物种中具有共同祖先，通过基因重复产生的一组基因，这

些基因在功能上可能发生了改变。

(

书：由于基因重复事件产生的相似序列。

)

20.

外类群：

是进化树中处于一组被分析物种之外的，具有相近亲缘关系的物种。

21.

有根树：

能够确定所有分析物种的共同祖先的进化树。

22.

除权配对算法（

UPGMA

）：

最初，每个序列归为一类，然后找到距离最近的两类将其

归为一类，定义为一个节点，重复这个过程，直到所有的聚类被加入，最终产生树根。

23.

邻接法（

neighbor- joining method

）

：是一种不仅仅计算两两比对距离，还对整个树的长

度进行最小化，从而对树的拓扑结构进行限制，能够克服

UPGMA

算法要求进化速率保持

恒定的缺陷。

24.

最大简约法（

MP

）

：在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基

酸替换的进化树。

25.

最大似然法（

ML

）：

它对每个可能的进化位点分配一个概率，然后综合所有位点，找到

概率最大的进化树。

最大似然法允许采用不同的进化模型对变异进行分析评估，

并在此基础

上构建系统发育树。

 26.

一

致树（

consens us

tree

）

：在同一算法中产生多个最优树，合并这些最优树得到的树即

一致树。


27.

自举法检验（

Bootstrap

）：

放回式抽样统计法。通过对数据集多次重复取样，构建多个

进化树，用来检查给定树的分枝可信度。

28 .

开放阅读框（

ORF

）

：开放阅读框是基因序列的一部分，包含一段可以编码蛋白的碱基

序列。

29.

密码子偏好性（

codon b ias

）：

氨基酸的同义密码子的使用频率与相应的同功

tRNA

的水

平相一致，
大多数高效表达的基因仅使用那些含量高的同功

tRNA

所对应的密码子，

这种效

应称为密码子偏好性。
 

30.

基因预测的从头分析：

依据综合利用基因的特征，如剪接位点，内含子与外显子边界，

调控区，预测基因组序列中包含的基因。

31.

结构域（

domain

）

：

保守的结构单元，包含独特的二级结构组合和疏水内核，可能

单独存在，也可能与其他结构域组合。相同功能的同源结构域具有序列的相似性。

32.

超家族

：进化上相关，功能可能不同的一类蛋白质。


33.

模体（

moti f

）

：

短的保守的多肽段，含有相同模体的蛋白质不一定是同源的，一般

10-20

个残基。

34.

序列表谱（

p rofile

）

：是一种特殊位点或模体序列，在多序列比较的基础上，氨基

酸的权值和空位罚分的表格。

 

矩阵：

PAM

指可接受突变百分率。一个氨基酸在进化中变成另一种氨基酸的

可能性，通过这种可能性可以鉴定蛋白质之间的相似性，并产生蛋白质之间的比对。

一个

PAM

单位是蛋白质序列平均发生

1%

的替代量需要的进化时间。

矩阵：
模块替代矩阵。

矩阵中的每个位点的分值来自蛋白比对的局部块中的替

代频率的观察。每个矩阵适合特定的进化距离。例如，在

BLOSUM62

矩阵中，比对的分值

来自不超过

62%

一致率的一组序列。

-BLAST

：位点特异性迭代比对。是一种专门化的的比对，通过调节序列打分矩阵
（

scoring matrix

）探测远缘相关的蛋白。

：

给出了对应于基因和蛋白质的索引号码，
 对应于最稳定、

最被人承认的

Genbank

序列。

（

Protein Data Ban k

）

：

PDB

中收录了大量通过实验（

X

射线晶体衍射，核磁共振

NMR

）测定的生物大分子的三维结构，记录有原子坐标、配基的化学结构和晶体结构的描

述等。

PDB

数据库的访问号由一个数字和三个字母组成（如，

4HHB

）

，同时支持关键词搜

索，还可以

FASTA

程序进行搜索。

t:

是由

GenBank

中的

DNA

序列翻译得到的蛋白质序列。数据量很大，且随核酸

序列数据库的更新而更新，

但它们均是由核酸序列翻译得到的序列，

未经试验证实，

也没有

详细的注释。


41.

折叠子（

Fold

）

：

在两个或更多的蛋白质中具有相似二级结构的大区域，这些大区域具有

特定的空间取向。

：

是与

SWISS-PROT

相关的一个数据库。包含从

EMBL

核酸数据库中根据编码

序列

(CDS)

翻译而得到的蛋白质序列，并且这些序列尚未集成到

SWISS- PROT

数据库中。

(Molecular Modeling Database)

：

是（

NCBI

）所开发的生物信息数据库集成系统

Entrez

的一个部分，数据库的内容包括来自于实验的生物大分子结构数据。与

PDB

相比，

对于数据库中的每一个生物大分子结构，

MMDB

具有许多附加的信息，如分子的生物学功

能、产生功能的机制、分子的进化历史等

，还提供生物大分子三维结构模型显示、结构分

析和结构比较工具。

数据库：

提供关于已知结构的蛋白质之间结构和进化关系的详细描述，包括蛋白

质结构数据库

PDB

中的所有条目。

SCOP

数据库除了提供蛋白质结构和进化关系信息外，

对于每一个蛋白质还包括下述信息：到

PDB

的连接，序列，参考文献，结构的图像等。可

以按结构和进化关系对蛋白质分类，

分类结果是一个具有层次结构的树，

其主要的层次依次

是类（

class

）

、折叠子（

fold

）

、超家族（

super family

）

、家族（

family

）

、单个

PDB

蛋白结构

记录。

E

：

是蛋白质家族和结构域数据库，包含具有生物学意义的位点、模式、可帮助

识别蛋白质家族的统计特征。

PROS ITE

中涉及的序列模式包括酶的催化位点、

配体结合位

点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等；

PROSITE

还包括根据多序列比对而构建的序列统计特征，能更敏感地发现一个序列是否具

有相应的特征。

Ontology

协会：

编辑一组动态的、可控的基因产物不同方面性质的字汇的协会。

从

3

个方面描述基因产物的性质，即，分子功能，生物过程，细胞区室。

47.

表谱（

PSSM

）

：指一张基于多序列比对的打分表，表示一个蛋白质家族，可以用来搜索

序列数据库。

48.

比较基因组学：

是在基因组图谱和测序的基础上，利用某个基因组研究获得的信息推测

其他原核生物、真核生物类群中的基因数目、位置、功能、表达机制和物种进化的学科。

49.

简约信息位点：

指基于

DNA

或蛋白质序列，利用最大简约法构建系统发育树时，

如果每个位点的状态至少存在两种，每种状态至少出现两次的位点。其它位点为都是

非简约性信息位点。

1.

生物信息学

：

（狭义）专指应用信息技术储存和分析基因组测序所产生的分子

序列及其相关数据的学科；

（广义）指生命科学与数学、计算机科学和信息科学

等交汇融合所形成的一门交叉学科。

2.

人类基因组测序计划：

3

基因组学

p150

：

以基因组分析为手段，

研究基因组的结构组成、

时序表达模式

和功能，并提供有关生物物种及其细胞功能的进化信息。

4

基因组

p15 0

：

是指一个生物体、细胞器或病毒的整套基因。

5.

比较基因组学

p16 6

：

是指基因组学与生物信息学的一个重要分支。

通过模式生

物基因组之间或模式生物基因组与人类基因组之间的比较与鉴别，

可以为研究生

物进化和分离人类遗传病的候选基因以及预测新的基因功能提供依据。

6

功能基因组：

表达一定功能的全部基因所组成的

DNA

序列，

包括编码基因

和调控基因。

功能基因组学：

利用结构基因组学研究所得的各种来源的信

息，建立与发展各种技术和实验模型来测定基因及基因组非编码序列的生

物学功能。


7

蛋白质组

p179

：

是指一个基因组中各个基因编码产生的蛋白质的总体，

即一个

基因组的全部蛋白产物及其表达情况。

8

蛋白质组学：

指应用各种技术手段来研究蛋白质组的一门新兴科学，其目的是

从整体的角度分析细胞内动态变化的蛋白质组成成分、

表达水平与修饰状态，

了

解蛋白质之间的相互作用与联系，揭示蛋白质功能与细胞生命活动规律。

9

功能蛋白质组学：

（课件上只能找到
功能蛋白质组

，即细胞在一定阶段或与某

一生理现象相关的所有蛋白）

。

10
 序列对位排列：

通过插入间隔的方法使不同长度的序列对齐，达到长度一致。

11

分子系统树：

是表达类群（或序列）间系统发育关系的一种树状图。

12

BLAST

搜索

p73

：

是一种基本的局部对位排列搜索工具。

13

SNP

p152

：

即单核酸多态性，是指基因组内特定核苷酸位点上存在两种不同

碱基，其中每种在群体中的频率不小于

1%

。

SNP

大多数为转换置换。

14

EST

p91
 ：

即表达序列标签，是从

cDNA

文库中生成的一些很短的序列

（

300~500bp)

，

它们代表在特定组织或发育阶段表达的基因，

有时可代表特定的

cDNA

。

16

基因组作图

 p155

：

是确定界标或基因在构成基因组的每条染色体上的位置，

以及同条染色体上各个界标或基因之间的相对距离。

17

后基因组时代

p3

：

其标志是大规模基因组分析、
 蛋白质组分析以及各种数据

的比较和整合。

18

电子克隆

p98

：

又称虚拟克隆，

其原理是依据大量

EST

具有相互重叠的性质，

通过计算机法获得

cDNA

全长序列。

电子克隆是由一个查询序列开始，

依靠

EST
 数据库在计算机上对

EST

进行两端延伸，从而获得全长的

cDNA

序列。

19

遗传连锁图

 p155

：

是用遗传模式来描述

DNA

标记（基因和其他确定

DNA

序列）在染色体上的相对位置。

20

物理图谱

p156
 ：

是标明一些界标（如限制酶切点、单一序列、基因等）在

DNA

分子或染色体上锁处位置的图，图距以物理长度为单位（如核苷酸对的数

目）

。

1.

生物信息学：

1
）生物信息学包含了生物信息的获取、处理、分析、和解释等在内的一门交叉学科；

2

）它综合运用了数学、计算机学和生物学的各种工具来进行研究；

3

）目的在于阐明大量生物学数据所包含的生物学意义。

2.

BLAST

（

Basic Local Alignment Search Tool

）

直译：基本局部排比搜索工具

意译：基于局部序列排比的常用数据库搜索工具

含义：蛋白质和核酸序列数据库搜索软件系统及相关数据库

3. PSI-BLAST

：

是一种迭代的搜索方法，可以提高

BLAST

和

FASTA

的相似序列发现率。

4.

一致序列：

这些序列是指把多序列联配的信息压缩至单条序列，主要的缺点是除了在特

定位置最常见的残基之外，它们不能表示任何概率信息。

5. HMM

隐马尔可夫模型：

一种统计模型，它考虑有关匹配、错配和间隔的所有可能的组合

-

-

-

-

-

-

-

-

本文更新与2021-02-17 18:59，由作者提供，不代表本网站立场，转载请注明出处：https://www.bjmy2z.cn/gaokao/662970.html

返回列表：英语

上一篇：(完整word版)CFA一级知识点总结最全
下一篇：常用通信术语缩写解析

当前您在：主页 > 英语 >

生物信息学名词解释(个人整理)

-

-

-

-

-

-

-

-

-

返回列表：英语

生物信息学名词解释(个人整理)的相关文章

爱心与尊严的高中作文题库

爱心与尊严高中作文题库

爱心与尊重的作文题库

爱心责任100字作文题库

爱心责任心的作文题库

爱心责任作文题库

爱心长在作文题库

爱心中国感恩励志作文题

爱心助考作文题库

爱心助农作文题库

爱心尊重宽容拒绝作文题

爱心尊重作文题库

爱心作文题库好段

爱心作文题库120字

爱心作文题库读者

爱心作文题库分论点

爱心作文题库简短

爱心作文有哪些题库

爱需要被尊重作文题库

爱需要传递200字作文题库

爱需要公平作文题库

爱需要行动作文800高中作

爱需要行动作文题库

爱需要交流与沟通作文题

当前您在： 主页 > 英语 >

-

-

-

-

-

-

-

-

-

生物信息学名词解释(个人整理)的相关文章

当前您在：主页 > 英语 >