-
一、名词解释:
1.
生物信息学:
< br>研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒
介,
p>
数据库为载体。利用数学知识建立各种数学模型
;
利用计算机为工具对实验所得大量生
物学数据进行储存、检索、处理及分析,并
以生物学知识对结果进行解释。
2.
二级数据库:
在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对
生物学知识和信息的进一步的整理。
序列格式
:
是将
DNA
或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基
酸字符串,大于号(
>
)表示一个新文件的开始,其他无特
殊要求。
k
序列格式:
是
GenBank
数据库的基本信息单位,是最为
广泛的生物信息学序列
格式之一。该文件格式按域划分为
4
p>
个部分:第一部分包含整个记录的信息(描述符);第
二部分包含注
释;
第三部分是引文区,
提供了这个记录的科学依据;
第四部分是核苷酸序列
本身,以“
//
”结尾。
检索系统:
是
NCBI
开发的核心检索系统,集成
了
NCBI
的各种数据库,具有链接
的
数据库多,使用方便,能够进行交叉索引等特点。
:
基本局部比对搜索工具,
用于相似性搜索的工具
,
对需要进行检索的序列与数据
库中的每个序列做相似性比较。
P94
7.
查询序列(
query
sequence
)
:也称被检索序列,用来在
数据库中检索并进行相似性比较
的序列。
P98
8.
打分矩阵(
scoring ma
trix
):
在相似性检索中对序列两两比对的质量评估方法。
包括基于
理论(如考虑核酸和氨基酸之间的类似性)和实际进化
距离(如
PAM
)两类方法。
P29
9.
空位(
gap
):
在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳
比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
P29
10.
空位罚分
:空位罚
分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入
不代表真正的进化事
件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。
P37
11.E
值:
衡量序列之间相似性是否显著的期望值
。
E
值大小说明了可以找到与查询序列
(
query
)相匹配的随机或无关序列的概率,
E
值越接近零,越不可能找到其他匹配序列,
E
p>
值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。<
/p>
P95
12.
低复杂度区域:
BLAST
搜索的过滤选项。
指序列中包含的重
复度高的区域,
如
poly
(
A
)
。
13.
点矩阵(
dot matrix
)
:构建一个二维矩阵,其
X
轴是一条序列,
Y
轴是另一个序列,然
后在
2
个序列相同碱基的对应位置(
x
,
y
)加点,如果两条
序列完全相同则会形成一条主对
角线,
如果两条序列相似则会出
现一条或者几条直线;
如果完全没有相似性则不能连成直线。
14.
多序列比对:
通过序列的相似性
检索得到许多相似性序列,将这些序列做一个总体的比
对,以观察它们在结构上的异同,
来回答大量的生物学问题。
15.
分
子钟:
认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断
p>
出物种起源的时间。
16.
系统发育分析:
通过一组相关的基因或者蛋白质的多序列比对或其他性状,可
以研究推
断不同物种或基因之间的进化关系。
17.
进化树的二歧分叉结构:
指在进化树上任何一个
分支节点,一个父分支都只能被分成两
个子分支。
系统发育图:
用枝长表示进化时间的系统树称为系统发育图,
是引入时间概念的支序图。
18.
直系同源:
指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具
有相似
或不同的功能。
(书:
在缺乏任
何基因复制证据的情况下,
具有共同祖先和相同功能的同源
基因
。)
19.
旁系(并系)同源:
p>
指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这
些
基因在功能上可能发生了改变。
(
书:由于基因重复事件产生的
相似序列。
)
20.
外类群:
是进化树中处于一组被分析物种之外的,具有相近亲缘关系的物种。
21.
有根树:
能够确定所有分析物种
的共同祖先的进化树。
22.
除权配
对算法(
UPGMA
):
最初,每个序
列归为一类,然后找到距离最近的两类将其
归为一类,定义为一个节点,重复这个过程,
直到所有的聚类被加入,最终产生树根。
23.
邻接法(
neighbor-
joining method
)
:是一种不仅仅计算两两比对
距离,还对整个树的长
度进行最小化,从而对树的拓扑结构进行限制,能够克服
UPGMA
算法要求进化速率保持
恒定的缺陷。
24.
最大简约法(
MP
)
:在一系列能够解释序列差异的的进化树中找到
具有最少核酸或氨基
酸替换的进化树。
25.
最大似然法(
ML
):
它对每个可能的进化位点分配一个概率,然后综合所有位点,找到
概率
最大的进化树。
最大似然法允许采用不同的进化模型对变异进行分析评估,
并在此基础
上构建系统发育树。
< br>26.
一
致树(
consens
us
tree
)
:在同一算法中产生
多个最优树,合并这些最优树得到的树即
一致树。
27.
自举法检验(
Bootstrap
):
放回式抽样统计法。通过对数据集多次重复取样,构建多个
进化树,用来检查给定树的分枝可信度。
28
.
开放阅读框(
ORF
)
:开放阅读框是基因序列的一部分,包含一段可以编码蛋白的碱基
序列。
p>
29.
密码子偏好性(
codon b
ias
):
氨基酸的同义密码子的使用频率与相应的同功
tRNA
的水
平相一致,
大多数高效表达的基因仅使用那些含量高的同功
tRNA
所
对应的密码子,
这种效
应称为密码子偏好性。
< br>
30.
基因预测的从头分析:
依据综合利用基因的特征,如剪接位点,内含子与外显子边界,
调控区,预测基因组序列
中包含的基因。
31.
结构域(
p>
domain
)
:
保守的结构单元,包含独特的二级结构组合和疏水内核,可能
单独存在,也可能与其他结
构域组合。相同功能的同源结构域具有序列的相似性。
32.
超家族
:进化上相关,功能可能不同的一类蛋白质。
33.
模体(
moti
f
)
:
短的保守的多肽段,含有相同模
体的蛋白质不一定是同源的,一般
10-20
个残基。
34.
序列表谱(
p
rofile
)
:是一种特殊位点或模体序列,在多序列比较的
基础上,氨基
酸的权值和空位罚分的表格。
< br>
矩阵:
PAM
指可接受突变百分
率。一个氨基酸在进化中变成另一种氨基酸的
可能性,通过这种可能性可以鉴定蛋白质之
间的相似性,并产生蛋白质之间的比对。
一个
PAM
单位是蛋白质序列平均发生
1%
的替代量需要的进
化时间。
矩阵:
模块替代矩阵。
矩阵中的每个位点的分值来自蛋白比对的局部块中的替
代频率的观察。每个矩阵适合特定的进化距离。例如,在
BLOSUM62<
/p>
矩阵中,比对的分值
来自不超过
62%<
/p>
一致率的一组序列。
-BLAST
p>
:位点特异性迭代比对。是一种专门化的的比对,通过调节序列打分矩阵
(
scoring
matrix
)探测远缘相关的蛋白。
:
给出了对应于基因和蛋白质的索引号码,
< br>对应于最稳定、
最被人承认的
Genbank
序列。
(
Protein Data Ban
k
)
:
PDB
中收录了大量通过实验(
X
射线晶体衍射,核磁共振
NMR
)测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构
和晶体结构的描
述等。
PDB
数据库的
访问号由一个数字和三个字母组成(如,
4HHB
)
,同时支持关键词搜
索,还可以
FASTA
程序进行搜索。
t:
是由
GenBank
中的
DNA
p>
序列翻译得到的蛋白质序列。数据量很大,且随核酸
序列数据库的更
新而更新,
但它们均是由核酸序列翻译得到的序列,
未经试验证
实,
也没有
详细的注释。
41.
折叠子(
Fold
)
:
在两个或更多的蛋白质中具有相似二级结构的大区域,这些
大区域具有
特定的空间取向。
:
是与
SWISS-PROT
相关的一个数据库。包含从
EMBL
核酸数据库中根据
编码
序列
(CDS)
翻译而得到的蛋白
质序列,并且这些序列尚未集成到
SWISS-
PROT
数据库中。
(Molecular Modeling Database)
:
是(
NCBI
)所开发的生物信息
数据库集成系统
Entrez
的一个部分,数据库的内容包括来
自于实验的生物大分子结构数据。与
PDB
相比,
对于数据库中的每一个生物大分子结构,
MMDB
具
有许多附加的信息,如分子的生物学功
能、产生功能的机制、分子的进化历史等
,还提供生物大分子三维结构模型显示、结构分
析和结构比较工具。
数据库:
p>
提供关于已知结构的蛋白质之间结构和进化关系的详细描述,包括蛋白
质结构数据库
PDB
中的所有条目。
SCOP
数据库除了提供蛋白质结构和进化关系信息外,
对于每
一个蛋白质还包括下述信息:到
PDB
的连接,序列,参考文献
,结构的图像等。可
以按结构和进化关系对蛋白质分类,
分类结
果是一个具有层次结构的树,
其主要的层次依次
是类(
class
)
、折叠子(
fold
)
、超家族(
super
family
)
、家族(
family
)
、单个
PDB
蛋白结构
记录。
E
:
是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助<
/p>
识别蛋白质家族的统计特征。
PROS
ITE
中涉及的序列模式包括酶的催化位点、
配体结合位
点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;
PROSITE
还包括根据多序列比对而构建的序列统计特征,能更敏
感地发现一个序列是否具
有相应的特征。
Ontology
协会:
编辑一组动态的、可控的基因产物不同方面性质的字汇的协会。
从
3
个方面
描述基因产物的性质,即,分子功能,生物过程,细胞区室。
47.
表谱(
PSSM
)
:指一张基于多序列比对的打分表,表示一个蛋白质家族,可以用来搜索
序列
数据库。
48.
比较基因组学:
p>
是在基因组图谱和测序的基础上,利用某个基因组研究获得的信息推测
其他原核生物、真核生物类群中的基因数目、位置、功能、表达机制和物种进化的学科。
49.
简约信息位点:
指基于
p>
DNA
或蛋白质序列,利用最大简约法构建系统发育树时,
如果每个位点的状态至少存在两种,每种状态至少出现两次的位点。其它位点为都是
非简约性信息位点。
1.
生物信息学
:
(狭义)专指应用信息技术储存和分析基因组测序
所产生的分子
序列及其相关数据的学科;
(广义)指生命科学与
数学、计算机科学和信息科学
等交汇融合所形成的一门交叉学科。
2.
人类基因组测序计划:
p>
3
基因组学
p150
:
以基因组分析为手段,
研究基因组的结构组成、
时序表达模式
和功能,并提供有关生物物种及其细胞功能的进化信息。
p>
4
基因组
p15
0
:
是指一个生物体、细胞器或病毒的整套基因。
5.
比较基因组学
p16
6
:
是指基因组学与生物信息学的一个重要分支。
通过模式生
物基因组之间或模式生物基因组与人类基因组之间的比较与鉴别,
可以为研究生
物进化和分离人类遗传病的候选基因以及预测新的
基因功能提供依据。
6
功能基因组:
表达一定功能的全部基因所组成的
DNA
序列,
包括编码基因
和调控基因。
功
能基因组学:
利用结构基因组学研究所得的各种来源的信
息,建
立与发展各种技术和实验模型来测定基因及基因组非编码序列的生
物学功能。
7
蛋白质组
p179<
/p>
:
是指一个基因组中各个基因编码产生的蛋白质的总体,
即一个
基因组的全部蛋白产物及其表达情况。
8
蛋白质组学:
指应用各种技术手段来
研究蛋白质组的一门新兴科学,其目的是
从整体的角度分析细胞内动态变化的蛋白质组成
成分、
表达水平与修饰状态,
了
解蛋白
质之间的相互作用与联系,揭示蛋白质功能与细胞生命活动规律。
9
功能蛋白质组学:
(课件上只能找到
功能蛋白质组
,即细胞在一定阶段或与某
一生理现象相关的
所有蛋白)
。
10
< br>序列对位排列:
通过插入间隔的方法使不同长度的序列对齐,达到长度一致。
p>
11
分子系统树:
是表达类群(或序列)间系统发育关系的一种树状图。
12
BLAST
搜索
p73
:
是一种基本的局部对位排列搜索工具。
13
SNP
p152
:
即单核酸多态性,是指基因组内特定核苷酸位点上存在两种不同
碱基,其中每种在群体中的频率不小于
1%
。
p>
SNP
大多数为转换置换。
14
EST
p91
< br>:
即表达序列标签,是从
cDNA
文库中生成的一些很短的序列
(
300~500bp)
,
它们代表在特定组织或发育阶段表达的基因,
有时可代表特定的
cDNA
。
16
基因组作图
< br>p155
:
是确定界标或基因在构成基因组的每条染色体
上的位置,
以及同条染色体上各个界标或基因之间的相对距离。
17
后基因组时代
p3
:
其标志是大规模基因组分析、
< br>蛋白质组分析以及各种数据
的比较和整合。
18
电子克隆
p98
:
又称虚拟克隆,
其原理是
依据大量
EST
具有相互重叠的性质,
通过计算机法获得
cDNA
全长序列。
电子克隆是由一个查询序列开始,
依靠
EST
< br>数据库在计算机上对
EST
进行两端延伸,从而获得全长
的
cDNA
序列。
19
遗传连锁图
< br>p155
:
是用遗传模式来描述
DNA
标记(基因和其他确定
DNA
序
列)在染色体上的相对位置。
20
物理图谱
p156
< br>:
是标明一些界标(如限制酶切点、单一序列、基因等)在
DNA
分子或染色体上锁处位置的图,图距以物理长度为单位(如核苷酸对的数
目)
。
1.
生物信息学:
1
)生物信息学包含了生物信息的获取、处理、分析、和解释等在内的一门交叉学科;
2
)它综合运用了数学、计算机学和生物学的各种工具来进行研
究;
3
)目的在于阐明大量生物学数
据所包含的生物学意义。
2.
BLAST
(
Basic Local
Alignment Search Tool
)
直译:基本局部排比搜索工具
意译:基于局部序列排比的常用数据库搜索工具
含义:蛋白质和核酸序列数据库搜索软件系统及相关数据库
3. PSI-BLAST
:
是一种迭
代的搜索方法,可以提高
BLAST
和
FASTA
的相似序列发现率。
4.
一致序列:
这些序列是指把多序列联配的信息压缩至单条序列,
主要的缺点是除了在特
定位置最常见的残基之外,它们不能表示任何概率信息。
5. HMM
隐马尔可夫模型:
一种统计模型,它考虑有关匹配、错配和间隔的所有可能的组合
-
-
-
-
-
-
-
-
-
上一篇:(完整word版)CFA一级知识点总结最全
下一篇:常用通信术语缩写解析