-
名词解释:
Consensus sequence
:
共有序列,指多种原核基因启动序列特定区域内,通常在转录起始
点上游
-10
及
-35
区域存在
一些相似序列
。
1
< br>、
FASTA
序列格式
:是将<
/p>
DNA
或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基
酸字符串,大于号(
>
)表示一个新文
件的开始,其他无特殊要求。
2
、<
/p>
Similarity
相似性
:
是直接的连续的数量关系,
是指序列比对过程中用来描述检测序列
和目标序列之间相同
DNA
碱基或氨基酸残基
顺序所占比列的高低。
3
、
genbank
序列格式
:是
< br>GenBank
数据库的基本信息单位,是最为广泛的生物信息学序列
格式之一。该文件格式按域划分为
4
个部分:第
一部分包含整个记录的信息(描述符)
;第
二部分包含注释;<
/p>
第三部分是引文区,
提供了这个记录的科学依据;
第四部分是核苷酸序列
本身,以“
//
”结尾。
4
、
模体
(
motif
)
p>
:
短的保守的多肽段,
含有相同模体的蛋白
质不一定是同源的,
一般
10-20
个
残基。
5
、
查询序列(
query sequence
)
< br>:也称被检索序列,用来在数据库中检索并进行相似性比
较的序列。
6
、
打分矩阵(
scoring matrix
)
:在相似性检
索中对序列两两比对的质量评估方法。包括
基于理论(如考虑核酸和氨基酸之间的类似性
)和实际进化距离(如
PAM
)两类方法。
7
、
空位(
gap
)
:在序列比对时,由于序列长度不同,需要插入一
个或几个位点以取得最佳
比对结果,这样在其中一序列上产生中断现象,这些中断的位点
称为空位。
8
、
PDB
:
PDB
中收录了大量通过
实验(
X
射线晶体衍射,核磁共振
NM
R
)测定的生物大分子
的三维结构,记录有原子坐标、配基的化
学结构和晶体结构的描述等。
PDB
数据库的访问号
由一个数字和三个字母组成(如,
4HHB
)
p>
,同时支持关键词搜索,还可以
FASTA
程序进行搜
索。
9
< br>、
Prosite
:
是蛋白质家
族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识
别蛋白质家族的统计特
征。
PROSITE
中涉及的序列模式包括酶的催化位点、配
体结合位点、
与金属离子结合的残基、
二硫键的半胱氨酸、
p>
与小分子或其它蛋白质结合的区域等;
PROSITE
还包括根据多序列比对而构建的序列统计特征,
能更敏感地发现一个序列是否
具有相应的特
征。
10
、
PIR
:是一个集成了关于蛋白质功能预测数据的
公共资源的数据库,其目的是支持基因
组蛋白质研究。
11
、
SWLSS
—
MODE
:是目前最著名的蛋白质三级结构预测服务器,建立在
已知生物大分
子结构基础上,利用同源建模的方法对未知序列的蛋白质三级结构进行预测
。
12
、
空位罚分
:
空位罚分是为了补偿插入和
缺失对序列相似性的影响,
序列中的空位的引入
不代表真正的进
化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。
13
、
E
值
< br>:衡量序列之间相似性是否显著的期望值。
E
值大小说明
了可以找到与查询序列
(
query
)
相匹配的随机或无关序列的概率,
E
值越接近零,越不可能找到
其他匹配序列,
E
值越小意味着序列的相似性偶然发生的机会越
小,也即相似性越能反映真实的生物学意义。
14
、
点矩阵(
dot matrix
)
:构建一个二维矩阵,其
X
轴是一条序列,
Y
轴是另一个序列,
然
后在
2
个序列相同碱基的对应位置
(<
/p>
x
,
y
)加点,
如果两条序列完全相同则会形成一条主
对角线,
如果两条序列相似则会出现一条或者几条直线;
如果完全没有相似性则不能连成
直
线。
15
、
多序列比对
:
通过序列的相似性检索
得到许多相似性序列,
将这些序列做一个总体的比
对,以观察它
们在结构上的异同,来回答大量的生物学问题。
16
、
MEGA
:是一款
免费的构树软件,它提供了序列比对、格式转换、数据修订、距离计
算、系
统树重建和可信度评估等全套功能,能对
DNA
、
mRNA
氨基酸序列及遗传距离进行
系统发生分析以
及基因分化年代的分析。
17
、
BioEdit
:
BioEdit
是一个序列编辑器与分析工具软件
。功能包括:序列编辑、外挂分析
程序、
RNA
分析、寻找特征序列、支持超过
20000
个序列的多
序列文件、基本序列处理功
能、质粒图绘制等等。
18
、
GSS
:基因组
勘测序列,是基因组
DNA
克隆的一次性部分测序得到的序列。
包括随机
的基因组勘测序列、
cosmid/BAC/YAC<
/p>
末端序列、通过
Exon
trapped
获得基因组序列、通过
Alu
PCR
获得的序列、以及转座子标记序列等。
19
、
coiled coil
:卷曲螺旋,是蛋白质中由
2~7
条
α
螺旋链相互缠
绕形成类似麻花状结构的
总称。
卷曲螺旋是控制蛋白质寡聚化的
元件,
在机体内执行着分子识别、代谢调控、细胞分
化、肌肉收
缩、膜通道等生物学功能。
20<
/p>
、
分子钟:
认为分子进化速率是恒定的或
者几乎恒定的假说,
从而可以通过分子进化推断
出物种起源的时
间。
21
、
系统发育分析
:
通过一组相关的基因或者蛋白质的多序列比对
或其他性状,
可以研究推
断不同物种或基因之间的进化关系。<
/p>
22
、
除权配
对算法(
UPGMA
)
:
最初,每个序列归为一类,然后找到距离最近的两类将其归
为一类,定义为一
个节点,重复这个过程,直到所有的聚类被加入,最终产生树根。
23.
邻接法
(
neighbor-
joining method
)
:
是
一种不仅仅计算两两比对距离,
还对整个树的长度
进行最小化,
从而对树的拓扑结构进行限制,
能够克服
UPGMA
算法要求进化速率保持恒定的
缺陷。
23
、
一致树(
consensus tree
)
:在同一算
法中产生多个最优树,合并这些最优树得到的树
即一致树。
<
/p>
24
、
自举法检验(
Bootstrap
)
:放回式抽样统计法。通过对数据集
多次重复取样,构建多
个进化树,用来检查给定树的分枝可信度。
25
、
密码子偏好性(
codon bias
)
:氨基酸的同义密码子的
使用频率与相应的同功
tRNA
的
水平
相一致,大多数高效表达的基因仅使用那些含量高的同功
tRNA
所对应的密码子,这种
效应称为密码子偏好性。
26
、
基因预测的从头分析
:依据综合利用基因的特征,如剪接位点,内含子与外显子边界,
调控区,预测基因
组序列中包含的基因。
31.
结构域(
domain
)
:保守的结构单元,包含独
< br>特的二级结构组合和疏水内核,
可能单独存在,
也可能与
其他结构域组合。
相同功能的同源
结构域具有序列的相似性。<
/p>
27
、
一致序
列
:
这些序列是指把多序列联配的信息压缩至单条序列,
主要的缺点是除了在特
定位置最常见的残基之外,它们不能表示任何概
率信息。
28
、
超家族
:进化上相关,功能可能不同的一类蛋白质。
33
.
模体(
motif
)
:短的保守的多
肽段,含有相同模体的蛋白质不一定是同源的,一般
10-20
个残基。
2
9
、
GenPept
:
是由
GenBank
中的
DN
A
序列翻译得到的蛋白质序列。
数据量很大,
< br>且随核酸序
列数据库的更新而更新,
但它们均是由核酸序
列翻译得到的序列,
未经试验证实,
也没有详
< br>细的注释。
41.
折叠子(
F
old
)
:在两个或更多的蛋白质中具有相似二级结构的大区域
,这
些大区域具有特定的空间取向。
30
、
TrEMBL
:
是与
SWISS-PROT
相关的一个数据库。
包含从
EMBL
核酸数据库中根据编码序列<
/p>
(CDS)
翻
译
而
得
到
的
蛋<
/p>
白
质
序
列
,
并
且
这
些
序
列
尚
未
集
成
到
SWISS-PROT
数
据
库
p>
中。
(Molecular Modeling Databas
e)
:是(
NCBI
)所开发的生物信
息数据库集成
系统
Entrez
的一个
部分,数据库的内容包括来自于实验的生物大分子结构数据。与
PDB
< br>相
比,对于数据库中的每一个生物大分子结构,
MMDB
具有许多附加的信息,如分子的生物学
-
-
-
-
-
-
-
-
-
上一篇:半导体FAB里基本的常识简介
下一篇:(完整word版)CFA一级知识点总结最全