-
1.
生物信息学:
生物信息学
是一门交叉学科。它包含了生物信息的获取、处理、存储、分发、分析
和解释等在内的所
有方面,
它综合运用数学、
计算机科学和生物学的各种工具,
来阐 明和理
解大量数据所包含的生物学意义。
研究内容:
以基因组
DNA< /p>
序列信息为源头,
识别基因组序列中代表蛋白质和
RNA
< p>基因的编
码区,阐明非编码区的信息特征,破译隐藏在
DNA
序列中的遗传语言规律;同时,归纳、
整理与基因组遗传语言信息释放及其调控
相关的转录谱和蛋白质谱的数据,从而认
识代谢、发育、分化、进化的规律。
研究方向:
生物学数据的收集、存储、管理与提供
(GenBank 1.06*10
11
bps)
基因组序列信息的提取和分析
(
非编码区)
功能基因组相关信息分析
生物大分子结构模拟和药物设计
生物信息分析的技术与方法研究
分子进化与比较基因组学
研究方法:
基于数据挖掘的方法,如:统计方法、机器学习、神经网络等。
基于模拟分析的方法,如:
发展前景:
生物信息学将会揭示人类及重要动植物种类的基因的信息,为生物大分子结构模
拟和药物设计提供巨大的帮助。
生物信息学不仅对认识生物体和生物信息的起源、
遗传、
发
育与进化的本质有重要意义
,< /p>
而且将为人类疾患的诊治开辟新的途径,还可为动植物的育种
改良提供坚实
的理论基础。
生物信息学的发展已经超越了它最初的目标。
现在可以说生物信 p>
息学的重要目标在于理解生物数据和揭示生命本质,
但是它的前景仍然是不可 估量的。
可以
肯定,
在不远的将来,生物信息学的研究成 果不仅被应用于生物、
医学等相关领域,同时它
将对其它学科,包括信息
科学、数学、计算机科学物理学等的研究产生巨大的影响。
认识:
p>
。
。
。
。
。
。
2.
基因组:
包含细胞或生物体的全套
遗传信息的全部遗传物质
project
:
Encyclopedia of DNA
Elements
(
DNA
元件百科全书)
p>
目的:
该项目旨在
解析
人类基因组中的所有功 能性元件
4.1
遗传图谱:
又称为连锁图(
(linkage
map
)
,是指基因或
DNA
标志在染色体上的相对位置与遗传距离,
后者通常以基因或
DNA
片段在染色体交换过程中的分离 频率厘摩(
cM
)来表示,
cM
值越
大,两者之间距离越远。一般可由遗传重组测检结果推算。
4.2
物理图谱:
是指标明一些界标(例如,限制酶的切点、
基因等)在
DNA
上的位置,图距物理长度为单
位,例如
染色体的带区、核苷酸对数目等。
5*.
生物复杂性:
复杂生物系统可以出现在生物界的各个层面上, p>
包括分子水平、
细胞水平、
组织器官水平、
个
体水平、群体水平和生态系统水平。
(
可以逐个展开阐述
:
单分子
层次遗传信息的表达:由
DNA
到
RNA
再到蛋白 质,即序列决定结构,结构决定功
能。
分子网络层次遗传信息的表达:
分子与分子的相互作用 决定分子相互作用网络,然后又决
定相应的功能。
< /p>
基因种类多、核酸种类多、调控机理复杂、复杂的基因调控网络、代谢网络;细胞间信号转
导过程;生物个体全部基因表达变化、生物中的复杂网络、复杂过程、复杂现象……
p>
、
)
数据库
6.1
EBI
的主要资源:
ENA
(核酸序列数据库)
,
Ensembl
(基因组)
,
ArrayExpress
(基因表达数据)
,
UniProtKB
蛋白质序列,
InterPro
(蛋白质家族
/
域
/
蛋白指纹等)
PDBe
(大分子结构)
6.2 NCBI
的主要资源
:
?
书上
P19
架构
LAMP
架构:
L
—
Linux
操作系统
A
—
Apache
网站服务器
M
—
MySQL
数据库
P
—
PHP/Perl
脚本语言
8.1
核酸数据库
8.2
蛋白质结构数据库
8.3
代谢途径数据库
9
动态规划
把多阶段过程转化
为一系列单阶段问题,
利用各阶段之间的关系,
逐个求解,
从而对 问题进
行优化。
适用动态规划的问题必须满足最优化原理和无后效性。
1.
最优化原理
(最优子结构性质)
< /p>
最优化原理可这样阐述:一个最优化策略具有这样
的性质,
不论过去状态和决策如何,
对前面的决策所形成的状态而言,
余下的诸决策必须构
成最优策略。
简而言之,
一个最优化策略的子策略总是最 优的。
一个问题满足最优化原理又
称其具有最优子结构性质。
2.
无后效性
将各阶段按照一定的次序排列好之后 ,对于某个给定的阶段状态,它以前
各阶段的状态无法直接影响它未来的决策,
而只能通过当前的这个状态。
换句话说,
每个状
态
都是过去历史的一个完整总结。这就是无后向性,又称为无后效性。
3.
子问题的重叠性
动态规划将原来具 有指数级时间复杂度的
搜索算法
改进成了具有
多项式时间
复杂度的算法。
其中的关键在于解决冗余,
这是动态规划算法的根本目的。
动态
规划实质上是一种以空间换时间的技术,
它在实现的过程中 ,
不得不存储产生过程中的各种
状态,所以它的空间复杂度要大于其它的
算法。
10.
蛋白质预测方法:
< /p>
蛋白质二级结构预测就是从蛋白质的一级序列出发,
预测序列中各分子所属 的二
级结构类型。抽象出来看,就是从
20
种氨基酸组成 的序列到
3
种二级结构类型
(
3
类预测)或
8
种类型(
8
类预测)组成的序 列的一个映射。预测结果的好坏
就是看,谁构造的映射精确,并且泛化能力强。迄今,蛋
白质二级结构预测算法
共经历了三代。
第一代
是指上世纪六七十年代的工作,这些算法几乎全部都是基于单个氨基酸
< br>倾向性的。
第二代
算法大体是指上世纪
九十年代之前的算法,此阶段的算法主要考虑的是
3-5
个相邻残基片段 的倾向性,三类预测的准确率在
60%
多,此时已开始使用机
器学习类算法。
第三代
预测算法是指上世
纪九十年代之后的算法,此时蛋白质二级结构预测领
域已经是机器学习类算法特别是人工
神经网络的天下。
这一代算法除了考虑残基
片段的局部信息以外,还把从
序列比对得到的进化信息(全局信息)结合进来,
把
3
类 预测的准确率提高到
70%
以上。
这些算法通常的做法是,
把待预测的序列
拿去和蛋白质序列的无冗余库
(
nr
)
作比对,
并以比对结果所给出的概貌
( p>
Profile
)
作为神经网络的输入,再由多层神经网络预
测二级结构。