-
基因预测原理介绍
?
X
(
t
),
t
?
T
?
p>
图一、真核生物基因结构
基础概念:
随机过程:一族无穷多个、相互有关联的随机变量。记为:
<
/p>
?
X
(
t
),
t
?
T
?
由于参数
t
p>
经常代表时间,故称为随机过程。
T
常为自
然数,整数或区间。当参数取值为
整数时,也称为随机序列。
马尔可夫过程:取值为整数的随机过程,若
t = i
时刻的取值只与时刻
i-1
取值有关,
则称为马尔可夫过
程,亦称为一阶马尔可夫链。
{
?<
/p>
,
T
,
{
?
}}
隐马尔可夫模型:存在一个隐序列
p>
H
,它是不可观测的,且由以下参数生成:
?
??
其中
π
α
为初始状态出现概率;
T
α
β
为转移概率,即
t<
/p>
α
β
=
P(h
i
=
β
|
h
i-1
=
α
)
;
α
,
β
属于
{
σ
}
;
p>
{
σ
}
为字符集,即隐序列由哪些字符组成。观测的结果称为明序列
O
,它由隐
序列按照生成概率
e
< br>α
a
生成。其中
e
α
a
= P(a |
α
)
;
{a}
为
明序列字符集。
隐马氏模型的三种典型问题:
可能性
问题:
给定模型参数,
当观察到一个明序列时,
这一明序列确实由给定模型生成的概
率有多大?
p>
解码问题:
给定模型参数,
当观察到一个明
序列时,
这一明序列所对应的最可能的隐序列是
什么?
学习问题:观察到足够多明序列时,如何估计转移概率和生成概率
p>
(
有的地方叫发射概率
)
< br>?
基因组编码区的隐马模型:
属于解码问题。
假设基因组由两种功能区域组成,
即编码区
p>
和非编码区。分别由字母
c
,
n
代表。转移矩阵为同种字母延伸或变为另一种字母的概率。
初始状态概率为第一个字母出现
c
或
< br>n
的概率。明序列由
A
,
C
,
G
,
T
四个字母组成,生
成概率分别为编码区和非编码
区四个字母出现的概率。
半隐马模型:
隐序列的每一个状态持续时间
(持续长度)
是一个取值为正整
数的随机变
-
-
-
-
-
-
-
-
-
上一篇:电子温度控制器课程设计(DOC)
下一篇:球型喷口选型参数表