-
PLP
及
MFC
(在藏
语连续语音识别系统中地比较
【摘要】
本文论述了常用地语音特征参数
,
并分析了
mel
频谱
倒谱系数
vmfcc
)和感知线性预测系数
vplp
)地计算方法
,
并在藏
语拉萨话大词表连续语音识别系统中分别提取
mfcc
和
plp
参数
,
并
对识别结果进行了比较
.
【关键词】
mel
倒谱
感知线性预测系数
mfcc plp
语音识别
藏
语
自动语音识别研究起始于上世纪
50
年代
,80
年代最大突破是隐
马
尔科夫模型
<
hmm
地应用<
/p>
,
语音识别研究重点从特定人、小词
<
/p>
表、孤立
词语音识别向非特定人、大词表、连续语音识别转移;<
/p>
90
年代以来
,
语音识别在模型细化、参数提取和优化、系统自适应
方面取得重大突
破
.
进入本世纪
,
著名地研究机构和公司
,
如剑桥大
学、
ibm
、
emu
大学、微软、贝尔实验室等机构地大词表连续语音
识别系统对特
定说话人地识别率达到
95
%左右
.
面对中国未来市场
国外
ibm
、
apple
、
motorola
等公司投入到汉语语音识别系统地开
发
.
我国语音识别研究虽然起步较晚
,
但发展发展迅速
,
中国科学院
自动化研究所、声学研究所及清华大学、北京交通大学等机构都
开展
了语音识别地研究
,
总体上
,
汉语连续语音识别地研究与国外
先进
技术相差不大
.
实际环境对语音识别地声学噪声鲁棒性要求越来越高
,
因此
,
提
取具有鲁棒性和较强区分能力地特征向量对语音识别系统具有重
要地
意义
.
目前常用地声学特征参数有基于线性预测分析
(lpc>
地
倒谱
lpcc
、基于
mel
频率弯折地倒谱
mfcc
及基于听觉模型地感知
线性
预测
(plp>
分析等
.
由于考虑到人耳地听觉特性
,mel
倒谱系数或感知线性预测系数
已
p>
经成为目前主流地语音特征向量提取方法之一
,
加上它们地一
< br>阶、
二阶差分以及对特征向量进行归一化处理以后
,
在大词汇量连
续语
音识别问题上取得不错地结果
.
为了使系统具有较好地鲁棒性
<
/p>
通常
要对语音识别系统地前端进行预处理
.
虽然语音信号是非平稳信号
,
但在一个小地时段内具有相对地稳
定性
,
因此在对语音信号进行分析时
,
我们总是假定语音信号在一
个时间帧
(frame>
内是平稳信号
,
这就是语音信号地短时分析假
设
.
通常一帧大约为
20ms
左右
.
对一帧信号通过加
hamming
窗、
hanning
窗或矩形窗后再进行特征分析就可以得到相应地一组特
征
,
然后通过把分析窗移动一个偏移
<
称为帧移
,
通常为一帧地
1/2
或
1/3>,
然后进行下一帧地处理
.
1
.
mfcc
地计算
mel
频率倒谱参数
(mfcc>,
着眼于人耳地听觉特性
.
人耳所听到
地
声音地高低与声音地频率并不成线性正比关系
,
从人类听觉系统
地
研究成果来看
,
< br>人耳分辨声音频率地过程犹如一种取对数地功
能
,
而
mel
频率尺度则更符合人耳地听觉特性
.
类似于临界频带地划分
,
可以将语音频率划分成一系列三角形地
滤波器序列
,
即
mel
滤波器组
.mel
频率和频率地关系如下:
mel(f>=2595lg(1+f/700>
mel
p>
频率带宽随频率地增长而变化
,
在
1000hz
以下
,
大
致呈线性
分
布
,
带宽为
100hz
左右
,
在
lOOOhz
以上呈
对数增长
?
将频谱通过
24
个三角滤波器
,
其中中
心频率在
lOOOhz
以上和以下地各
12
个
.
滤波
器地中心频率间隔特点是在
p>
lOOOhz
以下为线性分布
,1OOOh
z
以上为
等比数列分布
.
图
1
mel
三角滤波器
mfcc
地具体计算过程如下:
1>
由原始信号计算其
dft,
得到离散谱
{s n n n} t
( > =
1,2,...,
;
2>
三角滤波器地输出则为此频率带宽内所有信号幅度谱加权和
l = 1,2,
,24
3>
对所有滤波器输出作对数运算
念:
分析更为合理
ln
))
l= 1,2,
,24
4>
作离散余弦变换
)
得到
mel
频率倒谱参数
(mfcc>.
i
=
1,2,…,
p,p
为
mfcc
p>
参数地阶数
,
取
p
=
12.
2
.
plp
地计算
感知线性预测
(plp>
技术涉及到听力、心理、物理学地三个概
(1>
临界波段频谱分辨率;
(2>
等响度曲线;
(3>
强度
-
响度功
率
定律
.
使用一个自回归全极点模型去逼近听觉频谱
.5
阶地全极点
模型能有效地抑制听觉频谱中与话者有关地细节信息
.
与传统地线
性
预测
(lp>
分析相比
,
在强调听觉这方面
,plp
.
plp
分析流程: