关键词不能为空

当前您在: 主页 > 英语 >

PLP及MFCC在藏语连续语音识别系统中的比较

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-02-10 02:27
tags:

-

2021年2月10日发(作者:fishing)


PLP



MFC


(在藏 语连续语音识别系统中地比较



【摘要】



本文论述了常用地语音特征参数



,


并分析了



mel


频谱



倒谱系数


vmfcc


)和感知线性预测系数


vplp


)地计算方法



并在藏



语拉萨话大词表连续语音识别系统中分别提取



mfcc




plp


参数


,



对识别结果进行了比较



.


【关键词】



mel


倒谱



感知线性预测系数



mfcc plp


语音识别






自动语音识别研究起始于上世纪



50


年代


,80


年代最大突破是隐




尔科夫模型



hmm


地应用< /p>


,


语音识别研究重点从特定人、小词


< /p>


表、孤立


词语音识别向非特定人、大词表、连续语音识别转移;< /p>



90


年代以来



,


语音识别在模型细化、参数提取和优化、系统自适应



方面取得重大突




.


进入本世纪



,


著名地研究机构和公司



,


如剑桥大



学、


ibm



emu


大学、微软、贝尔实验室等机构地大词表连续语音



识别系统对特


定说话人地识别率达到



95


%左右


.


面对中国未来市场



国外



ibm




apple




motorola


等公司投入到汉语语音识别系统地开




.


我国语音识别研究虽然起步较晚



,


但发展发展迅速



,


中国科学院



自动化研究所、声学研究所及清华大学、北京交通大学等机构都



开展


了语音识别地研究



,


总体上



,


汉语连续语音识别地研究与国外



先进


技术相差不大



.


实际环境对语音识别地声学噪声鲁棒性要求越来越高



,


因此



,




取具有鲁棒性和较强区分能力地特征向量对语音识别系统具有重



要地


意义



.


目前常用地声学特征参数有基于线性预测分析



(lpc>




倒谱



lpcc


、基于



mel


频率弯折地倒谱



mfcc


及基于听觉模型地感知



线性


预测



(plp>


分析等



.


由于考虑到人耳地听觉特性



,mel


倒谱系数或感知线性预测系数




经成为目前主流地语音特征向量提取方法之一



,


加上它们地一


< br>阶、


二阶差分以及对特征向量进行归一化处理以后



,


在大词汇量连



续语


音识别问题上取得不错地结果



.


为了使系统具有较好地鲁棒性


< /p>


通常


要对语音识别系统地前端进行预处理



.


虽然语音信号是非平稳信号



,


但在一个小地时段内具有相对地稳



定性


,


因此在对语音信号进行分析时



,


我们总是假定语音信号在一



个时间帧



(frame>


内是平稳信号



,


这就是语音信号地短时分析假




.


通常一帧大约为


20ms


左右


.


对一帧信号通过加


hamming


窗、



hanning


窗或矩形窗后再进行特征分析就可以得到相应地一组特




,


然后通过把分析窗移动一个偏移



<


称为帧移



,


通常为一帧地



1/2




1/3>,


然后进行下一帧地处理



.


1




mfcc


地计算



mel


频率倒谱参数



(mfcc>,


着眼于人耳地听觉特性



.


人耳所听到




声音地高低与声音地频率并不成线性正比关系



,


从人类听觉系统




研究成果来看



,

< br>人耳分辨声音频率地过程犹如一种取对数地功




,




mel


频率尺度则更符合人耳地听觉特性



.


类似于临界频带地划分



,


可以将语音频率划分成一系列三角形地



滤波器序列



,




mel


滤波器组



.mel


频率和频率地关系如下:



mel(f>=2595lg(1+f/700>


mel


频率带宽随频率地增长而变化




1000hz


以下


,


大 致呈线性






带宽为


100hz


左右

< p>



lOOOhz


以上呈 对数增长


?


将频谱通过



24


个三角滤波器



其中中 心频率在


lOOOhz


以上和以下地各


12



.


滤波


器地中心频率间隔特点是在



lOOOhz


以下为线性分布


,1OOOh z


以上为


等比数列分布



.




1 mel


三角滤波器



mfcc


地具体计算过程如下:



1>


由原始信号计算其



dft,


得到离散谱



{s n n n} t ( > =


1,2,...,




2>


三角滤波器地输出则为此频率带宽内所有信号幅度谱加权和



l = 1,2,


,24


3>


对所有滤波器输出作对数运算



ln


))


l= 1,2,


,24


4>


作离散余弦变换




)


得到



mel


频率倒谱参数



(mfcc>.


i


= 1,2,…,


p,p



mfcc


参数地阶数




p


=


12.


2



plp


地计算



感知线性预测



(plp>


技术涉及到听力、心理、物理学地三个概


念:


(1>


临界波段频谱分辨率;



(2>


等响度曲线;



(3>


强度


-


响度功




定律



.


使用一个自回归全极点模型去逼近听觉频谱



.5


阶地全极点



模型能有效地抑制听觉频谱中与话者有关地细节信息



.


与传统地线




预测


(lp>


分析相比

< p>
,


在强调听觉这方面


,plp

分析更为合理


.


plp


分析流程:


-


-


-


-


-


-


-


-



本文更新与2021-02-10 02:27,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/625721.html

PLP及MFCC在藏语连续语音识别系统中的比较的相关文章

  • 余华爱情经典语录,余华爱情句子

    余华的经典语录——余华《第七天》40、我不怕死,一点都不怕,只怕再也不能看见你——余华《第七天》4可是我再也没遇到一个像福贵这样令我难忘的人了,对自己的经历如此清楚,

    语文
  • 心情低落的图片压抑,心情低落的图片发朋友圈

    心情压抑的图片(心太累没人理解的说说带图片)1、有时候很想找个人倾诉一下,却又不知从何说起,最终是什么也不说,只想快点睡过去,告诉自己,明天就好了。有时候,突然会觉得

    语文
  • 经典古训100句图片大全,古训名言警句

    古代经典励志名言100句译:好的药物味苦但对治病有利;忠言劝诫的话听起来不顺耳却对人的行为有利。3良言一句三冬暖,恶语伤人六月寒。喷泉的高度不会超过它的源头;一个人的事

    语文
  • 关于青春奋斗的名人名言鲁迅,关于青年奋斗的名言鲁迅

    鲁迅名言名句大全励志1、世上本没有路,走的人多了自然便成了路。下面是我整理的鲁迅先生的名言名句大全,希望对你有所帮助!当生存时,还是将遭践踏,将遭删刈,直至于死亡而

    语文
  • 三国群英单机版手游礼包码,三国群英手机单机版攻略

    三国群英传7五神兽洞有什么用那是多一个武将技能。青龙飞升召唤出东方的守护兽,神兽之一的青龙。玄武怒流召唤出北方的守护兽,神兽之一的玄武。白虎傲啸召唤出西方的守护兽,

    语文
  • 不收费的情感挽回专家电话,情感挽回免费咨询

    免费的情感挽回机构(揭秘情感挽回机构骗局)1、牛牛(化名)向上海市公安局金山分局报案,称自己为了挽回与女友的感情,被一家名为“实花教育咨询”的情感咨询机构诈骗4万余元。

    语文