-
语音信号中情感特征的分析和识别
本文
Tag
标签:
1.
引言
随
着信息技术的高速发展和人类对计算机的依赖性的不断增强,
人机的交互
能力越来越受到研究者的重视。
如何实现计算机的拟人化,
使其能感知周围的环
境、气氛,对象的态度、情感等内容,自适应地为对话对象提供
最舒适的对话环
境,
尽量消除操作者和机器之间的障碍,
已经成为下一代计算机发展的目标。
斯
坦福大
学的
Reeves
和
Nass
的通过研究发现
[1]
,在人机交互中所需要解
决的问题
同人和人交流中的是一致的,
最关键的都是“情感智能
”的能力。
因此计算机要
能够更加主动的适应操作者的需要,<
/p>
首先必须能够识别操作者的情感,
而后再根
据情感的判断来调整对话的方式。
对于情感识别研究包括多个方面,
< br>如情感特征
分析、
肢体情感识别、
面部情感识别和语音情感识别。
各国在这些方面都投入了
大量
的资金进行研究。美国的
MIT
媒体实验室的情感计算研究小组
(
Affective
Computing
Research
Group
)就在
专门研究机器如何通过对外界信号的采样,如
人体的生理信号(血压,脉搏,皮肤电阻等
)
、面部快照、语音信号来识别人的
各种情感,并让机器对这些
情感作出适当的反应
[2]
。目前,关于情感信息处理的
研究正处在不断的深入之中,
而其中语音的情感识别因为涉及到不同语
种之间的
差异,发展也不尽相同。英语、日语、德语、西班牙语的语音情感分析处理都有
较多的研究,而汉语语音的情感分析还处在刚刚起步的阶段。
日常通过听觉获得的语音信息是一种模式信息,
这种模式信息包
含符号信息和非
符号信息。
传统的语音信号处理把模式的变动和
差异作为噪声通过规则化处理予
以去除,
然而这种非符号信息是
人们感知模式的重要的必不可少的部分。
例如同
样的一句话,<
/p>
由于说话人表现的情感不同,
在听者的感知上就可能会有较大的差
别,所以情感信息处理的目的之一可以说是一种传统的被去掉的有用信息的复
权。
实际上,
人们利用各种感觉器官同时接受各种
形式的信息,
如何有效地利用
各种形式的信息以达到最佳的信息
传递效果,是今后信息处理研究的发展方向。
所以包含在语音信号中的情感信息的计算机
处理研究是一个意义重大的研究课
题。
分析和处理语音信号中的
情感特征,
判断和模拟说话人的喜怒哀乐等方面的
研究具有理论
和应用两方面的重要意义。
2.
情感分类和情感特征分析
2.1
情感的分类
< br>要研究语音信号的情感,
首先需要根据某些特性标准对情感做一个有效合理的
p>
分类,然后在不同类别的基础上研究特征参数的性质。经过
Plut
chik
等人的多年
研究
[3]
,通过在激活评价空间上对情感进行分析,认为情感分布在一个圆形的结
构上,
结构的中心是自然原点。
对于自然原点,
认为它是一种具有各种情感因素
的状态,
但是由于这
些情感因素在该点的强度太弱而得不到体现。
通过向周围不
同方
向的扩展,
表现为不同的情感。
情感点同自然原点之间的距离体
现了情感的
强度。
由于各种情感在自然原点的周围排成了一个圆
形,
所以这种对情感进行分
类的方法叫做“情感轮
(
Emotion wheel
)”
。
对于任何一个情感语句,
可以根据其情
感强度和情感方向来在情感轮所组成的二维平面中用唯一的一个情感矢量来表
示。
其中情感强度表现为这个情感矢量的幅度值,
而情感方向则
表现为该情感矢
量的角度。
不同于<
/p>
Plutchik
的分类手段,
Fox<
/p>
提出的三级情感模型
[3]
,
则是按照情感中表
现的主动和被动的程度不同将情感分成不同的等级
(如表
1
所示)
。<
/p>
等级越低,
分
类越粗糙,等级越高,分类
越精细。
表
1 Fox
的情感
3
级分类模型
1
st
Level
2
nd
Level
3
Level
rd
Approach
Joy
Pride
Bliss
Interest
Concern
Responsibility
Anger
Hostility
Jealousy
Distress
Misery
Agony
Withdrawal
Disgust
Contempt
Resentment
Fear
Horror
Anxiety
除上
面介绍到的这两种分类方法外,
还有其它一些基于不同准则的分类方法。
如基于不同情感表现行为的分类
[3]
,基于生理特征
的情感分类
[3]
等。尽管这些方
法在
原理上有所区别,
但都具有相似的表现形式,
目前在语音情感研
究中常用的
情感分类大多是如图
1
中所
示的
8
情感模型或者
4
情感模型
(
喜、怒、悲、恐
)
。
2.2
语音信号中的情感特征分析
<
/p>
语音之所以能够表达情感,是因为其中包含能体现情感特征的参数。情感的
变化通过特征参数的差异而体现。
因此研究从语音信号中提取这些反映情感的参
数,
对于情感语音识别具有极其重要的意义。
< br>目前很多文献对如何提取语音中的
情感特征参数做了大量的研究,主要在时间构造
、振幅构造、基频构造、共振峰
构造等方面对情感语音加以不同的考虑。
当说话人处于不同情感状态时,会在语速上表现出一定的变化,在激动状态<
/p>
时,
语速较平常状态要高。
因此可以利用
判断语音信号中的语速和发话持续时间
等参数来判别情感中激动成分的程度。
同语音信号中的时间特征相类似,
信号的
振幅特征
和各种情感信息也具有较强的相关性,
在喜、
怒、
惊等情感时往往具有
较大的幅值,
而悲伤情感的幅度
值较低,
而且这些幅度差异越大,
体现出情感的
变化也越大。
语音的振动速率决定了语音信号的基频
(通常用
F0
表示)
,
F0
同理解语音的
基调有关。语音的振动产生了谐波谱
,它通过口腔和鼻腔时,经过了滤波,产生
了一个复杂的时变谱。考虑到当同一人发出的
带有不同情感而内容相同的语句
时,
其声道会有不同的变化,<
/p>
而共振峰频率与声道的形状和大小有关,
每种形状
都有一套共振峰频率作为其特征。
因此,
共振峰频率也
是表达情感的特征参数之
一。通常在语音情感识别时使用的主要特征参数包括以下内容<
/p>
[4]
表
2<
/p>
常用语音情感识别参数
特征参数
Rate
Pitch Avenage
Pitch Range
Intensity
Pitch change
F1 Avenage
F1 Range
意义
语速,单位时间内音节通过的速率
基音的均值
基音的变化范围
强度,语音信号的振幅方差
基音的平均变化率
第一共振峰均值
第一共振峰变化范围