-
第一章
数字音频基础知识
主要内容
?
声音基础知识
?
认识数字音频
?
数字音频专业知识
第
1
节
声音基础知识
1.1
声音的产生
?
声音是由振动产生的。物体振动停止,发声也停止。当振动波传到人耳时,人便听到了声音。
< br>
?
人能听到的声音,包括语音、音乐和其它声音(环境
声、音效声、自然声等)
,可以分为乐音和噪音。
?
乐音
是由
规则的振动产生的,只包含有限的某些特定频率,具有确定的波形。
?
噪音
<
/p>
是由不规则的振动产生的,它包含有一定范围内的各种音频的声振动,没有确定的波形。<
/p>
1.2
声音的传播
?
声音靠介质传播,真空不能传声。
?
介质:能够传播声音的物质。
p>
?
声音在所有介质中都以声波形式传播。
?
音速
?
声音在每秒内传播的距离叫音速。
?
声音在固体、液体中比在气体中传播得快。
?
15?
C
时空气中的声速为
340m/s
。
1.3
声音的感知
?
外界传来的声音引起鼓膜振动经听小骨及其他组织传给听觉神经,听觉神经再把信号
传给大脑,这样人就听到了声音。
?
双耳效应的应用:立体声
?
人耳能
感受到(听觉)的频率范围约为
20Hz~
20k
Hz
,
称此频率范围内的声音为可听声
(audible sound)
或音频
(audio)
,
频率
<20Hz
声
音为次声,
频率
>20kHz
声音为超
声。
?
人的
发音器官发出的声音(人声)的频率大约是
80Hz
~
3400Hz
。人说话的声音(话音
voice
/
语音
speech
)的频率通常
为
300Hz
~
3000 Hz
(带宽约
3kHz
p>
)
。
?
传统乐器的发声范围为
16Hz (
C2)
~
7kHz(a5)
,如钢琴的
为
27.5Hz (A2)
~
4186
Hz(c5)
。
1.4
声音的三要素
?
声音具有三个要素:
音调、
响度(音量
/
音强)和音色
?
人们就是根据声音的三要素来区分声音。
音调(
pitch
)
?
音调:
声音的高低(高音、低音)
,
由
p>
“
频率
”
(
frequency
)决定,频率越高音调越高。
?
声音的频率是指每秒中声音
信号变化的次数,
用
Hz
表示。
例如,
20Hz
表示声音信号在
1
秒钟内周期性地变化
20
次。
<
/p>
?
高音:音色强劲有力,富于英雄气概。擅于表现强烈的感情。<
/p>
?
低音:音色深沉浑厚,擅于表现庄严雄伟和苍劲沉着的感情。
响度(
loudness
)
?
响度:
又称音量、音强,指人主观上感觉声音的大小,由
“
振幅
”
(
amplitude
)和人离声源的距离决定,振幅越大响度越
大,人和声源的距离越小,响度越大。<
/p>
(单位:分贝
dB
)
音色(
music
quality
)
?
音色:又称音品,由发声物体本身材料、结构决定。
?
每个人讲话的声音以及钢琴、提琴、笛子等各种乐器所发出的不同声音,都是由音色不
同造成的。
1.5
声道
?
声道(
sound channel
/ track
)是分开录音然后结合起来以便同时听到的一段声音。
< br>
?
早期的声音重放(
playback/
reproduction
)技术落后,只有单一声道(
mono /
monophony
)
,只能简单地发出声音(如
留声机、调幅
AM
广播)
;
?
后来有了双声道的立体声
(
stereo
)
技
术
(如立体声唱机、
调频
FM
立体声广播、
立体声盒式录音带、
激光唱盘<
/p>
CD-DA
)
,
利用人耳的双耳效应,感受到声音的纵深和宽度,具有立体感。
p>
?
现在又有了各种多声道的环绕声(
sur
round sound
)重放方式(如
4.1
、
5.1
、
6.1
、
7.1
声道)
,将多只
喇叭(扬声器
speaker
)
分布在
听者的四周,建立起环绕聆听者周围的声学空间,使听者感受到自己被声音包围起来,具有强烈的现场感(如电影
院、家庭影院、
DVD-Audio
、
SACD
、
DTS-CD
、
HDTV
)
。
第
2
节
认识数字音频
2.1
模拟信号
?
音频信号是典型的连续信号,不仅在时间上是连续的,而且在幅度上也是连续的。在时
间上
“
连续
”
是指在任何一个指定
的时间范围里声音信号都有无穷多个幅值;在幅度上
“
连续
”
是指幅度的数值为实
数。
?
我们把在时间(或空间)和幅
度上都是连续的信号称为模拟信号
(analog
signal)
。
2.2
数字信号
?
在某些特定的时刻对这种模拟信号进行测量叫做采样
(sampling)
,在有限个特定时刻采样得到的信号称为离散时间信号。
采样得到的幅值是无
穷多个实数值中的一个,因此幅度还是连续的。把幅度取值的数目限定为有限个的信号就称为离散幅
度信号。
?
我们把时间和
幅度都用离散的数字表示的信号就称为数字信号
(digital
signal)
。
?
从模拟信号到数字信号的转换为模
数转换,记为
A/D(Analog-to-
Digital)
;
?
从数字信号到模拟信号的转换为数模转换,记为
D/A(Digital-
to-Analog)
。
第
3
节
数字音频专业知识
人们日
常生活听到的各种声音信息是典型的连续信号,它不仅在时间上连续,而且在幅度上也连续,我们称
之为模拟音频。在数字音频技术产生之前,我们只能用磁带或胶木唱片来存储模拟音频,随着技术的发
展,声音信号逐渐
过渡到了数字化存储阶段,可以用计算机等设备将它们存储起来。
p>
3.1
模拟音频的数字化
对于计
算机来说,处理和存储的只可以是二进制数,所以在使用计算机处理和存储声音信号之前,我们必须
使用模数转换(
A/D
)技术将模拟音频转化为二进
制数,这样模拟音频就转化为数字音频了。所谓模数转换就是将模拟信
号转化为数字信号
,模数转换的过程包括采样、量化和编码三个步骤。模拟音频向数字音频的转换是在计算机的声卡中完
成的。
3.2
采
样
?
p>
采样是指将时间轴上连续的信号每隔一定的时间间隔抽取出一个信号的幅度样本,把连续的模
拟量用一个个离散的点表
示出来,使其成为时间上离散的脉冲序列。
?
每秒钟采样的次数称为采样
频率,用
f
表示;样本之间的时间间隔称为取样周期,用
T
表示,
T=1/f
。例如:
CD
的采样
频率为
44.1kHz
,表示每秒钟采样
44100
p>
次。
?
常用的采
样频率有
8kHz
、
11.025Hz
、
22.05kHz
、
15kHz
、
44.1kHz
、
48kHz
等。
?
在对模
拟音频进行采样时,取样频率越高,音质越有保证;若取样频率不够高,声音就会产生低频失真。
?
那么怎样才能避免低频失真呢?
著名的采样定理(
Nyquist
定理)中给出有明确的答案:要想不产生低频失真,采样频率至少应为所要录制的音频的
最高频率的
2
倍。例如,电话话音的信号频率约为
3.4 kHz
,采样频率就应该≥
6.8 kHz
,考虑到信号的衰减等因素,一
般取为
8kHz
。
3.3
量
化
?
量化是
将采样后离散信号的幅度用二进制数表示出来的过程。
?
p>
每个采样点所能表示的二进制位数称为量化精度,或量化位数。
<
/p>
?
量化精度反映了度量声音波形幅度的精度。例如,每个声音样本
用
16
位
(2
字节
)
表示,测得的声音样本值是在
0
~
65536
的范围里,它的精度就是
输入信号的
1/65536
。
?
常用的采样精度为
8bit/s
、
12 bit/s
、
16bit/s
、
20bit/
s
、
24bit/s
等。