语音信号处理中关于声音的一些基础知识

破晓 · 发表于 2015-8-28 17:31:13

版权声明：转载时请以超链接形式标明文章原始出处和作者信息及本声明
 http://www.blogbus.com/richard-logs/158145.html

1:波形声音

波形声音时最常用的Windows多媒体特性。波形声音设备可以通过麦克风捕捉声音，并将其转化为数值，然后把它们储存到内存或者磁盘上的波形文件中，波形文件的扩展名为：.wav。这样声音就可以播放了。

2：声音和波形

任意周期的波形（即一个循环波形）可以分解为多个正弦波，这些正弦波的频率是整数倍。这就是所谓的Fourier级数。周期的频率是基础。级数中其他正弦波的频率是基础频率的2倍，3倍，4倍（等等）。这些频率的声音称为泛音。基础频率也称作一级谐波，第一泛音是二级谐波，以此类推。
正弦波谐波的相对强度给每个周期的波形唯一的声音。这就是“音质”。

3：脉冲编码调制（Pulse Code Modulation）

计算机处理的是数值，因此要使声音进入计算机，就必须设计一种能将声音与数字信号相互转换的机制。不压缩数据就完成此功能的最常用方法即是PCM。PCM可用在光盘，数字式录音磁带以及Windows中。脉冲编码调制其实只是一种概念上很简单的处理步骤地奇怪代名词而已。
利用脉冲编码调制，波形可以按固定的周期频率取样，其频率通常是每秒几万次。对于每个样本都测量其波形的振幅。完成将振幅转换成数字信号工作的硬件是模拟数字转换器（ADC：analog-to-digital converter）。类似地，通过数字模拟转换器（DAC：digital-to-analog converter）可将数字信号转换回波形电子信号。但这样转换得到的波形与输入的并不完全相同。合成的波形具有由高频组成的尖锐边缘。因此，播放硬件通常在数字模拟转换器后还包括一个低通滤波器。此滤波器滤掉高频，并使合成后的波形更平滑。
在输入端，低通滤波器位于ADC前面。
脉冲编码调制有两个参数：取样频率，即每秒内测量波形振幅的次数；样本大小，即用于储存振幅级的位数。取样频率越高，样本大小越大，原始声音的复制品才更好。不过，存在一个提高取样频率和样本大小的极点
，超过这个极点也就超过了人类分辨声音的极限。另外，如果取样频率和样本大小过低，将导致不能精确地复制音乐以及其他声音。

4：取样频率：

取样频率决定声音可被数字化和储存的最大频率。尤其是，取样频率必须是样本声音最高频率的两倍。这就是「Nyquist频率（Nyquist Frequency）」，以30年代研究取样程序的工程师Harry Nyquist的名字命名。
以过低的取样频率对正弦波取样时，合成的波形比最初的波形频率更低。这就是所说的失真信号。为避免失真信号的发生，在输入端使用低通滤波器以阻止频率大于半个取样频率的所有波形。在输出端，数字模拟转换器产生的粗糙的波形边缘实际上是由频率大于半个取样频率的波形组成的泛音。因此，位于输出端的低通滤波器也阻止频率大于半个取样频率的所有波形。
声音CD中使用的取样频率是每秒44,100个样本，或者称为44.1kHz。这个特有的数值是这样产生的：人耳可听到最高20kHz的声音，因此要拦截人能听到的整个声音范围，就需要40kHz的取样频率。然而，由于低通滤波器具有频率下滑效应，所以取样频率应该再高出大约百分之十才行。现在，取样频率就达到了44kHz。
这时，我们要与视讯同时记录数字声音，于是取样频率就应该是美国、欧洲电视显示格速率的整数倍，这两种视讯格速率分别是30Hz和25Hz。这就使取样频率升高到了44.1kHz。
取样频率为44.1kHz的光盘会产生大量的数据，这对于一些应用程序来说实在是太多了，例如对于录制声音而不是录制音乐时就是这样。把取样频率减半到22.05 kHz，可由一个10 kHz的泛音来简化复制声音的上半部分。再将其减半到11.025 kHz就向我们提供了5 kHz频率范围。44.1 kHz、22.05 kHz和11.025 kHz的取样频率，以及8 kHz都是波形声音设备普遍支持的标准。

5：样本大小：

脉冲编码调制的第二个参数是按位计算的样本大小。样本大小决定了可供录制和播放的最低音与最高音之间的区别。这就是通常所说的动态范围。
声音强度是波形振幅的平方（即每个正弦波一个周期中最大振幅的合成）。与频率一样，人对声音强度的感受也呈对数变化。两个声音在强度上的区别是以贝尔（以电话发明人Alexander Graham Bell的名字命名）和分贝（dB）为单位进行测量的。1贝尔在声音强度上呈10倍增加。1dB就是以相同的乘法步骤成为1贝尔的十分之一。由此，1dB可增加声音强度的1.26倍（10的10次方根），或者增加波形振幅的1.12倍（10的20次方根）。1分贝是耳朵可感觉出的声强的最小变化。从开始能听到的声音极限到让人感到疼痛的声音极限之间的声强差大约是100 dB。
如果样本大小是8位，则最大振幅与最小振幅之间的比例就是256。这样，动态范围就是48分贝。48的动态范围大约相当于非常安静的房屋与电动割草机之间的差别。将样本大小加倍到16位产生的动态范围是96分贝。这非常接近听觉极限和
疼痛极限，而且人们认为这就是复制音乐的理想值。
Windows同时支持8位和16位的样本大小。储存8位的样本时，样本以无正负号字节处理，静音将储存为一个值为0x80的字符串。16位的样本以带正负号整数处理，这时静音将储存为一个值为0的字符串。
要计算未压缩声音所需的储存空间，可用以秒为单位的声音持续时间乘以取样频率。如果用16位样本而不是8位样本，则将其加倍，如果是录制立体声则再加倍。例如，1小时的CD声音（或者是在每个立体声样本占2字节、每秒44 ,100个
样本的速度下进行3 600秒）需要635MB，这快要接近一张CD-ROM的储存量了。

帐号		自动登录	找回密码
密码			立即注册

[音频分析] 语音信号处理中关于声音的一些基础知识

相关帖子

浏览过的版块

开源英雄

守望者

站长推荐 /4