守望者--AIR技术交流

 找回密码
 立即注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

搜索
热搜: ANE FlasCC 炼金术
查看: 847|回复: 0

[音频分析] 声音信号处理基本原理

[复制链接]
  • TA的每日心情
    擦汗
    2018-4-10 15:18
  • 签到天数: 447 天

    [LV.9]以坛为家II

    1742

    主题

    2094

    帖子

    13万

    积分

    超级版主

    Rank: 18Rank: 18Rank: 18Rank: 18Rank: 18

    威望
    562
    贡献
    29
    金币
    51691
    钢镚
    1422

    开源英雄守望者

    发表于 2015-8-31 15:01:07 | 显示全部楼层 |阅读模式
    一、声音信号之特性
    声音是一维信号研究的重要对象,最常见的传播声音的介质是空气,声波和电磁波有很大的不同,例如声波的速度显然比光波慢的多,声音传播的速度与介质的性质和温度有关,例如在空气温度为 0 度时,声波的速度为 331.5m/s,如果空气温度每升高 1 度时,则声音传播的速度约增加 0.6m/s。电磁波是利用电磁感应的方式来传播,而声波的传播方式则通常是机械式的,当介质如空气受到某处震源的压迫时,被压迫的空气分子,就对其平衡位置产生位移,并引起附近空气分子也对其平衡位置产生位移。如所受的压迫是周期性的,而且其频率在声波范围内,此时,空气中就产生声波。 声波通常是指振动频率在人能感应范围以内的波动,称为可闻波 (Audiblesound)。当频率高于可闻声时称超音波 (Ultrasound),其能量较高,一般可用于医学或工程之检测或塑料等材料加工,至于频率比可闻波低时称为低音波 (Infrasound),例如地震所引起的地震波。
    至于目前声音信号与数字信号处理关系最大的,首推通信方面,由于多媒体信息普及,其数据内容除了文字就是图片与声音,尤其是结合数字电子声音技术的因特网电话,它利用数字信号处理将语音加以数字化压缩,转成数据的形式之后再用线路一部分的频宽移作声音传送,透过因特网传送到通话的彼端,再解压缩回复成为原来的声音,在现在的计算机配备中,计算机音效早已从以往的 PC 喇叭变为 Adlib 卡、声霸卡等输入及输出的装置,因此使得因特网电话出现广泛的热潮﹐目前已有在网络上面点播歌曲的应用案例。一般电话的语音与电视讯号都是模拟的形式﹐不经过压缩与编码就能传送,但是在频宽与多任务能力方面却远不如因特网﹐因此数字信号处理将掀起未来通信方面的革命。
    数字电子声音技术中有一项很重要的工作就是编码的方法,常见的编码方法为脉波码调制 (pulse code modalation; PCM) 及高阶脉波数字码调制 (advanced pulse code modulation; ADPCM),目前像雷射唱盘、数字录音带、通信卫星、电话通信,都是各式各样的 PCM 技术应用的具体例子。影响 PCM 的效果的一个因素一为取样频率,一为取样位数,由于这两者其值大小都与人类的听觉与语音能力有关,因此我们先介绍人耳及嘴唇方面的特性。 二、人耳及嘴唇方面的特性
    如果我们把人类的语音转到频谱上来分析,可以看到在频谱上人类语音信号大都集中于某一个区段有较高的能量,这也意味着这个能量较高的频带就是人类声腔的共鸣区域,我们通常称这个频带为基本频率(fundamental frequency),每个人的基本频率因为天生的口腔结构而有所不同,通常小孩子的基本频率在 250~400HZ 左右,而成年女子约在 200~300HZ左右,而成年男子则约在 100~150HZ 左右,因此男高音较为少见,也就是这个原因。
    当人类发出声音时,如果有利用到声带振动来发音,则称为有声音(Voiced Sound),否则称之为无声音 (unvoiecd sound),而语音中又可分为具有稳定声道激发共鸣振动及音源振动变化较多较杂乱的子音。


    对人类耳朵而言,而够接受的音频范围很窄,大约在10Hz到20 KHz左右,而其中在 1.2 KHz 到 1.4 KHz 左右是听觉最敏锐的频带,而在此频带之前,人耳对较低的频率并不敏感,随着频率越高,人耳便越听得清楚,亦即人耳对高频的声音有自动增益的效果 (AGC)。因此如果我们用手来回挥动空气,如此低频的振荡,是无法发出人耳可以发觉的声音,除非我们鼓掌,在拍手的过程中,两手迅速的撞系并将空气挤压出去,这种较短的脉冲式振动,其中包含了高频的空气振动,因此人耳便能够听到拍手的声音。
    相对的人的嘴唇构造却较无法发出高频的声音,随着发出的声音频率越高,嘴中所发出的强度即随之而减弱,因此当我们在作语音信号取样时,并不需要将取样频率取得太高,一般而言,使用 11 KHz 即告足够,因为语音中高频的部份很少,声音的变化不快,但音乐就不同了,音乐数据变化性通常很大,一般取样频率是使用 22KHz,如此重新放出来时人耳听来才不致有失真的感觉。 三、声音讯号数据之取样量化
    当声音讯号数据之取样量化的位数为 80 时,可以得到 256 个音阶,而取样位数为 16 时,则拥有 65536 个音阶,较高的取标频率与较多的取样位数意谓着较高的质量,但同样的也表示较昂贵的装备和较大的记备空间。
    对语音而言,使用 8 KHz 取样频率, 4 bit 取样位,记录一分钟语音再予压缩后大约要花掉 62 KB 的内存。对收音机的声音而言,使用 11 KHz 取样频率记录一分钟则占用 322 KB 的内存,而记录调幅合成日时,使用 22 KHz 取样频率,则要占去 1291KB 的内存,至于若要达到激光唱片的质量要求,则使用 44.1 KHz 取样频率, 16 bit 取样位,因此记录一分钟便要 5167 KB 的内存,在没有压缩的情况下,一张光盘也只能储存七十六分钟的音乐而已。
    由于 PC 喇叭为早期的个人计算机标准配备,早期个人计算机的教学软件及电动玩具程序,是直接利用个人计算机上面的喇叭把电动玩具的音乐播放出来,虽然表现的效果比不上声霸卡的真实动听,但,不像现在的音效软件动辄数片光盘片,为什么它所占的资料文件很小呢?这是因为个人计算机上喇叭装置不像声霸卡有 256 或更高的音阶,它只有一个位,亦即只有两种状态:开与关,大家可能会怀疑只是将喇叭做开与关的动作真的能够产生音乐吗?然而代表声音信号特色的两个要素:"频率"与"音量"来看,"频率"这个要素无宁是重要了许多,因此我们将音乐波形转换成各种不同频率的方波后,推动喇叭来发音,仍然可以得到近似的声音,例如想产生高音时只需将喇叭的开与关动作加速,就可以产生较高频的声音,同样的,如果想要产生低音时则将喇叭开与关的速度放慢,就可以产生较低频的声音,由于音量无法控制,因此在比较高频的音效里,其所包含的能量较多,听起来一定比低频的声音大声。 四、一维信号辨识系统
    单纯的将一维信号予于传利叶转换到频谱上去分析,有时候就能够把问题的症结找出来了。除了机械结构物体的振动分析之外,我们也可将类似的技术用在生物体上,例如用在生鲜鸡蛋的节选上,工程人员将一个脉冲振洫施加于蛋壳上,再利用一束雷射光照射于鸡蛋上并侦测其反射回来的光信号变化,便可得到蛋壳表面的振动位移信息,再这些振动位移信息予以傅氏转换,观察其频谱上之峰值出现于何处,就可知道这个鸡蛋是否是颗好蛋或昃已感染了病毒,因为好蛋和坏蛋的自然频率是有很大的差异量的。


    近年来国内中研院和台大医院发展出一种新的诊病技术,也是利用一个特殊脉冲施加于人体,再在人体上侦测其信号及傅氏转换频谱反应,频谱上出现的人体不同的自然频率都意味着不同的病变。
    话说回来,一维信号辨识技术仍然以语音辨识的应用量为最大,一个声音讯号数据通常是很大且连续的,如果直接从这笔声音数据去分析、辨识,不但数据处理速度太慢,且还要处理一些不必要的噪声干扰,所以要设法从输入的声音信息中撷取特征值参数,以方便辨认声音所对应的参考样板而输出其结果。一般在建立语音辨识系统时,通常都类似图 1-1之基本模式,而声音辨识的技巧也是如此。
    在语音辨识模式中应用相对的观念,将一未知声音和预存的声音作型样识别 (pattern recognition),其流程如下:  
    (1) 利用信号处理技巧,撷取输入声音的特征值 (feature)。 (2) 在训练程序时把所撷取的特征值储存做参考样板。
    (3) 再处理未知语音的特征值,成为待识样本后再和参考样板作型样匹配 (pattern matching),求得其差距值。
    (4) 由所得到的差距值,依各种合理的决策法则来决定其结果。

    守望者AIR技术交流社区(www.airmyth.com)
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    
    关闭

    站长推荐上一条 /4 下一条

    QQ|手机版|Archiver|网站地图|小黑屋|守望者 ( 京ICP备14061876号

    GMT+8, 2019-8-19 01:38 , Processed in 0.039052 second(s), 31 queries .

    守望者AIR

    守望者AIR技术交流社区

    本站成立于 2014年12月31日

    快速回复 返回顶部 返回列表