基于TEO—DCT和缺失特征的瞬态声识别

投稿丽茗
更新时间2015-09-11
阅读量1012次
评分4
赞38
踩0

李亚兵1，尹雪飞1，陈克安2

（1.西北工业大学电子信息学院，陕西西安710129；2.西北工业大学航海学院，陕西西安710072）

摘要：为解决噪声环境下瞬态声自动识别系统性能下降的问题，在自动识别系统前端采用Teager能量算子（TEO）和离散余弦变换（DCT）相结合的方法进行降噪处理，同时采取基于高斯混合模型（GMM）的缺失特征边缘化算法进行自动分类。实验结果表明，此方法可以显著地提高噪声环境下系统的识别性能。

关键字：Teager能量算子；离散余弦变换；缺失特征；高斯混合模型

中图分类号：TN911.7-34 文献标识码：A 文章编号：1004-373X（2015）12-0012-04

收稿日期：2014-12-22

0 引言

环境中存在这样一类特殊的声音：瞬态声，它具有持续时间短、短时平稳、能量集中、宽频带广等特点，如敲门声、汽车短促的喇叭声、舰船及其中设备的启动声等，这类声音很容易被环境噪声所污染。瞬态声识别在军事及民用领域有极其广泛的应用，如潜艇识别、道路脱空检测及医学上对新生儿的听力诊断等，因此，对其研究具有重要的实用价值[1]。

目前，对于瞬态声的自动识别在实验室环境中效果很好，但是在噪声环境下，其识别性能会明显降低。因此，如何减小噪声的影响，是构建自动目标识别（Auto-matic Target Recognition System，ATR）系统的关键环节之一。本文分别在ATR的前端和后端进行降噪和缺失特征处理，以进一步提高系统对噪声干扰的鲁棒性。

在ATR 前端，需要通过一定的降噪处理以提高系统的抗噪性能，如谱减法[2]（Spectral Subtraction）、维纳滤波（Wiener Filtering）法、最小均方误差（Minimum Mean Square Error）法等，这些方法都是基于离散傅里叶变换方法。基于小波变换的降噪技术也可以达到很好的效果，如由Bahoura等提出的基于Teager能量算子（Teager Energy Operator，TEO）的小波去噪[3]，其在不同阈值上的变化是自适应的，但它的计算量较大，且小波基和分解层数的选择不容易。基于Teager能量算子[4]的离散余弦变换（Discrete Cosine Transform，DCT）降噪相对于基于离散傅里叶变换（DFT）的降噪方法有以下优势：DCT相比于DFT有更好的能量压缩特性；在相同的窗条件下，DCT比DFT有更好的频率分辨率。

本文将DCT和TEO相结合实现瞬态声信号的降噪[5]，既克服了离散傅里叶变换的缺点，也降低了计算量，该方法被称为TEO-DCT方法。

在ATR 后端，可以通过缺失特征（Missing Feature）方法，通过对不同时间或频率段的特征进行处理，进一步提高系统的识别性能。缺失特征技术[4]的主要原理是根据噪声对信号的不同时间、不同频带的影响不同，确定可靠特征和缺失特征，然后根据可靠特征进行识别或者通过其对缺失特征部分进行重构。

1 TEO-DCT 的阈值选择及其改进

传统的降噪方法[6-7]需要事先估计噪声幅值或信噪比，而基于TEO 的小波降噪算法在不同尺度上的阈值是自适应变化的，克服了固定阈值的不足，但是小波变换的计算量较大。DCT有相应的快速算法，可以有效降低计算复杂度，将其与TEO相结合，可以获得自适应阈值，并降低计算量。图1给出了实现TEO-DCT的框图。首先，对输入的含噪声的瞬态声信号进行DCT，然后根据DCT 系数计算TEO，再根据TEO 计算DCT 域的自适应性阈值。根据计算的阈值，对信号进行逆离散余弦变换（Inverse DCT，IDCT）就可以得到降噪后的信号。

（1）DCT模型

正如上面提及，相较于DFT，DCT 有更好的能量压缩性能，同时和小波变换相比，有更少的计算量。设y(n) 是一个长度为N 的含噪声信号，其一维DCT为：

式中：k=0，1，2，…，N-1；α 由式（2）定义：

（2）TEO的计算

对于离散信号，TEO的计算公式如下：

式中n 是离散信号的序列。DCT系数的TEO可以通过式（4）获取：

然后通过对其进行IIR滤波，获得其平滑效果：

不同于传统的DCT降噪的阈值选择方法，TEO可以有效地抑制噪声的DCT系数，而保留信号的DCT系数。

（3）阈值的获取

对式（4）获取的Tk 进行如式（6）的归一化处理，并将归一化后系数较小的部分视为噪声，而接近于1的部分视为信号，有：

为了将噪声部分的阈值设置的高，而将信号部分阈值设置的较低，需要对阈值的设置进行设置，自适应阈值可以通过式（7）得到：

式中τ 是由Donoho 和Johnstone 在1995 年提出的标准阈值[8]，可根据式（8）获得：

式中：N 表示采样窗长度；σ 表示该帧信号的噪声估计值，其由式（9）获得：

式中：MAD 表示绝对中位差，即先求出给定数值中位数，然后再求取原数值和求出的给定数值中位数的绝对差值的中位数。

（4）DCT系数的获取

根据式（7）获得的软阈值threshk 对DCT系数Yk 进行处理，一旦获取threshk ，就根据软阈值函数得到经过降噪的DCT系数Yk′ ：

此时，Yk′ 即是经过降噪处理后的DCT系数。

（5）信号的还原

对得到的DCT系数Yk′ 进行逆DCT，得到经过降噪后的信号帧yk′ ：

图2 为截取的一段铝板敲击声信号的波形及降噪结果，其中（a）为原始信号波形；（b）加载噪声为高斯白噪声、SNR 为5 dB 的带噪信号；（c）为经过TEO-DCT 降噪处理后的波形。

2 基于异常点的缺失特征检测

对于经过降噪处理的声信号，它并不能完全消除噪声的影响，其识别性能有待进一步提高，因此可以通过缺失特征的方法进一步降低噪声的影响，进而提高ATR的性能。

缺失特征技术主要由缺失特征检测和缺失特征处理两部分构成。

缺失特征检测[9-10]是缺失特征技术的重点和难点问题，恰当的缺失特征检测准则可以有效提高缺失特征技术的效果。环境声鲁棒性识别中，人们提出了大量缺失特征检测方法：

（1）根据每个时频域的SNR 估计估计缺失特征的可靠性，如理想掩蔽和局部SNR掩蔽估计；

（2）对声目标特征进行建模，例如，提取声目标特征，然后据此训练分类器确定特征可靠性，如基于分类器的掩蔽估计及基于异常点的掩蔽估计方法。

缺失特征处理主要有2种方法：

（1）缺失特征边缘化方法，该方法主要通过舍弃缺失特征进行识别，其需要在识别段对分类器进行修改；

（2）缺失特征重构方法，该方法通过先验知识，根据可靠特征部分重构出完整特征进行识别，其不需要对分类器进行修改。

异常点的缺失特征检测：这里采用基于聚类的异常点算法检测出异常点数据并将之视为缺失特征，该方法首先对数据集进行聚类分析，然后根据一定的准则（距离、密度等）选择出一定数目的点，然后在对这些检测出的数据进行进一步的分析。

缺失特征边缘化：缺失特征边缘化方法主要考虑到缺失特征部分受到噪声的污染比较严重，如果直接使用，可能会对识别效果产生消极影响，所以仅仅依靠可靠特征，而舍弃缺失特征部分进行分类，这样可以排除受噪声污染比较严重的特征影响，在一定程度上提高识别性能。

本文将TEO-DCT降噪技术和缺失特征边缘化相结合[11]构造ATR 系统，图3 给出了所用算法流程。先用TEO-DCT 对噪声信号进行降噪处理，利用降噪后的瞬态声信号提取Mel子带特征，然后根据缺失特征检测技术，确定可靠特征和缺失特征，根据可靠特征进行识别。

3 实验结果及分析

本文以矩形板冲击声为声样本，通过TEO-DCT 降噪技术和缺失特征边缘化方法的结合，提高ATR 系统的性能。另外，将本文算法和基准系统和理想边缘算法进行对比，验证该方法的有效性。

实验中，基准系统是指未经任何处理的ATR 方法。TEO-DCT表示经过Teager能量算子和DCT相结合的降噪方法进行识别。边缘化表示直接进行边缘化识别的方法。本文算法是指将TEO-DCT和边缘化相结合的方法。

3.1 实验样本的获取

在消声室环境下分别录取不同尺寸（边长分别为42 cm，30 cm，22 cm），调节小球不同高度（分别距离敲击位置1 cm，2 cm），敲击不同位置（分别距边3 cm、对角线距角8 cm以及中心位置）的木板、玻璃板和铝板的敲击声，而噪声分别选取Noise-92噪声库中的高斯白噪声和粉红噪声，分别对消声室环境下的录音加载0 dB，5 dB，10 dB，15 dB，20 dB，25 dB，将之作为待识别的声样本。

3.2 理想掩蔽的估计

缺失特征理想掩蔽的阈值判决过程中，设置SNR阈值，把阈值之下的特征部分作为缺失特征，反之则为可靠特征。而阈值选取的不同会造成识别效果的差异，如果其设置过高，则会把特征可靠部分误判为缺失部分，从而对识别造成负面影响；阈值过低，又会把噪声部分视为可靠特征，同样对识别不利。此处通过设置不同的阈值验证在不同SNR 条件下对识别性能的影响，实验结果如图4所示。

3.3 结果分析

表1和表2分别表示在高斯白噪声和粉红噪声条件下的识别率，高斯白噪声在无限频率宽度上具有均匀的连续谱，在时域上幅度分布为高斯分布，粉红噪声作为是自然界中最常见的噪声，其频率分量功率主要集中在中低频部分。

由表1和表2可以看出，TEO-DCT降噪方法在高斯噪声和粉红噪声条件下可以有效地提高系统的识别率，但是在粉红噪声条件下且较低的SNR时，由于Teager能量算子对低频的保护作用，而粉红噪声的能量主要集中在低频区域，所以该噪声下的识别性能提高并不明显。边缘化算法在各种噪声条件下均可有效提高系统的识别效率。

而本文算法通过将两种算法相结合，在高斯白噪声条件下，其相比于单纯的降噪技术和边缘化算法可以显著地提高声目标识别系统的性能；而在粉红噪声条件下，本文算法在高SNR 条件下识别性能虽然比降噪方法好，但是却不如单纯的边缘化算法。造成这种现象的原因是：由于对粉红噪声的降噪处理在高SNR 时造成的特征矢量失真情况比带噪信号特征矢量的失真现象更为严重。

4 结语

本文首先利用TEO 与DCT 相结合，设计出DCT 的时间自适应阈值降噪技术，可以有效地提高系统的降噪性能，同时，该方法也不像谱减法那样需要对噪声进行估计且避免了基于DFT变换降噪技术的相位问题。在后端，又根据缺失特征边缘化算法，将受噪声污染严重的特征剔除出去，在一定程度上提高了系统的性能。实验结果表明，仅仅利用缺失特征边缘化算法可以提高瞬态声目标系统性能，但将之与TEO-DCT结合的方法可以有效地提高低信噪比下ATR的识别性能。

作者简介：李亚兵（1989—），男，河南许昌人，硕士。研究方向为声目标识别。

教育期刊网 http://www.jyqkw.com
参考文献

[1] 陈克安.环境声的听觉感知与自动识别[M].北京：科学出版社，2014.

[2] 张雪英.数字语音处理及Matlab仿真[M].北京：电子工业出版社，2010.

[3] 高亚召，赵霞.基于Teager能量算子的自适应小波语音增强[J].电声技术，2009，33（1）：58-62.

[4] SANAM T F，IMTIAZ H. A DCT-based noisy speech enhance-ment method using Teager energy operator [C]// Proceedings of5th International Conference on Knowledge and Smart technolo-gy. [S.l.]：Burapha University，2013：16-20.

[5] RAJ B，STERN R M. Missing -feature approaches in speechrecognition [J]. IEEE Signal Processing Magazine，2005，22（5）：101-116.

[6] 李雪耀，谢华，张汝波.基于离散余弦变换的语音增强[J].哈尔滨工程大学学报，2007（2）：198-202.

[7] 李潇，李宏.一种改进的基于DCT变换的语音增强算法[J].计算机仿真，2010（12）：376-380.

[8] DONOHO D L. De - noising by soft - thresholding [J]. IEEETransactions on Information Theory，1995，41（3）：613-627.

[9] SELTZER M L，RAJ B，STERN R M. A Bayesian classifier forspectrographic mask estimation for missing feature speech recog-nition [J]. Speech Communication，2004，43（4）：379-393.

[10] PAWLITSCHKO J，SCHULTZE V. The identification of outliersin exponential samples [J]. Statistica Neerlandica，2002，56（1）：41-57.

[11] 王宁，陆伟，戴蓓倩，等.结合谱减和缺失特征重建的鲁棒性话者识别[J].数据采集与处理，2009，24（2）：149-153.