马英,陈超,贾国庆
(青海民族大学物理与电子信息工程学院,青海西宁810007)
摘要:基音周期是语音信号的重要参数,提取藏语语音基音周期为藏语语音识别和藏语语音合成奠定很重要的基础。这里在分析藏语发音特点的基础上进行基于LPC的藏语语音基音周期提取算法的分析,实践表明,该方法更加符合小信噪比藏语音信号基音周期和提取。在传统LPC分析方法的基础上结合自相关法和倒谱法,分析计算平均相对误差,总结出了符合藏语语音特点的特征提取算法。
教育期刊网 http://www.jyqkw.com
关键词 :LPC;藏语语音;基音周期;倒谱法
中图分类号:TN912?34 文献标识码:A 文章编号:1004?373X(2015)16?0013?03
收稿日期:2015?03?06
基金项目:教育部“春晖计划”国际合作科研项目(Z2012112);青海省国际科技合作项目(2014?HZ?821)
语音信号特征参数有很多种,有基音周期,共振峰频率,增益参数等,每一个特征参数都表征语音信号不同的信息,不同的语音信号有着不同的特征参数;因此,语音信号特征参数是语音识别,语音合成中的重要因素。在语音信号分析中,特征参数的提取是否准确决定着语音识别的识别率。然而不同的语音信号有着不同的特征参数提取方法,同种语言的不同方言在语音上相差悬殊,随着语言环境的变化,系统性能会变得很差。因此文章针对青海安多藏语语音信号采用多种提取方法,通过比对,总结出符合藏语语音信号的基音周期提取算法。
1 藏语语音的基本特点
藏语语音发音机制有完整的理论体系,与现代语音学的理论是完全吻合的。藏语语音与西方语言有相似之处,其是一种拼写语音的音素拼音语言,发音特点有自己独特的规律。藏文有30个辅音字母,藏文的音节一般由1~6个字母组成,藏语主要有3大方言:卫藏、康巴、安多[1]。以拉萨为中心向西的高原大部分叫“卫藏”;念青唐古拉山至横断山以北的藏北,青海,甘南,川西北大草原叫“安多”;“康巴”位于横断山区的大山大河夹峙之中。在3大方言中,卫藏和康巴方言有声调,大量鼻化元音和复元音,而安多方言没有这些特点,安多藏语语音的重要特征就是声母清浊音对立,复辅音较多,声母数目比卫藏和康巴方言多,韵母系统都是单元音,没有复元音韵母[2]。因此,安多方言藏语语音信号的特征参数与语音的发音部位、发音方法、发音动力和音势的强弱等息息相关。
2 几种算法存在的问题
在语音信号特征参数提取中有很多算法,经过多次实验,对其中LPC法、自相关法和倒谱法进行分析。在实验中,由于语音样点之间存在相关性,LPC 分析可以用过去的样点值预测现在和未来的样点值,而采用LPC方法提取藏语语音信号的特征参数,其算法的运算量较大,并且LPC分析中窗长的选择不合适会影响语音信号特征参数提取的准确性;采用CEP分析方法,虽然可以减少算法的运算量,但CEP谱只有少部分情况下,基音峰值才会变得很突出,这也会使藏语语音基音周期估值的准确率下降;采用自相关法,如果窗长不足够长,周期数不足够多,提取特征参数会产生很大的误差。因此通过多种方法对安多藏语语音信号进行多次的实验,解决存在的相关问题,提高特征参数提取的准确性,并有效地应用于藏语语音识别中。
3 问题的解决
可以采用全极点模型,假设一个随机过程用一个p阶全极点系统受白噪声激励产生的输出来模拟,则传输函数为[3]:
式中:P 是预测系数;G 声道滤波器增益;S(z)和E(z)分别为输出s(n)信号和输入信号e(n)的z 变换,那么可以表示为差分方程[3]:
对于浊音,激励e(n)是基音周期重复的单位冲激;对于清音,e(n)是稳衡白噪声。定义线性预测器为[3]:
式(2)表明预测误差序列是s(n)通过具有如下系统函数产生的:
式中A(z)也被称作逆滤波器。由式(4)可得:
G·E(z) = S(z·) A(z)
如果将原始语音通过逆滤波器A(z)进行逆滤波,则可获得预测余量信号ε(n)(理想情况下ε(n) = G·e(n))。理论上讲,预测余量信号ε(n) 中已不包含声道响应信息,但却包含完整的激励信息。对预测余量信号ε(n) 进行自相关分析、倒谱分析,将可获得更为清晰的基音信息。
3.1 LPC?自相关法
对输入藏语语音分帧加窗后,首先对分帧语音进行LPC分析,得到预测系数ak 并由此构成逆滤波器A(z);然后将原分帧语音通过逆滤波器滤波,获得预测余量信号ε(n) ;在对预测余量信号做低通滤波后,将所得信号作自相关变换。最终根据所得自相关函数中的基音信息检测出藏语基音周期。LPC?自相关法[3]流程如图1所示。
3.2 LPC?倒谱法
对输入藏语语音分帧加窗后,首先对分帧语音进行LPC分析,得到预测系数ak 并由此构成逆滤波器A(z);然后将原分帧语音通过逆滤波器滤波,获得预测余量信号ε(n) ;在对预测余量信号做DFT、取对数后,将所得信号的高频分量置零;最后将此信号作IDFT,得到原信号的倒谱。最终根据所得倒谱中的基音信息检测出藏语基音周期。LPC?倒谱法[3]流程如图2所示。
4 实验仿真
本文使用单项算法和组合算法进行基音周期检测分析,基音周期分别使用自相关法、倒谱法、LPC?自相关法、LPC?倒谱法4种算法进行测试提取,采用一段藏族男生录音,采样频率为16 kHz。原始语音信号时域波形见图3。
5 结果分析
5.1 准基音周期的确定
图4为一帧原始藏语语音信号s(n)的时域波形图,从图中可看出1帧信号包括3个完整的基音周期,且每个基音周期有细微差别,在此以3个基音周期的平均值作为实际语音的基音周期。(300 - 52) 3 = 82.67,即基音周期为82.67个样点值,则基音周期为82.67×1 16 =5.168 75 ms。
5.2 残差信号与原始信号的比较分析
图5中ε(n) 为残差信号,从图中可看出s(n)的幅度是ε(n) 幅度的约10 倍,但它们的主体波形确有98%的相似,只是相位延时了4 个样点值。由此得残差信号ε(n) 的能量要比原信号s(n)的能量小的多,但残差信号确为信号s(n)的激励源。
5.3 自相关法与LPC?自相关法的比较分析
图6为s(n)的自相关法检测结果,将s(n)进行自相关变换得出。由图可知P=84,即基音周期为84个样点值,则基音周期为84×1 16 =5.25 ms。
图7为LPC?自相关法检测,对s(n)的残差信号ε(n) 作自相关检测获得。由图可知P=83,即基音周期为83个样点值,则基音周期为83×1 16 =5.187 5 ms。由此可得s(n)残差信号的自相关检测结果要比s(n)的直接自相关检测结果精确的多。
5.4 倒谱法与LPC?倒谱法的比较分析
图8为s(n)的倒谱法检测,对s(n)直接进行倒谱分析获得。由图可知P=84,即基音周期为84个样点值,则基音周期为84×1 16 =5.25 ms。
图9为LPC?倒谱法检测,即对s(n)的残差信号ε(n)作倒谱分析获得。由图可知P=83,即基音周期为83个样点值,则基音周期为83×1 16 =5.187 5 ms。
由此可得s(n)残差信号的倒谱分析结果要比s(n)的倒谱分析结果精确的多。
5.5 LPC?倒谱法与LPC?自相关法的比较分析
为进一步比较LPC?倒谱法与LPC?自相关法的性能,对藏语语音录音进行50次实验。使用2种算法进行基音提取,进行25次大信噪比藏语语音信号基音提取和25次小信噪比藏语语音信号基音提取,并计算平均相对误差。实验结果分别见表1和表2。
6 结语
由以上分析可得,针对安多藏语语音信号基音周期的提取,LPC?倒谱法优于LPC?自相关法,LPC?倒谱法更加符合小信噪比藏语语音信号基音周期的提取,其顽健性更好,准确性更高,在今后的藏语语音识别中得到广泛应用。
教育期刊网 http://www.jyqkw.com
参考文献
[1] 顿珠次仁.藏语语音信号降噪算法研究[J].西藏大学学报:自然科学版,2010,25(2):61?65.
[2] 敏生智,耿显宗.安多藏语会话读本[M].西宁:青海民族出版社,2003.
[3] 赵力.语音信号处理[M].北京:机械工业出版社,2007.
[4] 李洪波,于洪志.藏语语音识别的预处理研究[C]//中国中文信息学会二十五周年学术会议论文集.北京:中国中文信息学会,2006:135?137.
[5] 李勇,于洪志,达哇彭措.基于关联规则的藏语语音韵律参数提取[J].微计算机信息,2009(6):255?257.
[6] 姚徐,李永宏,单广荣,等.藏语孤立词语音识别系统[J].西北民族大学学报:自然科学版,2009,30(1):29?36.
作者简介:马英(1978—),女,青海西宁人,副教授,硕士。主要研究方向为信号处理。
陈超(1968—),男,青海西宁人,副教授,硕士。
贾国庆(1983—),男,青海西宁人,副教授,博士。