摘 要:目前最先进的语音合成和语音转换模型能够生成人耳无法区分的虚假语音,这对自动说话人验证(ASV)系统的安全构成巨大威胁。近年来,越来越多抗欺骗对策用于提高ASV系统的可靠性。然而,在实际使用中,在检测未知攻击时遇到困难,特别是,合成语音欺骗算法的快速发展正在产生越来越强大的未知攻击。在这项工作中,由于ResNeSt网络模型在图像分类和检测任务中取得较好的成绩,因此构建了残差卷积神经网络的变体ResNeSt,使用时域二维特征转换、频域特征等各种特征提取方法(MFCC、LFCC、CQCC)来检测未知的合成语音欺骗攻击。实验结果表明,ResNeSt系统在ASV的逻辑评估集上达到了6.04%的等错误率(EER),相比ASVspoof2019的基线模型提高了25%的性能。
关键词:自动说话人验证; ResNeSt模型;语音合成;语音转换;倒谱系数; EER;神经网络,
Audio spoofing detection based on ResNeSt network
HE Xin HU Jinyao Askar Hamdulla Mijit Ablimit
School of Information Science and Engineering,Xinjiang University
Abstract:The current state-of-the-art speech synthesis and speech conversion models are capable of generating fake speech that is indistinguishable by the human ear. This poses a huge threat to the security of automatic speaker verification(ASV)system. In recent years,more and more anti-spoofing countermeasures are used to improve the reliability of ASV system.However,in practical use,it is difficult in detecting unknown attacks,and in particular,the rapid development of synthetic speech deception algorithms is producing increasingly powerful unknown attacks. Because the ResNeSt network model has achieved good results in image classification and detection tasks,a variant ResNeSt of the residual convolutional neural network is constructed in this paper,in which time-domain two-dimensional feature transformation,frequency-domain feature and other feature extraction methods(MFCC,LFCC,CQCC) are used to detect the unknown synthetic speech spoofing attacks. The experimental results show that the ResNeSt system achieves an equal error rate(EER)of 6.04% on the ASV logic evaluation set,which represents a 25% performance improvement over the baseline model of ASVspoof2019.
Keyword:automatic speaker verification; ResNeSt model; speech synthesis; speech conversion; cepstral coefficient; EER; neural network;
0 引言
语音交流为用户和智能设备之间提供了最方便的交互方式,其发展突飞猛进,从智能语音助手到智能家居再到手机银行等各种场景得到广泛的应用。然而,语音交流需要一个很重要的环节,就是自动说话人验证(Automatic Speaker Verification,ASV)系统,因此,ASV已经成为说话人生物识别的一种标准。由于语音合成和语音转换技术的快速发展,合成出来的语音质量越来越高且获取方式也愈加方便,已经对ASV系统构成威胁。当前自动说话人验证系统面临的主要攻击方式有:语音模仿、合成语音、转换语音、录音重放。研究者们投入了大量的精力来开发各种欺骗检测对策,这些对策要么专门针对特定的攻击,要么普遍使用新的自动说话人验证系统(ASV)。在文献[1]中可以找到欺骗方法及其详细对策。
本文选择深度神经模型用于分类,在深度神经网络模型中,卷积网络在图像分类中最为成功,又被成功应用到其他的数据模式中,如语音、文本等。使用不同的特征提取算法将输入的原始时域语音波形转换成二维特征,再将二维特征输入到卷积模型中。当训练模型由多层卷积网络组成时,能够得到更加丰富、复杂的特征并且能够很好地应用到其他任务中,但网络的深度过深将会面临梯度消失、训练困难等问题。文献[2]提出的残差网络采用跳过连接,以使训练更新在训练过程中更快地反向传播到较低的层,而后,以ResNet[2]为基础,衍生出ResNeXt[3]、SE⁃Net[4]、SK⁃Net[5]等网络,并且效果显著。最新的分类算法ResNeSt[6]在图像分类和检测算法中均取得了优于ResNet、ResNeXt的效果,因此,本文将ResNeSt网络针对语音进行改进,以适用于虚假语音检测。
1 框架原理及实现
1.1 特征提取
本文通过以下特征提取算法从原始音频中提取特征:梅尔倒谱系数(MFCC)、常数Q倒谱系数(CQCC)和线性倒谱系数(LFCC)。
梅尔倒谱系数(MFCC):MFCC自被提出后广泛应用于声纹识别、语种识别等。MFCC是在Mel频率上产生的,它描述了一种非线性的关系,可以用式(1)近似表示:
常数Q倒谱系数(CQCC):CQCC使用的是常数Q变换(CQT),而不是STFT。该变换最初被提出用于音乐处理。STFT施加了一个有规律间隔的频率箱,而CQT使用几何间隔的频率。因此,它在低频提供更高的频率分辨率,在高频提供更高的时间分辨率。为了计算CQCC,在应用CQT之后,计算一个功率谱并取一个对数,然后进行均匀重采样,再进行DCT以得到CQCC。更多的CQCC细节可以在文献[7]中找到。
线性倒谱系数(LFCC):LFCC是一种广泛应用于音乐提取和语音识别等其他应用的特征。LFCC首先计算短时傅里叶变换(STFT),然后通过线性滤波器组将频谱映射为线性频谱,最后通过计算离散余弦变换(DCT)来实现。
1.2 模型构架
ResNeSt网络受ResNeXt[3]和SE⁃Net[4]、SK⁃Net[5]等网络的启发,引入多路径和注意力机制使模型参数量没有显著增加,却提高了准确率。ResNeSt通过分割注意力(Split⁃Attention)模块在特征图组间获取不同权重的特征,其中ResNeSt中ResNeSt Block结构如图1所示。Split⁃Attention Block是能跨特征图组实现信息交互的计算模块。ResNeSt将输入的特征图分成K个基数群(Cardinal Group),并在基数群内部切分为R个小组。因此,最初的输入特征图被沿通道维度划分为G=K×R个特征图小组,并对每个小组分别进行1×1和3×3的卷积,进而通过分割注意力机制对不同的特征进行加权融合,再进行1×1的卷积后与残差模块的输出进行线性融合输出。
ResNeSt的每个分支中的Split⁃Attention模块结构如图2所示,其中,Split⁃Attention模块使用了SK⁃Net的注意力机制思想。
如图2所示,第k个分支的特征由r个Split子模块加权融合得到
式中:表示Split⁃Attention模块中第j个输入特征;R表示总的子组数量;K表示总分支数;k表示第k个分支。
式中:H,W,C表示输入特征层的高、宽、通道数。将融合后的特征输入到全局平均池化层得到关于通道的全局上下文信息:
式中:sck表示全局池化后1×1×C K特征图的第c个通道值;U kc (i,j)表示在第c个通道中像素点(i,j)的值。
将sk通过全连接层计算每个子组的权重大小:
式中:aik(c)是第i个子组的权重;Gic是有两个全连接层和ReLU激活函数的加权注意力权重函数。
各个分支的加权融合特征Vk∈RH×W×C通过子组权重和子组特征图加权组合产生,第c个通道的计算为:
式中:Vck表示每个分支第c个通道的加权融合;UR (k-1)+i表示第R (k-1)+i个子组的特征图。
2 实验和结果分析
实验使用一台带有2块NVIDIA GTX2080Ti的服务器,所用深度学习框架为Pytorch 5.1[8],编程环境为Python 3.8,所有语音特征提取由Python的librosa[9]库完成。
2.1 实验设置
为探究不同特征对于模型检测能力的影响,构建了几种不同的模型变体MFCC⁃ResNeSt、CQCC⁃ResNeSt、LFCC⁃ResNeSt,分别处理MFCC、CQCC、LFCC的输入特征,这些模型架构几乎相同。
训练策略:语音沿着时间轴被截断,以保留正好400帧,少于400帧将通过重复一段语音内容来扩展。将二维语音特征作为单通道的图片输入ResNeSt网络,所有模型均通过最小化加权交叉熵损失函数进行训练,采用Adam作为优化器,β1=0.9,β2=0.98,初始学习率为3×10-4。每个epoch之后保存模型参数,所有模型训练20个epoch,选择开发集EER最低的模型进行评价。最终的对抗得分(CM)是使用对数似然比从softmax输出中计算出来的。
式中:s为给定音频文件;θ为模型参数。
2.2 数据集和基线模型
ASVspoof2019挑战赛提供了一个用于防攻击的标准数据库[10]。其中包含两个子集评估:物理访问(PA)和逻辑访问(LA)。本文所有的实验都是在LA子集上进行的,语音来自78名说话人,LA子集被划分为三个部分进行训练(8名男性、12名女性)、开发(4名男性、6名女性)和评估(21名男性、27名女性),每个部分包括真实语音和不同类型的TTS和VC欺骗攻击。训练和开发集共用6种攻击(A01~A06),由4种TTS算法和VC算法组成。评估集中共有13种攻击(7种TTS、6种VC攻击)。需要注意的是,评估集只包括2个已知攻击和11个未知攻击。
基线模型:ASVspoof比赛组织者提供了两个基线模型的实现,分类器为高斯混合模型(GMM),使用的是线性频率倒谱系数(LFCC)和常数Q倒谱系数(CQCC)特征。
2.3 评估指标
在开发数据集(已知攻击)和评估数据集(已知和未知攻击)上使用以下指标计算评估得分:
t⁃DCF[11]:串联检测成本函数是2019年ASVspoof挑战中新的主要指标。它被认为是一种可靠的评分指标,以评估ASV和CMs的联合性能。t⁃DCF越低,系统的抗欺骗性能越好。t⁃DCF的详细信息见文献[7]。
EER:等错误率被用作次要度量。EER是描述误接受率(FAR)和误拒绝率(FRR)之间相互变化关系的曲线,由FAR和FRR相等的点决定。
2.4 实验结果
表1显示了本文所用的三个模型的变体(MFCC⁃ResNeSt、LFCC⁃ResNeSt、CQCC⁃ResNeSt)和基线算法(LFCC⁃GMM[12],CQCC⁃GMM[12])在开发和评估数据集上的得分比较。
如表1所示,CQCC⁃ResNeSt和LFCC⁃ResNeSt在开发集(已知攻击)上的t⁃DCF和EER评分明显小于基线算法却略低于ResNet模型。但在评价集(未知攻击)的结果中,本文所用的模型在EER和t⁃DCF的评分上都优于基线模型和ResNet模型。这表明本文所使用的模型在检测未知攻击时具有一定的优势。
对于已知和未知的攻击,本文所用的模型针对每种攻击类型的t⁃DCF得分如图3所示。A01~A06为已知攻击,A07~A19为11个未知攻击和2个已知攻击。
从图3中可以看出,本文所用的模型对于大多数攻击类型仍然有效,除了两种未知的攻击类型,即A17和A18。A17和A18都是语音转换算法,其中A17是基于波形滤波,A18基于声码器。使用CQCC相关特征的模型在A17上的表现较差,说明CQCC更容易被基于波形滤波的语音转换攻击所欺骗。同时,CQCC在面对A13[13]的攻击时也表现的不尽人意,A13通过基于矩匹配的损失函数进行训练,直接将波形修改为输出波形,合成VC语音。说明该合成方法生成的语音对CQCC相关模型具有较大威胁。
图4展示了每种模型针对每种攻击类型的EER得分。从图4中可以了解到大多数的攻击类型无法对本文模型造成欺骗,除了A17,A18这两种攻击类型,且面对这两种类型的攻击大部分模型未能取得良好的效果,这表明在今后的工作中应该注重针对语音转换所造成的威胁。
3 结语
本文将ResNeSt模型应用于语音欺骗检测系统,使用三种不同的特征和ResNeSt进行了实验及相关的性能比较。根据评估集数据的得分可知,本文所用的模型得分使基线系统算法的t⁃DCF和EER指标分别降低了30%和25%。未来的工作主要研究进一步提高模型对于未知攻击检测的泛化性,特别是针对VC攻击,一种可行的解决方案是采用最新的神经网络模型如Res2Net[14]等,Res2Net模型是在ResNet模型上原有的残差单元结构中又增加了小的残差块,增加了多尺度模型,使计算负载不增加,特征提取能力更强大。
参考文献
[1] GE W Y,PANARIELLO M,PATINO J,et al.Partially-connected differentiable architecture search for deepfake and spoofing detection[C]//22nd Annual Conference of the International Speech Communication Association.Brno,Czechia:ISCA,2021:4319-4323.
[2] ALLEN-ZHU Z,LI Y Z.What can resnet learn efficiently,going beyond kernels?[C]//Proceedings of the 33rd International Conference on Neural Information Processing Systems.[S.l.:s.n.],2019:9017-9028.
[3] ZHOU T Y,ZHAO Y,WU J.ResNeXt and Res2Net structures for speaker verification[C]//2021 IEEE Spoken Language Technology Workshop(SLT).Shenzhen,China:IEEE,2021:301-307.
[4] CHEN J B,CHEN T L,XIAO B,et al.SE-ECGNet:multiscale SE-Net for multi-lead ECG data[C]//2020 Computing in Cardiology.Rimini,Italy:IEEE,2020:1-4.
[5] LI X,WANG W H,HU X L,et al.Selective kernel networks[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach,CA,USA:IEEE,2019:510-519.
[6] ZHANG H,WU C R,ZHANG Z Y,et al.ResNeSt:split-attention networks[EB/OL].[2020-04-19].
[7] YANG J C,DAS R K,LI H Z.Extended constant-Q cepstral coefficients for detection of spoofing attacks[C]//2018 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference(APSIPA ASC).Honolulu,HI,USA:IEEE,2018:1024-1029.
[8] PASZKE A,GROSS S,MASSA F,et al.Pytorch:an imperative style,high-performance deep learning library[C]//Advances in Neural Information Processing Systems 32:Annual Conference on Neural Information Processing Systems 2019.Vancouver,BC,Canada:DBLP Computer Science Bibliography,2019:8024-8035.
[9] BABU P A,NAGARAJU V S,VALLABHUNI R R.Speech emotion recognition system with Librosa[C]//2021 10th IEEE International Conference on Communication Systems and Network Technologies(CSNT).Bhopal,India:IEEE,2021:421-424.
[10] WANG X,YAMAGISHI J,TODISCO M,et al.ASV spoof2019:a large-scale public database of synthetic,converted and replayed speech[EB/OL].[2020-07-14].
[11] KINNUNEN T,LEE K A,DELGADO H,et al.t-DCF:a detection cost function for the tandem assessment of spoofing countermeasures and automatic speaker verification[C]//Odyssey2018:the Speaker and Language Recognition Workshop.Les Sables d′Olonne,France:ISCA,2018:312-319.
[12] TODISCO M,WANG X,VESTMAN V,et al.ASVspoof2019:future horizons in spoofed and fake audio detection[C]//20th Annual Conference of the International Speech Communication Association.Graz,Austria:ISCA,2019:1008-1012.
[13] KOBAYASHI K,TODA T,NAKAMURA S.Intra-gender statistical singing voice conversion with direct waveform modification using log-spectral differential[J].Speech communication,2018,99:211-220.
[14] L X,LI N.WENG C.et al.Replay and synthetic speech detection with Res2Net architecture[C]/IEEE International Conference on Acoustics. Speech and Signal Processing(ICASSP). Toronto,ON,Canada:IEEE,2021:6354-6358.