一种基于非负矩阵分解的语音增强算法_隋璐瑛

更新时间:2023-06-05 10:25:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

 

第33卷第1期2012年3月

军 事 通 信 技 术

JournalofMilitaryCommunicationsTechnology

Vol.33No.1Mar.2012

一种基于非负矩阵分解的语音增强算法

隋璐瑛,张雄伟,黄建军,董军涛

1

2

3

4

X

(1.解放军理工大学指挥自动化学院研究生1队,江苏南京210007;2.解放军理工大学指挥自动化学院信息作战系;3.解放军理工大学指挥自动化学院研究生2队;4.中国人民解放军73689部队,江苏南京210042)

摘 要:文章提出了一种基于非负矩阵分解的语音增强算法。该算法包括两个阶段,训练阶段和增强阶段。

训练阶段通过非负矩阵分解算法对纯净的噪声频谱进行训练,得到噪声字典矩阵,保存其作为增强阶段的先验信息。增强阶段首先通过非负矩阵分解算法对带噪语音的频谱进行分解,然后联合噪声字典矩阵和推导得到的相应迭代公式对语音字典矩阵和语音编码矩阵进行估计,重构增强语音。仿真结果表明,文中增强方案在抑制背景噪声,提高信噪比和减少语音失真方面要优于传统的语音增强算法。

关键词:语音增强;非负矩阵分解;字典训练;迭代规则中图分类号:TN912.3文献标识码:A文章编号:CN32-1289(2012)01-0018-05

SpeechEnhancementBasedonNonnegativeMatrixFactorization

SUILu-ying,ZHANGXiong-wei,HUANGJian-jun,DONGJun-tao

(1.PostgraduateTeam1ICA,PLAUST,Nanjing210007,China;

2.DepartmentofInformationOperationStudiesICA,PLAUST;3.PostgraduateTeam2ICA,PLAUST;

4.Unit73689ofPLA,Nanjing210042,China)

1

2

3

4

Abstract:Aspeechenhancementapproachbasedonnonnegativematrixfactorizationalgo-rithmwasproposedtoenhancethespeechcontaminatedbyadditivenoise.Thetechniqueforspeechdenoisingconsistsofatrainingstageandadenoisingstage.Duringthetrainingstage,thepriorinformationaboutthespectrumofnoisewasmodeledbynonnegativematrixfactorizational-gorithmandthenoise-dictionaryconstructed.Inthedenoisingstage,thespectrumofnoisyspeechwasanalyzedbynonnegativematrixfactorizationalgorithm,then,thenoise-dictionary

wascombinedwithiterativeformulationtoevaluatethespeech-dictionaryandthecodingmatrixofspeech,andtoreconstructtheenhancedspeech.Experimentalresultsshowthattheproposedspeechenhancementprojectyieldslessresidualnoiseandbetterspeechqualitythanthetraditionalspeechenhancementalgorithm.

Keywords:speechenhancement;nonnegativematrixfactorization;dictionarytraining;up-daterules

语音增强的主要目标是从带噪语音信号中提取尽可能纯净的原始语音或原始语音参数,是当前语音信号处理中具有挑战性的课题。从上世纪70年代起,国内外学者提出很多语音增强算法。谱减法是语音增强领域最常用的方法之一,但此方法假设在语音段噪声是固定的,且依赖话音激活检测技术VAD(VoiceAc-tivityDetection),在非平稳噪声环境和低信噪比条件下,效果较差。多带谱减法将噪声频谱划分为互不重叠的频带,在不同的频带采用不同的谱减参数对语音进行增强处理。此算法效果要明显好于传统谱减法,但

X.

[1]

 第1期   隋璐瑛等:一种基于非负矩阵分解的语音增强算法

[2]

19 

是仍需要VAD过程。子空间方法通过空间分解,将整个空间划分为两个独立的子空间,即噪声子空间和叠加噪声的信号子空间,然后对噪声子空间和信号子空间进行处理以实现语音增强。广义子空间法[3]通过对语音信号和噪声信号的协方差进行同时对角化将子空间法推广到有色噪声的语音增强之中。此方法不需要对噪声频谱信息进行估计,能够有效抑制音乐噪声,但在低信噪比条件下,增强效果难以令人满意。当目标信号与噪声具有不同的频率特征时,维纳滤波器是最好的消噪方法。然而,当语音和噪声都为半固定的宽带信号,即大部分的能量都集中在低频时,此方法性能下降。隐马尔可夫模型[4]和矢量量化[5,6]都是基于源模型的信号分离算法,这些算法可以对语音和噪声信号的所有区域进行建模,但在信号分离前须对所有独立信号进行建模。

非负矩阵分解NMF(NonnegativeMatrixFactorization)算法[7]是目前国际上提出的一种新的矩阵分解方法。该算法采用简单有效的乘法迭代公式,在矩阵中所有元素均为非负的条件下实现分解。相对于传统的矩阵分解算法,NMF算法具有实现上的简便性,分解形式和分解结果的可解释性,占用较小存储空间等诸多优点,为处理大规模数据提供了一种新途径。

本文在Lee和Seung方法的基础上,提出了基于KL(Kullback-Leibler)目标函数和LS(LeastSquares)

目标函数的非负矩阵分解语音增强方案,即KL-NMF算法和LS-NMF算法语音增强方案。该方案分为训练阶段和增强阶段。训练阶段,采用非负矩阵分解算法对噪声频谱进行分离,提取噪声字典,保存其作为增强阶段的先验信息。增强阶段采用此算法对带噪语音频谱进行分解,通过相应的迭代公式对语音字典和语音编码进行估计,结合带噪语音相位信息重建增强后的语音。仿真结果验证了在非平稳噪声环境及低信噪比条件下,本文所提出的改进算法不仅具有更好的噪声抑制性能并且语音失真更小。

1 NMF算法

非负矩阵分解算法的主要思想是:对于任意给定的一个i×j的非负矩阵V,NMF算法可以分解产生i×r的非负矩阵W和r×j的非负矩阵H,使得W和H的乘积近似于矩阵V,即

d=WHV≈V

(1)

其中,r满足(i+j)r<ij。矩阵W是原始矩阵V中包含的所有可能的激励源信息,我们称之为字典矩阵,

矩阵H表示激励源在矩阵V中的对应位置,称为编码矩阵。非负性的限制使得算法成为基于部分的表示方法,因为算法只允许加性组合而不允许减性组合。NMF算法的数学模型可以理解为待分解的非负矩阵V可以近似地用非负矩阵W和非负矩阵H的乘积来表示,故称为非负矩阵分解。1.1 目标函数

NMF算法的目标就是寻找一系列的非负矩阵W和H,使其乘积结果尽可能地逼近原始分解矩阵V。定义一个用于度量的代价函数D,使得分解得到最佳的近似结果,即

dij)D(VûWH)=d(VijûV(2)

∑∑

i

j

其中,d是标量差,满足对于P(a,b)∈R,d(aûb)≥0,当且仅当a=b时,d(aûb)=0。自非负矩阵算法

诞生起,学者们纷纷提出各种不同的目标函数。本文主要考虑参考文献[8]中提出的B差异目标函数中两种常用的度量函数,即B=1时的KL目标函数和B=2时的LS目标函数,分别定义为

dB(xûy)=x(logx-logy)+(y-x)当B=1时

dB(xûy)=(x-y)2

2

当B=2时

(3)

2

参考文献[9]通过推导证明,此两种情况分别为噪声服从泊松分布和高斯分布时得到的目标函数。1.2 迭代规则

20

军 事 通 信 技 术             2012年 

标函数关于y进行求导,得到的偏导数为同一函数,此偏导数用于计算最小目标函数D。B函数关于y的一次偏导数为:对于B∈R,有

B=yB-2(y-x)和H的偏导数分别为:

T[B-2]

=W((WH)õ(WH-V))=((WH)[B-2]õ(WH-V))HT

(5)(6)(4)

dB(xûy)的值随ûy-xû增大而增大,当y=x时,dB(xûy)的值达到最小。根据式(4)得到D(VûWH)关于W

算法实施过程中,初始化矩阵W和H为任意非负矩阵,采用乘法梯度下降算法,通过增加偏导数前一次迭代得到的两个正矩阵中的较大部分[¨f(H)]1和较小部分[¨f(H)]2的比率分别对矩阵进行更新,即H←H [¨f(H)]1/[¨f(H)]2,此时,¨f(H)=[¨f(H)]2-[¨f(H)]1具有非负性,如此保证了矩阵在更新迭代过程中始终保持非负性。因此,得到下面的更新规则:

H←HõW(WH)

W←Wõ(WH)H

本文中,主要考虑B=2时的LS-NMF算法和B=1时的KL-NMF算法。

[B-2]

T

T

[B-2]

(7)(8)

2 语音增强方案

本文提出的语音增强模型的关键思想是,通过提前训练噪声信号的模型,建立一个说话者独立系统。假设语音信号和噪声信号均为加性信号,则带噪语音信号y(t)可以表示为:

y(t)=s(t)+n(t)谱取幂计算,得到:

A=ûYû=ûFFT{y(t)}û

r

r

(9)

其中,s(t)为语音信号,n(t)为噪声信号,二者互相独立。对式(9)进行傅立叶变换,得到信号幅度谱,对幅度

(10)

其中,r∈(0,2]为幂次。

本文方案不需要VAD过程,也不需要对所有的独立信号进行建模,只需提前对噪声进行训练。使用NMF算法对语音进行重建,在低信噪比和快速变化的噪声环境下仍然适用。此增强模型主要包括两个阶段,训练阶段和增强阶段。增强系统框图如图1所示。

训练阶段将噪声转换到频域,并对其幅值取模后再进行取幂计算,以达到算法非负性的要求,然后通过NMF算法对噪声谱进行分解,得到噪声字典矩阵Wn,保存其作为增强阶段的先验信息。增强阶段,对带噪语音进行FFT变换后取幂,通过NMF算

图1 KL-NMF和LS-NMF语音增强算法总体框图法分解得到带噪语音的字典矩

阵和编码矩阵,联合先验信息,通过相应的迭代计算得到语音字典矩阵和编码矩阵,重建语音信号。

将非负矩阵分解算法应用于带噪语音,假设语音信号和噪声信号相互独立,则

 第1期   隋璐瑛等:一种基于非负矩阵分解的语音增强算法

21 (11)

V=Vs+Vn≈[Ws Wn]

HsH=WH

式中,V是带噪语音的频谱信息,Vs和Vn分别是纯净语音和噪声的频谱信息。由于NMF算法具有不明确置换性,即W中的列信息变化时只要H中的行信息也做相应的变化即可。因此,我们需要通过采取措施来确定成分信息。一种方法是通过安静环境中录制的资源信号提前训练字典矩阵[10],另一种方法是使用参考文献[11]中提出的自动分组规则。本文中,通过训练阶段对噪声字典进行学习,作为增强阶段的已知信息,从而有效避免了增强阶段矩阵分解的不明确性。因此,本文的增强方法不依赖于说话者。在增强阶段,通过对NMF算法进行改进,使得增强阶段仅对Ws,Hs和Hn进行迭代更新计算,其迭代公式如下所示:

WsT[B-2]õV)WnT[B-2]õV)

Hs←Hsõ, Hn←HnõWs(WH)Wn(WH)

ss[B-2]õV)HsT

Ws←Wsõ(WsHs)Hs

阵。然后,使用式(12)、式(13)对语音字典和编码矩阵进行推导,估算得到的增强语音为:ds=WsHsV  最后,结合带噪语音的相位信息,对式(14)进行FFT反变换,得到时域上的增强语音信号。

(12)(13)

本文提出的增强方案中,首先使用式(7)、式(8)对噪声进行分解,丢弃编码矩阵,保留训练得到的字典矩

(14)

3 算法性能评估

实验中,取干净语音为8kHz采样、16bit量化的标准女生汉语语音信号。噪声取自Noisex-92噪声库中的Babble噪声,M109坦克噪声和Machinegun枪噪声。通过MATLAB将干净语音信号与噪声信号进行混合,分别生成信噪比为-5dB、0dB、5dB和10dB的带噪语音信号。

将本文提出的基于KL-NMF和LS-NMF的语音增强算法与多带谱减法MSS(Multi-bandSpectralSubtraction),广义子空间增强算法GSA(GeneralizedSubspaceApproach)进行比较。分别采用对数频谱距离LSD(LogSpectralDistance)和客观质量评估方法PESQ(PerceptualEvaluationofSpeechQuality)对语音增强算法的性能进行比较。这两种指标与语音的主观测量有较高的相关度。LSD是反映语音频谱失真的度量,其计算方法为:

1

d22DLS=10lg(15)∑∑Ml∈MLk∈Ld(k,l)分别为s(n)和sd其中,M表示语音信号的帧数,S(k,l)和S(n)短时傅立叶变换后的第k帧的第l个

频谱分量,LSD的值与语音质量成反比。PESQ是2001年国际电信联盟(ITU-T)推出的P.862标准,用来评价语音的主观试听效果,能够很好地反映语音信号的感知质量,PESQ得分越高表示语音质量越好。

表1、表2分别给出了四种算法在不同信噪比条件下增强语音的LSD值和PESQ值的改善情况,由表可以看出,相比于多带谱减法和广义子空间法,本文提出的基于KL-NMF和LS-NMF的增强算法具有更好

表1 LSD值改善情况

输入Machinegun噪声

信噪比/dBMSSGSAKL-NMFLS-NMF

-51.681.481.231.1801.541.381.201.1451.421.211.171.11

Babble噪声

MSS

2.642.371.90GSA2.572.372.00KL-NMF2.612.181.67LS-NMF2.572.061.72MSS2.311.971.65

M109噪声GSAKL-NMF

2.211.921.811.551.511.34

LS-NMF

1.901.491.30

表2 PESQ值改善情况

输入Machinegun噪声信噪比/dBMSSGSAKL-NMFLS-NMF

-50510

1.802.082.452.79

1.201.592.022.57

2.913.103.233.41

3.033.053.233.45

MSS1.682.072.442.73

Babble噪声GSAKL-NMF1.752.062.382.68

1.702.092.452.85

LS-NMF1.752.152.472.86

MSS

M109噪声GSAKL-NMF

2.362.873.053.43

LS-NMF2.382.963.123.58

2.242.292.662.592.942.873.173.16

的噪声抑制性能,且LS-NMF算法的增强效果总体上要优于KL-NMF。LS-NMF和KL-NMF增强效果的差异主要在于两种算法在噪声分布假设上是不同的,KL-NMF假设噪声服从泊松分布,这与实际的背景噪声特性不相符,而LS-NMF假设噪声服从高斯分布,更加符合背景噪声的特性。

主观测试也验证了上述结果。图2、图3给出了纯净语音以及信噪比为0dB的Machinegun枪噪声环境下不同算法得到的增强语音时域图和语谱图。由图示也可以看出,本文算法的处理效果要明显优于传统

谱减法以及多带谱减法。

4 结束语

本文提出了一种基于NMF算法的语音增强方案,该方案通过训练阶段得到的先验知识对带噪语音进行增强,在非平稳噪声环境下能够有效地抑制背景噪声,取得了较好的语音增强效果。仿真结果表明,该算法要明显优于传统谱减法和多带谱减法,在较低信噪比条件下仍具有较好的性能。

(下转第30页)

表1 数值计算结果

4 结 语

本文引入了武器目标分配问题的一个非线性整数规划模型,鉴于非线性整数规划的难以求解性,本文利用WTA非线性整数模型中目标函数的特点,使用线性函数来替代原问题中的非线性目标函数,近而将非线性整数规划问题转化为线性整数规划问题。并给出了初步的算例来验证算法的有效性。线性整数规划属于难以找到多项式时间解的问题,对于任意规模,计算时间会较长。但本文中给出的方法较为简单,能够在较短的时间内给出一个近似最优解,实施武器目标分配方案,满足实战的需要。参考文献:

算例规模(W×T)5×510×1015×1520×2030×30

算例序号

1212121212

最优解-702.2-700.8-1946.4-1893.5-2934.6-2147.4-4341.1-4736.8-5815.7-6045.7

计算时间(s)2.282.282.292.282.402.282.762.322.322.47

[1] AhujaRK,KumarA,JhaKC,etal.Exactandheuristicmethodsfortheweapontargetassignmentproblem[J].Opera-1146.tionsResearch,2007,55(6):1136-[2] NiMingfang,YuZhanke,MaFeng,etal.ALagrangerelaxationmethodforsolvingweapon-targetassignmentproblem

[J].MathematicalProblemsinEngineering,2011,5(1):1-12.

[3] CetinE,EsenST.Aweapon-targetassignmentapproachtomediaallocation[J].AppliedMathematicsandComputa-tion,2006,175(2):1266-1275.

[4] WolseyLA,NemhauserGL.Integerandcombinatorialoptimization[M].NewYork:JohnWilley&Sons,1988:540-546.

[5] NocedalJ,WrightSJ.Numericaloptimization[M].NewYork:Springer,1999:355-385.

(上接第22页)参考文献:

[1] KamathS,LoizouP.Amulti-bandspectralsubtractionmethodforenhancingspeechcorruptedbycolorednoise[J].

IEEETransAcoust,SpeechSignalProcess,2002,8(4):164-168.

[2] EphraimY,VanTreesHL.Asignalsubspaceapproachforspeechenhancement[J].IEEETransAcoust,SpeechSignal

Process,1995,3(4):251-266.

[3] YiH,PhiliposCL.Ageneralizedsubspaceapproachforenhancingspeechcorruptedbycolorednoise[J].IEEETransA-coust,SpeechSignalProcess,2003,11(4):334-341.

[4] SamTR.Onemicrophonesourceseparation[J].AdvancesinNeuralInformationProcessingSystems,2000,13(2):793-799.

[5] DanielPW,RonJW.Model-basedmonauralsourceseparationusingavector-quantizedphase-vocoderrepresentation

[C]∥InternationalConferenceonAcoustics,SpeechandSignalProcessing.France:IEEEPress,2006:957-960.

[6] 陈善学,杜 锋.一种改进的等误差自组织特征映射矢量量化方法[J].重庆邮电大学学报:自然科学版,2011,23(2):

155-160.

[7] LeeDD,SeungHS.Learningthepartsofobjectsbynon-negativematrixfactorization[J].Nature,1999,401(10):788-791.

[8] FujisawaH,EguchiS.Robustparameterestimationwithasmallbiasagainstheavycontamination[J].MultivariateAnal-2081.ysis,2008,99(9):2053-[9] KristianTA.Windnoisereductioninsinglechannelspeechsignals[D].Denmark:TechnicalUniversityofDenmark,

2008.

[10]MikkelN,SchmidtRK,Olsson.Single-channelspeechseparationusingsparsenon-negativematrixfactorization[C]∥

InternationalConferenceonSpokenLangnageProcessing(INTERSPEECH).Pittsburgh:UniversityofPittsburgh,2006:821-824.

[11]WangB,PlumbleyMD.Musicalaudiostreamseparationbynon-negativematrixfactorization[C]∥Proceedingsofthe

D

本文来源:https://www.bwwdw.com/article/yhe1.html

Top