低速率编解码方法的综述

更新时间:2024-01-22 22:30:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

2.4kbps低速率编解码方法的发展和现状

刘俊

(武汉科技大学 信息科学与工程学院)

摘 要:低速率(2.4kbps)的编解码算法自1976年问世以来至今先后经过了LPC-10声码器、LPC-10e声码器与MELP声码器。从前者到后者无论是从算法还是语音的合成质量上都有了很明显的改进。本文就是具体着手于这三种声码器的改进入手的。 关键词:语音编码; 声码器; 线性预测; 混合激励;

The Development of Low Bit Rate Speech Coding methods

LIU JUN

(Information science and Engineering academe in Wuhan University of Science and Technology) Abstract:Low bit rate speech coding methods has come through LPC-10 Vocoder, LPC-10e Vocoder and MELP Vocoder since 1976. From the former to the latter, there are very obvious improvements in the algorithm and the pronunciation synthesis quality. This article focuses on these three Vocoders’ improvements. Key words: speech coding; Vocoder; Linear Prediction; Mixed Excitation;

1 引 言

随着我国通信市场发展步伐的加快,语音传输这一通信传输服务得到了迅速的发展。低速率的语音传输能够降低价格、维持高品质,同时能够提供保密功能。按语音编码的类型可以分为波形编码与参数编码,其中语音波形编码的编码质量较好,其技术实现也较为简单,因而是最早得到广泛应用的语音编码技术。但是波形编码所需的传输速率较高,占用的信道带宽较宽。为了提高通信系统的容量,节省占用的信道带宽,就必须使用编码速率较低的语音编码技术。所以与波形编码相对应的参数编码也就是在这种客观需求的推动下应运而生并得到迅速发展和应用的一种语音编码技术。参数编码的特点就是编码的速率极低,因为它仅对反映语音信号特征的若干参数进行编码和传输,其速率甚至可低至2.4kbps以下,仍能保持较好的重建语音的可懂度。由于编码速率的降低,语音的品质就只能通过复杂的算法来提升。2.4kbps速率的代表方法就是由最早的LPC-10声码器为开端的,进而又改进为LPC-10e声码器和现在主流的MELP声码器。

2 LPC-10声码器

语音传输是目前最主要也是最普遍的通信传输服务。低速率的语音传输能够降低价格、维持品质、并提供保密的功能。由于有限的带宽和使用者的增加,新的语音编码速率已由8kbps(CELP)、4.8kbps(CS-ACELP)、2.4kbps(MELP)降至1.2kbps以下。由于编码速率的降低,语音的品质就只能由更复杂的算法来提升,这使得即时实现语音编码相当困难。自20世纪70年代以来陆续提出了各种改善低速率语音编码质量的方案,这些方案在语音的可懂度、清晰度、自然度等方面都得到相当程度的改善。1976

年美国确定用LPC-10作为在2.4kbps码率上语音通信的标准技术。1981年这个算法被接受作为美国联邦政府标准FED-STD-1015公布。利用这个算法可以合成清晰、可懂的语音,但是抗噪声能力和自然度尚有所欠缺。

LPC-10是一个10阶线性预测声码器,它所采用的算法简单明了。为了得到质量较好的合成语音,它对每一个参数的提取和编码都是很讲究的。LPC-10声码器的编码器部分如下图1所示:

语音输入低通滤波100Hz~3600HzA/D转换8kHz 12bit预加重计算分析相位基音分析存储器预测器分析存储器低通滤波器计算RMS清/浊检测二阶预滤波两帧参数存储器两帧参数存储器计算预测系数AMDF基音提取RMS基音及浊音校正pitch语音输出V/UV并变串及同步产生误差校正映射参数编码 图1 LPC-10编码原理图

由上图可以看到,原始的语音信号经过100~3600Hz的截止低通滤波器除去高频分量后,进行8kHz、12bit的A/D转换,得到数字化语音信号,然后以每秒180个样点分帧,以帧为处理单元,分两个支路同时提取语音特征参数并编码传送。其中,一个支路用于提取基音周期T和清/浊音(U/V)判决;另一支路用于提取声道滤波器参数(RC)和增益因子(RMS)。提取基音周期支路将A/D转换后输出的数字化语音缓存,经过低通滤波、2阶逆滤波后,再用平均幅度差函数(AMDF)计算基音周期,经过平滑、校正得到该帧的基音周期P。与此同时,对低通滤波器输出数字化语音进行清/浊音检测,经过平滑、校正得到该帧的行清/浊音判决信息U/V。LPC-10声码器的解码器部分如图2所示:

串/并交换同步检测误差检测校正解码参书解码帧块到基音块的转换与插值数字语音的输入RMS反射系数转换成预测系数RCT基音产生U/V噪声产生输出存储器计算增益综合器清/浊音开关去加重D/A转换3600Hz低通滤波合成语音输出 图2 LPC-10解码原理图

在解码器端,首先将接收到的信进行串/并变换及同步检测,经过检错、纠错、查表得到基音周期、

清/浊音判断信息、增益以及反射系数的数值。解码器结果延时一帧输出,这样,输出的数据就可以在过去的一帧、现在的一帧、将来的一帧共三帧内进行平滑。由于每帧只传输一组参数,考虑一帧内可能有不止一个基音周期,因此要对接收到的数值进行由帧块到基音块的转换和插值。其中,对数面积比参数值每帧插值两次。RMS参数在对数域进行基音同步插值,基音参数值用基音同步的线性插值,在浊音向清音过渡时,对数面积比不插值。预测系数、增益、基音周期、清/浊音等参数值,对每个基音周期更新一次。这个过程在帧块到基音块的转换和插值中完成。根据基音周期和清/浊音信息决定要采用的激励信源。如果是清音帧,以随机数作为清音帧的激励信源;如果是浊音帧,则用一个周期性的冲激序列作为激励信源。

LPC-10声码器算法的缺点:(1)损失了语音的自然度。在实际语音的残差信号中,有一部分既非周期脉冲有非随机噪声,或者低频段是周期脉冲,高频段是随机噪声。在这种情况下采用简单的二元激励代替残差信号,必然使合成语音听起来不够自然。(2)系统稳定性降低。在噪声的影响下,不易准确提取基音周期和不能正确判断清/浊音。当背景噪声较强时,系统的性能会明显恶化。此外,这个算法不能有效地对抗传输信道中的误码造成的破坏作用。(3)失真度增大。失真的原因是浊音段时域上的周期重复信号使得短时语音的谱形接近于线状分布谱。当其基音周期T很小时,基频 f0 = 1 / T 增加,并与谱包络中的地一功振峰相接近。由于LPC谱估计力图使全极点模型谱接近于信号的谱包络,在估计出的谱包络中会出现极其尖锐的峰值,也就是估计出一个能量极为集中的共振峰值。相应在合成语音中会出现尖峰或毛刺,从而影响语音质量。

3 LPC-10e声码器

由于上述的LPC-10声码器的一些重要缺点,人们对它提出了许多的改进措施。LPC-10e就是一种

改进型的增强LPC-10声码器,它与LPC-10算法是兼容的。在LPC-10e的改进措施中,极为重要的一项就是用混合激励的方式代替了简单的二元激励。这使得LPC-10e的语音合成质量得到改善。1986年,美国第三代保密电话设备(STU-III)确定采用这种2.4kbps的LPC-10e声码器。

LPC-10e声码器的编码器部分如图3.1所示。图中的白化滤波器是指数字语音经过二阶分析滤波后,滤除共振峰的白化语音。这一步骤对于提取基音周期是很有用的。在LPC-10e声码器中,为了使合成语音清楚地再现急剧变化的语音在起伏点的特性,把提取语音特征参数的分析窗的起点取在语音特性短时急剧变化的起始点处,因此,在LPC-10e的原理图中有增加了可以确定起始点的功能。这一措施提高了合成语音的清晰度。

LPC-10e声码器的编解码器部分如图3图4所示:

原始语音输入低通滤波器预加重RMS计算白化滤波器能量计算检测过零率确定起始点AMDF函数设置清/浊音窗基音检测清/浊音判决设置分析窗协方差分析参数编码数据输出

图3 LPC-10e编码原理图

数据输入解码误差校正噪声生成基音参数插值基音脉冲产生器RMSRMS比反射系数转化为预测系数爆破脉冲发生器清/浊音混合器共振峰展宽+第一级合成第二级合成合成语音输出增益调整去加重 图4 LPC-10e解码原理图

与LPC-10声码器的二元激励源不同,LPC-10e声码器的激励源采用的是混合激励的方式。浊音的激励源是由经过低通滤波的周期脉冲序列与经过高通滤波器的白噪声相加而生成的,周期脉冲与噪声的混合比例随输入语音的浊音程度而改变;清音的激励源是白噪声加上随机位置的一个正脉冲跟随由一个负脉冲的脉冲对形成的爆破脉冲。对于爆破音脉冲对的幅度增大,与语音的突变成比例,反之则脉冲对的幅度很下。采用这种混合激励,可使原来的二元激励合成引起的金属声、重击声、音调噪声等得以改善,也使其对清/浊音判决的敏感程度有所降低。共振峰由两个级联的综合器来形成,第一个是全零点滤波器,第二个是LP综合滤波器。由于采用的各项改进措施,LPC-10e的合成语音质量比LPC-10有了明显的提高。

除此之外,LPC-10e还作了其它的改进措施,如:采用了激励脉冲加抖动、单脉冲与码本相结合的激励模式,在基音的提取方法与声道滤波器参数量化上也做改进,这些都对LPC-10e的合成语音质量的提高做出了贡献。

4 MELP声码器

在以上所提到的LPC-10声码器与LPC-10e声码器中,联邦标准线性预测编码算法LPC-10,即

FS-1015标准是由美国在1981年公布的,但是其音质不令人满意,主要是对爆破音的处理不好,后来又提出了上文所说的增强型的LPC-10e声码器,但因当时对语音的研究深度不够,效果也不理想。在1993年,美国国防部语音信号处理协会(DDVPC)开始选择新的美国国防部2.4kbps的标准,DDPVC研究制定了一组最低要求并设计了一整套测试方案。最后在1996年3月最终选用了TI(Texas Instruments)公司推出的混合激励线性预测(MELP)声码器来取代旧标准FS-1015。在1997年3月,这个MELP声码器算法最终确定为新的美国联邦标准。

MELP声码器在传统的二元激励LPC模型上采用了混合激励、非周期脉冲、自适应谱增强、脉冲整形滤波以及傅立叶级数幅度值等5项新技术,是合成语音质量得到了极大的改善,在2.4kbps码率上能提供良好的语音质量。

其MELP声码器的编码原理与解玛原理可以如图5与图6所示:

输入语音傅立叶级数的幅值计算量化编码预处理(高通滤波)非周期性标志纠错编码基音周期的计算LPC分析发送比特流

图5 MELP声码器编码原理图

IDFT傅氏级数幅度值整形滤波带通声音强度+自适应谱增强整形滤波器校正脉冲整形滤波频率发生器整形滤波器LSF图6 MELP声码器解码原理图

增益合成输出

由上图可以看到MELP声码器的基本原理与思想。其算法吸收了混合激励的思想,仍以传统的LPC模型为基础,同时在基音提取和激励信号产生等方面采用了一些新的方法以提高语音合成质量,这些新方法主要包括多带混合激励、使用非周期脉冲、残差谐波处理技术、自适应谱增强技术和脉冲整形滤波。其中,非周期脉冲、多带混合激励、自适应谱增强和残差谐波处理技术用来改善合成语音的激励信号,脉冲整形滤波器用来对合成语音进行后处理。以下是MELP声码器所采用的关键技术。

4.1 多带混合激励

采用多带混合激励是MELP模型中最重要的特征,传统的LPC编码算法在每一帧中仅对输入信号

进行一次清/浊音判决,在解码器端也是简单用一个清/浊音开关来表示,这样不能完整地表达语音信号所含的丰富的激励信息。多带的思想来源与MBE算法,采用多带处理可以使得从频域上对激励信号的划分更加精密,合成的激励也更加准确。分带滤波器由5个带通滤波器相加得到,5个带通滤波器均采用6阶的巴特沃斯带通滤波器,滤波后的语音信号经全整流及平滑滤波,进行清/浊音判决器取代了清/浊音开关,用混合的激励取代了简单的二元激励,从而得到了一个与短时谱相应的具有清音和浊音混合成分的激励谱,大大提高了合成语音的质量。

4.2 非周期脉冲

采用混合激励可以减少合成语音中的蜂鸣噪声,但是当要处理的信号基音较高而且有伴有噪声时,通常采用在激励信号中混入较多的低频白噪声以减弱其周期性,但这样会使合成语音听起来有些杂音,在MELP算法中使用一种更有效的处理方法:非周期脉冲。

在编码端将基音周期不是很强的浊音段用非周期标志来标识,这样接收端解码的时候根据非周期性的标志让基音周期在一个区间随机变动来减弱合成语音的周期性,采用这种方法可以很好地模拟那些不稳定的声门脉冲,从而使合成语音更加逼近原始的语音信号。需要说明的是,采用非周期脉冲要基于这种混合激励的算法,如果单纯使用非周期脉冲,可能会使语音质量反而恶化。

4.3 残差谐波处理

在LPC残差信号中含有大量的语音特征,限于码率的原因,以往的低速率LPC算法在生成激励脉冲时,只反映了它的周期性并没有反映它的幅度特性,因而不能很好地反映实际激励脉冲动态变化的特性。近几年来,由于采用了矢量量化和LSP技术,是得线性预测参数的量化比特数比以往大大减少,可以多空出几个比特,在MELP算法中,把这几个比特用于对残差信号的处理。但是用这几个比特很难全面的描绘残差信号的特性,MELP算法借鉴原波形插值(PWI)算法的做法,只能对较重要的特征,如:各基音周期谐波处的傅立叶级数幅度值进行矢量量化。残差信号中对语音影响最大的是低频带,经过对谱波数目和量化误差与合成语音效果之间关系的权衡考虑,2.4kbps的MELP算法对最低10阶谐波进行矢量量化,对10阶以上谐波的傅立叶级数幅度值认为是平坦的,由单位值来代替。对于这样得到的谱,按基音周期进行离散傅立叶反变换,得到周期脉冲激励序列,它比固定的脉冲序列提供了更多的灵活性。对残差谐波谱的传输,在很大程度上提高了合成语音的自然度、清晰度和抗噪声的能力,大大改善了LPC合成语音闷弱、嘶哑和合成语音重等特点。

4.4 自适应谱增强

由于人说话是声道的共振峰带宽即使在一个基音周期内也可能发生变化,并且LPC这种全极点的

模型削弱共振峰的特征,同时还由于量化误差等原因,LPC合成滤波器的极点形状与自然语音的共振峰形状存在偏差,导致了在共振峰之间合成语音的波谷不如原来的语音波谷,使合成语音听起来发闷,为了使合成语音与原始语音在共振峰有更好的匹配,MELP算法引入了自适应谱增强技术。

自适应谱增强通过让激励信号经自适谱增强滤波而实现。自适应谱增强滤波器是由系数自适应变化的阶数等于线性预测阶数的零点滤波器与一阶零极点滤波器级联而成的滤波器组。通过突出激励谱中共振峰频率处的谱密度,可以达到提高整个短时谱在共振峰处的信噪比的目的,这也符合线性预测残差信号中仍包含一定的共振峰形状的特性,其中,极点滤波器的作用是衰减共振峰之间的频率分量,突出共振峰的结构;零点滤波器的作用是补偿对共振峰之间的频率分量的衰减;一阶零极点滤波器的作用是补

偿零极点滤波器引起的频谱倾斜。零极点滤波器的系数均由LPC系数乘以一个相应的自适应比例因子得到。在许多基于共振峰谱包络合成中低速语音编码算法中都采用这种自适应谱增强的技术。其实现原理较为简单,算法的复杂度也不高,对编码端没有额外的要求,是加强低速率语音编码质量的实用技术。

4.5 脉冲整形滤波

进行脉冲整形滤波的目的,是为了让分带合成语音与原始语音在非共振峰区波形上具有更好的匹配。周期性较强的语音,是通过声门的周期性开闭产生声门脉冲激励的声道而产生的。产生实际语音时,这是很复杂的,其主要原因是:人说话是声门开闭不一定很完整,往往除了主要的声门脉冲,还可能在主要脉冲之间出现一些小的二次谐波;声门关闭不完全会造成一些吸气噪声;两次大的激励峰之间由于声道作用的非线性,可能会出现一些背景噪声。以上因素都会造成声门激励脉冲的峰值不集中于时域的一个点上,并且使语音的周期性发生一定的混淆。LPC合成时很难对这些复杂的现象进行准确的模拟,致使合成语音同原始语音相比,在一个周期内的峰-峰值更加尖锐。同时,LPC分析的共振峰带宽比实际应有的要大,会引起某些频带处的谐波信号衰减较大。

为了使合成语音符合原始语音的这一变化情况获得较为自然的语音,应对合成语音的峰-峰值进行平滑。其方法很多,可以在周期激励中引入第二个峰值,或改变周期激励谱的形状,但这些方法可能会破坏原有的激励模型,造成失真。这样,为了保持原有激励模型的优点,MELP算法在语音合成后加一级后处理:脉冲整形滤波。该滤波器是一个FIR滤波器,其系数是通过将典型男性周期脉冲的谱强制变换为平坦谱,再进行傅立叶反变换得到的,它具有减弱某些频带处周期性的作用,降低了基音周期为典型周期附近的峰-峰值,使合成语音的蜂鸣效果降低,变得更为连惯、自然。

5 结束语

语音编码技术一直是一项理论性和实践性都很强的专门技术,尤其是低速率以及超低速率语音编码更是当前语音信号处理领域的一项重要研究课题。本文针对当前的2.4kbps的低速率语音声码器的改进进程展开讨论,由最开始的LPC-10声码器到现在所使用的MELP声码器,无论是在哪个阶段每个声码器都有比较大的改进。

总的来说,MELP声码器是目前低速率语音编码中一种比较理想的编码方案,该算法是对传统线性预测编码参数模型的改进,它结合了混合激励和多带的思想,更好的模拟了自然语言特征,可以在2.4kbls的速率下合成出较高质量的语音。因此MELP算法确实是一个比较优秀的低速率语音压缩编码算法,在今后的实际应用中会有很大的价值。

参考文献:

[1] W. B. Kleijn ,K. K. Paliwal . Speech Coding and Synthesis, Amsterdam [M]. The Netherlamds, Else - vier ,2005 :15~40. [2] A V McCree, T P Barnwell III. Mixed Excitation LPC Vocoder Model for Low Bit Rate Speech Coding[J]. IEEE Trans On Speech and Audio Processing, 2005, 3: 242-250.

[3] 赵晓群主编.数字语音编码[M].北京:机械工业出版社,2007,156~178 [4] 王洪,唐凯主编.低速率语音编码[M].北京:国防工业出版社,2006,54~64 [5] 吴海峰主编.语音编码技术及应用[M].北京:机械工业出版社,2005,98~115 [6] 鲍长春主编.数字语音编码原理[M].西安:西安电子科技大学出版社,2007,296~310

[7] 马震,陈延萍.2.4kbps 混合激励线性预测编码方法研究[J].声学与电子工程,2006(2):28~30

[8] 范晶,和应民,王桂梅.2.4kbps混合激励线性预测语音编码的研究[J].牡丹江师范学院学报,2007(4):13~14

本文来源:https://www.bwwdw.com/article/qz7o.html

Top