语音编码技术的现状与发展

更新时间:2023-06-06 06:51:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

2000年6月天津通信技术

TIANJINCOMMUNICATIONSTECHNOLOGY

Jun.2000

No.2

第2期

语音编码技术的现状与发展

王少勇

(天津大学

和发展。

关键词:语音编码;;中图分类号文献标识码:A

文章编号:1006-7442(2000)02-0001-04

王秉钧

)

,摘要:介绍了语音压缩编码技术的概念和分类,,讨论了语音压缩编码的现状

近年来,,语音压缩编码技术也正在迅速发展,在移动通信、卫星通信和IP电话通信中得到了广泛的应用。本文即对语音压缩编码技术的现状与发展予以讨论。

特征参量,并由特征参量重建语音信号的一种编码方式。这种方式在提取语音特征参量时,往往会利用某种语音生成模型在幅度谱上逼近原语音,以使重建语音信号有尽可能高的可懂性,即力图保持语音的原意,但重建语音的波形与原语音信号的波形却有相当大的区别。这种方式的特点是编码速率低(1.2kbit/s~2.4kbit/s或更低),但只能达到合成语音的质量(即自然度、讲话者的可识别性都较差的语音),并当码率提高到与波形编码相当时,语音质量也不如波形编码。利用参量编码实现语音通信的设备通常称为声码器,例如通道声码器、共振峰声码器、同态声码器以及广泛应用的线性预测(LPC)声码器等都是典型的语音参量编码器。1.3混合编码

当前,由参量编码与波形编码相结合的混合编码的编码器正在得到人们较大的关注。这种编码器既具备了声码器的特点(利用语音生成模型提取语音参数),又具备了波形编码的特点(优化激励信号,使其与输入语音波形相匹配),同时还可利用感知加权最小均方误差的准则使编码器成为一个闭环优化的系统,从而在较低的比特率上能获得较高的语音质量。例如,多脉冲激励线性预测(MPLPC或MPC)编码,正规脉冲激励线性预测(RPE-LPC)编码和码激励线性预测(CELP)编码都属于这一种,这种编码方式能在4kbit/s~16kbit/s中低编码的速率上得到高质量的重建语音。中速率和低速率语音压缩编码(1)中速率语音压缩编码

所谓中速率编码是指数码率为4.8kbit/s~16kbit/s范围内的语音编码。其语音质量较好(能

1.4

1语音压缩编码的概念和分类

现代通信的重要标志是实现数字化,而要实现

数字化首先得把模拟信号转变为数字信号,这种变

换对语音信号来说就是语音编码。为了提高语音编码和语音信号数字传输的有效性,通常还要进行语音压缩编码,这就是本文所要讨论的中心课题。

语音压缩编码技术有多种,归纳起来大致可分为三类,即波形编码、参量编码和混合编码。另外,根据编码速率的高低还可分为中速率和低速率两大类。

1.1波形编码

波形编码是将时间域信号直接变换为数字代码进行传输,也就是说这种编码是将语音信号作为一般的波形信号来处理,力图保持重建的语音波形与原语音信号波形一样。这种编码方式的特点是适

ΔM、应能力强、重建语音的质量高,例如PCM、

ADPCM和自适应预测编码(APC)、子带编码

(SBC)及自适应变换编码(ATC)等均属于这一种。

但这种方式所需的编码速率较高,在16kbit/s~64kbit/s速率范围能得到较高的重建质量,而当速率进一步降低时,语音重建质量就会急剧下降。1.2参量编码

参量编码,又叫声码化编码,是在信源信号频率域或其它正交域提取特征参量并将其变换为数字代码进行传输,以及在接收端从数字代码中恢复

收稿日期:1999-09-15

2天津通信技术2000年

达到常用数字语音通信的质量要求)、清晰度较高、自然度也能达到基本要求,但少许有点失真,与语音特征有一定的关系。例如谐波压扩ADPCM、子带编码、自适应变换域编码(ATC)等都属于这一种。对于低速率压缩编码,又称为声码器技术,数码率从100bit/s左右到4.8kbit/s。

这种编码方式,语音质量比中速率编码要差,尤其是自然度比较差,难以辨别出讲话人声音的特点。因为不同的人,讲话的语音特征不同,量也就不同。研究结果表明,压缩率为80bit/s~100,,传送句子内容,就分辨不出来了

1

(声道滤波,即声道参数和增益随时间的变化而变化。通常认为激励信号和滤波器系数之间大约5ms~40ms更新一次。

根据上述原理构成的LPC声码器原理框图如图2所示:

2

2.1

语音压缩编码常用的基本技术

线性预测语音生成模型

语音信号相邻样点之间有很强的相关性,因此,可以用过去样点的线性组合来预测未来的样点,如式(1):

^S(n)=

M

i=1

aS(n-i)(1)∑

i

图2LPC声码器原理框图

式中,ai为预测器系数,M为预测器阶数,S(n)为语音信号。预测误差如式(2):

e(n)=S(n)-^S(n)=S(n)-M

矢量量化

在语音编码中,矢量量化(简称VQ)是一种较新的技术,它与标量(一维)量化是不同的,其不同

2.2

i=1

aS(n-i)(2)∑

i

上式可改写为式(3):

M

S(n)=e(n)+

i=1

aS(n-i)∑

i

(3)

之处在于它并不对单个抽样进行量化,而是将一组

抽样(矢量)作为一个整体来进行量化。VQ既可用于波形编码又可用于参量编码,是一种既能高效压缩码率又能保持语音质量的编码方式。

VQ的基本原理就是将若干个标量构成一个矢量,然后在矢量空间中进行量化。为了压缩速率,在矢量被量化后,不去传送量化矢量的本身而去传送量化矢量的一个序号。因此,应需预先将若干个典型的数据矢量(码矢量)贮存起来并给每个码矢量分配一个序号或代码。这种表示码矢量与序号之间关系的表格称为码本或码书(Codebook)。每当编码时,输入的数据矢量在每个预定的时间内都与每个码矢量相比较,并将与此数据矢量最相似的码矢量所对应的序号,作为输入数据的编码来发送。在接收端则利用与发端相同的码本找到与传送序号所对应的码矢量连同源信息一起来重建语

式(3)可以解释为信号e(n)激励全极点滤波器(其传输函数H(Z)=

1-Mi=1

得到语音信号

i

aZ∑

-i

S(n),这同人的发声过程正好吻合。因此可以得到

线性预测语音生成模型如图1所示。

在此模型中,激励源分为两种,一是随机噪声,

一是周期性脉冲序列。对于清音一般作为随机噪声,而对于浊音一般作为周期性脉冲序列。周期性脉冲序列的周期为基音周期,其声门、声道和唇辐

第2期王少勇,王秉钧:语音编码技术的现状与发展3

算法在10kbit/s的低码率下能产生比较好的语音质量,但对高基音说话者来说,其性能通常会有所下降。英国国际电信(BTI)机构所推出的空中电话系统(Skyphone)就采用了这种编码算法,其码率为9.6kbit/s。

在RPE,图3

矢量量化原理框图

音信号。矢量量化的原理如图3所示。2.3混合编码的原理

,LPC模型,,而激励源则通过闭环优化来确定。优化的过程就是确定一个激励序列,使得输入语音和编码语音之间的感知加权均方误差最小。这种编码方式的特点就是将波形编码的优点(激励序列与输入语音波形的匹配)与参量编码的优点(用参数表示语音的共振峰和基音结构)结合了起来,从而使语音质量有了明显的提

然后将此残差由正规脉冲序列来代表,差的准则来实现。在此闭环系统中只设有长时预测器(LTP)。

采用此编码算法的典型系统就是使用全速率GSM泛欧数字移动通信标准的13kbit/s的GSMPRE-LTP编码器。据报道,该系统语音质量略优于Skyphone系统,而编码的复杂度却低得很多。

对于CELP编码的算法,是利用矢量量化的码本,将激励序列编码按图4所示的闭环系统来选择最佳码矢量的。常规的CELP编码算法采用了

前向预测的方式,编码器所传送的信息除激励码矢量外,还包括LPC参数、基因周期、基因预测器抽头和激励增益等。实践表明,CELP编码

器在16kbit/s码率时提供了较高的语音质量,是最具有吸引力的语音压缩编码方式之一。

3

图4

典型的混合编码原理框图

语音编码的发展趋势

高。图4即为典型的混合编码的原理框图。

该系统含有一个短时LP合成滤波器(表示语音共振峰的结构)、一个长时LP合成滤波器(表示语音基音的结构)、一个感知加权滤波器(对误差进行整形,使量化噪声能被高能量的共振峰所掩盖)和一个激励产生器(进行激励序列的选择以便使加权均方误差最小)。由于有三种常用的激励模型,因而产生了三种混合编码系统,即多脉冲激励线性预测(MPLP)编码、正规脉冲激励(RPE)编码和码激励线性预测(CELP)编码系统。

在MPLP编码的算法中,采用了由多个不均匀间隔脉冲所组成的激励序列,并通过如图4所示的闭环优化系统来确定激励脉冲的幅度和位置。此

自从20世纪30年代末提出

PCM及通道声码器理论以来,语音编码技术已有60余年的发展历史,但只有近20年随着计算机和微电子技术的发展才获得了飞速的发展,尤其是近几年来高质量语音压缩编码的技术已开始大规模地走向实用化,各种国际标准的制定均集中反映了这种技术发展的水平和趋势。这些标准均根据应用背景,对编码质量、编码速率、编码延时以及算法复杂程度等进行综合权衡和最佳选择而制定的,以期在实际应用中获得最佳的效益。表1即列出了国际上一些语音编码标准的性能及主要应用。

此外,有一些国际组织或国家也都在积极制定自己的标准,例如北欧、北美、日本等都先后公布了他们的数字蜂窝移动通信系统的标准,

分别采用了

4天津通信技术

表1国际上一些语音编码标准算法的性能及主要应用

2000年

编码标准速率(kb/s)编码名称应用领域编码质量

MOSDRTDAM

ITUG.71164PCM

ITUG.72132ADPCM

ITUG.72640、24、16ADPCMDCME

ITU

G.72716~40ADPCMPCME

ITUG.72816

ITUG.7298CSACELP

ITUG.7235.3~6.3

GSM13

CTIA8

NSA4.8CELP

NSA2.4LPC

镶嵌式

变速率LD-CELP

公用网

4.1210

ACELPRPE/LTPVSELPMP-MLQ

公用电话网

4.39573

*

公用网

4.19468公用网

低速多移动信保密电话保密电话媒统

793683010

9368

3.293643550~100

1989

1989

2.5905335101982

时延(ms)复杂程度标准公布年代

注:

1972

~19861992199519951988

*复杂程度以PCM为标准,按电路运算的复杂性而作的相对比较。MOS

平均意见得分DRT判断韵字测试DAMACELPVSELPDCMEPCME

判断满意度测量代数码激励线性预测矢量和激励线性预测数字话路扩容设备分组交换扩容设备

LD-CELP短延时码激励线性预测编码

CSACELP短延时共轭结构代数码激励线性预测编码MP-MLQ多脉冲激励最大似然量化REP/LTP长时预测规则脉冲激励编码

13kbit/s带长时预测规则码激励(RPE-LT)线性

预测编码、8kbit/s矢量和激励线性预测(VSE-LP)编码及6.7kbit/s的VSELP编码等方案。国际海事卫星组织(INMARSAT)于1990年制定的语音压缩编码标准采用了4.15kbit/s改进型的多带激励(IMBE)的算法,而美国Qualcom公司为CDMA移动卫星通信系统采用了4kbit/s~8kbit/s的变速率语音压缩编码的标准,即CELP类型,叫作QCELP,并纳入了IS-95标准。总之,语音压缩编码技术的发展是十分迅速的,例如在目前已能在5kbit/s~6kbit/s的速率

上获得高质量的重建语音,在8kbit/s的速率上也可获得短延时高质量的重建语音,而下一个目标则是要在4kbit/s速率上获得短延时高质量的重建语音。特别是对中长延时编码,人们正在研究其更低速率(如400bit/s~1200bit/s)的编码算法,以应用于语音存储、短波通信、计算机语音通信等方面。目前比较好的算法还有正弦变换编码

(STC)、混合激励线性预测编码(MELPC)、时频

域插值编码(TFI)、基音同步激励线性预测编码

(PSELP)等等。发展的趋势是向着具有更低速率、

更高质量和更低延时的压缩编码方案方向发展。

TheStatusandTrends

oftheSpeechCodingTechnology

WANGShao-yong

WANGBing-jun

(FacultyofElectronicInformationEngneering

TianjinUniversity,Tianjin300072,China)

Abstract:Thispaperintroducestheconcepts,classificationofthespeechcompressedcoding,andthenitbrieflylistsspeechcodingtechniquesmostinuse.Thecurrutstatusandtrendsarealsodiscussed.

Keywords:Speechcoding;Vocoder;VectorQuantization(VQ)

本文来源:https://www.bwwdw.com/article/2111.html

Top