第4章信源编码与数据压缩 - tell - 图文

更新时间:2024-05-04 14:02:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第4章信源编码与数据压缩 通信系统中的核心问题: ? 有效性 ? 可靠性 ? 安全性

具体到移动通信:

? 有效性、可靠性与安全性是一个全系统概念,是一个很复杂的问题;

? 实现这3类指标的环境与条件更加恶劣,因而达到目标也就更加困难;

? 提高效率的问题更加突出。[特别是由于移动通信的频率资源是有限的] 实际实现中的关联性:

? 与移动通信系统中的3个层次——物理层、网络层和网络规划层都有关系,特别是与蜂窝网的拓扑结构密切相关。 ? 涉及方面:仅从物理层来探讨,具体有: ? 有效性:涉及到信源编码与数据压缩、调制与信道编码技术、多址方式、信号分集接收、天线方向性等诸多因素。

本章仅讨论在物理层决定有效性的最主要因素之一:信源编码和数据压缩技术。 信源编码

? 作用:压缩信源输出的信息率,提高系统有效性

? 实现原理:主要是利用信源的统计特性,解除信源相关性,去掉信源冗余信息。

? 发展过程:

? 第二代(2G)数字式移动通信系统:语音压缩编码:[语音业务]。

? 第三代(2G)数字式移动通信系统:语音压缩编码 + 各类图像压缩编码和多媒体数据压缩等方面[包含语音、数据和图像在内的多媒体业务]

本课在本章仅讨论以压缩算法为核心的原理与技术。

? 第一阶段:信源统计特性为依据的统计压缩编码。

? 第二阶段:在统计特性的基础上考虑

了瞬时特性和主观特性的自适应压缩编码。

4.1语音压缩编码

语音压缩编码的基本原理与方法 移动通信中的语音编码。 4.1.1 引言

技术要点:压缩语音编码的码率,提高通信系统的有效性。

原理:解除语音信源的统计关联。 语音压缩编码分为以下3类。

? 波形编码:波形编码是以精确再现语音波形为目的,并以保真度即自然度为度量标准的编码方法。这类编码是保留语音个性特征为主要目标的方法,其码率较高。

? 参量编码:一般又称为声码器。参量编码是利用人类发声机制,仅传送反映语音波形变化主要参量的编码方法。在接收端,可根据发声模型,由传送过来的变化参量激励产生人工合成的语音。参量编码的主要度量标准是可懂度。

? ?

[评看:这类编码是以提取并传送语音的共性特征参量为主要目标的编码方法,其码率较低。]

? 混合编码:又称为软声码器。混合编码是吸取上述两类编码的优点,以参量编码为基础并附加一定的波形编码特征,以实现在可懂度基础上适当改善自然度目的的编码方法。其码率介于上述两类编码之间。 ? 技术比较:

? 质量:波形编码 > 混合编码 > 参量编码

? 压缩倍数: 波形编码 < 混合编码 < 参量编码 ? 应用情况: ? 公用骨干(固定)通信网:波形编码。 ? 移动通信网:混合编码。 ? 特殊通信系统[如军事与保密通信系统]:参量编码

3类压缩编码的理论性能估计 理论支撑:信息论

1.波形编码的性能估计

利用信息论中连续(模拟)有记忆信源的信息率失真R(D)函数理论可以分析波形编码的性能。为了简化,粗略假设语音取样值遵从广义平稳正态马氏链性质,则信息率失真R(D)函数为 R(D)定义

1?2(1??2)R(D)?log22D(4.1.1)

2

式中,ρ为相关系数,D为允许失真;σ

为方差,即噪声功率。 计算:

根据实测数据,对于语音其取样点间ρ

2

=O.96左右;D为允许失真;σ为方差,即

2

噪声功率;若σ/D为信噪比。上式的计算结果见表4.1。

表4.1 波形编码理论压缩倍数K的初估 信噪比(dB) 35 32 28 25 23 20 17 R(D)(bit/样点) 4 3.5 2.5 2.34 2 1.5 l 压缩倍数K 2 2.28 3.2 3.42 4 5.3 8 注:表中的压缩倍数K是以PCM 8bit/样

点(即8位码)为参考点.与相应的R(D)值比较并计算的。

依据上表得到的结论:

? 当语音质量达到进入公网要求标准时,即

2

σ/D=26dB,K≈3.4倍;

? 若进一步考虑实际语音分布与主观因素的影响(因为正态分布R(D)值最大),其压缩倍数可以进一步增大,取K=4(保守值) ? 实际应用:语音速率可以从未压缩的PCM64Kbps降至1/4速率的16Kbps。 ? 目前水平:已实用化的DPCM为32Kbps。

2.参量编码的性能估计

思路:语音可以采用各种不同形式的参量来表达。 具体应用:采用最基本的参量“音素”。 以英语音素为例进行分析。

78

条件:英语中共有音素2(=128)~2(=256)个。按照通常讲话速率,每秒大约平均发送10个音素。

汉语音素=?ask

由信息量计算公式,对于等概率事件有:I=log2N,N为总组合数,则

I1(上限)?log2N?log2(256)10?80bps(4.1.2)

I2(下限)?log2N?log2(128)10?70bps(4.1.3)

最后可计算出压缩比K为

64KbpsK??914?800倍70?80bps(4.1.4)

[查上公式中的符号是否正确~] 据此,可得语音速率。 3.混合编码的性能估计

简介:混合编码的理论压缩比是介于上述两类编码之间,且与语音质量需求有关。 ? 若要求混合编码偏重于个性特征,则其压缩比靠近波形编码的压缩比值; ? 若要求混合编码偏重于共性,则其压缩比靠近于参量编码。 4.1.2数字通信中的语音编码 移动通信的技术要求:

? 移动通信中由于频率资源有限,因此要求语音编码采用低码率;

? 另一方面,由于移动通信信号可能要进入公共骨干通信网,因此必须基本满足公共骨干网的最低要求;

? 再者移动通信属于民用通信,还必须满足个性化指标要求。

结论:高质量的混合编码是移动通信中的优选方案[低数据比特率、高压缩比]。

低数据比特率、高压缩比的混合编码中的具体技术指标:有4个主要参量

数据比特率; 语音质量; 算法复杂度; 处理时延。

混合编码的任务或研究内容:力图使上述参量及其关系达到综合最优化。

1.数据比特率(bps)[简tell]

数据比特率:度量语音信源压缩率和通信系统有效性的主要指标。

? ? ? ?

相互关系或关联性问题: ? 数据比特率越低,压缩倍数就越大,可通信的话路数也就越多,移动通信系统也就越有效。 ? 数据比特率低,语音质量也随之相应降低。为了补偿质量的下降,往往可以采用提高设备硬件复杂度和算法软件复杂度的办法,但这又带来了成本与处理时延的增大。

降低比特速率的其它有效方法:

? 采用可变速率的自适应传输,它可以大大降低语音的平均传送率。[思路=?] ? 进一步采用语音激活技术,充分利用至少3/8的有效空隙,可获得大致约2.67dB的有效增益。[与上4个指标的关系,见查ATM研课件技术评估] 注:

语音激活技术:语音激活技术是建立在通话双方句子间、单词间存在可利用空闲的原理上,

? 对于TDMA系统,首先要检测可利用的空隙,然后再采用插空技术加以利用。

? 对于CDMA系统,由于各路语音同频、同时隙,则可以很方便地利用所有空隙间隔,即各路语音的空隙是随机产生的,从而可以达到互补的效果。 2.语音质量

度量语音质量:一个非常困难的问题。其度量方法不外乎客观与主观两个角度。

? 客观度量可以采用信噪比、误码率、误帧率,相对来说比较简单、可行。 ? 主观度量就没那么简单,因为接受语音的是人耳,所以语音质量主要是由人耳主观特性来判断。

? 以主观度量为主,度量语音质量。 主观评判方法:目前国际上常采用的主观评判方法称为MOS方法,它是原CCITT(ITU-T前身)建议采用的平均评估得分法(M0S)。 平均评估得分法(M0S):一般将主观质量评分分为5级,[5分考试类比]

? 5分(第5级),Excellent表示质量完美;

? 4分(第4级),Good表示高质量; ? 3分(第3级),Fair表示质量尚可(及

格);

? 2分(第2级),Poor表示质量差(不及格);

? 1分(第l级),Bad表示质量完全不能接受。 注:

MOS:Mean Opinion Score 实际应用MOS:

? 进入公共骨干网:达到4级以上,即Good高质量;

? 基本进入移动通信网:达到3.5级以上,即Fair质量尚可(及格)以上。 3.复杂度与处理时延[简说]

语音编码的实现方式:通常可以采用数字信号处理器DSP来实现,复杂度有两方面, a) 硬件复杂度:取决于DSP的处理能力; b) 软件复杂度:主要体现在算法复杂度上,是指完成语音编、译码所需要的加法、乘法的运算次数,一般采用MIPS即每秒完成的百万条指令数来表示。

典型值:通常,在取得近似相同语音质量的前提下,语音码率每下降一半,MIPS大约需

增大一个数量级。

复杂度与处理时延的关系:算法复杂度增大,会带来更长的运算时间和更大的处理时延。

与语音质量的关系:在双向语音通信中,处理时延、传输时延再加上未消除的回声是影响语音质量的一个重要指标。

几种已知低数据比特率语音编码的上述4个参数与性能比较(见表4.2)。

表4.2几种低数据比特率语音编码参数性能

比较

参数 指标 数据比复杂时质量 编码器类型 特率 度 延 (M0S) (Kbps) (MIPS(ms) ) 脉冲编码调制PCM 64 0.01 0 4.3 自适应差分脉冲编32 0.1 0 4.1 码调制ADPCM 自适应自带编码 16 1 25 4 多脉冲线性预测编8 10 35 3.5 码 随机激励线性预测4 100 35 3.5 编码 线性预测声码器 2 1 35 3.1

[问题:决定方式=?,得到速率]

GSM:基本原理基于线性预测编码。为满足GSM系统的窄带通信模式。包括 ? 速率为13k的全速率(FR)编码技术[常用]:规则脉冲激励线性预测编码技术(RPE-LPT)。

? 速率为12.2k的增强型全速率(EFR)编码技术:代数码激励线性预测编码技术(ACELPT)。

? 速率为6.5k的半速率(HR)矢量和激励线性预测编码技术编码方式(VSELP)。

CDMA for IS-95:QCELP声码器 [Qualcomm公司提出的用于IS-96系统的语音编码标准] 。该方案是可变速率的混合编码器,是基于线性预测编码的改进型——码激励线性预测,即采用码激励的矢量码表替代简单的浊音的准周期脉冲产生器。QEELP采用可变速率编码,利用语音激活检测(VAD)技术。在语音激活期内,可根据不同的信噪比分别选择4种速率:

? 8Kbps:称为全速率(1) ? 4Kbps:称为半速率(1/2)

? 2Kbps:称为四分之一速率(1/4) ? 1Kbps:称为八分之一速率(1/8)。 CDMA2000系统:EVRC声码器,EVRC(Enhanced Variable Rate Codec)即增强型可变速率语音编码器,是由美国电信工业协会TIA/EIA于1996年提出的CDMA2000系统的语音编码方案。1997年通过IS-127标准,其复杂度

大约为30MIPS。EVRC语音编码的取样率为8kHz,语音帧长为20ms,每帧有160个取样点。EVRC语音速率分为3种,平均速率为8Kbps:

? 全速率9.6Kbps,其对应每帧参数为171bit;

? 半速率4.8Kbps,其对应每帧参数为80bit;

? 1/8速率1.2Kbps,其对应每帧参数为16bit,

4.1.3语音压缩编码原理 从基本原理分析 ? 波形编码 ? 参量编码

? 各类混合编码方法。

以下略************* 1.波形编码的基本原理

自适应差分脉冲编码调制(ADPCM)是建立在差分脉冲编码调制(DPCM)的基础上,而

DPCM又是建立在脉冲编码调制(PCM)的基础上。

PCM是将连续的模拟信源离散成数字化信源的一种基本手段。PCM可分为3个基本步骤:取样、量化与编码。以语音信号为例,单路连续模拟信号带宽为300~3400Hz,标准带宽取4kHz,取最高频率的2倍,则取样率为8kHz,量化与编码时按非线性(A律或μ律)量化的8比特考虑,则单路模拟语音信号量化后速率应为8×8=64Kbps。 DPCM不直接传送PCM数字化信号,而改为传送其取样值与预测值(通过前面样点值经线性预测求得的)的差值,并将其量化、编码后传送。由于经过预测和差值以后,其样值差值(误差值)的信息熵要小于直接传送样值的信息熵,且在相同量化噪声要求的条件下,显然DPCM量化后的比特数要小于PCM的量化比特数,从而达到压缩信源码率的作用。

ADPCM与DPCM原理是一样的。两者之间主要差别在于ADPCM中的量化器和预测器引入了自适应控制机制。同时在译码器中多加

上一个同步编码调整器,其作用是为了在同步级联时不产生误差积累。20世纪80年代以来,32KbpsADPCM技术日趋成熟,其质量与PCM已相差无几,但速率却节省了一半,即从PCM的64Kbps降为ADPCM的32Kbps。

32Kbps ADPCM编码原理如图4.1所示。

图4.1 32Kbps ADPCM编码原理图 图4.1中,编码器输入信号为PCM码c′(n),它经过PCM/线性码转换,将8bit非线性PCM码转换成12位线性码x(n),16电平的自适应量化器把差值信号d(n)转化为4位二进制码c(n),为了使量化器适应不同统计特性的输入信号,根据输入信号的性质可以改变自适应速度参数来控制量化阶距大小。这一电路是由定标因子自适应和自适应

速度控制两部分电路来实现的。

32Kbps ADPCM译码原理如图4.2所示。

图4.2 32Kbps ADPCM译码原理图 译码器的结构大部分与编码器电路相同,只是多了一个同步编码调整电路,其作用是为使同步级联工作时不产生误差累积。 2.参量编码的基本原理

参量编码不直接传送语音波形,而是传送产生、激励语音波形的基本参量。决定语音波形的方式很多,其中最常用的是人工合成语音(声码器)的线性预测方式,它是移动通信的语音混合编码器的最基本依据,这里将重点介绍。

根据语音产生机理,采用下列物理模型是基本合理的,如图4.3所示。

图4.3语音产生物理模型

图4.3中,周期性信号源近似表示浊音信号源,随机性信号源近似表示清音的信号激励,根据瞬时语音信号种类以决定采用哪一种激励源。人的喉部声道特性及嘴唇边界条件等都可以近似看成一个时变线性系统,频域上是一个时变滤波器,图中u(n)表示波形产生的激励参量,G为语音增益,C(n)为人工合成语音。根据发音器官的惯性限制,时变特性为慢变化,大约几十毫秒(ms)内可以认为是近似不变的,它是传送时变参量周期的重要依据。

典型参量编码的线性预测LPC方案如图4.4所示。

图4.4线性预测LPC编译码方案 在发送端一般需要提取并传送15个基本参量:基因周期P、清浊音判决U/V、语音增益G及12个线性时变合成语音滤波器系数{ai},i=1,2,?,12。在具体处理时,首先对每帧(10~20ms)语音进行分析并提取这15个参量,然后经过量化、编码再送至信道。在接收端,首先要通过参量译码恢复这15个基本参量,其次再按照发声的物理模型,利用这些参数激励并合成人工语音。

在上述LPC的基本结构中,若采用直接传送方式,15个基本参量量化后大约需要7.2Kbps。即12个预测系数{ai},i=1,2,?,

12,按照每个系数量化为11bit计算,需要12×ll=132 bit,另外音调周期量化为6bit,增益量化为5bit,清浊音判决为1bit,则每个语音帧(20ms)共需要132+6+5+1=144bit,它相当于7.2Kbps。显然,直接编码速率偏高,而且对于系数变化十分敏感,很容易造成系统不稳定。为了降低LPC的码率,提高稳定性 往往采用下列办法。

(1)采用一类反射系数格型算法,用对数面积比系数代替直接预测系数,可以进一步降低传送的数据比特率。GSM中采用这一方法可将每样值比特数从11bit压缩至3~6bit。

(2)采用矢量量化技术,即不采用通常逐个样点值进行量化,而是采用多个样值联合量化的矢量量化方法。将它引入到参量量化的传输中,可以将每个样值比特数从11bit压缩到1bit以下,从而可以大大压缩参量传送速率,它已在IS-96 QCELP及第三代移动通信的语音编码中广泛使用。 3.混合编码的基本原理

混合编码是介于波形编码与参量编码之间的一种编码方法,兼有参量编码低速率与波形编码高质量的优点。由前面理论分析可以看出:波形编码的速率下限大致在16Kbps,质量得分MOS在4.1~4.5;参量编码的速率上限大致在4Kbps,质量得分MOS则低于3.5分;混合编码的速率范围大致在4~16Kbps,质量得分MOS基本维持在4分以上。

实现混合编码的基本思想是以参量编码原理,特别是以LPC原理为基础,保留参量编码低速率的优点,并适当地吸收波形编码中能部分反映波形个性特征的因素,重点改善自然度性能。

前面已指出,决定混合编码性能的主要参量有4个:数据比特率、语音质量、复杂度与时延。随着技术的不断进步,可以通过增大硬件复杂度,改进算法并减小软件实现复杂度,在此基础上换取一定语音质量与时延指标要求下的数据比特率的降低。 改进LPC主要从3个方面人手:①改进语音生成物理模型、激励源结构和合成滤波

器结构,提高语音质量;②改进参量量化和传输方法,进一步压缩传输速率;③采用自适应技术,进一步解决系统与信源和信道之间的统计匹配。

首先讨论语音生成物理模型、激励源及合成滤波器结构的改善,这方面已有很多有效方案,大致可归结为下面3个方案。 (1)余数激励声码器(REPLC)方案。该方案将语音基带低频信号中的一小部分(称为余数信号)按取样率量化后送至接收端,以改善语音自然度。

(2)多脉冲激励LPC方案。人们对语音深入分析发现,采用清浊二元模型过于简单,因为实际上有相当部分的语音是介于二者之间的混合型,另外,浊音激励仅采用单个脉冲源也过于简单化。为了改进上述特性,人们提出了多脉冲激励线性预测编码(MPLPC)方案和规则脉冲激励长期预测编码(RPBLTP)方案,后者就是GSM中采用的语音编码方案,将在后面进一步介绍。

(3)码激励线性预测编码(CELPC)方案。CELPC中应用了矢量量化技术,它是IS-95

与第三代移动通信的CDMA2000与WCDMA语音编码的基础。

改进LPC性能的第2个主要措施是进一步减少和压缩参量量化后的信息速率。主要采用矢量量化、变换与优化等技术。这方面内容前面已做了初步介绍。

改进LPC性能的第3个主要措施是采用自适应技术,它主要包含两方面含义。 (1)信源特性参量的自适应,如预测系数{ai}自适应范围大致在30~400次/秒;音调基音周期P的自适应和增益G的自适应范围大致在100~200次/秒。

(2)与信道特性匹配的传输速率自适应,它在IS.95与第三代CDMA2000与WCDMA中均采用。

*************END 以下略

4.2移动通信中的语音编码

本节将结合第二代(2G)的GSM与IS-95系

统及第三代(3G)的WCDMA和CDMA2000等不同系统所采用的语音编码具体方案,着重从原理上来阐述移动通信中的语音编码。 ? GSM系统:RPE-LTP声码器;主要特性=? ? IS-96系统:TIA/EIA IS-96,即QCELP声码器 [Qualcomm公司提出的用于IS-96系统的语音编码标准] 。该方案是可变速率的混合编码器,是基于线性预测编码的改进型——码激励线性预测,即采用码激励的矢量码表替代简单的浊音的准周期脉冲产生器。QEELP采用可变速率编码,利用语音激活检测(VAD)技术。在语音激活期内,可根据不同的信噪比分别选择4种速率:8Kbps,4Kbps,2Kbps和1Kbps,并称它们为全速率(1)、半速率(1/2)、四分之一速率(1/4)、八分之一速率(1/8)。采用可变速率,可以使平均速率下降两倍以上。QCELP中的参量分为3类:矢量码表参量、音调参量与线性预测系数参量,需要每帧更新。[编码中速率自动可变,总体速率下降,=?] ? TD-SCDMA系统:=?

? CDMA2000系统的EVRC声码器,EVRC(Enhanced Variable Rate Codec)即增强型可变速率语音编码器,是由美国电信工业协会TIA/EIA于1996年提出的CDMA2000系统的语音编码方案。1997年通过IS-127标准,其复杂度大约为30MIPS。EVRC语音编码的取样率为8kHz,语音帧长为20ms,每帧有160个取样点。EVRC语音速率分为3种:全速率9.6Kbps,其对应每帧参数为171bit;半速率4.8Kbps,其对应每帧参数为80bit;1/8速率1.2Kbps,其对应每帧参数为16bit,平均速率为8Kbps。EVRC方案采用基音内插方法减小基音参数传送速率,使其在每个语音帧仅传两次,而将节省下的信息位(比特数)用于提高激励信号质量。EVRC编码器基于码激励线性预测,与传统CELP算法的主要区别是:它能基于语音能量、背景噪声和其他语音特性动态调整编码速率。

? WCDMA系统中的AMR声码器:AMR是第三代移动通信中WCDMA优选的语音编码方

案,其基本思路是联合自适应调整信源和信道编码模式来适应当前信道条件与业务量大小。AMR编码自适应有两个方面:信源和信道。对于信道存在两类选择:全速率(FR)22.8Kbps和半速率(HR)11.4Kbps,而对于FR和HR,不同信道模式分别有8种和6种信源编码速率,如表4.6所示。

表4.6 AMR信道与信源编码模式 信道模式 编码模式(信源速率) 全速率(FR) 12.2Khps, 22.8Kbps 10.2Kbps 7.95Kbps,7.4Kbp 6.7Kbps, 5.9Kbps 5.15Kbps, 4.75Kbps 半速率(HR) 11.4Kbps 7.95Kbps, 7.4Kbps 6.7Kbps, 5.9Kbps 5.15Kbps, 4.75Kbps

AMR语音编码的取样率为8kHz,语音帧长20ms,每帧160个取样点。以自适应码激励线性预测编码ACELP技术为基础,提供两种信道模式下14种编码速率,每种编码可提供不同的容错度。应采用哪种编码速率主要是根据实测信道与传输环境的自适应变化。

以下略*************

4.2.1 GSM系统的RPE-LTP声码器原理 GSM语音编码是通过3个阶段从6种候选方案中仔细挑选出来的,它代表了当时语音

混合编码的国际先进水平。被选中的是规则脉冲激励长期预测编码,即RPE-LTP方案,它是RPE-LPC的改进型,其基本原理基于线性预测编码。RPE-LTP声码器采用等间隔、相位与幅度优化的规则脉冲作为激励源,以便使合成后的波形更接近原始信号。该方案结合长期预测以消除信号的冗余度,降低编码速率,同时其算法较简单,计算量适中且易于硬件实现。

GSM对语音的信号处理从总体上主要包括:①发送端首先要进行语音检测,将每个时段分为有声段和无声段,并分别进行处理;②对于有声段要进行语音编码,以产生语音帧信号;③对于无声段要进行背景噪声估计,产生SD(静寂描述帧);④发射机采用不连续发生方式,仅在有声段内才发送语音帧,而SID则是在语音帧结束后才发送,接收端根据收到的SID帧中的信息在无声期插入舒适噪声。

GSM语音编码器输入信号速率为8000样本/秒取样序列,编码处理是按帧进行的,每帧20ms,含有160个语音样本,编码后为

260比特的编码块。REP_LTP编码器包括下列5个部分:预处理、线性预测分析、短时分析滤波、长时预测及规则脉冲激励编码,其编码器原理如图4.5所示。图4.5中各主要部分功能描述如下。

图4.5 GSM系统的RPE-LTP编码器原理 (1)预处理。语音信号编码以前先经过预处理,以消除信号中的直流分量,并进行高频分量的预加重,它包括偏移补偿与预加重两个子模块。 (2)LPC分析。主要进行线性预测分析参数,它包含下列5个子模块:分帧、自相关、Schar递归算法、反射系数映射至对数面积比(LAR)转换及对数面积比的量化与编码,经过LAR编码器,可将LPC参量样值量化比特从通常的11bit压缩至3~6bit,最后将

LAR参量编码值分别送至下一级短时分析滤波器和发送端输出端。

(3)短时分析滤波。其目的是为了提取一个语音帧中160个样点的短时余量信号。通过LPC分析求得对数面积比值LAR,再经过3个子模块:LAR解码、插值及反变换,求出并送入格型结构滤波器,最后求得余量信号值。

(4)长时预测LTP。它将短时分析滤波器输出的余量信号进行长期预测处理。处理过程按帧进行,每帧分为4个子帧,每个子帧含有40个样点,且需要对长时分析滤波器输出的LTP滞后参数Ni和LTP增益bj进行估值和更新。并将Mi与bi分别送至发送端输出和本部分的长时分析滤波,长时合成滤波利用它产生长时余量信号,该信号是由短时余量预测值与长时余量信号的重构值相加而获得的。这一部分包含有子帧分割、LTP参数计算、LTP滞后参数编/译码、LTP增益编/译码、长时分析滤波与长时合成滤波6个部分。

(5)规则脉冲激励编码。它将由长时预

测LTP产生的长时余量信号通过加权滤波器进行规则脉冲激励序列的提取和编码。这部分包含加权滤波、RPE网络位置选取、RPE序列的自适应脉码调制APCM量化、APCM逆量化及RPE网络位置恢复5个部分。其中,需要向输出端送出的参量有3个:最佳RPE网络位置M(2bit)、RPE 13个样点量化值XM(i),i=0,l,2,?,12及其最大样点值Xmax。

RPE-LTP编码器的核心任务是给接收端传送一组6个基本参量M,XM (i),Xmax,bj和LAR(i),因此编码器输入每帧160个样点,每个样点13bit,每帧可以共有13×160=2080bit,经编码处理后压缩为260bit,6个基本参量的信息比特分配见表4.3。

表4. 3 RPE-LTP编码每帧比特分配表

参数 数量 LPC系数8 LAR(i) LTP增益bj 4 2 8 LTP滞后参数4 7 28 Nj RPE网络位置M 4 2 8 最大值Xmax 4 6 24 RPE样点值52 3 156 XM(i) 合计 260

RPE-LTP的译码器原理如图4.6所示。由图可见,RPE-LTP译码主要包含4个部分:RPE译码、长时预测、短时合成滤波及后处理。

(1)RPE译码。它包含APCM反变换和RPE网络位置恢复两部分,即从接收到的3个

比特/比特数 参数 3,4,5,6 36

图4.6 GSM RPE-LTP译码器原理图 主要参量M,Xmax和XM (i)中通过上述两部分恢复出长时余量信号。

(2)长时预测部分。它包含LTP参量译码和长时合成滤波器两部分,是将恢复出的长时余量信号与接收到的参量bj,Nj和译码后的b'j,N'j经长时合成滤波器以恢复出短时余量信号,供短时合成滤波用。 (3)短时合成滤波。这部分的输入信号是由长时预测部分提供的,而滤波器的系数则是从接收到的LAR经译码、内插和求反射系数等3个子模块处理后得到的。短时合成滤波器本身则采用格型滤波器结构。

(4)后处理部分。它将经短时合成滤波器的输出信号送入IIR去加重滤波器进行后处理,恢复出原来的语音信号。

4.2.2 IS-96系统的QCELP声码器

下面介绍Qualcomm公司提出的用于IS-96系统的语音编码标准--TIA/EIA IS-96,即QCELP声码器。该方案是可变速率的混合编码器,是基于线性预测编码的改进型——码激励线性预测,即采用码激励的矢量码表替代简单的浊音的准周期脉冲产生器。QEELP采用可变速率编码,利用语音激活检测(VAD)技术。在语音激活期内,可根据不同的信噪比分别选择4种速率:8Kbps,4Kbps,2Kbps和1Kbps,并称它们为全速率(1)、半速率(1/2)、四分之一速率(1/4)、八分之一速率(1/8)。采用可变速率,可以使平均速率下降两倍以上。QCELP中的参量分为3类:矢量码表参量、音调参量与线性预测系数参量,需要每帧更新。QCELP方案的编码原理如图4.7所示。图中,L表示最佳音调滞后,b为音调滞后。

典型的LPC采用简单的二元清浊音模型,而QCELP则采用矢量码表代替浊音,即采用码激励矢量量化差值信号代替浊音。QCELP采用3类滤波器代替典型LPC中人工

语音合成的IIR滤波器,目的是改善合成语音的质量,特别是改善语音自然度。这3类滤波器包括:动

图4.7 QCELP编码原理图

态音调合成滤波器、线性预测编码滤波器及自适应共振峰合成滤波器。 TIA/EIA IS-96的QCELP语音编译码系统如图4.8所示。

图4.8 TIA/EIA IS-96的QCELP语音编译

码系统图

首先对输入模拟语音按8kHz取样,再按照20ms划分为一个语音帧,每帧含有160个样点值,接着将160个样点值生成3个参数子帧。①矢量码表参数:对于每一个码本,子帧分别计算一次码本增益G和码本序号,,而且需要不断更新,更新次数决定于不同速率。②音调参数:对于每一个音调子帧分别计算其增益G与滞后两组参量——最佳音调滞后L与音调滞后b。③滤波系数参数:即线性预测编码LPC的系数,前面分析已指出,为了进一步降低LPC参数的码率,提高稳定性,需要将LPC参数变换成线性频谱对LSP参数,且每个子帧LSP参数是通过相邻子帧线性内插求得的,它对于任何速率都是20ms更新一次。上述3组参数均需不断更新,更新后的参数再按一定的子帧结构打包传送至接收端。表4.4给出对应 不同速率的参数变化。

表4.4 QCELP对应每种速率所使用的参数 参数 速率速率l 速率2 速率3 速率4 (8Kbps) (4Kbps) (2Kbps) (1Kbps) 每帧更新1 1 1 1 LPC子帧次数 每次LPC160 160 160 160 子帧更新(20ms) (20ms) (20ms) (20ms) 所需取样值 每个子帧40 20 10 10 所占比特 每帧更新4 2 1 O 的音调台成子帧次数 40 80 160 - 每次音调(5m5) (10ms) (20ms) 合成子帧更新所需取样值 每个音调1O 10 10 合成子帧所占比特教 码表子帧8 4 2 1 每帧更新次数 20 40 80 160 每次码表(2.5ms) (5ms) (10ms) (20ms) 子桢更新所需取样值 每个码表10 10 10 60 子帧所占比特数

表4.5进一步给出在不同速率情况下的参数帧结构,且表中每一个参数帧均对应一个含160个样点的语音帧。 *************需更正1

表4.5 QCELP的不同速率参数帧结构 对速率1的参数帧结构: LPC 40(bit) 子帧 音调 10(bit) l 合成10(bit) l 子桢 10(bit) J 10(bit) 矢量lO lo I 10 码表(bl 10 I 10 子帧 itI 10 I 10 ) i 10 共 160 bit 计

对速率—F1的参数帧结构 LPC 20(bit) 子帧 音调 b11) I 合成101 10(bit) 子帧 矢量 10 l 码表10(bi10 I 10 子帧 t) 共计 80(bit)

对速率1/4的参数帧结构

本文来源:https://www.bwwdw.com/article/pahg.html

Top