语音质量(MOS)专题分析报告

更新时间:2024-01-14 23:15:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

语音质量(MOS)专题分析

PESQ MOS专题分析:目前话音质量分析主要采用语音感知MOS指标、下行误码率指标(rxqual)。其中语音感知MOS指标包含了下行误码率、切换、时延等多种因素。本专题主要针对第一阶段的数据对MOS指标进行专题分析。

表:第一阶段MOS指标对比表 方式 人工 自动 人工 自动 人工 自动 人工 人工 话音质量 移动比例 移动比例 联通比例 联通比例 电信比例 电信比例 W比例 TD比例 >3.5 3.3-3.5 3.1-3.3 9.10% 7.12% 7.62% 2.9-3.1 5.97% 7.58% 2.7-2.9 3.28% 4.44% 3.33% 5.27% 2.83% 1.70% 6.28% 2.5-2.7 1.56% 3.05% 2.09% 2.45% 5.20% 1.08% 0.76% 4.80% 2.3-2.5 0.73% 2.65% 1.06% 2.35% 3.04% 0.38% 0.49% 3.75% 2-2.3 <2 68.80% 9.73% 60.96% 6.84% 62.24% 6.79% 57.94% 5.16% 0.45% 0.37% 7.37% 0.61% 1.07% 7.49% 1.83% 1.69% 1.26% 0.46% 0.50% 3.60% 2.67% 15.74% 7.06% 12.91% 4.07% 15.41% 43.68% 16.55% 7.33% 36.17% 37.10% 14.45% 6.74% 81.55% 7.49% 4.04% 3.00% 36.50% 22.73% 11.74% 7.93% 表:GSM第一阶段人工和自动路测MOS指标对比表

方式 自动 人工 MOS均值 移动 联通 移动 联通 0-2 2-2.5 2.5-3 3-3.5 3.5-3.8 大于3.8 总数 100.00% 100.00% 100% 51.36% 4.30% 5.72% 11.01% 18.01% 10.40% 50.56% 4.81% 5.04% 11.96% 20.26% 6.58% 0.36% 1.18% 7.21% 1.07% 1.67% 7.85% 22.46% 24.28% 44.51% 100.00% 27.17% 10.49% 51.75% 备注:2G中,人工测试均为华星的MOS盒;3G和自动路测均采用鼎利的MOS盒。

一 鼎利MOS盒分析,五网质量对比情况

话音质量 移动比例 联通比例 电信比例 W比例 TD比例 >3.5 60.96% 57.94% 36.17% 81.55% 36.50% 3.3-3.5 6.84% 5.16% 37.10% 7.49% 22.73% 3.1-3.3 7.12% 7.62% 14.45% 4.04% 11.74% 2.9-3.1 7.58% 12.91% 6.74% 3.00% 7.93% 2.7-2.9 4.44% 4.07% 2.83% 1.70% 6.28% 2.5-2.7 2.3-2.5 3.05% 2.45% 1.08% 0.76% 4.80% 2.65% 2.35% 0.38% 0.49% 3.75% 2-2.3 7.37% 7.49% 1.26% 0.46% 3.60% <2 0.50% 2.67% 备注:分析发现,自动路测系统的MOS值为PESQ-LQ值(2.0);W网和TD网的MOS为映射后的MOS值(2.2);华星仪表为直接PESQ值(2.2),三者之间有一定的关系,但并不一致。

移动比例110.000.00?.00?.00p.00`.00P.00@.000.00%≥3.5≥3.3联通比例电信比例W比例TD比例≥3.1≥2.9 ≥2.7≥2.5≥2.3All

话音质量 移动比例 联通比例 电信比例 W比例 TD比例 ≥3.5 60.96% 57.94% 36.17% 81.55% 36.50% ≥3.3 67.80% 63.10% 73.27% 89.04% 59.23% ≥3.1 74.92% 70.72% 87.72% 93.08% 70.97% ≥2.9 82.50% 83.63% 94.46% 96.08% 78.90% ≥2.7 86.94% 87.70% 97.29% 97.78% 85.18% ≥2.5 89.99% 90.15% 98.37% 98.54% 89.98% ≥2.3 92.64% 92.50% 98.75% 99.03% 93.73% All 100.00% 100.00% 100.00% 100.00% 100.00% 从上图分析可以看出,指标排名如下:

1) 2) 3)

以2.5为标准,质量高低分别为联通W网、电信C网、联通GSM网络、移动GSM网络、移动TD-SCDMA网络; 以3.3分为标准,质量高低分别为联通W网络、电信C网络、移动GSM网络、联通GSM网络、移动TD-SCDMA网络;

以大于3.5为标准,质量高低分别为联通W网络、移动GSM网咯、联通GSM网络、移动TD-SCDMA网络、电信CDMA网络;

结论:从自动路测(鼎利)的PESQ计算方法上看,电信CDMA网络话音质量高于3.5分的比例较低,但是高于3.3和3.1分的比例很高。按照大于3.3(或者3.3以下)的比例,CDMA的MOS质量要好于联通和移动的GSM网络。

二 华星MOS和分析,三网对比测试情况;

话音质量 移动比例 联通比例 电信比例 ≥3.5 3.3-3.5 3.1-3.3 2.9-3.1 2.7-2.9 2.5-2.7 2.3-2.5 2-2.3 <2 5.97% 3.28% 1.56% 0.73% 1.06% 3.04% 汇总 ≥2.5 ≥3.3 68.80% 9.73% 9.10% 0.45% 0.37% 100.00% 98.44% 78.53% 0.61% 1.07% 100.00% 97.25% 69.03% 1.83% 1.69% 100.00% 93.44% 59.09% 62.24% 6.79% 15.74% 7.06% 3.33% 2.09% 15.41% 43.68% 16.55% 7.33% 5.27% 5.20% 移动比例105.00?.00?.00u.00e.00U.00E.005.00%.00.00%>=3.5话音质量 移动比例 联通比例 电信比例 ≥3.5 68.80% 62.24% 15.41% 联通比例电信比例3.3-3.53.1-3.32.9-3.12.7-2.92.5-2.72.3-2.5≥3.3 78.53% 69.03% 59.09% ≥3.1 87.63% 84.77% 75.64% ≥2.9 93.60% 91.83% 82.97% ≥2.7 96.88% 95.16% 88.24% ≥2.5 98.44% 97.25% 93.44% ≥2.3 99.17% 98.31% 96.48% 2-2.3≥2.0 99.62% 98.92% 98.31% <2 <2 100.00% 100.00% 100.00% 结论:从flywire(华星)的PESQ计算方法上看,电信CDMA网络话音质量一直很低,在各个分数段均明显低于联通和移动的GSM网络。

三 PESQ MOS指标测试研究

从1..5.1和1.5.2可以看出,华星PESQ MOS的分值和鼎利PESQ MOS分值相差较大。特别是CDMA的MOS分值,在对比中的排名完全相反。因此我们对PESQ的MOS算法进行了专题测试和研究分析。

1. 研究结论如下:

1. 不同测试厂家的MOS盒使用不同标准,如自动路测采用P862.1标准,分数为PESQ-LQ;华星flywire

MOS算法采用P862.2标准,所选值为PESQ score;3G测试MOS盒采用P862.2标准,选值为PESQ-MOS分值;

2. 语音样本格式不同,华星采用PCM格式,鼎利使用WAV格式,规范定义采用WAV格式(两者相差

微小);

3. MOS盒硬件实现方式不同:MOS盒测试CDMA差别大,其中华星MOS盒原因为MOS到手机两端

均为耳塞插孔,失真较大;而鼎利MOS盒在CDMAMOS评估的时候采用模块化的设计,失真较少。 4. CDMA MOS测试使用终端的不同。在MOS盒相同的情况下,使用三星手机和LG CDMA手机所测

试MOS分值相差较大,平均相差0.4分。

5. 实现方式不同:由于规范并无规定静默音是否含在评估中,因此两家选取方式不同,但是相差不大(在

0.00x之内),以后我们将会做统一要求。

2. 解决建议:

1. 统一PESQ算法标准,选用标准暂定为P862.2。

2. 统一MOS分值计算方法估规范。为了更好的贴近感知度,决定以后使用PESQ值映射成的MOS值最

为最终结果,保留中间过程的PESQ值、PESQ-LQ值。

3. 统一样本格式,所有样本统一为A-law编码的16bit的8000Hz的WAV格式音频文件。 4.CDMA测试值偏差较大的问题,继续研究。

3. 附专题分析情况:

测试时间:2010年8月18日下午,测试地点:北京移动菜市口机楼 参与厂家:华星GSM人工设备,鼎利TD人工设备、鼎利GSM自动设备

测试方法:使用相同的WAV格式样本文件,三套设备于下午2点30分到3点进行测试,记录各自的WAV格式录音文件。暂定华星GSM人工设备生成的录音文件为A,鼎利TD人工设备生成的的录音文件为B, 鼎利GSM自动设备生成的的录音文件为C

分析方法:

1、使用华星后评估软件对所有录音文件进行打分得到分值A1,B1,C1; 2、使用鼎利后评估软件对所有录音文件进行打分得到分值A2,B2,C2; 3、鼎利自动路测前端生成的打分值为C3 通过比较得出下表:

项目 华星人工设备生成WAV 鼎利人工设备生成WAV 鼎利自动设备生成WAV 华星后评估软件 A1 B1 C1 鼎利后评估软件 A2 B2 C2 鼎利自动路测打分软件 C3 现象 A1≠A2 B1=B2 C1=C2但C2≠C3 问题分析:

3.1 C2与C3不一致

鼎利回复:自动路测前端使用MOS评估算法是pesq2.0,人工测试采用是pesq2.2。自动路测上报的是PESQ-LQ值,后评估软件上报的是由PESQ值映射成的MOS值,映射公式为MOS=0.999+(4/(1+EXP(-1.4945*B2+4.6607))),其中B2为PESQ值。该公式已经确认。浙江所有自动路测设备均使用的是是pesq2.0。

解决措施:设计院将根据这次试验完善自动路测设备MOS评估规范。鼎利后续将对自动路测前端进行升级。为了更好的贴近感知度,决定以后使用PESQ值映射成的MOS值最为最终结果,保留中间过程的PESQ值、PESQ-LQ值。

3.2 A1与A2不一致

,鼎利对A文件中的28个样本,打分出来的PESQ值、PESQ-LQ值15个偏高,7个一致,6个偏低。但是B1,B2是一致的,C1与C2也是一致的。

根据ITU标准样本文件进行了下一步验证,经过多个样本的背靠背打分试验,两家打分的结果与ITU完全一样。经过双方的介绍,两家公司的实现方式有一些差别,所以打分结果不完全一致。两者之间的差别主

要体现在录音文件的处理上。

1S静音6S波形1S静音样本文件

鼎利算法:原始波形是64000帧波形,从放音开始计算对比每一个帧,直到64000个帧结束。最终得出PESQ、LQ、MOS等分值。

华星算法:在PESQ评分时,华星软件直接把标准样本和退化样本进行对比,获得PESQ、LQ、MOS等分值。

由上面3张图可以看出:

A. 鼎利公司的录音文件是一个不在录制范围内的t时间声音文件+(8-t)s的样本文件。 B. 华星公司的录音文件是一个不在录制范围内的t时间声音文件+8s的样本文件+200ms保护。 从保持录音文件的完整性来说,我觉得应该使用华星的方式。

3.3 各厂家输出MOS分值的公式不同

华星最后输出的结果为PESQ值,鼎利的人工测试输出结果为PESQ-MOS,鼎利自动路测输出结果为

PESQ-LQ值。

华星回复:2005年中国移动在引入语音质量评估时,华星根据国际电联P.862标准,选择了PESQ Score作为语音质量评分指标。

1、 华星MOS盒CDMA语音线路经过两次耳机插孔。

MOS盒在2010年8月20日星期五完成改造,并在菜市口机楼小会议室进行了试测。试测结果为PESQ值,如下表所示: 话音质量 改造前 改造后 >3.5比例 19 16.52% 73 31.20% 3.3-3.5 77 66.96% 128 54.70% 3.1-3.3 15 13.04% 20 8.55% 2.9-3.1 3 2.61% 11 4.70% 2.7-2.9 1 0.87% 1 0.43% 2.5-2.7 2.3-2.5 0 0.00% 1 0.43% 0 0.00% 0 0.00% 2-2.3 0 <2 0 平均值 3.397 3.414 0.00% 0.00% 0 0 0.00% 0.00% 改造前105.00?.00?.00u.00e.00U.00E.005.00%.00.00%>3.5>3.3>3.1>2.9>2.7改造后>2.5>2.3>2all

话音质量 改造前 改造后 >3.5 16.52% 31.20% >3.3 >3.1 >2.9 >2.7 >2.5 >2.3 >2 all 83.48% 96.52% 99.13% 100.00% 100.00% 100.00% 100.00% 100.00% 85.90% 94.45% 99.15% 99.58% 100.00% 100.00% 100.00% 100.00% 从两次测试分值的分布可以看出,改造后的PESQ分值还是有一定的提升。由于CDMA手机大部分手机只有插孔式耳机,后期准备找一款耳机线内置于数据线接口的手机进行改造试验。

3.4 使用语音样本格式不同

华星使用的是样本文件A-law编码的16bit的8000Hz的PCM格式音频文件

华星回复:华星软件实际支持PCM和WAV两种文件格式。,华星认为PCM文件和WAV文件本身是一样的,只是WAV文件的文件头中会有编码格式的信息,而PCM不包含此信息。

选择这个编码的原因是考虑到在目前电信网的中继传输中,大部分情况下会将手机发送到基站的语音编码为A-law格式进行传输,在源文件使用A-law编码可以在一定程度上抵消中继传输中编码原因引起的PESQ分值下降。

下表是一次定点GSM测试中使用WAV和PCM文件的评分结果: 使用文件格式 PCM文件一 WAV文件一 PCM文件二 WAV文件二 PESQ 3.929 3.924 2.853 2.846 PESQ_LQ 4.049 4.043 2.511 2.501 PESQ_LQO 4.081 4.076 2.607 2.598 从上表可以看出,使用PCM格式文件比用WAV格式文件打分值要偏高,但是偏差幅度为0.00X。 解决措施:为了更好的贴近用户感知,所有样本统一为A-law编码的16bit的8000Hz的WAV格式音频文件。

3.5 P.862 P.862.1 P.862.2与P.862.3的关系

P.862是ITU-T定义的是PESQ算法作为一种客观评价语音网络传输质量的标准。 P.862.1则是定义了从PESQ推算PESQ_LQO作为到MOS分值映射的公式。

P.862.2定义了在宽带语音(8KHz)系统中使用PESQ算法和从PESQ推算PESQ_LQO作为到MOS分值映射的公式。 P.862.3则是ITU-T关于如何合理使用PESQ方法进行语音评估的建议。

从历次规范演进来看,P862.1已经完成了基于窄带语音评估的PESQ值到MOS值的映射,目前最贴近GSM/CDMA2000网络承载语音业务的话音质量人耳体验值是PESQ_LQO值(即PESQ MOS)值。

3.6 PESQ score与PESQ_LQ以及PESQ-MOS分值关系

PESQ有四种质量分值,即根据P.862计算的pesq_score分值、根据类MOS尺度的PESQ-LQ分值、根据评估模型计算的损耗因子PESQ-Ie,映射到主观评估的MOS值。其中PESQ-LQ和PESQ-Ie都是根据pesq_score分值采用简单的公式转换得来得,PESQ-LQ值是根据心里声学来计算的,而PESQ-Ie是根据ITU-T P.834得到的

在同样差的话音质量条件下,pesq_score分值要比主观的MOS值大。心里声学通过大量的主观测试数据来进行分析。为了更好地将PESQ和传统的MOS值联系起来,我们引入了PESQ-LQ 的概念。根据ITU-T P.800的介绍,PESQ-LQ更接近人的主观听觉质量。MOS值一般在1到5之间,而PESQ-LQ的分值在1到4.5之间。在主观测试中,PESQ-LQ的最大值为4.5。

3.7 CDMA MOS分值较低的原因 3.7.1 ITU-T P862系列的规范有分歧:

ITU-T P.862发布于2001年2月,其中对适用范围的有如下表格: Table 1/P.862 ???Factors for which PESQ had demonstrated acceptable accuracy Test factors Speech input levels to a codec Transmission channel errors Packet loss and packet loss concealment with CELP codecs Bit rates if a codec has more than one bit-rate mode Transcodings Environmental noise at the sending side (See Note.) Effect of varying delay in listening only tests Short-term time warping of audio signal Long-term time warping of audio signal Coding technologies Waveform codecs, e.g. G.711; G.726; G.727 CELP and hybrid codecs ≥4 kbit/s, e.g. G.728, G.729, G.723.1 Other codecs: GSM-FR, GSM-HR, GSM-EFR, GSM-AMR, CDMA-EVRC, TDMA-ACELP, TDMA-VSELP, TETRA ITU-T P.862规范规定PESQ算法是可以用于不同制式网络之间的话音质量评估的。

ITU-T P.862.3发布于2007年11月。3GPP2组织过对EVRC编码方式和GSM-AMR编码方式的MOS对比测试,与PESQ的分值相比,QualComm公司认为PESQ算法对与EVRC族编码方式评分总体偏低。对此,ITU-T在P.862.3(2007/11)中予以声明,不建议在对比使用EVRC编码的网络(如CDMA)和其他网络(如GSM/WCDMA/TD-SCDMA)时直接使用P.862得分(包括PESQ,PESQ LQ,P.862.1,P.862.2)进行对比,对于使用EVRC编码的网络,P.862得分直接对比仅适用于对相同制式网络的比较。以下为规范内原文

Conclusions:

1) The direct comparison of P.862.1/P.862.2 scores obtained with AMR-type codecs or other ITU-T speech codecs with the EVRC family of codecs is not recommended. This includes the

benchmarking between GSM/UMTS networks and CDMA networks which are usually equipped with EVRC family codecs.

2) The comparison of different conditions (e.g., bit rates, error patterns) using EVRC is possible by P.862.1/P.862.2 due to the correct relative ranking of the quality scores within those conditions. Consequently, P.862.1/P.862.2 might be usable for benchmarking of CDMA networks to each other or for optimization efforts within those networks if the same codec is involved. The direct comparison of P.862.1/P.862.2 scores with P.800 subjective listening scores is not appropriate for the EVRC family codecs。

根据了解到的情况,该核心算法的拥有者推出了PESQ算法的HD版本,可以解决上述问题。

3.7.3 MOS盒硬件实现方式不同

MOS盒测试CDMA差别大,其中华星MOS盒原因为MOS到手机两端均为耳塞插孔,失真较大;而鼎利MOS盒在CDMAMOS评估的时候采用模块化的设计,失真较少。

3.7.3 CDMA MOS测试使用终端的不同

在MOS盒相同的情况下,使用三星手机和LG CDMA手机所测试MOS分值相差较大,平均相差0.4分。

本文来源:https://www.bwwdw.com/article/1qjo.html

Top