汉语数码语音识别分析毕业设计第五章

更新时间：2023-04-12 06:58:01 阅读量：实用文档文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

汉语语音特点推荐度：
相关推荐

第五章汉语数码语音识别自适应

§5.1自适应简介

4.1.1 自适应的必要性

九十年代以来，人们在非特定人(Speaker-independent，SI)大词汇量连续语音识别这一研究领域获得了很大的进展，但与训练得较为充分的特定人(Speaker-dependent，SD)系统相比还是有较大的差距，造成这一差距的主要原因是不同说话人语音之间的差异。这一差异包括：

●语音学上的差异。由于方言的存在，不同的说话人对于同一句话的发音可能有很大的不同。汉语是一种多方言语种，所以方言口音的存在会对汉语语音识别系统造成严重的影响。

●生理上的差异。即使人们采用标准的普通话，不同说话人的声道形状、声门特性等都存在区别，造成产生的语音频谱特性的不同。

说话人之间的差异对非特定人语音识别系统造成两方面的影响：

●当某一使用该系统的说话人语音与训练语音库中各说话人的语音差别都较大时，该说话人的识别性能会有严重的恶化。

●训练一个较好的识别系统需要采集数量很大的说话人的语音用于训练，让训练语音库覆盖更为广泛的语音空间，这样虽然克服了上一影响，但同时会造成识别系统参数分布较广，而不是较为尖锐的分布，造成识别性能的普遍下降。

特定人识别系统虽然可以克服非特定人系统的以上缺点，但该系统需要使用者录入大量的语音用于训练，给使用者带来很大的不便，对于大词汇量的识别系统，所需的训练语音的数量更是令人无法忍受的。

近年来，人们采用说话人自适应(Speaker-adaptation，SA)算法克服特定人和非特定人系统各自的缺点, 该方案利用系统使用者的少量训练语音, 调整系统的参数, 使得系统对于该使用者的性能有明显的提高。与SI系统相比，SA 系统由于考虑了用户的特殊信息，因此识别性能优于SI系统；而与SD系统相比，SA 系统纳入了SI系统的先验信息，需要用户的训练音数远低于SD系统，有更好

－46－

第五章汉语数码语音识别自适应

的实用性。因此非特定人+自适应成为当前各语音识别系统采用的实用框架，自适应算法也成为近年来语音识别界研究的主要热点之一。

4.1.2 自适应方式的分类

按照训练语音获取的不同形式，自适应方式可以分为：

●批处理式：训练语音是由用户一次性录入，然后进行统一的自适应训练, 更新系统参数。

●在线式：训练语音是用户使用识别系统时所识别的语音，系统根据累积的统计量，按照一定时间间隔更新系统参数。

●立即式：训练语音是当前正在识别的语音，该模式与在线式模式间的差别在于立即式自适应只利用当前的语音作自适应，没有在线式自适应的累积的过程。

从实用的角度看，在线式和立即式自适应模型由于不需要用户一次性输入一批训练语音，所以对用户的界面更具有友好性。从实现的角度看，批处理式自适应的实现难度低于在线式和立即式。而从自适应的性能看，批处理与在线式的算法本质是一致的，因此性能也基本一致，立即式自适应由于没有累积的过程，利用语音的信息少，所以性能劣于前两者。

按照训练过程有无监督，自适应又可以分为：

●有监督：自适应训练过程中训练语音的内容对于系统是已知的。

●无监督：自适应训练过程中训练语音的内容对于系统是不知的。

各种自适应方式可以根据以上两种分类有多种组合，实用的语音识别系统可以采用批处理+有监督、在线式+有监督(对于识别结果需要用户验证的系统)、在线式+无监督和立即式+无监督的方式。

§5.2 说话人自适应算法

5.2.1 MAP算法

基于最大后验概率(Maximum a posteriori, MAP)的算法的基本准则是后验概率最大化，利用Bayes学习理论，将SI系统的先验信息与被适应人的信息相结

－47－

第五章汉语数码语音识别自适应

－48－合实现自适应

在语音识别系统中，设χ为训练样本，i θ为第i 个词条的模型参数，则MAP 训练方法准则如下：

|(max arg χθθθi i P i =∧

(5.1)

其中，∧i θ为模型参数的Bayes 估计值。根据Bayes 公式，上式可写为 )

()()|(max

arg χθθχθθP P P i i i i

=∧ (5.2) 当∑==W i i i P P P 1

)()|()(θθχχ(W 为词条数)与W i i ,...,2,1}{=θ有关时，

我们可以得到MMIE 准则。以下考虑)(χP 与W i i ,...,2,1}{=θ无关的情况。

当假设i θ为恒定未知值时，（5.2）式成为

)|(max arg i i P i θχθθ=∧

(5.3)

即最佳估计（ML ）。而假设i θ为随机值时，则有

)()|(max arg i i i P P i θθχθθ=∧

(5.4)

对于渐进的自适应方式，训练样本是逐个输入的。设},...,{1n n χχχ=为训练样本序列，则渐进MAP 方法准则如下：

)|()|(max arg 1)1(n i i n n i

P P i

χθθχθθ++∧= (5.5) 其中， )1(+∧n i θ为第n+1次训练的模型参数估计值。解决（5.5）式的难点在于参数θ的先验分布)|(n i P χθ的确定。

1994年，Gauvain 与Chin _Hui Lee 提出了MAP 算法的理论框架，容纳了连

第五章汉语数码语音识别自适应

－49－续，半连续及离散HMM 三种情况，完满地解决了以上问题。下面我们仅对离散HMM 作讨论：

一个离散HMM （DHMM ）模型包括三套参数i π，i A ，i B ，i=1，…，W ，i π为初始概率分布i A i 为状态跳转概率矩阵，i B 为状态输出概率矩阵。由于系统性能主要决定于参数i B 矩阵，因此我们只对i B 作自适应。

我们假定，DHMM 的输出分布参数jk b 满足Dirichlet 分布，即

∏=-∝V k jk jV j jV j jk

b b b P 1111),...,|,...,(ννν j=1,…,N (5.6)

其中，N 为状态数，V 为码本大小，jk ν为Dirichlet 分布参数，满足jk ν> 0。当χ为一个训练语音样本时，设辅助函数

],|)|([log ),(χθθχθθ∧

∧=P E Q (5.7)

= ∑∑∑==∧=∧+N i N j ij ij N i i i a d e 111log log π

+ ∑∑==∧

N j T t jx t t b j 11log )(γ 其中 ),|(1χθi s P e i ==

∑-=+===1

11),|,(T t t t ij j s i s P d χθ

t x 为t 时刻输入的矢量量化后的标号。)(j t γ 为第t 帧时状态为j 的概率，T 为语音总帧数。可以证明，当Q （∧θθ,）增大时，P （∧

θχ|）也增大。由此可推导出单个训练样本的Baum – Welch 重估公式，即 ∑∑====T

t t T k x t t jk j j b t 1,1)

()(γ

j = 1 ,…,N, k = 1 ,…,V (5.8) 考虑到我们只对参数jk b 作自适应，式（5.7）中辅助函数可写为

第五章汉语数码语音识别自适应

－50－ ∑∑==∧

∧=N j T t jx t t b j Q 11'log )(),(γθθ (5.9) 设另一辅助函数

],|))()|([log(),(χθθθχθθ∧

∧∧=P P E R (5.10) 同样考虑到仅对参数jk b 作自适应，式（5.10）的等价形式为 )(log ),(),(''∧∧∧+=θθθθθP Q R (5.11) = ∑∑∑∑====∧∧-+N j T t N j V k jk jk jx t b b j t 1111]log )1[(log )(νγ

对照式（5.9）和（5.11），由Baum – Welch 重估公式，我们可得出jk b 的MAP 估计 ∑∑∑====∧-+-+=T t V k jk t T k x t jk t jk j j b t 11

,1)1()(1)(νγ

νγ

(5.12) 由式（5.12）可看到,对jk b 进行自适应时，需要用由SI 训练时所得的参数{jk ν}和用于自适应训练的语音样本计算所得的)(j t γ。而先验参数}{jk ν的估计是一件困难的任务。我们用以下方法得到一个近似的估计，假设}{jk ν已知，求 }){|}({max arg }{}{jk jk b jk b P b jk ν=∧

(5.13)

且满足

11=∑=∧

V k jk b

由拉格朗日乘子法易求得 ∑=∧--=V k jk jk jk b 1)

1(1

ν (5.14) 与式（5.8）对应，可令

第五章汉语数码语音识别自适应

－51－ ∑==+

k x t SI t jk t j ,1)(1γν (5.15) )(j SI t γ由SI 训练最后一遍所得。当SI 训练采用多个样本进行训练时，与多训练样本的Baum – Welch 公式对比： ∑∑∑∑======I i T t i t I i T k x t i t jk j j b t 111,1)

()(γ

(5.16)

（5.15）式可写为

∑∑===+=I

i T k x t i t jk t j 1,1)(1γν (5.17)

其中I 为训练样本数。

将式（5.15）代入式（5.12），可得 SA T t t SI T t t SA T k x t t SI T x t t jk j j j j b t k

t ])([])([])([])([1

1,1,1∑∑∑∑=====∧++==γγγγ

(5.18) 式中下标SI 、SA 表示括号内各项分别是由SI 训练语音和自适应训练语音计算所得。由上式可看出，按式（5.12）、（5.15）进行的自适应相当于将被自适应人的语音放入SI 语音库中训练，因此，自适应后对于被自适应人的识别效果趋近于训练集的识别率，而训练集的识别率高于SI 测试集识别率，所以我们可以从直观上预见到上述算法的有效性。

【加快自适应速度的方法】

为加快自适应的速度，提出两种加快速度的方法：

1）先验分布参数}{jk ν的更新。由（5.5）式中)|(n i P χθ可知，i θ的分布是随自适应训练样本n χ变化的，所以每一次自适应训练后，先验分布参数{jk ν}都应作相应的更新。由式（5.12）、（5.14），可令

∑==-+

=T k x t n t n jk n jk t j ,1)()

1()

()(γνν (5.19)

第五章汉语数码语音识别自适应

－52－其中，上标n 表示第n 次训练所得结果。从直观上看，即不断将被自适应人语音加入训练集中。实验证明，先验分布参数的更新可以提高自适应的速度。

2）遗忘因子ρ：式（5.11）写成

)(log ),(),('''∧∧∧+=θρθθθθP Q R (5.20)

其中：ρ称为遗忘因子，满足0<ρ<1。ρ起的作用是使SA 系统“遗忘”一些先验知识，避免系统趋于饱和使得SA 效果下降的可能。由式（5.20），式（5.12），（5.19）可写为 ∑∑∑====∧-+-+=V k jk T t t T k x t jk t jk j j b t 1

1,1)1()()1()(νργ

νργ

(5.21) 与

∑==-+=T k x t n t n jk n jk t j ,1)()1()

()(γρν

ν (5.22) 式（5.21）即在求 ∧jk b 中加大自适应数据训练结果的权重。式（5.22）即加大

被自适应人语音库中的比例。由式（5.22）可看出，i θ先验分布的信息是按指数下降趋势被“遗忘”的。不加限制地“遗忘”时，就会使非自适应人性能严重下降。因此，我们需要对式（5.22）限制其“遗忘”的次数，即在“遗忘”若干次后，将ρ设为1，停止遗忘。限制的方法可以有“数值限制”，即设定阀值νT ，当jk ν< νT 时，jk ν停止遗忘，或者用“时间限制”，即只对各jk ν作M 次“遗忘”。实验证明，时间限制优于数值限制。

在实际应用中，还有三个问题需加以考虑。

1）自适应估计与原始估计的加权组合。由于每次自适应训练所用语音只有一个，由式（5.12）估计出的值可能有较大误差，因此，需要将用式（5.12）估计出的值与原有的值作一线性加权组合，即

)1()()1(-∧-+=n jk jk n jk b b b

λλ （5.23）其中 )(n jk b 为第n 次自适应并加权组合后用于识别的参数值。在后面实验中，我们取λ= 0.4。

2）自适应对非自适应人的影响。在一些实际应用场合中，我们需要对被自

第五章汉语数码语音识别自适应

－53－适应人有较高的识别率，同时，非自适应人的识别率也不能有严重的恶化。若用式（5.19）进行参数更新，当自适应次数很多时，SA 系统趋于SD 系统，从而造成对非自适应人效果的严重恶化，因此，我们可以设一阈值th ν，当jk ν> th ν时，停止参数更新，但仍用式（5.12）进行自适应。这样，我们可以保证系统对于被自适应人和非自适应人都有较好的性能。

3）多人自适应。一些实用场合（如家用电话语音拨号），需要对多个人进行自适应。由（5.18）可知，多人自适应也就是将多个人的语音放入训练语音库中训练，使对这些人都达到较好的识别效果。

5.2.2 基于说话人分类的自适应算法

对说话人分类也是提高非特定人识别系统性能的有效方法。非特定人语音识别难于特定人语音识别的原因在于不同说话人之间差异很大，识别系统难以容纳如此之大的变化范围。将说话人分为数类，则可减小类内说话人的差异，有利于识别性能的提高。在分类数达到无穷大这一极端情况下，非特定人识别系统退化到特定人识别系统，性能也会达到最优。Rabiner 等人在英语数码连接词语音识别实验中指出，随着说话人分类数的增加，系统误识率则一致的下降，则证明了说话人分类的有效性。

说话人分类可以是在训练前根据一定准则分类后再进行训练，或是利用训练所得的HMM 参数进行分类。然而分类过多也会带来以下起点：

1．分类数过多，对于数量有限的语音库，会造成每一类说话人语音训练数据不足，反而造成系统性能下降。

2．分类数过多，使码本和HMM 参数数量也随之增加，这会给系统的存储量带来沉重的负担，尤其是在DSP 系统中，过多的识别参数是无法忍受的。

【男、女说话人语音差异的原因】

第五章汉语数码语音识别自适应

表5.1

可见，女性说话人的共振峰频率高出男性说话人约25％左右，这主要是由男、女声道的差异决定的。男性声道长度平均为17cm，而女性声道的长度平均为14cm，因此一般情况下，男性的声道长度高于女性声道长度。若将声道看作一根直管，则共振峰频率，即管腔谐振频率，与声道长度成反比。实际上声道是不能简单地看作一根直管的，但共振峰频率与声道长度成负相关的关系仍是成立的。因此，男性说话人的共振峰频率一般高于女性说话人，这便造成了男、女说话人语音特征空间的天然差异。

【男、女说话人分类识别算法】

在训练时，我们可以直接将训练集中的男、女说话人分为两类来训练，但在识别时，我们却无法事先知道说话人的性别，所以无法确定用哪一组识别参数去识别。为解决这一问题，我们可以不显式地对语音作性别判决，而是根据语音产生概率来选择识别结果，也可以先判决说话人的性别，然后再用相应参数进行识别。以下我们分别对这两种方法加以讨论。

1．无性别判决

在这种方法中，我们将语音分别用男、女两套码本进行矢量量化，获得两个码字序列，然后对这两个序列分别用相应的HMM参数计算语音参数概率。这样一共获得20个语音产生概率，选择20个语音产生概率中最大的一个所对应的词条作为最后的识别结果。其实这等价于用语音产生概率来隐式地完成性别判决。我们对语音库B作测试，该方法的误识率为8.6%，其中有15.4%的语音是用不相符的码本和参数识别的，这一批语音的误识率达到24％。可见，该方法性能优于男、女混合训练的情况，但如果用了与说话人性别不符的参数识别，则识别错误的可能性大大增加。

2．有性别判决

我们也可以先对说话人的性别作判断，然后用该性别的参数对语音进行识

－54－

第五章汉语数码语音识别自适应

－55－别。判断说话人性别的方法可以借鉴说话人识别的方法，包括VQ 算法、GMM 算法等。本文在此采用VQ 算法。VQ 算法的基本思想是：对语音特征矢量作矢量量化时，用符合说话人类别的码本进行VQ 的量化畸变小于用其他码本所得的畸变。

上面两种方法的性能都远好于男、女混合训练的情况。但在孤立词情况下，这两种方法的性能仍明显次于已知说话人性别的最优情况，它们的误识率均高出最优情况时的误识率1％以上。对于有性别判决的方法而言，这是因为用于判决性别的语音太少，而该方法又未利用语音产生概率用于性别判决，因此仅用过少的信息是无法很准确地判断说话人的性别的。对于无性别判决的方法，这是由于我们识别时采用DHMM 算法造成的。我们可以从HMM 输出概率的角度来解释这一现象：在半连续HMM 中，输出概率为

∑==V

k k jk j x P b x b 1)()( (5.24)

)]()exp[()(1k k T k k k M x M x c x P -∑-=-

(5.25)

其中，V 为码本容量，k c 为归一化常数。一般情况下有

)()(x P b x b i ji j ≈ (5.26) 其中，

)],([m in arg 1k V

k M x D i ≤≤=

),(k M x D 为输入特征矢量与码字的距离，即量化畸变。当1)(≡x P i 时，系统退化为DHMM 。在式（5.24）中，)(x P k 包含了矢量量化畸变的信息，即反映了男、女说话人特征空间的差异。但在DHMM 中，该项被取消，反映量化畸变，即确定说话人性别的重要信息也就被抹煞了。

为解决这一问题，我们在DHMM 中保留量化畸变信息，即令

)],(exp[)(k ji j M x D b x b α-= (5.27)

α为常数。为控制动态范围，我们计算),(k M x D 时采用相对畸变，即： 22