基于filler模型的语音关键词识别

更新时间:2024-04-13 06:01:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

基于Filler模型的语音关键词识别

xxxx大学

毕业设计(论文)任务书

课题名称 基于Filler模型的语音关键词识别

学 生 姓 名 xxxxxxx 所在院、系(队) x系x队 专 业 电子信息工程 学 号 xxxxxxxxxxx 申请学位级别 工学学士 指导教师单位 x系x教 指导教师姓名 xxxxx 技 术 职 务 教授

二○一一 年 二 月

课题名称

基于Filler模型的语音关键词识别 I 基于Filler模型的语音关键词识别

其他指导老师姓名、单位 xxx xxxx 课题主要任务与要求: 语音关键词识别是语音识别的一种特殊情况,是处理自然语言、实现人机语音交互有效的解决方案之一,并成为语音识别领域的另一个研究热点。 1.了解语音识别基础知识,深入了解语音关键词识别技术。 2.了解国内外对于语音关键词识别技术研究的现状和发展方向。 3.掌握基于Filler模型的语音关键词识别的方法。 备 注 系(或教研室)审批意见: 课题难易程度适中,理论与实践相结合,适合作为本科毕业设计课题。 签(章) 2011 年 2 月 28 日 学院训练部审批意见: 签(章) 年 月 日

II

基于Filler模型的语音关键词识别

基于Filler模型的语音关键词识别技术

摘要

关键词识别是语音识别的一个重要领域。本文对基于filler模型的语音关键词识别进行了研究,它主要应用在实时的命令词检测和对话系统。研究重心为关键词识别系统的检出策略和确认方法。在基于垃圾模型的关键词系统中,常利用似然比方法进行语音确认。研究了一种基于竞争模型的加权似然比融合语音确认方法,通过联合目标模型与其竞争模型的似然比对子词的置信度进行估计,引入了最小确认错误准则训练融合的权重系数。实验表明该方法优于传统的似然比方法。通过分析关键词检测系统的置信特征,选择动态垃圾得分、似然比和驻留概率等特征计算关键词候选的置信度,这些特征的组合能够明显提高系统的拒识性能。

关键词:关键词识别,filler模型,似然比

III

基于Filler模型的语音关键词识别

Abstract

Keywords recognition is an important area in the speech recognition. In this paper, we investigate filler model based keyword recognition, which is mainly used in real-time voice-command and dialogue systems. The focus of our research is the key-word detection algorithm and speech verification methods in the keyword recognition system. The likelihood ratio test-method is often used for utterance verification problem. A competing model was based on weighted likelihood ratio verification method is studied, where the sub-word confidence measure is estimated by combination of likelihood ratio scores of target model with its competing models, and the weight confidents are derived by minimum verification error criteria training. Experiment results show that the likelihood ratio approach is better than traditional methods. By analyzing the characteristics of confidence, we select the dynamic garbage score, likelihood ratio and the duration probability. The combination of these features can significantly improve the false rejection performance.

Keywords: Keywords recognition, filler model, likelihood ratio

IV

基于Filler模型的语音关键词识别

目录

摘要 ........................................................... III 第一章 绪论 ..................................................... 1 1.1 关键词识别的应用背景 ........................................ 1 1.2 关键词检测系统框架 .......................................... 5 1.3 系统性能指标 ................................................ 6 1.4 关键词识别与连续语音识别的关系 .............................. 8 1.5 论文研究的内容 .............................................. 9 1.6 论文结构安排 ............................................... 10 第二章 基于FILLER模型的关键词检测技术 ........................ 11 2.1 基于FILLER模型的关键词检出原理 ............................. 11 2.2 影响关键词系统性能的因素 ................................... 14 2.3 关键词检测基线系统设计方案 ................................. 16 第三章 关键词语音确认方法 ...................................... 18 3.1 基于似然比的关键词语音确认算法 ............................. 18 3.2 基于竞争模型的加权似然比融合的语音确认方法 ................. 21 3.3 多置信特征联合提高语音确认效果 ............................. 27 第四章 总结与展望 ............................................... 32 4.1 内容总结 ................................................... 32 4.2 研究展望 ................................................... 32 参考文献 ........................................................ 34 致谢 ............................................................ 35

V

基于Filler模型的语音关键词识别

第一章 绪论

关键词识别[3](KWR,Keyword Recognition),又称关键词检出(KWS,Keyword Spotting)或者词检出(WS,Word Spotting),就是在连续的、无限制的话语中识别出一组给定的词,即关键词,而忽略话语中除关键词以外的其它词和各种非话音(包括呼吸、咳嗽声,音乐声,背景噪声等)。关键词识别是语音识别的一个分支,它与连续语音识别(CSR,Continuous Speech Recognition)的不同之处是:连续语音识别要求对话语中的所有话音内容都作出识别,而关键词识别则只要求识别出话语中所包含的关键词的内容即可,与连续语音识别相比,关键词识别(以下简称KWR)的要求更为灵活,它的应用也相当广泛:在语音控制系统中,关键词识别可以用于检测语音流中是否存在事先给定的命令词;在语音文档内容查询中,关键词识别可以用于检测语音文档是否含有查询的关键词。随着互联网和多媒体技术的发展,Internet每天都涌现海量音视频文件,如何对含有语音文档进行组织和检索成为信息处理领域新的研究热点,关键词检测技术正受到越来越多的重视。

1.1 关键词识别的应用背景

现代科学技术史告诉我们,任何技术产生的背后一定有某些需要的推动, 关键词识别技术也不例外。 1.1.1 关键词识别技术的产生

如何在拨盘式电话线路上应用语音识别系统,这曾经是八十年代语音识别领域非常感兴趣的一个问题。经过数年的研究,语音识别技术已经从识别小词汇量、孤立发音的识别系统发展到中等词汇量、连续语音的识别系统。其中美国AT&T的BELL实验室设计了一个在电话线路上应用的智能转接系统,他们用五个特定的单词代表五种不同的电话,在假定待识别的话语中只含有关键词语音和背景噪声的条件下,该系统的识别率可以达至99%。

于是在California的Hayward,AT&T的BELL实验室进行了一个大规模的非特定人孤立词语音识别实验.在电话中用提示语音告诉用户用孤立发音的方式说出这五个单词中的一个,但是实验结果与他们设想的相去甚远。他们在追查原因的时候发现,在实际的情况中,只有82%的用户说了五个单词中的一个,其中只有不到65%的用户能够按照提示使用孤立发音,大约20%的发音夹杂有词表外发音和诸如气流

1

基于Filler模型的语音关键词识别

声等非语音发音。

他们起初的识别算法没有考虑这样的问题,因此AT&T的BELL实验室将原先的对输入话语的假定“背景噪声+关键词+背景噪声”改为假定用户所说的一句话是“背景信号(噪音,音乐声等)+其它语音+一个关键词+其它语音+背景信号”来进行识别,采用新的识别算法即KWR算法,KWR识别系统的使用,使话语中的关键词识别率成功的达到了87.1%。

早先的关键词系统大多采用基于Filler或OLG模型进行关键词检测,这种系统要求事先设定好关键词表,然后利用关键词和垃圾模型并联的识别网络进行关键词搜索,一旦关键词发生变化必须重新识别。在该系统中,所有的系统优化都是针对给定的关键词和垃圾模型的,不适合任务域移植,关键词检出效果高度依赖词表,当词表较大时或关键词之间读音较相似时,关键词之间相互竞争使得系统检出效果非常差。所以,这种基于垃圾模型的关键词检测系统主要面向小词表、限定领域的对话系统和语音命令检测任务。 1.1.2 关键词识别技术的应用

KWR有非常广阔的应用前景。像上文提到的在电话接听中的应用就是一个方面。可以设想在电话的一些智能业务(比如电话卡和智能查询服务)中,用语音代替电话按键输入将会让用户的使用更加方便快捷;KWR还可以用于自然发音方式的语音录入,用户在使用语音录入的过程中,总会不经意的夹杂一些词汇表以外的词和非话音(如鼻音,咂嘴的声音等),在这种情况下,系统可以把词汇表内的词作为关键词,把其它的词和非话语作为非关键词加以拒绝,以提高系统的实用性;还有按内容检索语音数据也是关键词识别又一重要应用。随着计算机硬件和多媒体技术飞速发展,信息的存储将采取越来越自然的方式,比如以声音和图象的形式存储,但所付出的代价是巨大的存储量和缓慢的检索速度。在硬件成本日益降低的前提下,存储量问题很容易得到解决,但人工检索却是一个令人头痛的问题。关键词识别技术可以解决这一问题。如果关键词的输入再由检索者以语音命令的形式给出,那么语音信息的按内容检索就能够以完全自然的方式进行。

KWR的应用远不止这些。几乎可以说,在所有语音识别的应用中都会用到关键词识别中的一些技术。

图1-1给出了关键词识别在当今社会中的广泛应用[3]:

2

基于Filler模型的语音关键词识别

图1-1 关键词技术的应用领域

1.命令控制:用户可以通过关键词检测系统控制智能家电的开启,通过语音菜单控制计算机程序的动作。对于在通信业高速发展的今天,要想使手机体积进一步微型化,只有通过语音来实现按键的功能。

2.语音监听:信息安全成为各国目前关注的技术项目,911事件引发了监听 系统的开发热潮,关键词检测可以从被监听话语中侦测出是否存在敏感的信息, 从而给安全部门提供参考。纯粹人工的监听要耗费大量的人力和时间:而且由于人的注意力不可能长时间高度集中,有时也会把极其重要的内容忽略掉。但关键词识别器可以代替人工二十四小时不间断的实时监听。不但可以节省人力,而且可以做到真正密切监控。

3.语音拨号:语音拨号和自动电话转接系统是关键词检测的电话领域的应用热点。在移动电话上,用户可以通过关键词识别检测出要呼叫的用户名称,通过语音直接进行拨号,而不必费力地在电话号码本上查找。

4.对话系统:对话系统是语音识别技术的最有吸引力的课题,通过对话系统可以直接进行基于人机接口的信息咨询。在目前的技术水平上,研究人员倾向于利用关键词检测技术或基于槽语法的关键词识别技术实现人机对话或信息咨询系统。

5.话题跟踪:在对话系统中经常需要检测交互双方的话题领域以及有没有切换话题。可以把话题的关键内容作为关键词,利用关键词识别检测语音的话题, 从而为使用不同的领域语法规则或语言模型进行识别做借鉴。

6.数据查询:随着互联网的发展和普及,网络存在大量的音频文档资源。关键词识别可以实现基于多媒体音频文档的内容检测,把使用者从乏味的长时间语音文件回放和人工检索工作中解放出来。

7.文档分类:在电视台等文化传播部门,有许多的多媒体录音资料,通过关键词可以检测文档中关键词的出现频次,从而把语音文档进行归类和整理。 1.1.3 关键词识别的国内外发展动态

关键词识别技术的研究[3]可以追溯到20世纪70年代,真正开始于80年代,在90年代得到快速发展,90年代以后,涌现出了大批关键词检测系统。1973年,Bridle

3

基于Filler模型的语音关键词识别

揭开了关键词识别研究的序幕,但那时只是称“给定词”的识别。直到Christiansen等人才正式确定了“关键词”的叫法,他利用信号的LPC(线性预测编码)表示对连续语音中的关键词进行检测和定位,没有使用语法或词法信息,对小词汇量词表取得了很好的效果。但真正的关键词识别研究应该说是在80年代。Myers等人利用基于DTW的局部最小算法对关键词识别和连接词识别进行了研究,但没有系统的实现。美国ITT(国际电话电报公司)国防通讯部的Higgins与Wohlford用模板连接的方法实现了KWS,并提出了补白模板(该模板由词表外词的语音训练而得)的概念,结果表明:如果词表的显式知识没有那么重要的话,则使用补白模板就很重要。此后AT&T的BELL实验室Wilpon和他的同事们实现了一个基于HMM的5个电话用语的、可以实用的KWR,标志着KWR研究的崛起。美国BBN系统和技术公司的Rohlicek和他的同事们也研究了非特定人KWR的连续HMM建模问题,同时给出了KwR系统的性能评价基准。到90年代,MIT的Lincoln实验室,CMU的计算机科学学院,Dragon系统公司,以及日本的Toshiba公司和IBM公司等,也相继报告了他们的研究成果。

国外有很多研究机构对关键词识别技术进行研究,如:捷克的布尔诺大学(BUT)、IBM、微软亚洲研究院、BBN、SRI、俄勒冈科学技术研究院(OGI)、澳大利亚昆士兰技术大学(QUT),都相继发布了他们的研究成果。

2006年,NIST(National Institute of Standard Technology)组织了第一届STD(Spoken Term Detection)评测。主要参赛单位包括:IBM、SRI、BBN、STBU、BUT、OGI等多家国外著名研究机构和大学。其中BBN和DOD参加了汉语普通话的评测。

我国关键词技术发展相对来说起步较晚,但发展较快。国内关键词系统评测方面,2004年在中科院自动化所举办了国家863语音关键词识别技术评测,针对北京奥运会服务的公交、天气、赛事、餐饮、旅游等五个限定领域的信息查询服务。2005年举办了国家863电话语音关键词检测评测,针对无限制领域的电话语音,词表含有100个关键词,测试语音为自然对话风格方式。国内的一批科研单位,如中科院自动化所、声学所、清华大学、哈工大、北京邮电大学等都进行了关键词方面的研究,取得了许多研究成果。但在复杂环境音频文档内容检测方面,许多技术尚处于探索阶段,在国际NIST评测还没有国内研究机构的参赛队伍。值得庆幸的是,“十一五”国家高技术研究发展计划(863计划)的重点项目“多语言语音识别关键技术研

4

基于Filler模型的语音关键词识别

究与应用产品开发”和“多语言语音识别核心技术研究与应用产品研制”加强了对语音应用关键技术方面的研究与投入,大规模的会议语音和电话语音库目前正在建设之中。

1.2 关键词检测系统框架

关键词检测系统[4]的任务是从连续语流中检测出给定的关键词,并给出相应的置信度,一般不需要对全文进行识别。它包括关键词检出和关键词确认,关键词检出从无限制语音流中检测出尽可能多的候选关键词,再由关键词确认部分对这些候选关键词进行置信度评估。在实际应用时检出和确认可以有多种组合方式,可以将检出和确认分为两个独立过程实现,称为两阶段方法,也可以将二者结合在同一个过程实现,称为一阶段方法。所谓置信度问题,就是在没有参考答案的情况下,如何让计算机对语音识别结果的可靠性给出一个“客观”的度量,从而使得系统可以根据这个度量对识别的结果的对错进行判决。在对关键词进行检测时,为了提高系统的鲁棒性,需要对识别的关键词候选进行置信度打分,以降低虚警概率,这个过程称为语音确认。语音确认步骤在关键词识别系统中不可或缺,语音确认给出的置信度得分不仅能有效地去除错误候选,而且还可以为后续的语言理解提供信息。现有的置信度特征主要分为三类:声学层面、词图层面、语义层面。声学层面通常使用似然比、词候选驻留时间等特征;词图层面通常使用词后验概率、候选词图中和词候选并列的其它候选的个数等特征;语义层面要结合语言理解,根据语言理解的结果对整句候选进行确认。现有的系统中置信度模型主要采用fisher线性分类器、人工神经元网络、决策树,近年来随着支持向量机研究的兴起,有的系统中支持向量机也被用作置信度模型,这几种分类器都可以联合多路置信度特征并给出最终的确认结果,但也都需要大量的训练数据来训练模型内的各种参数。在基于垃圾模型的KWS系统,经常采用基于似然比的方法进行语音确认,而在大规模连续语音识别中,常采用基于词图的词后验概率方法计算置信度。

图1-2 关键词检测系统框图

5

基于Filler模型的语音关键词识别

本论文解决关键词检测任务的系统框架为基于垃圾模型的方法。这种方法采用关键词和垃圾模型共同组成并行搜索网络,垃圾模型可以拟合自然界的所有发音现象,吸收所有的非关键词发音来检测出关键词,垃圾模型又称Sink模型或Filler模型,一般选用一些发音单元,如音素、音节或半音节。通过对关键词网络加上合适的奖赏或者给垃圾模型给予合适的惩罚,使得当语音中出现关键词时,关键词得分超过垃圾模组得分,从而得到检出结果。然后利用声学置信度对这些检出结果进行筛选,得到最终所需的关键词。该模型的方法的好处是实时性好,在命令检测、对话语音中得到很好应用,但不适合音频文档内容检测。

1.3 系统性能指标

关键词检测系统理论上来说存在两类错误[5]:类型I错误:错误拒绝(False Reject,FR):系统没有检测到语音中应该出现的关键词;类型Ⅱ错误:错误接受(False Alarm,FA):系统检测到的关键词在语音中没有出现,是假冒的关键词。显然,漏报减少就会导致虚警增加,反之亦然。在关键词检测系统中,一般都是尽可能多地检出关键词候选,然后通过置信度打分进行据识分析,高于置信度门限的候选接受,低于门限的拒绝。因此关键词检测系统的性能除了取决于检出模块外,也严重依赖置信度的评估方法。系统往往调整置信度门限,使关键词检测系统的两类错误之间之问有一个折衷,这个门限称为系统的工作点。

在关键词系统中,定义衡量类型I类错误的指标为拒识率,类型Ⅱ错误的指标为误警率。

(1-1)

(1-2)

其中,待检关键词总数是指给定的关键词表中的关键词总数。C是一个常数, 其作用是使误警率和拒识率处于同一尺度,本文评测规定C=1。

可以使用检出率来评价关键词的检测性能:

(1-3)

6

基于Filler模型的语音关键词识别

在关键词检测系统中,如果从低到高调整置信度判决门限,就可以得到一条误警率—拒识率变化曲线图,称之为检测错误折中曲线(Detection Error Tradeoff,DET),如下图所1-3所示。

●理论等错误率

图 1-3 DET曲线图

DET曲线反映拒识率随着误警率变化的趋势,在置信度门限取某特定值时,可以得到误警率=拒识率,该点称为等错误率(EER)点。DET曲线反映系统的综合性能,DET下方所围的面积越小越好,EER反映系统工作点的情况,EER越小说明系统工作点性能越好。一般情况下,系统的工作点是随需求而定的,是在误警率和拒识率的一个折中,实际应用时应根据DET曲线性能,结合实际需求选择合适的置信度门限。由于误警率和拒识率与置信度门限有关,因此,DET曲线除了可以度量检测系统的性能,也可用来比较置信度计算方法的优劣。

召回率和查准率是信息检索的重要评估方法,也可以用来评估关键词系统的 检出性能,对整个关键词检出结果集的质量进行量化评价。召回率(Recall):又 称查全率,对某一个查询项,检测出的正确关键词个数与参考关键词总数的比值。 查准率(Precision):对某一个查询项,检出的正确关键词个数占检出的关键词总数的比值。对关键词检出结果按照置信度得分由高到低排序,通过11点标准查 全率下的查准率曲线来观察系统的性能,如图1-4所示。这11点对应查全率分别为(0%,10%,20%,…,100%)时的查准率,缺值部分取附近的结果进行插值平滑。平均查准率是这11个点的算术平均,而平均召回率对应曲线在平均查准率处的结果。

7

基于Filler模型的语音关键词识别

0.70.6Precision Rate0.50.40.30.20.1000.10.20.30.40.50.60.70.80.91Recall Rate 图1-4 召回率-准确率曲线图 1.4 关键词识别与连续语音识别的关系 首先,关键词识别的任务是在连续的话语中识别出给定的词,因而它首先是 一种连续语音识别;但它又不要求把整个的语音流全部识别出来,因此可以说关 键词识别是连续语音识别的一个分支。其次,对发音人的要求又不可能像对连续 语音识别发音人那么高,因此关键词识别又不同于连续语音识别。考虑如下五个 方面的差别,KWR与CSR有时又被当作两个不同的问题来处理: (1)模型的训练问题:CSR模型往往要经过已知的不同发音人(尤其是可以包 括使用者在内)的大量数据进行训练。KWR则不大可能让被识别对象对其模型进行大量的训练。

(2)词汇表问题:CSR要求每个待识别的词(或单元)必须是一个有限词表中的一个,它的词汇表是封闭式的;而KWR允许输入的语音包含关键词词表外的任何词,它的词表是开放式的。 (3)语法或词法问题:CSR要求输入语音中的词序列受限于一个有限状态语法网络,也就是说它要求输入严格符合它所假定的一组句式模型;而KWR则无此要求,它不需要输入符合某种句式模型。 (4)发音人的态度:对一个CSR系统,发音人能够意识到自己正在与机器进行交流,希望所说的话能够被机器正确识别,故而他们一般持合作的态度,也能够根据系统的提示重新发音;但在KWR系统中,说话人常常是毫无准备的,多数情况是8

基于Filler模型的语音关键词识别

处于自然会话的发音方式,也不太可能重复不太清楚的语句。

(5)环境:CSR系统由于用户的配合往往在比较安静的环境中使用,而KWR 则可能遇到噪音大的环境。

由于这些差异,CSR的错误率用百分之几衡量,而KWR的(误警和漏识)错误率,则要高出一个数量级,常常用百分之十几来衡量。

1.5 论文研究的内容

论文对关键词识别技术的若干问题进行了研究,论文的研究工作涉及领域是 基于垃圾模型的关键词检测技术。图1-5给出了作者的研究思路和方法。

基于垃圾模型的关键词检测技术主要应用于对话系统、命令控制和特定领域 信息咨询,系统要求实时性高、误警要少。作者对影响系统性能的因素做了分析, 设计了一个基于垃圾模型的关键词检测系统。为了增强系统的拒识能力,通过两 种方法来提高确认效果,从算法上对传统的似然比确认方法进行了改进,提出了 基于竞争模型的加权似然比融合语音确认方法。

关键词识别技术 基于垃圾模型的关键词检测技术 系统设计 确认性能不佳 基于竞争模型的加权似然比融合语音确认方法 联合多特征确认(似然比,驻留概率,OLG得分) 提高了系统语音确认效果 图1-5 论文的研究思路和研究内容

9

基于Filler模型的语音关键词识别

由于理解一句话,可以从多个层次、多个角度去理解,从这个角度出发我们选择了关键词驻留概率和OLG得分,以及似然比得分来提高系统置信特征,提高了系统的语音确认效果。

1.6 论文结构安排

本论文共分为四章。

第一章,绪论,主要介绍关键词识别系统的产生和现状及研究意义和内容,以及关键词识别与连续语音识别的联系。

第二章,基于垃圾模型的关键词检测模块的设计,首先介绍了基于垃圾模型的关键词检出原理和常用方法,然后对影响系统性能的因素做了分析。设计了一个基于垃圾模型的基线系统。

第三章,对垃圾模型中关键词确认方法进行了研究,提出了一种基于竞争模型的加权似然比融合语音确认方法,通过联合目标模型与其竞争模型的似然比对子词的置信度进行估计,引入了最小确认错误准则训练融合的权重系数。在置信预测特征选择方面,介绍了关键词动态垃圾得分与驻留概率置信特征,并联合这两个特征与似然比计算候选关键词的置信度。

第四章,总结与展望,对论文的所有工作进行总结,并对进一步的研究提出 几点建议。

10

基于Filler模型的语音关键词识别

第二章 基于Filler模型的关键词检测技术

基于Filler模型的关键词检测(Keyword Spotting,KWS)系统可以说是最早最经典的关键词识别系统,在实时性要求高的场合,如人机对话,语音拨号等环境,研究人员倾向于使用这种关键词检测系统。只需要从连续语流中检测一组给定的关键词,而不需要对所有的语音进行识别。这类系统往往需要比较快速地检测出需要的词,而且要具有一定的据识能力,减少系统的误操作或者误报。对这类弱语法约束条件下的置信度计算,主要是利用声学置信度,在要求比较高的情况下,也可以加入一些语法约束信息进行辅助判别。

2.1 基于filler模型的关键词检出原理

在基于垃圾模型的关键词系统中,垃圾模型用来吸收关键词之外的各种语言 现象,包括集外词(OOV),常见的非语言现象(背景噪声、咳嗽、喘气)。关键词检测系统的任务是从连续语流中检测出给定的关键词,并给出相应的置信度,一般不需要对全文进行识别。从解决关键词检测问题本身来说,我们一般有以下三种基本方法:

(1)对输入语音用LVCSR系统进行全文识别,给出相应的文本结果,再从这些文本结果中检索给定关键词。这种方法的优点在于可以充分利用语言模型知识,对误报的压制能力比较强;缺点在于速度比较慢,对集外词缺乏灵活性,受语法外(Out-Of-Grammar, OOG)部分语音的影响比较大。这种方法比较适合于实时性要求不高,集外词比较少的场合。

(2)用关键词加上垃圾网络的方式检索关键词,这种方法速度比较快,对垃圾词不敏感,检出率比较高;缺点在于只能用声学信息检测关键词,误报比较多,更换词表时需要重新进行声学匹配。

(3)用音素或音节识别器构建音素或音节的词图,再根据相似度到词图上检索需要的关键词,这种方法相当于上述两种方法的折衷,优点是相对比较灵活,而且更换词表不需要重新进行声学匹配,缺点是对词图的容错能力要求比较高,对比较短的关键词检测不利。

从上面的三种方法对比来看,LVCSR的系统不是很适合关键词检测的任务,缺乏灵活性,而且关键词通常是人名、地名等出现频率不是很高的词,甚至是集外

11

基于Filler模型的语音关键词识别

词。因此,目前的关键词检测系统大多采用后面两种框架。根据允许输入语音的自由程度,KWS可以分为输入完全符合规则语法的系统、无限制的系统和介于二者之间的系统。

关键词模组 Keyword 1 Keyword 2 Keyword M Filler 1 Filler N 垃圾模型模组 (a) 关键词检测系统搜索网络类型I

关键词HMM串

Filler 1 Keyword 1 Filler 1 Filler 2 Keyword 2 Keyword 3 Filler 2 Filler 3 Filler 3 。。。。。。Filler M 。。。。。。Keyword N 。。。。。。Filler M 垃圾模型模组 关键词模组 (b) 关键词检测系统搜索网络类型II

垃圾模型模组

图2-1 基于垃圾模型的关键词检测系统搜索网络

12

基于Filler模型的语音关键词识别

图2-1(a)和图2-1(b)给出了两种常用的基于垃圾模型的KWS系统搜索网络,前者用于检出无限制语音流中可能含有的任意多个关键词。而后面加了一个约束,仅允许一句话中出现一个关键词,适合于简单的命令控制场合或语音命令菜单。

理论上说,关键词也可以从垃圾模组的识别基元组合出来,因此,为了检测出关键词,防止关键词被垃圾模型吞没,必须对垃圾网络加上一定的惩罚或对关键词网络进行奖赏,通过调整这个惩罚或者奖励的权重,就可以调节系统的检出率,但同时误报率也会发生相应变化,需要通过置信度评估来拒绝掉假冒的关键词,此过程称为关键词确认。

框图中垃圾模型模组有两个基本作用:一是作为填充网络(Fillers)对非关键词部分语音进行建模和过滤;二是作为背景模型,对关键词的声学得分进行归一化,计算关键词的声学置信度。理想的垃圾模型应有足够的能力吸收除关键词之外所有剩余的语音信号,同时与关键词模型之间又有足够远的距离,使其不具备竞争关键词所对应的语音段的能力。根据垃圾模型的来源不同,关键词检出算法可以分为三类:明确垃圾模型、动态垃圾模型、滑动窗方法。

(1)明确垃圾模型。明确垃圾模型就是要对垃圾模型模组的Filler(补白)建立实际的物理模型。建立模型的方法可以细分为两种:一种是子词补白,补白与关键词共享同一套子词单元模型集,补白模型由子词模型拼接组合而成。子词一般为比关键词更小的发音单元,如声韵母和音节,关键词则是这些小的发音单元的串接,通过调整关键词的奖赏分数来区别关键词和补白模型。子词补白方法在实际使用中修改关键词集的定义时无须重新训练子词模型,具有较好的灵性。缺点则是补白模型多、算法复杂度高。另外一种是集外补白,专门为Filler建立HMM或GMM声学模型。集外补白模型完全独立于关键词所对应的声学模型集,可以只包含一个通用的补白模型,也可以是若干个补白模型构成的集合。在训练集外补白模型时,将训练数据中除关键词之外的额外输入分为若干类,其中的每一类

训练一个模型。集外补白方法的优点是结构简单、算法复杂度低,尤其在训练数 据较少的应用或嵌入式系统中用途较广,但由于其补白模型比较简单,对非关键 词的拟合能力不如子词补白。

(2)在线垃圾(On line Garbage,OLG)模型。对于图2-1(a),如果把垃圾模型模组拿掉,就可以构成基于OLG的KWS系统。OLG模型是虚拟的模型,OLG模型的思想是在Viterbi搜索过程中,对每一个语音帧,计算所有存活于关键词的语音识别单

13

基于Filler模型的语音关键词识别

元的似然分数,识别单元可以选音素、状态,对每一帧语音,OLG的得分是该帧信号对应的N个最优匹配单元的平均分,在这种方式下,OLG不是最佳的匹配者,但肯定属于较优匹配者,只有当一段语音同关键词比较匹配时,关键词的整体成绩才可望在与OLG的竞争下胜出。和明确垃圾模型相比,OLG具有较好的鲁棒性。这是因为,在噪音环境下时,对于一段语音,所有的HMM模型都匹配不好,打分都低了,最终导致在线垃圾模型的得分也相应降低。而在明确垃圾模型的情况下,所有的模型打分都不准确,混淆子词的打分很容易超过目标子词,从而导致关键词检测系统的性能下降,降低了系统的鲁棒性。

实验证明,当关键词个数很少时,OLG模型的性能会变得很差。另外,由于没有真正对集外词发音建模,在线垃圾模型的时间对齐的效果不如明确垃圾模型。

(3)滑动窗算法。这种算法不使用补白模型,而是基于这样的思想:即一开 始从语音数据的第一个点开始进行搜索,在得到结果后再选择下一个搜索起点进 行下一轮搜索,直至认为没有可能再出现关键词为止。由于可以从语音的任意起 点开始搜索,这种方法的好处在于最大限度地提高了关键词的检出率,但同时也 带来误警率较高,运算量大等问题,所以不如前两种方法应用广泛。

2.2 影响关键词系统性能的因素

在基于垃圾模型的KWS系统中,影响其系统性能的因素主要有: (1)声学模型的选取。

由于不像LVCSR存在语言模型的指导,声学模型对KWS系统影响至关重要。从模式识别的角度来看,声学基元建模除了描述数据中所蕴含的反应其本质的分类信息,还要增加模型间的区分能力,才能获得较好的分类效果。传统声学模型训练采用基于最大似然准则(Maximum Likelihood Estimate,MLE)的训练方法,算法比较成熟,语音训练时有快速算法。但MLE只使用目标模型自身的数据训练,忽略了模型之间的区分性,因此这种方法并不一定能够获得最佳的分类性能。对于实际语音信号来说,其分布往往不满足高斯分布的假设,因此为了提高声学模型的区分能力,可以采用区分性训练方法,如基于最大互信息(Maximum Mutual Information Estimation,MMIE)的训练方法、基于最小分类误差准则(Minimum Classification Error,MCE)的训练方法、基于最小音素错误率(Minimum Phone Error,MPE)的训练方法等。其中,MMIE通过最大化所有句子的期望辨识率来优化模型参数。MCE

14

基于Filler模型的语音关键词识别

通过直接最小化损失函数,达到最小化分类错误的目标。MPE最大化所有句子的期望辨识率,强调音素层次的正确率,通过最大化所有可能语句的音素正确率,达到最大化所有句子辨识率的效果。值得一提的是,JiangHui最近提出了最大分类边界(Large Margin Training)HMM,该方法利用支持向量机思想,通过最大化目标模型与竞争模型的分类边界获取比MCE更好的泛化能力。

在关键词检测系统中,补白模型的HMM的对系统的影响也很大,在普通话KWS设计方面,郑方在HarkMan关键词检测系统的研究中指出:补白采用音节建模要优于声韵母建模和音素。在集外补白模型训练方面,严斌峰提出了基于数据驱动的改进合并分级聚类算法的补白模型训练方法,首先通过聚类对所有的关键词模型(HMM)进行分类,然后对某一关键词,找出与其同类的其他所有关键词对应的语音样本,通过聚类算法训练出该关键词的补白模型。陆正中把集外补白模型按照发音特点划分为13类,每一类聚类形成一个HMM模型,以提高解码速度。在模型结构方面,郑方等人提出的从左向右可跳转的补白模型,如图2-2所示,通过多尺度来吸收集外词。

1 2 ?? N Sink

图2-2 从左向右可跳转的补白模型

(2)网络转移系数的选择。

通过调节网络转移权值可以检测出关键词,网络转移权值其实是给系统增加相应的语言模型得分,郑方通过训练关键词和Filler转移的bigram语法提高关键词的检测率。转移权值与关键词的长度有关,INRIA对转移系数函数进行了研究,比较了几种转移权值函数的性能。通常,网络转移系数需要人工来调节。避免人工调整的一个办法是采用不同尺度声学模型,以较精细的声学模型描述关键词的HMM,以较粗的声学模型描述非关键词的HMM,这样可以防止关键词被Filler模型吞并,但这种方法对声学建模精度要求比较苛刻。

(3)发音模糊现象

实际发音和训练语音有一定差别,由于发音不标准容易导致系统检测率低, 可以通过扩充关键词表来提高鲁棒性,例如要检测“hu nan”(湖南),可以在关

15

基于Filler模型的语音关键词识别

键词表中增加“fu nan”来增加系统对略带口音的普通话发音的适应能力。除了 可以从字典扩展模糊发音,还可以从模型级入手,建立嵌入式多模板(EMM),对 各种个性特征如口音、上下文关联信息等进行机器划分,在词法树中利用模糊弧 分裂技术,识别时自动地把同一语音的各种不同情况分开。

(4)关键词的长度对系统的影响

关键词的长度对检测性能影响比较大,通常关键词越长,检出率越高,梁家 恩在2005年863电话连续语音开发集测得三字词的误报率比两字词低10%以上。在限定领域中,基于规则语法的关键词识别系统的识别能力好于无规则的KWS系统,其原因就是由于长时段语句(如句子)比词更加稳定,通过语法规则无形中延伸了关键词的长度,从而提高了关键词的检出能力。在对话系统中,Kawahar提出用“Key phrase”的方法来进行关键词检出。梁家恩通过关键词的合成词构建局部语法网络,将关键词检测的问题转换成关键词短语的检测问题,从而延长了关键词的长度,得到语言增强后的置信度,作为整个关键词的置信度。 (5)关键词确认模块的性能

关键词确认的目标是在几乎不影响正确关键词的检出率的前提下,尽可能地 降低误警率。虽然关键词识别算法中也可以通过调整关键词和补白模型的权重来 实现误警率的下降,但相应的要以牺牲检出率为代价。目前的关键词检测系统通 常都是放松关键词检出部分的限制,尽可能多的检测出关键词,然后通过关键词 确认技术去掉置信得分较低的候选。近年来,很少见到关键词检出算法的文章, 语音确认算法成为关键词系统的研究重点。除了语音确认算法外,也有人研究确认门限自适应,以适应不同环境条件的变化。Lopez-Cozar等描述了一个电话快餐预定系统,在该系统中他们使用了一种Adaptive Confidence Threshold的策略,在交谈过程中可以根据环境条件的变化,动态调整置信度阈值,通过这样提高对话中句子理解率和减少对话回合数。

2.3 关键词检测基线系统设计方案

我们的关键词检测系统是在Julian语音识别器的基础上开发的,Julian是日本京都大学和日本IPA(Infonnation-technology Promotion Agency)联合开发的基于有限状态语法的开源连续语音识别引擎。

由于我们针对的任务为无限制语音流,采用图2-1(a)的拓扑结构来设计基于垃

16

基于Filler模型的语音关键词识别

圾模型的关键词系统。采取先检出后认证的策略,通过网络转移权值来平衡系统的漏报和误报。通过实验发现,加大垃圾模组的惩罚系数,对提高系统的检出率有一定影响,但同时会带来更多的误报,而对关键词奖赏要比对垃圾网络惩罚的效果要好,在同样检出率的情况下,误报要少得多,但解码的速度比较慢。我们把系统的关键词奖赏权重设置为:Wi=C*length(KWi),其中C为常数,关键词的转移权重与关键词所包含的声韵母基元个数Length(KWi)有关,经过实验确定C=6达到最佳效果。

考虑到实时性和系统性能,采用扩展的声韵母单元(XIF)作为系统识别单元。 我们在实验中发现,用音节基元作为补白模型,虽然检出效果得到很大改善,但 由于要扩展的路径太多,导致解码速度很慢,虽然可以通过Beam剪枝去除得分较低的路径,但依然不能满足实时要求,所以垃圾模型模组部分改为采用声韵串接的音节模型,包括sil和全部音节模型,共计403个模型。通过共享前缀词典树组织搜索网络,由于利用了识别单元在发音方面的共性,搜索空间被大大减小,搜索效率得到了提高。由于垃圾模型仅起到吸收集外词的作用,并不需要识别出其真正的内容,我们在Viterbi解码的过程中,对每个时刻点结束的所有补白,仅允许其累计概率最大的项进行扩展。这样不但能使解码速度得到很大提升,而且使系统占用的内存很小,系统的检出率也不受影响。最终,我们设计的关键词检测基线系统如图2-3所示。

关键词模组 Keyword 1 Keyword 2 G G kw1 G kwm…GG Keyword M 关键词 确认 b+i z+a0 垃圾模型模组 图2-3 基线KWS系统方案

17

选择累积分最大的路径扩展 基于Filler模型的语音关键词识别

第三章 关键词语音确认方法

3.1 基于似然比的关键词语音确认算法

在统计学习理论中,假设检验是研究地比较深入的一个课题。受说话人确认 技术的启发,Rahim和Sukkar等人提出利用假设检验解决置信度计算问题。他们把用假设检验方法解决语音置信度问题称之为似然比(LR)方法。

假定某段语音特征矢量O被识别成某个词W,语音确认问题可以用统计学的假设检验来描述。定义:

H0:原假设,O被正确识别为W; H1:备择假设,O被正确识别为非W。

(3-1)

其中,称为W的反词模型或备择模型。可以通过多种方式计算似然比。Rose和Paul考虑到关键词似然得分的时变特性,在进行似然比打分时使用了图3-1的并行“背景网络\得到似然比分数,背景网络为音素循环网络。这种方法较为简单,有一定健壮性,但由于加入音素循环网络进行识别,计算代价比较高。

S语音 关键词—补白网络 + KW ? 背景网络 - S图3-1通过背景网络获取关键词似然比得分

BA

在以HMM为基础的语音识别系统中,词通常由子词串接而成,可以先通过关键词-补白网络产生包含关键词和补白的识别结果,由识别结果回溯得到关键词的词边界,然后通过时间对齐得到关键词的子词边界,把似然比的计算分解到子词层计算,最终关键词的LR分数由子词似然比的计算结果得到。相比上面提到的“背

18

基于Filler模型的语音关键词识别

景网络\方法,这种方法精度要高,而且计算代价比较低。

子词层的似然比可以表示为:

(3-2)

其中为目标子词对应的HMM模型,为其对应的反词模型。通常似然比的结果动态范围比较大,Lee指出,似然比可以通过S函数进行非线性变换,压缩到[0,1]区间,转换为置信度的形式。

其中

(3-3)

,控制S函数的平滑程度。需要注意的是,这里的CM只具备比较意

义,而不具备概率函数意义。似然比方法具有较好的统计学理论基础,计算速度快。在基于垃圾模型的KWS系统中,通常采用这种方法进行语音确认。由于反词包括目标子词的补空间,而这个补空间显然范围是很广的,很难用确切的数学模型来描述,所以似然比方法的难点在于如何对反词模型建模,确认算法性能的好坏主要取决于对备择假设概率密度函数的拟合能力。

用于求反词模型得分的方法可以分为两类: 训练明确反词模型

这种方法需要利用语料库来训练反词的HMM模型。Eduardo把反词模型分为两部分:

(3-4)

其中

称为冒充模型,用来对混淆音建模,

利用与目标子词最容易混淆的

前N个子词的语料训练得到。称为背景模型,用所有的训练语料生成。

用与目标模型同样的HMM结构,不同的是背景模型含有较多的混合高斯分量(通常

?32)。直接用极大似然准则训练的HMM效果较差,需要利用区分性训练方法来进行模型参数调整。最小确认错误(Minimum Verification Error,MVE)是最常用的反词模型训练算法,通过广义概率下降(Generalized Probabilistic Descent ,GDP)算法求取使确认函数最优的参数值,来达到参数优化的目的。反词模型的好坏,不但跟训练算法有关,还与参与训练的样本有关,Jiang提出了一种在解码过程中动态收集竞争样本的方法,Jiang指出,采用收集的竞争训练样本用于反词模型的训练,能使反词

19

基于Filler模型的语音关键词识别

模型的据识效果得到较大的高。

训练明确反词模型的方法据识效果好,但缺点是训练过程比较繁琐和复杂。另外,由于实际应用环境的样本难于采集,反词模型通常是在干净语音库训练的,实际应用时无形中造成了模型与数据的不匹配,不利于任务域移植。

(2)利用模型集来构造反词模型

和在线垃圾模型思想一样,这种方法利用模型空间内除目标模型外的其它模型来构造反词模型,获取反词模型得分。

假定模型空间中除目标模型之外的其它模型为是在中找一个得分最大的模型和目标模型比较:

(3-5)

这相当于用1-Best竞争模型表示反词模型。如果取前M个竞争项的平均, 此时有:

(3-6)

Sukkar提出更通用的公式来计算似然比:

(3-7)

其中为调整参数,当取比较大的值时,反词得分取决于与目标模型竞争较多的模型。当

时,上式相当于竞争模型中的最大项,此时:

。最简单的方法

Chao提出一个利用竞争说话人和通用背景模型(UBM)来计算LLR的框架,并通过Kernel Fisher Discriminant(KFD)来提高说话人确认的区分性。

实际中,通常不需要在整个模型空间来构造反词模型,而仅用与目标模型的竞争集(Competing Set,CS)来构造反词模型就可以收到满意的效果。这是由于Viterbi搜索算法是寻求最优路径的方法,实际结果往往为识别结果较为接近的模型,Jiang通过图3-2阐述了基于近邻竞争模型的语音确认方法。其思想是可以把模型空间加以划分,目标模型的竞争模型都分布在以目标模型为圆心不同半径的圆周上。与目标模型竞争强度越大的模型在模型空间中距离圆心越近,在识别时这两个模型越容易混淆。

20

基于Filler模型的语音关键词识别

竞争模型空间 目标模型空间 全体模型空间

图3-2基于近邻空间的语音确认思想示意图

如果目标模型所在的近邻空间为A1,其竞争模型空间为A2,可以通过目标模型的竞争模型来进行语音确认,从而降低运算量。此时,假设检验问题转换为:

H0:原假设,O真实来自A1;

H1:备择假设,O真实来自目标模型的竞争模型空间A2-A1;

在Jiang[6]的论文中,提出以HMM模型均值向量为圆心,给不同维的语音特征给予不同近邻空间的语音确认方法,该方法在噪声环境下获得较好确认效果。利用模型集来构造反词模型,和训练明确反词HMM模型的方法相比,移植性好,而且省去了训练反词的繁琐步骤。本章我们将主要针对这种方法进行研究,并提出一种新的基于竞争模型的加权似然比融合的语音确认方法。

3.2 基于竞争模型的加权似然比融合的语音确认方法

分析上一节利用竞争模型集构造反词模型的方法,不难发现,所采用的方法 都比较简单。

在正确参考答案为“ci”的情况下,分析下面两种情况: ●目标模型为“ci”,竞争集中最大的竞争模型为“si”;Vo(O)=C。 ●目标模型为“ci”,竞争集中最大的竞争模型为“ca”;Vo(O)=C。

两者似然得分相同,但显然第一种情况比第二种情况更加可靠。这是因为我们的感觉中“si”与“ci”发音比较接近,两者发音更容易混淆。这启发我们,在利用似然比方法时,除了考虑似然比分数外,还要考虑竞争模型的区别,即:各个竞争模型对于区分目标模型的作用是不同的。出于这种考虑,我们提出基于竞争模型的加权似然比融合的语音确认方法。

21

基于Filler模型的语音关键词识别

对竞争模型加权来构造反词模型的方式有多种,一种加权方式是采用概率算术平均,即:

(3-8)

其中为目标模型的竞争模型。权方式为概率加权平均,即:

(3-9)

比较这两种形式,对于概率算术平均方式,如果目标模型与其所有的竞争模型无关,或者

的值都非常小,会有

。由于通常在log域计算反词输

为调节权值,满足

另一种加

出似然分,不允许出现代入似然比公式,有:

。所以,本文采用概率几何平均加权方式。将式(2-9)

其中:

(3-10)

这样就把似然比问题转化为以下的参数优化问题:

(3-11)

其中

量w和阈值的最优化求解问题。

从上式可以看出,以前提到的很多计算似然比的方法都是所提方法的特例,当

22

,为待优化的常数。这样,问题就转换为加权向

基于Filler模型的语音关键词识别

竞争集最大值项的权值为1,其余项的权值为+∞时,上式相当于(3-5)式的最大竞争模型法。当取前N-Best竞争项为1,其余项为+∞时,上式相当于(3-6)式的N-Best竞争项法。

3.2.1 基于MVE的参数优化

加权向量和阈值可以通过许多方法来优化,如线性分类器,神经网络、支持向量机等训练算法。由于在这里我们碰到的问题是语音确认问题,我们引入最小确认错误(MVE)算法进行计算。MVE是一种有监督的区分性训练算法,是MCE算法在语音确认领域的推广,在说话人确认和语音确认领域得到广泛应用,常用于HMM模型或反词模型的参数优化。MVE将语音确认错误巧妙地嵌入进目标函数,将参数求解转换为使误警率和误接收率最小的参数估计问题。在实际使用时,MVE算法通常与梯度下降(GDP)算法结合在一块使用,通过GDP求取使目标函数最优的参数值,从而达到最小确认错误的目的。

假定语音O的识别结果为子词u,

,定义错误确认的测度为: (3-12)

其中,

为标示函数,是识别结果与实际参考答案比较的真实判别。

(3-13)

结合(3-12)和(3-13)式可以知道,在正确分类时:或者

,或者

以降低系统的确认错误。

由于此时有

不是一个连续函数,无法用GDP优化算法对其进行迭代优

(3-14)

其中是大于0的可调参数,用于控制确认损失函数

的单调增函数。

为连续函数,可以用GPD算法来进行优化,使得

在训练集上,定义期望确认损失函数为:

23

且可

。所以,降低

且,此时有且

,此时有

;在错误分类时:

化,通常引入S函数将其转换为连续可微函数

的平滑程度。显然

的值主要取决于错误分类的数据,由于

的经验期望值最小。

基于Filler模型的语音关键词识别

(3-15)

在GPD算法下,通过以下迭代公式求得:

(3-16)

其中为学习率,n为迭代次数。在满足下面两个条件下算法收敛:

,同时

由于要求导结果如下:

,我们令

(3-17)

使其转换为对的无约束优化。参数求

(3-18)

同理,可以得:

(3-19)

如果用全部模型来计算似然比显然计算量有些过大,可以考虑只选择距离目标模型较近的那些竞争模型。竞争模型可以通过专家先验知识和数据驱动的方式获得,这里我们利用数据驱动的方式获得竞争模型,采用KL(Kullback Leibler)测度来计算声学模型之间的距离,KL测度也是说话人识别中经常采用的一种模型测度。

(3-20)

上式中,和,代表各自模型的训练样本个数,本,

表示模型产生样本

自反性:显然有对称性:显然有

24

是训练模型的第K个样

的概率,该距离度量具有以下性质:

非负性:如果声学模型有足够精度,对于绝大多数训练样本应该满足条件

基于Filler模型的语音关键词识别

3.2.2 实验设定与结果

我们采用扩展的声韵母集合进行语音确认,包括27个声母、38个韵母,每个模型3个状态。每个状态含有8个高斯混合分量。语音采用8KHz/16位采样,帧长25ms,帧移10ms。语音特征采用39维MFCC特征,包括对数能量和12维MFCC参数静态特征以及其一阶、二阶差分特征。

由于声母和韵母之间不易混淆。所以,对于声母目标模型,可以选用除去目标模型的全部声母集模型作为目标模型的竞争集(CS)。同样,对于韵母,采用除目标模型外的全体韵母作为目标模型的竞争集。为了进一步降低运算量,我们在以上竞争集的基础上进一步缩小范围,对每个目标模型,在863语音库训练集上通过KL测度选择15个与其最接近的模型,按照KL距离由小到大排序,构成式(3-10)的15维似然比特征向量,称为CS(15)。

对于竞争集,我们通过MVE训练算法对每个子词求取加权向量和阀值。下面是具体MVE训练过程:

(1)对所有的子词,初始化合成权重系数及阈值,令最易混淆项的似然比加权值

,其余项的似然比加权值为0。阀值

;

(2)用音素解码器得到输出结果,并与标准答案做对比,得到真实的分类对错标志

;

(3)用GDP算法根据式(3-18)、(3-19)迭代更新各个系数。本实验中取1/n。 重复(2)、(3)过程,直到损失函数收敛为止。

0.360.350.340.33EER0.320.310.30.290.280123456789101112131415MVE迭代次数 图3-3 等错误率随MVE迭代次数的变化情况 上图是在竞争集为CS(15)时,我们得到的系统等错误率随训练次数变化的曲25

基于Filler模型的语音关键词识别

线,如图3.3所示。可以看出,EER曲线的变化中间会出现一些波动,在迭代11次后,EER稳定并收敛。最终的EER从0.3563下降到0.2961。

接下来验证所提方法的语音确认效果。测试系统为词表大小为130个关键词的关键词检测系统,测试集包含有1300句语音,数据取自863试集的F50、M50文件。关键词的置信度由所含子词的似然比通过以下公式计算得到:

(3-21)

其中L为关键词的子词个数,参数为幅度调节参数,本实验中实验比较四种方法的确认效果:

:采用(3-4)式计算似然比;

采用(3-6)式Sukkar提出的似然比方法;

:采用提出的加权的似然比方法,加权系数和阀值由MVE训练得到,

竞争模型集采用CS;

:方法同

竞争模型。

实验得到等错误率曲线如图3-4所示,测得的等错误率如表3-1所示。从中可以看出,仅用竞争集中最大竞争项来表示反词的方法确认效果比较差。

,但通过KL测度选择距离目标模型较近的前15个

图3-4 语音确认方法的DET曲线比较

采用基于竞争模型似然比加权的方法(

26

)比不加权的方法()等错误

基于Filler模型的语音关键词识别

率下降了2.35%,说明加权的似然比方法收到了较好的效果。比较争模型的方法

少许的牺牲,但实际程序运行时

和采用竞

的DET曲线,可以看出发现二者性能非常接近,EER仅有

的计算量下降了一倍左右,这

说明选择合适的竞争模型能取得较满意的效果。

表3-1 不同似然比计算方法的EER Method EER 0.2310 0.2195 0.1960 0.1993 3.3 多置信特征联合提高语音确认效果

用置信特征进行语音确认[7]也是置信度研究的一个重要领域,正如我们理解一句话,可以从多个层次、多个角度去理解。置信特征可以来自声学层、语言层、语法层和语音层。Chase对常用声学预测特征进行了分析,对一些声学特征进行了分析;Zhang对词图和解码特征进行了研究,提出一些基于词图的语言层特征;Stephen Cox[8]提出了用浅层语义分析来进行语义层置信度估计,Ruhi Sarikaya[9]在对话系统中提出利用词层和概念层置信分来计算语义置信度;Gustavo采用一种基于动态规划对齐的方法给识别结果对齐打分。在国内这方面研究,付跃文提出利用局域词图计算的词后验概率与词长、相邻词的后验概率等几种实时预测子进行融合;孙辉提出了上下文相关置信度特征,考虑到当前待确认词与其前序词和后序词之间的相关性。似然比和词后验概率是目前公认的两种最有效求取置信度的方法。词后验概率的方法需要通过生成lattice或词图才能计算,而生成lattice的过程非常费时,无法达到实时要求。所以,对于基于垃圾模型的KWS系统,通常采用声学似然比特征为主,其它特征为辅的策略。常用的融合特征有:关键词似然比、帧归一化的关键词似然分、时间驻留特征、候选关键词的上下文特征、时间对齐特征。

除了寻找好的预测特征外,许多研究人员还试图通过分类器来提高置信效果,常用的预测特征融合方法有:线性判别分析、神经网络、决策树、支持向量机、Boosting。另外,还可以借助训练算法优化融合的系数,这些准则有:最大似然准则,互熵准则、最小错误分类错误等。

Jiang—Hui[10]指出,预测特征不一定越多越好,必须要考虑该特征的来源,许多相关的预测特征组合并一定能够提高置信度的效果。所以,我们在选择特征时考

27

基于Filler模型的语音关键词识别

虑以下两个方面:1)特征之间应尽量来自不同知识源;2)由于基于垃圾模型的关键词系统对实时性要求高,预测特征应较易获得。

3.3.1 在线垃圾模型提高语音确认效果的理论研究

我们选择三个特征用于提高语音确认效果,包括:关键词的似然比特征、驻留特征和在线垃圾(OLG)得分。

在线垃圾模型最早用于无补白模型的关键词检出,国内对OLG模型的研究的比较多,张国亮提出了基于OLG的关键词动态确认方法,将关键词检出和验证过程合二为一,利用OLG进行动态语音确认。梁家恩[11]指出,在线垃圾模型相当于基于后验概率方法的体现。陈一宁[12]利用在线垃圾模型计算N-Best音节格的置信分数,收到较满意的效果。需要说明的是,计算OLG分数可以在关键词模型空间,也可以在补白模型空间,我们采用的OLG得分来自关键词解码空间,目的是用其估计关键词与竞争词的距离。因为,似然比特征并没有考虑关键词之间的影响,识别中的冒充错误大多是由于竞争关键词胜过真实关键词造成的,竞争的关键词越多时,这种错误出现的越多。所以,我们引入关键词在线垃圾得分进行关键词确认,实验结果说明,这三个特征的融合能较好的提高确认效果。

下面介绍计算关键词驻留特征和在线垃圾得分的方法。 (1)关键词驻留特征。

文章[13]提到了经典隐马尔可夫模型的缺陷,HMM是一阶的齐次马尔可夫链的随机函数,这种齐次假设导致HMM状态的驻留长度(即段长)服从指数分布,从数学上得到了简化;但是指数分布意味着在某一状态驻留时间越短则概率越大,特别是零长度驻留的概率最大。这与大多数语音信号的实际段长分布不符,如汉语中辅音的长度分布就相当集中。如果段长服从指数分布,则状态转移概率就是零长度驻留概率,可知零长度驻留概率远大于其真实值,所以经典HMM中的状态转移概率太大,导致了搜索过程中会出现一些插入错误,这是经典HMM的齐次假设的不合理性造成的。相比而言,伽马分布更接近语音段长的真实分布。

我们需要提取驻留特征增加关键词的确认能力。显然,如果一个词驻留过短就极可能是插入错误,应该给予其较低的分数。我们采用David提出的方法对子词状态驻留概率打分。

假定子词驻留概率符合伽玛分布:

28

基于Filler模型的语音关键词识别

(3-22)

其中t为驻留时间,

,对某个子词而言是常数。?和?通过统计语料

库的子词驻留时间的样本均值和方差得到:

(3-23)

(3-24)

子词驻留特征为子词驻留概率的对数取值:

(3-25)

上式中,需很小的计算量。

定义关键词的驻留概率为其包含子词的驻留特征的最小值。

(3-26)

(2)关键词在线垃圾分数

在构成关键词的状态空间中,取每帧得分最高的N个状态的似然得分均值作为该帧的垃圾评分。定义关键词的在线垃圾分数[14]为:

(3-27)

其中、是关键词的起始和结束时刻点,从上式可以看出,计算关键词的在线垃圾得分的其实是似然比方法的体现。但与似然比方法区别的是,反词部分由竞争的关键词的状态得分形成。当竞争的关键词较多时,其得高分的存活状态必然较多,导致其OLG分数增加,此时F值变小。当竞争的关键词较少时,OLG分数下降,此时F值变大。所以,该特征在一定程度上体现了关键词与竞争关键词的距离。此种方法还具有一定的抗噪性,一般说来,OLG是随识别语音特征的变化而动态变化的,在噪声环境下,关键词得分发生变化,OLG得分也跟随同方向的变化,二者之差在一定程度上减弱噪声的作用。 3.3.2实验结果

29

为常数,可以提前计算并保存好,这样计算子词驻留特征仅

基于Filler模型的语音关键词识别

实验用到的关键词检测系统和测试语音同上一节,首先我们验证OLG分数的语音确认效果,OLG分数的形成主要取决于每帧的前N-Best个竞争状态,调节N的取值,得到的不同N值下的语音确认效果,如图3.5所示。调整N的值就可以调整关键词确认的宽严程度,N越大越宽,可以看出在每帧取得前30个最佳状态来计算在线垃圾分数时有较好的效果,N过大和过小,关键词确认性能会有所下降。

图3-5 OLG中模型参数N的DET曲线比较

接着比较联合关键词似然比、驻留特征和在线垃圾得分特征的语音确认效果,这里仍然采用Sukkar提出的

方法为基线似然比特征,驻留特征所需的参数由

863语音库训练得到,对于OLG特征,每帧取得前30个最佳状态来计算在线垃圾分数。

图3-6联合关键词预测特征的DET曲线比较

30

基于Filler模型的语音关键词识别

图3-6给出了联合置信特征进行语音确认的DET曲线,表3-2给出了确认方法的EER比较。

表3-2 联合关键词预测特征的EER Method EER 0.2195 0.2263 0.1925 0.1882 可以看出,OLG特征的确认效果不如似然比方法。联合似然比和OLG置信特征后的EER比似然比方法对应的EER下降了0.027,这说明这两个置信特征具有一定的互补性。进一步,通过加入驻留特征后使系统的DET曲线变得比较平滑,系统稳定性有所增强。联合似然比、OLG和驻留概率这三种置信特征使得系统的EER下降为0.1882,比基线系统的EER下降了0.0313,比联合两种特征的方法EER下降了0.0043。实验结果说明,我们选择的三个特征具有一定的互补性,联合这些特征能在一定程度上提高语音确认效果。

31

基于Filler模型的语音关键词识别

第四章 总结与展望

4.1 内容总结

本文对基于Filler模型的关键词检测技术进行了研究,对该关键词检测系统的设计、关键词检出策略和置信度评估进行了分析,并通过实验证明了其有效性。本文主要贡献为:基于垃圾模型的关键词系统中的语音确认算法。在基于垃圾模型的关键词系统中,常利用似然比方法进行语音确认。提出了一种基于竞争模型的加权似然比融合语音确认方法,通过联合目标模型与其竞争模型的似然比对子词的置信度进行估计,引入了最小确认错误准则训练融合的权重系数。实验表明该方法能够有效提高语音确认效果。在置信预测特征选择方面,联合关键词动态垃圾得分、似然比和驻留概率作为预测特征计算关键词候选的置信度,在使系统实时性没有明显下降的情况下明显提高系统的拒识性能。

4.2 研究展望

本文虽然对基于Filler模型的关键词检测系统进行了一些初步研究,提出了一些新方法和新思路,取得了一定的成果,但同时也发现了一些不足之处:

·高层语言知识的应用。主要研究从声学角度出发检测关键词,没有涉及语言本身的知识。然而语音是语言的载体,自然发音是受语言驱动而产生的。识别时如果缺乏语言模型指导,识别结果的错误率就会非常高,如何将将语言本身的规则和知识与统计的方法结合在一起,IBM的Jonathan Mamou指出,词层检索可以提高检索引擎的准确性,音素检索可以提高检索引擎的召回率。从不同层次(词层、字层、发音层)进行关键词检测将是进一步的研究目标,另外,不同层次的检索结果如何融合也将是我们的思考问题。

·确认模型的自适应和先验知识的应用。声学模型自适应和语言模型自适应是提高语言识别鲁棒性的方法。在基于垃圾模型的关键词系统中,通过似然比方法进行语音确认,这种方法需要目标模型和反词模型。我们认为目标模型和反词模型也都应该随着应用环境能够自己调整模型参数,以提高置信度准确度。下一步工作中,将引入自适应技术到置信度计算模型上来。

32

基于Filler模型的语音关键词识别

最后,由于作者的学识水平有限,一些问题的研究有待于进一步深入、完善, 文中不当之处难免,恳请教员指导。

33

基于Filler模型的语音关键词识别

参考文献

[1] 王炳锡, 屈丹等. 实用语音识别基础[M]. 北京: 国防工业出版社, 2005. [2] 严斌峰, 口语对话系统中关键词识别的研究[D]. 清华大学博士学位论文, 2004. [3] 陆正中, 口语对话系统中的语音识别研究[D]. 清华大学硕士学位论文, 2002. [4] I., Szoke. Hybrid word-subword spoken term detection[D]. Ph.D. Thesis, Brno University Of

Technology, 2010.

[5] Dong Wang. Out-of-Vocabulary Spoken Term Detection[D]. Ph.D. Thesis, University of

Edinburgh, 2010.

[6] Jiang Hui. A Dynamic In-Search Data Selection Method With Its Applications to Acoustic

Modeling and Utterance Verification[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2005, 13(5): 945-955.

[7] Ka-Yee Leung, Manhung Siu. Articulatory-feature-based confidence measures[J]. Speech

Communication, 2005: 1-21.

[8] S.Cox and S.DasmahaPatra. High-level Approaches to Confidence Estimation in Speech

Recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2002, 10(7): 460-471.

[9] Ruhi Sarikaya, Yuqing Gao and Michael Picheny. Semantic Confidence Measurement for

Spoken Dialog Systems[J]. IEEE Transactions on Speech and Audio Processing, 2005, 13(4): 534-545.

[10] Jiang Hui. Confidence measures for speech recognition: A survey[J]. Speech Communication,

2005: 455-470.

[11] 梁家恩. 语音识别中置信度研究与应用[D]. 中科院自动化所博士学位论文, 2007. [12] 陈一宁. 连续语音流中关键词识别算法的研究[D]. 清华大学博士学位论文, 2004. [13] 张国亮. 口语对话系统中语音识别的研究[D]. 清华大学博士学位论文, 2003. [14] 孙成立. 语音关键词识别技术的研究[D]. 北京邮电大学博士学位论文, 2008.

34

基于Filler模型的语音关键词识别

致谢

这篇论文的内容和我们的日常生活有很大的联系,在完成论文的过程中,我阅读了一些刊物书籍,详细的阅读了教员所给的资料,从中了解了很多关于语音关键词识别的知识,可谓受益良多。撰写的过程中我引用了一些资料文献,由于时间比较仓促,及相关知识的缺乏,论文不可能十全十美,个中的不足还望教员能指出、指导。

本文是在xxx教授的热情关心和指导下完成的,他渊博的知识和严谨的治学态度使我受益匪浅,对顺利完成本课题起到了极大的作用。在此向他表示我最衷心的感谢!

在论文完成过程中,本人还得到指导教员xxx的热心帮助,他对我的毕业设计予以悉心地指导,提出了很多建议,并细心授予写论文的心得。本人向他表示深深的谢意!

最后向在百忙之中评审本文的各位专家、老师表示衷心的感谢!

35

本文来源:https://www.bwwdw.com/article/8ysp.html

Top