汉语连续语音识别系统的研究与实现

更新时间：2023-03-18 22:30:01 阅读量：人文社科文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

汉语语音特点推荐度：
相关推荐

语音信号处理相关论文

西北大学

硕士学位论文

汉语连续语音识别系统的研究与实现

姓名：张利平

申请学位级别：硕士

专业：计算机软件与理论

指导教师：冯宏伟

20100621

语音信号处理相关论文

摘要

语音识别是利用计算机对人类的语音进行处理，将语音信号转化为文字符号的一种技术。国内外对汉语语音识别的研究已经有了近６０年的历史，取得了很大的进展，但仍存在很多问题。现有的语音识别技术还达不到人与机器通过自然语言交互的目标，大词汇量、非特定人的连续语音识别仍是语音识别研究的难点与重点。

本文主要研究汉语连续语音识别的关键技术。首先介绍了语音识别的原理、语音识别系统的组成以及汉语语音的基本知识。然后分别介绍了语音识别的预处理、特征参数提取、模式匹配和后处理阶段的功能及其关键技术，并针对传统方法中存在的问题提出了改进方案。本文的主要工作有：

１）在个人电脑平台下，用ＭｉｃｒｏｓｏｔｔＶｉｓｕａｌＣ＋＋，ＭＡＴＬＡＢ，ＭｉｃｒｏｓｏｆｔＳＱＬＳｅｒｖｅｒ等工具实现了一个中等词汇量、非特定人的汉语连续语音识别系统，并对系统进行了实验。系统选择声韵母作为识别基元，特征参数采用Ｍｅｌ频标倒谱系数，识别模型选用动态时间规整模型。

２）识别基元分割的准确度对系统的识别性能影响很大，现有的声韵母分割方法在非连续语音中分割准确度较高，但在连续语音中分割准确度大幅度降低。针对这一问题，本文结合汉语连续语音的特性，利用熵与汉语元音的共振峰能量设计了一种新的声韵母分割方法，有效提高了声韵母分割的准确度。

３）采用传统动态时间规整技术的语音识别系统在识别时计算量较大，系统响应时间长。针对这一问题，本文提出了基于模板阈值的ＤＴＷ改进算法和基于待测语音特征矢量阈值的ＤＴＷ改进算法，有效减少了计算量，提高了系统的实时性。关键词：语音识别，端点检测，Ｍｅｌ频标倒谱系数，动态时间规整

语音信号处理相关论文

Ａｂｓｔｒａｃｔ

Ｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｉｓａｔｅｃｈｎｏｌｏｇｙｔｈａｔｃａｎｅｘｔｒａｃｔｃｈａｒａｃｔｅｒｓｙｍｂｏｌｓｆｒｏｍｔｈｅｓｐｅｅｃｈｓｉｇｎａｌｔｈｒｏｕｇｈｃｏｍｐｕｔｅｒｐｒｏｃｅｓｓｉｎｇ．Ｃｈｉｎｅｓｅｃｏｎｔｉｎｕｏｕｓｓｐｅｅｃｈ

ａｒｅｒｅｃｏｇｎｉｔｉｏｎｓｏｍｅｈａｓｂｅｅｎｉｎｒｅｓｅａｒｃｈｅｄｆｏｒａｌｍｏｓｔ６０ｙｅａｒｓａｔｈｏｍｅａｎｄａｂｒｏａｄ．Ａｌｔｈｏｕｇｈｔｈｅｒｅａｃｈｉｅｖｅｍｅｎｔｓ

ｃｏｎｔｉｎｕｏｕｓ

ｓｐｅｅｃｈｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｒｅｓｅａｒｃｈ，ａｔｅｃｈｎｏｌｏｇｉｅｓｃａｌｌｌｏｔｏｆｐｒｏｂｌｅｍｓｎｅｅｄｔｏｂｅＣａｌｌｒｅｓｏｌｖｅｄ．Ｅｘｉｓｔｉｎｇｃｏｍｍｕｎｉｃａｔｅｗｉｍ

ｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｎｏｔｒｅａｃｈｔｈｅｔａｒｇｅｔｔｈａｔｈｕｍａｎｍａｃｈｉｎｅｂｙｎａｔｕｒａｌｓｐｅｅｃｈ．Ｌａｒｇｅｖｏｃａｂｕｌａｒｙ，ｓｐｅａｋｅｒ－ｉｎｄｅｐｅｎｄｅｎｔｃｏｎｔｉｎｕｏｕｓ

ｒｅｃｏｇｎｉｔｉｏｎｉｓｓｔｉｌｌｔｈｅｄｉｆｆｉｃｕｌｔｙａｎｄｋｅｙｓｔｏｎｅｏｆｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ．

ｃｏｎｔｉｎｕｏｕｓｓｐｅｅｃｈＴｈｅｍａｉｎｓｔｕｄｙｏｆｔｈｉｓｐａｐｅｒｉｓｔｈｅｋｅｙｔｅｃｈｎｏｌｏｇｉｅｓｏｆＣｈｉｎｅｓｅ

ｒｅｃｏｇｎｉｔｉｏｎ．Ｆｉｒｓｔｌｙ

ｏｆｓｐｅｅｃｈｔｈｅｐａｐｅｒｉｎｔｒｏｄｕｃｅｓｔｈｅｐｒｉｎｃｉｐｌｅｓｏｆｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ，ｔｈｅｃｏｍｐｏｓｉｔｉｏｎｔｈｅｎｒｅｃｏｇｎｉｔｉｏｎ

ｔｈｅｆｕｎｃｔｉｏｎｓｓｙｓｔｅｍａｎｄａｎｄｔｈｅｂａｓｉｃｋｎｏｗｌｅｄｇｅｏｆＣｈｉｎｅｓｅＳｐｅｅｃｈ．Ａｎｄｉｎｔｒｏｄｕｃｅｓｋｅｙｔｅｃｈｎｏｌｏｇｉｅｓｏｆｐｒｅ－ｐｒｏｃｅｓｓｉｎｇ、ｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎ、ｐａｔｔｅｒｎ

ｏｆｓｐｅｅｃｈｍａｔｃｈｉｎｇａｎｄ

ｉｎｖｉｅｗｏｆ

ｆｏｌｌｏｗｓ：ｐｏｓｔ－ｐｒｏｃｅｓｓｉｎｇｅｘｉｓｔｅｄｒｅｃｏｇｎｉｔｉｏｎ．Ｉｍｐｒｏｖｅｄｍｅｔｈｏｄｓｈａｖｅｂｅｅｎｐｒｏｐｏｓｅｄａｒｅａｓｐｒｏｂｌｅｍｓｉｎｔｒａｄｉｔｉｏｎａｌｍｅｔｈｏｄｓ．Ｉｎｔｈｉｓｐａｐｅｒ，ｔｈｅｍａｉｎｗｏｒｋｓ

１）Ａｍｅｄｉｕｍ－ｖｏｃａｂｕｌａｒｙ，ｓｐｅａｋｅｒ－ｉｎｄｅｐｅｎｄｅｎｔＣｌｌｉｎｅｓｅｃｏｎｔｉｎｕｏｕｓｓｐｅｅｃｈ

Ｖｉｓｕａｌｒｅｃｏｇｎｉｔｉｏｎｓｙｓｔｅｍｉｓａｃｈｉｅｖｅｄｏｎａｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ，ｕｓｉｎｇＭｉｃｒｏｓｏｆｔ

ｏｎＣ＋＋，ＭＡＴＬＡＢ，ＭｉｃｒｏｓｏｆｉＳＱＬＳｅｒｖｅｒａｎｄｏｔｈｅｒｔｏｏｌｓ，ｅｘｐｅｒｉｍｅｎｔｓａｒｅｍａｄｅ

ｕｎｉｔ，ｔｈｅｔｈｅｓｙｓｔｅｍ．Ｔｈｅｓｙｓｔｅｍｃｈｏｏｓｅｓｔｈｅｉｎｉｔｉａｌａｎｄｆｉｎａｌａｓ

ｔｈｅＤＴＷａｓｒｅｃｏｇｎｉｔｉｏｎＭＦＣＣａｓｆｅａｔｕｒｅｐａｒａｍｅｔｅｒｓ，ａｎｄｕｓｉｎｇｒｅｃｏｇｎｉｔｉｏｎｍｏｄｅｌ．

ａｃｃｕｒａｃｙｏｆＩ／Ｆ２）Ｔｈｅ

ｓｅｇｍｅｎｔａｔｉｏｎ

ｃｏｎｔｉｎｕｏｕｓｓｅｇｍｅｎｔａｔｉｏｎｈａｓｇｒｅａｔｉｎｆｌｕｅｎｃｅｏｎｓｙｓｔｅｍ，ｃｕｒｒｅｎｔＩ／Ｆｍｅｔｈｏｄｓａｃｈｉｅｖｅｈｉｇｈｄｅｇｒｅｅｏｆａｃｃｕｒａｃｙｉｎｎｅｗｍｅｔｈｏｄｎｏｎｃｏｎｔｉｎｕｏｕｓｓｐｅｅｃｈ，ｂｕｔｆａｌｌｉｎｏｆｓｐｅｅｃｈ．Ｉｎｔｈｉｓｐａｐｅｒ，ａｂａｓｅｄｏｎｅｎｔｒｏｐｙａｎｄｔｈｅｆｏｒｍａｎｔｅｎｅｒｇｙ

ＦＦ．Ｃｈｉｎｅｓｅｖｏｗｅｌｓｉｓｐｒｏｐｏｓｅｄ，ｗｈｉｃｈｃａｎａｃｃｕｒａｔｅｌｙｓｅｇｍｅｎｔｔｈｅ

ｌｏｎｇ３）Ｔｈｅｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｓｙｓｔｅｍ、ⅣｉｔｈｔｈｅｔｒａｄｉｔｉｏｎａｌＤｙｎａｍｉｃＴｉｍｅＷａｒｐｉｎｇｔｅｃｈｎｏｌｏｇｙｈａｓｇｒｅａｔａｍｏｕｎｔｏｆｃａｌｃｕｌａｔｉｏｎａｎｄｒｅｓｐｏｎｓｅ

ｍｅｔｈｏｄｔｉｍｅ．Ｆｏｒｔｈｉｓｉｍｐｒｏｖｅｄ

ａｎｄｍｅｔｈｏｄｓｏｆＤＴＷｍｅｔｈｏｄ

ｃａｎａｌｅｉｎｔｒｏｄｕｃｅｄ：ａｎｉｍｐｒｏｖｅｄｏｎｐｒｏｂｌｅｍ，ｔｗｏｂａｓｅｄｏｎｔｅｍｐｌａｔｅｔｈｒｅｓｈｏｌｄｅｘｐｅｒｉｍｅｎｔｓｓｈｏｗｒｅｓｐｏｎｓｅｔｉｍｅ。ａｎｉｍｐｒｏｖｅｄｂａｓｅｄｆｅａｔｕｒｅｖｅｃｔｏｒｔｈｒｅｓｈｏｌｄ．Ｔｈｅｒｅｓｕｌｔｓｏｆｔｈａｔｔｈｅｎｅｗｍｅｔｈｏｄｓｒｅｄｕｃｅｔｈｅｃａｌｃｕｌａｔｉｏｎｔｉｍｅａｎｄｉｍｐｒｏｖｅｔｈｅ

Ｋｅｙｗｏｒｄｓ：ＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ，ＥｎｄｐｏｉｎｔＤｅｔｅｃｔｉｏｎ，ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔ

（ＭＦＣＣ），ＤｙｎａｍｉｃＴｉｍｅＷａｒｐｉｎｇ（Ｄｎ聊１１

语音信号处理相关论文

西北大学学位论文知识产权声明书

本人完全了解西北大学关于收集、保存、使用学位论文的规定。学校有权保留并向国家有关部门或机构送交论文的复印件和电子版。本人允许论文被查阅和借阅。本人授权西北大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时授权中国科学技术信息研究所等机构将本学位论文收录到《中国学位论文全文数据库》或其它相关数据库。

保密论文待解密后适用本声明。

学位论文作者签名：拉型叠

钞，少年；月》／日指导教师签名：弘ＩＯ年彦月２／Ｅｌ

西北大学学位论文独创性声明

本人声明：所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知，除了文中特别加以标注和致谢的地方外，本论文不包含其他人已经发表或撰写过的研究成果，也不包含为获得西北大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢意。

学位论文作者签名：址烈平劬，秒年占月２，１日

语音信号处理相关论文

西北大学硕士学位论文

第一章绪论

在日常生活中，语言是人们进行思想、观点和情感交流的主要方式。语言交流简捷方便且易于理解，在人际交往中扮演着非常重要的角色。近几十年来，随着计算机技术的飞速发展，计算机已成为人们生活、学习和工作中不可缺少的工具之一。当前的计算机通常以屏幕、键盘和鼠标作为主要的交互工具，操作较为简便但仍不够理想。为了使人与计算机的交互方式更加友好、自然，科学家们致力于寻找更加易学易用、简捷方便的交互方式。语音对话是人们最自然的交流方式，因此语音识别技术从发展初期就被人们寄予厚望。

１．１语音识别概述

语音识别（ＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ，ＳＲ）就是利用计算机对人们的语音信号进行处理，识别出所说的是什么【１，２１。通俗地讲，就是让计算机具备人类的听觉功能，使人可以通过语音对话来与计算机进行交流。计算机通过识别和理解，可以把语音信号转变为相应的文本或命令。语音识别是一门涉及很广的交叉学科，它以人类的语音为研究对象，是语音信号处理的一个重要研究方向；语音识别本质上是一种模式识别，是模式识别的一个分支，同时还涉及到生理学、心理学、语言语音学、物理学、计算机科学、概率论和信息论等诸多领域。

近二、三十年来，语音识别技术研究取得了显著进步，各种语音识别产品开始从实验室逐步走向市场，如语音拨号系统、语音录入软件、声控玩具等。语音识别的应用领域非常广阔，有声控电话、信息网络查询、家庭服务、宾馆服务、医疗服务、计算机控制、工业控制、语音通信、翻译系统等，基本上覆盖了人类社会的各个行业、各个方面。汉语是世界上使用人口最多的语言，全球有十几亿的汉语使用者，因此汉语语音识别的市场需求和应用前景都非常可观。

按照识别任务的不同，语音识别可以分为说话人识别（ＳｐｅａｋｅｒＲｅｃｏｇｎｉｔｉｏｎ）、关键词检出（ＫｅｙｗｏｒｄＳｐｏｔｔｉｎｇ）、语种识别（ＬａｎｇｕａｇｅＩｄｅｎｔｉｆｉｃａｔｉｏｎ）和连续语音识别（ＣｏｎｔｉｎｕｏｕｓＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）四种ｔ２，３】。

说话人识别也称为声纹识别（ＶｏｉｃｅｐｒｉｎｔＲｅｃｏｇｎｉｔｉｏｎ），是通过语音来对说话人进行区分，根据语音中能够反映说话人生理和行为特征的参数来确定说话人的身份【３１。人类的语音是由发声器官的振动产生的，发声器官包括舌、唇、喉、鼻腔、声带、气管和肺等，不同人的发声器官在尺寸和形态方面差异很大，所发出的声音也不同，因此能利用

语音信号处理相关论文

第一章绪论

语音中包含的个性信息来区别不同的人，或者判断是否是同一个人所发的声音。在说话人识别中，主要关注语音信号中能反映说话人特征的个性信息而忽略其语义。

关键词检出也称为关键词识别（ＫｅｙｗｏｒｄＲｅｃｏｇｎｉｔｉｏｎ），是从连续语音中检测出指定关键词的技术。关键词检出并不需要识别和理解整个语句，而只关注那些包含指定关键词的句子。关键词检出应用于一些特殊场合，一般对系统的检测准确率和实时性要求较高，如对特定地名和事件名进行电话监听、通过人名进行电话分机转接等。

语种识别是根据语音中包含的不同语种的声学特性，来判别出该语音所属语种的技术。各种语言都有其特征化的声音模式，人类只需要听一小段语音就可以判别出该语音属于哪个语种，即便是不熟悉的语种也可以根据发音的相似性做出判断。语种识别要求尽量消除语音中个体发音的差异，提取出各语种特有的声学特征，从而达到更好的识别效果。

连续语音识别则是要求识别和理解任意的连续语音，如一个句子、一段话等，并将语音转化为相应的文本或命令。连续语音识别对系统的识别率、实时性等要求很高，实现起来也很困难，是语音识别研究的难点与重点。

语音识别系统按照不同的角度可以分为不同的类别儿２，４】：

根据说话人说话方式的不同，可以将语音识别系统分为孤立词语音识别系统、连接词语音识别系统和连续语音识别系统。对于孤立词识别系统，说话人说话时词组之间有明显的停顿，每个词组在字典中都是一个独立的词条，如声控玩具的控制系统可以识别用户的“行走”、“向左转’’、“向右转”、“停止＂等命令；对于连接词识别系统，一般是指由单个数字连接成的数字串或由少数指令构成的连接指令的识别，如语音拨号系统等；对于连续语音识别系统，识别对象是人们日常生活、工作中的自然交流语音，说话人说话时词、句之间无特定停顿。连续语音识别系统在识别时还要综合考虑词法、语法、上下文关系等相关语言学信息。

根据对说话人的依赖程度可以分为特定人语音识别系统和非特定人语音识别系统。特定人语音识别系统是指说话人只有一个或者特定数目个，特定人语音识别较为简单，只要特定用户在训练阶段提供足够的训练语音，识别时就可以获得很高的准确度；非特定人语音识别系统不限定说话人的数目，因此实用性好、应用范围广，但实现起来比较困难，难以取得高识别率。

根据语料规模可以分为小词汇量语音识别系统、中等词汇量语音识别系统和大词汇量语音识别系统。小词汇量语音识别系统是指能够识别几十个词的语音识别系统，中等２

语音信号处理相关论文

西北大学硕士学位论文

词汇量语音识别系统可以识别几百个，大词汇量语音识别系统则是指可以识别一千个词汇以上的语音识别系统。词汇量越大，系统训练、识别的工作量就越大，实现就越困难。

根据使用方式可以分为实时语音识别系统和离线语音识别系统。实时语音识别系统要求能够实时进行识别交互，对系统的实时性要求较高；离线语音识别系统则并不要求系统马上给出识别结果，对系统的实时性要求较低。

目前，语音识别研究的重点和难点是大词汇量、非特定人、实时连续语音识别技术。１．２语音识别技术的研究与发展

国际上对语音识别的研究已经有近６０年的历史，取得了很多的成果，尤其是近二、三十年，提出了许多有效的语音处理方法和识别策略，语音识别系统正逐步走向实用化。由于综合国力的不断增强，中国在国际上的地位与日俱增，在全球政治、经济、军事、文化等领域发挥的作用也越来越大，汉语语音识别也越来越被重视，很多世界著名公司如ＩＢＭ、ＡＰＰＬＥ、ＭＯＴＯＲＯＬＡ等都相继投入到汉语语音识别系统的开发中来。

语音信号处理的研究工作最早可以追溯到２０世纪３０年代。１９３９年，Ｈ．Ｄｕｄｌｅｙ提出了基于负载信息参量的语音信号传输方法，并研制出了第一个声码器（Ｖｏｃｏｄｅｒ）；１９４７年，Ｂｅｌｌ实验室的Ｌ．ＧＫｅｓｔａ等人提出了语谱图的概念，将语音转化为图形，提供了一种较为方便的语音处理方式；１９４８年，美国Ｈａｓｋｉｎｓ实验室成功研制出了语图回放机；同时，Ｒ．Ｋ．Ｐｏｔｔｅｒ等人在分析多种语言的发音后，出版了《可见语音（ＶｉｓｉｂｌｅＳｐｅｅｃｈ）））一书，这些都为语音识别的发展打下了良好的基础。

语音识别技术的研究是从２０世纪５０年代开始的，这一时期，一些简单的语音识别系统开始问世：１９５２年美国Ｂｅｌｌ实验室的Ｋ．Ｈ．Ｄａｖｉｓ等人成功研制出了第一个特定人孤立字识别系统，该系统可以识别特定人的十个英文数字【４】；１９５６年美国声学家Ｈ．Ｆ．Ｏｌｓｏｎ等人研制出了第一台语音打字机（ＰｈｏｎｅｔｉｃＴｙｐｅｗｒｉｔｅｒ）；同时，语音学家也加入到了语音识别的研究当中，英国伦敦大学的Ｄ．Ｂ．Ｆｒｙ第一次提出了利用语言的统计信息来帮助语音识别的实现。

２０世纪６０年代，日本～些语音识别研究者致力于语音识别硬件的开发，出现了一些基于硬件的语音识别系统，如东京无线电研究实验室的Ｓｕｚｕｋｉ等人研制出了基于硬件的元音识别系统；在理论方面，针对语音信号时长不统一的问题，日本研究者提出了时间规整方法，同时苏联的Ｖｉｎｔｓｙｕｋ也提出了用动态规划方法来解决语音时间对准问题；由于计算机、信息处理等相关技术的限制，这一时期语音识别研究并没有取得突破性的进展。３

语音信号处理相关论文

第一章绪论

进入７０年代，美国国防部高级研究计划署（Ａ砒，Ａ）资助多个研究机构对语音识别系统进行研究，在语言理解、语言统计模型等方面取得了一定的进展。７０年代初，动态时间规整（ＤｙｎａｍｉｃＴｉｍｅＷａｒｐｉｎｇ，ＤＴＷ）技术被广泛应用于语音识别，隐马尔可夫模型（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ，ＨＭＭ）也被引入并取得了初步成功；７０年代中期，Ｉｔａｋｕｒａ提出了线性预测残差原理并将这一原理成功应用于语音识别、语音编码等领域，线性预测技术在语音处理的多个方面都取得了巨大成功；７０年代末，Ｌｉｎｄａ、Ｇｒａｙ等人将矢量量化（ＶｅｃｔｏｒＱｕａｎｔｉｚａｔｉｏｎ，ＶＱ）技术引入语音识别，成功应用于语音编码当中，随后，矢量量化技术也被推广到了其它领域。

２０世纪８０年代，语音识别研究取得了巨大突破。语音识别研究进一步走向深入，隐马尔可夫模型（ＨＭＭ）被广泛应用于语音识别中，人工神经网络（ＡｒｔｉｆｉｃｉａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ，砧州）也被成功引入到语音识别领域。这一时期，语音识别工作者在实验室突破了大词汇量、非特定人和连续语音这三大障碍，第一次把这三个特性都集成在一个系统中。比较典型的是美国卡耐基梅隆大学基于ＶＱ和ＨＭＭ实现的ＳＰＨＩＮＸ系统，它是第一个高性能的大词汇量、非特定人连续语音识别系统。

进入２０世纪９０年代，人工神经网络（砧蝌）的研究得到进一步深化，语音识别各个方面的技术都取得了关键性的进展。许多著名公司如ＩＢＭ、Ｍｉｃｒｏｓｏｆｔ、Ｓｕｎ等均投入大量资金对语音识别系统的实用化进行研究，开发出了许多实用性的产品，如ＩＢＭ公司的ⅥａＶｏｉｃｅ、Ｍｉｃｒｏｓｏｆｔ公司的Ｗｈｉｓｐｅｒ和Ｓｕｎ公司的ＶｏｉｃｅＴｏｎｅ等【５一。

我国语音识别研究起步较晚，最早开始于中科院声学所。８０年代后，国内各大院校和研究所也相继开始了语音识别的研究，中科院、北京大学、清华大学、哈尔滨工业大学、上海交通大学、中国科技大学、华中科技大学等科研机构都有语音识别的研究实验室。其中最具有代表性的是清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室，研究成果也逐步从实验室走向实用。我国语音识别的研究也得到了国家科技计划的支持，国家８６３计划开始实施后，８６３智能计算机专家组为语音识别技术研究专门立项。目前我国语音识别技术的研究水平已经与国外同步，在汉语语音识别技术研究上有自己的特点与优势，对汉语连续语音识别的研究已经达到国际先进水平，取得了很多成果，汉语语音识别产品也从实验室逐步走向实用［７’引。

１．３本课题研究背景和内容

语音识别的研究工作已经进行了近６０年，取得了很多的研究成果，语音识别产品也已经逐步进入市场。但就目前的研究水平来看，现有的语音识别技术还远远达不到人４

语音信号处理相关论文

西北大学硕士学位论文

与机器通过自然语言交流的目标，离人们最初设想的还相差很远，大词汇量、非特定人连续语音识别仍然是一个难度很大的课题。

在声学层面上，各个单词之间的发音会相互影响，同一个单词在不同的语音序列中，发音会产生变化，致使语音信号的声学特征也随之改变；在连续语音中，单词与单词之间没有明显的间隔，很难选取适当的声学特征对其进行分割；即便是同一个人，在生理状况、心理状况、精神状况等主观因素的影响下，语音信号也会产生差异，无法保持一致；同时，语音录入设备的类型、录音时的位置以及环境噪声等都会对语音信号产生干扰，影响语音特征的准确提取。

在语言学层面上，一个词、句所要表达的真正含义与其上下文内容、说话时的环境条件以及说话人的身份背景等密切相关。在人们的日常交流当中，使用的语言并不严格遵守词法、语法等规则，语言结构的随意性随处可见，自然语言中的不规范现象如次序颠倒、反语、局部重复、语言插入等也给语音识别处理带来很大困难。

对于汉语连续语音识别来说，除具有上述特点外还有其独特的方面：汉语以单音节为单位，一个汉字对应一个音节。在汉语连续语音中，部分音节发音时间很短，很容易被漏检；汉语有大量的同音字，以国标一、二级汉字为例，有调音节有１２００多个，汉字则有６７００多个，其中音节“ｙｌ＂对应的同音汉字就有６０个。大量同音字的存在使得系统的处理变得复杂，也很容易混淆；中国是一个多民族国家，不同地区之间发音差异很大，不同地方的人在讲普通话时或多或少都带有方言特性，也给识别带来很多困难。

本文的主要研究内容是汉语连续语音识别的基本原理和关键技术。在分析、研究当前汉语连续语音识别技术的基础上，选择声韵母作为识别基元、Ｍｅｌ频标倒谱系数为特征参数、用动态时间规整技术实现了一个中等词汇量、非特定人的汉语连续语音识别系统。随后进行了实验分析，针对系统存在的问题进行改进：针对传统声韵母分割算法在汉语连续语音中分割正确率不高的问题，在考虑汉语连续语音特点的基础上，利用熵与汉语元音的共振峰能量设计了一种新的声韵母分割方法；采用传统动态时间规整技术的识别系统计算量较大，响应时间过长。针对这一问题，提出了两种带阈值的动态时间规整改进算法。利用本文设计和改进的算法对原有系统进行改进，并将改进后的系统与原有系统进行实验对比，验证改进算法的有效性。

１．４本文的内容结构

本文的结构安排如下：

第一章绪论，主要介绍了语音识别的基本概念、语音识别和语音识别系统的分类、５

语音信号处理相关论文

第一章绪论

语音识别技术的国内外研究历史、现状以及面临的问题等，最后阐述了本课题的研究背景和内容。

第二章语音识别系统概述，首先介绍了语音的声学基础、汉语语音基础和语音识别系统的组成，然后分别介绍了语音识别系统的预处理、特征提取、识别模型、后处理阶段的功能以及各阶段用到的关键技术。

第三章基元分割算法的研究与实现，针对传统声韵母分割算法中存在的问题，综合考虑语音与噪声的特性以及汉语连续语音的特点，利用熵与汉语元音的共振峰能量设计了一种基于元音检测的汉语连续语音声韵母分割方法并进行了实验对比。实验结果表明：基于元音检测的汉语连续语音声韵母分割方法比其它分割方法具有更高的分割正确率，更适合汉语连续语音识别系统。

第四章动态时间规整在语音识别中的应用，首先介绍了传统动态时间规整技术在语音识别中的应用并分析了存在的问题，针对传统动态时间规整算法计算量大、响应时间长这一问题，提出了两种带阈值的动态时间规整改进算法并进行了实验对比。实验结果表明：改进后的算法可以有效减少计算量，缩短系统的响应时间。

第五章汉语连续语音识别系统的实现，首先介绍了本文实现的中等词汇量、非特定人的汉语连续语音识别系统的运行环境、语音库建立、系统模型、关键技术及参数设置等，然后利用本文设计和改进的算法对系统进行改进，并将改进后的系统与原有系统进行实验对比。实验结果表明：改进后系统的识别率与实时性都优于原来的系统。

第六章总结与展望，首先总结了本文所做的工作以及取得的成果，分析了存在的问题和不足之处，然后对汉语连续语音识别的发展进行了展望，并提出了下一步的研究方向。６

语音信号处理相关论文

西北大学硕士学位论文

第二章语音识别系统概述

２．１语音的声学基础及汉语语音基础

２．１．１语音的产生

人类的语音信号是由发声器官的物理运动引起的，在发声时，通过肺部收缩压迫气流进入气管并经过声门和声道，从而引发音频振荡产生了语音。其中声道是从声门开始，包括咽喉、口腔，终止于嘴唇，鼻道则是从小舌开始到鼻孔为止。当小舌自然下垂时，鼻道与声道发生耦合就可以产生鼻音‘２１。

按照人类发音激励方式的不同，语音可以分为浊音、清音和爆破音三类。浊音（ＶｏｉｃｅＳｐｅｅｃｈ）：气流通过声门时，声带的张力使声带产生低频率张弛振动，产生～股准周期脉冲气流，在这种气流的激励下声道就产生浊音，也称作有声语音，如汉语中的ａ，Ｏ，ｌ，ｒ等；清音（ＵｎｖｏｉｃｅｄＳｐｅｅｃｈ）：声带不振动，声道在某处收缩使横截面积变小，迫使气流以高速通过这一收缩部分并产生湍流，当气流速度与横截面积的比值大于临界门限时，就产生清音或者摩擦音，也称作无声语音，如汉语中的ｆ，ｓ等；爆破音（ＰｌｏｓｉｖｅＳｐｅｅｃｈ）：声道某处先完全闭合使气压增大，然后突然释放就会产生爆破音，如汉语中的Ｐ，ｂ，ｄ，ｋ等。

２。１．２汉语语音基本特征

按照我国传统分类方法，汉语音节是由声母、韵母加声调构成，或者仅有韵母加声调构成。音节开始部分的辅音是声母，剩余部分是韵母，整个音节的音高变化叫做声调或字调。

当气流从肺部出发，经过气管、喉腔、咽腔进入口腔最后从唇腔出去时，这些声腔完全开放，使气流得以顺利通过，这种情况下产生的开放性的音称之为元音。元音是汉语音节中不可缺少的部分，一个汉语音节内最多可有３个元音（如ｉａｏ、ｕａｉ）。汉语的元音及发音方式如表２．１所示【２１。

表２－１汉语元音及发音方式表

类别

舌前后

唇圆度

开口度

闭

中

开舌高低高中低不圆ｉ（知）ｃｒ舌尖元音刖舌后元音后前圆不圆ｌ中不圆圆圆不圆中圆圆Ｕ后圆不圆ｅ不圆Ｕｉ（资）ｅｏａ７

语音信号处理相关论文

第二章语音识别系统概述

当气流经过声腔时，某一部分封闭起来使气流不能畅通，这种情况下产生的封闭型的音称之为辅音。辅音主要出现在元音的前面，即音节的开头部分，也有少数辅音可以出现在元音的后面，元音前后的辅音一般只能有一个。汉语的辅音及发音方式如表２．２所示。

、淤兰塞

音

塞擦

音

擦

音

鼻音

边音清音清立日表２—２汉语辅音及发音方式表双唇立日ｂｐＺ发音方法＼不送气送气不送气送气清音浊音浊音浊音唇齿立日舌尖前音舌尖中音ｄｔ舌尖后音舌面前音舌根音ｇｋ●ｚｈｃｈｓｈｒｌＣｑＸｆＳｈｍｎｎｇｌ

汉语的声母是指处于汉语音节开头部分的辅音，如酗（达）、ｈＳｕ（吼）、ｆ＇ｏ（发）、ｌｕｂｎ（乱）中的ｄ、ｈ、ｆ、ｌ，声母仅包含一个辅音音素。没有声母的音节称为零声母音节，如ａ（啊）、６ｕ（欧）等。以元音［ａ】、【ｏ】、【ｅ】开头的音节，或者以半元音【ｙ】和【ｗ】开头的音节都是零声母音节。汉语的声母共有２１个，如表２．３所示【２’９】。

表２－３汉语声母表

声母

ｂ

ｐ

１１１读音玻坡摸

佛

得声母ｌ９读音勒哥声母Ｚ读音资雌思知蚩

诗

日Ｃｋｈ●科喝基欺希ＳｆｄｔｚｈｃｈｓｈｒＪｑＸ特讷ｎ

汉语的韵母可分为单韵母、复合韵母和带声韵母三种。带声韵母是指以【ｎ】，［ｎｇ］结尾的韵母，也叫做鼻尾音韵母。韵母可以进一步分为韵头、韵腹和韵尾三部分，韵头和韵腹必须是元音，韵尾则可以是辅音。韵腹是韵母中不可缺少的成分，如ｆａ（发）、ｇｕａ（瓜）、ｊｉａｏ（教），ｇｕａｎ（管）都有韵腹，对于韵头（如ｇｕａ中的Ｕ、ｊｉａｏ中的ｉ）和韵８

语音信号处理相关论文

西北大学硕士学位论文

尾（如ｊｉａｏ中的０、ｇｕａｎ中的ｎ）则不是每个音节都必须具备的。在我国《汉语拼音方案》的韵母表中，列有３５个韵母，ｉ（知）、ｉ（资）、ｏｒ、ｅ这４个韵母在表外说明，其中ｉ（知）、ｉ（资）算作一个韵母，因此汉语韵母总计有３８个。汉语韵母如表２４所示

【２，９】

０

表２ｑ汉语韵母表

单元音（６个）

ａ０ｅ复合元音（１３个）ａｉｅｉａｏｏｕ复合鼻元音（１６个）ａｒｌｅｉｌａｎｇｅｎｇｏｎｇ

飞

啊喔鹅

ｉｉｉａｉｅ亨弘（韵）ｉｏｎｇ哀（韵）熬ｉａｏ欧ｉｏｕ安ｉａｎ恩ｉｎ昂ｉａｎｇ（韵）ｉｎｇ

行

Ｕ衣Ｕ呀ｕａ耶ｕｏ腰ｕａｉｕｅｉ优烟ｕａｎ因１１０１１央ｕａｎｇ英ｕｅｎｇ雍

行

ｎ乌¨蛙窝ｎｅ歪威弯ｕａｎ温Ｕｎ汪翁Ｕ

行

其他遇１１约ｅｌ＂ｅ冤晕

知资

汉语普通话中规定了四个声调：１，阴平；２，阳平；３，上声；４，去声。此外还存在一种特殊声调，叫做轻声，在汉语拼音中不标调，也不列入汉语的四声之中【２１０】。音调具有辨意功能，相同的音节，音调不同对应的字不同，意思也不一样，如：哥（驴），革（酌），舸（ｇ否），个（驴）等。

汉语音节由声母、韵母和声调构成，但并不是任何声母加韵母都能组成音节。汉语的２１个声母和３８个韵母可组成无调音节４１２个，有调音节１２８２个。所有的汉语音节都以浊音结尾，尾音的长短不会影响对音节的理解；汉语不同音节的差异较大，音节的清晰度很高，轻、重音表达非常方便；同时，汉语音节可以非常灵活的组成词语和语句，语句的语义非常丰富，语感表现能力也很强，这是汉语的一个重要优点。

２．２语音识别原理和识别系统组成

２．２．１语音识别基本原理

语音识别实质上是模式识别的一种，因此与常规模式识别一样，语音识别也包括特征提取、模式匹配、参考模式库等基本组成单元。语音识别系统处理的对象是人类的语音，语音信号内容丰富、结构复杂，处理时还要考虑相关的语言学信息，因而语音识别系统结构比传统的模式识别系统复杂很多。９

语音信号处理相关论文

第二章语音识别系统概述

语音识别系统在具体实现时要综合考虑识别任务的性质、词汇量的大小、工作环境、说话人发音方式和服务对象等诸多因素。不同的语音识别系统虽然在具体实现细节上有所不同，但所采用的基本技术是相似的。语音识别一般分为两个步骤：第一步是系统的“训练’’，通过对语料库中语音以及相关文法、语法的学习与分析，提取出参考模板和统计概率，建立识别系统的声学模型和语言模型；第二步是“识别’’，通过输入语音进行分析处理，提取出相应的特征参数，按照一定的准则与测度和参考模式库中的模板进行比较，并通过判决得出最终识别结果。语音识别基本原理如图２．１所示【５’６＇７１。

图２－１语音识别基本原理

２．２。２语音识别系统的组成

语音识别系统是建立在一定硬件平台上的语音识别应用软件，由硬件和软件两部分组成‘１，６１。软件包括语音识别的核心程序以及相关的声学模型、词典、文法和语法模型等；硬件可以是计算机或者语音识别专用芯片，此外还包括语音录入设备、识别结果输出设备等。语音识别系统一般都要求对语音识别的结果作进一步处理，综合考虑环境适应、软、硬件接口等因素，在实际环境下实现具体的应用，如汽车的语音控制系统、家电声控系统、智能玩具等。因此，实际应用中的语音识别系统是由语音识别软件和相关的外围设备组合而成的。从系统的功能角度出发，可以将语音识别系统分为语音信号预处理、语音识别核心算法、应用动作处理以及相关数据库等。一般语音识别系统框图如图２．２所示【ｌ，２，５１。

语音识别预处理部分的主要工作是对输入语音进行数字化采样、滤波、预加重等，在端点检测阶段检测出各种语音段落；语音识别核心算法主要包括参数分析和语音识别，参数分析部分负责提取待识别语音的特征参数，将输入的语音信号序列转化为特定的语音特征参数序列。语音识别部分进行输入语音特征矢量和系统模板的匹配识别，并

１０根据字典、语法约束等生成识别结果；应用动作处理部分主要负责对识别结果进行实用化转换，把识别结果转化为具体的输出格式或动作，从而实现具体应用。

语音信号处理相关论文

西北大学硕士学位论文

语音信号输入

（Ａｐｐｌｉｃａｔｉｏｎ）

图２＿２一般语音识别系统框图

２．３语音识别的预处理

语音识别的预处理主要包括语音信号的数字化、预加重、加窗和分帧、端点检测等。在预处理之前必须先进行语音识别基元的选取。

２．３．１语音识别基元的选取

在语音识别中，语音识别基元的选取是非常重要的环节，对系统的整体性能影响很大。对于不同的语言，其语言结构不尽相同，基元选取的考虑也不同：对于英语这种多音节语言，可以选取音素或者词作为识别基元；对于汉语这种单音节语言来说，则可以用音节字作为识别基元，也可以用词或者声、韵母等作为识别基元。语音识别基元选取的基本原则有以下两点【２，８】：

第一，识别基元要具有灵活的可组性，即基元能够代表语言中独立的基本个体，由这些基本个体可以灵活组成其它语言单位；

语音信号处理相关论文

第二章语音识别系统概述

第二，识别基元要具有稳定性，在不同的发音环境下也能体现语音的共性，从而保证对不同环境具有良好的适应能力。

识别基元的选择还应综合考虑系统的词汇量、计算复杂度、存储量、训练所需的数据量以及基元在连续语音中的稳定性等因素。一般来说，小词汇量系统的识别基元可以选的大一些，如词或短语等；大词汇量系统的识别基元则应该选的小一些，如音素或者声韵母等。

对于汉语连续语音识别，可以选择的基元包括：句子、词、音节（字）、声韵母、音素等【１１，１２１。

词、句基元广泛应用于中小词汇量语音识别系统或者命令与控制系统，但不适合大词汇量语音识别系统。词、句的数量非常庞大，接近于无限个，选择词、句作为识别基元会使得系统的声学模型库过于庞大，训练任务繁重，同时还会增加系统搜索、匹配算法的复杂度，难以满足实时性要求。

汉语是单音节结构的语言，有４１２个无调音节和１２８２个有调音节，数量相对较少，由音节字组成词语和句子非常灵活。选择音节字作为识别基元符合人们的思维习惯，同时还有很多相关的语言学知识可以利用，因此目前的中、大词汇量汉语语音识别系统很多都以音节作为识别基元。

声韵母结构是汉语所特有的结构，所有的汉语音节都是由声母加韵母构成或仅有韵母构成。汉语有２１个声母和３８个韵母，基元数目少，而且声韵母之间声学特性相差大，区分能力强。

音素基元在英语语音识别中得到了广泛应用，取得了很好的识别性能。但音素并没有反映出汉语语音的特点，而且，相对于声韵母，音素更不稳定，给标注与训练带来了困难，进而影响声学建模。

本文选用扩展声母和带调韵母集合作为识别基元，扩展后的声韵母基元如表２．５所示［７１。选择声韵母作为识别基元还具有以下优点：声韵母结构是汉语的独特音节结构，基元数目和语音段长度比较恰当，而且声韵母的上下文关系比较确定，声母可以接哪些韵母都是确定的；同时，选取声韵母作为识别基元还有许多相关的汉语语音学知识可以利用。１２

语音信号处理相关论文

西北大学硕士学位论文

表２－５扩展声韵母表

声母表（２２个）

ｂ，Ｐ，ｍ，ｆ，

ｄ，ｔ，ｎ，ｌ，９，ａ（１－４），ａｏ（１－４），

ｏ（１－４），

ｉｉｎ（１－４），

ｉｅ（１－４），

ｉｉｅ（１－４），带调韵母表（１３８个）ｅ（１卅，ｉ（１－４），ｕ（１－４），ｅｎ（１－４），ａｉ（１－４），ｏｎｇ（１－４），ｉｕ（１－４），ｅｎｇ（１－４），ａｎ（１－４），ｋ，ｈ，ｊ，ｑ，Ｘ，Ｚ，ｃ，ｓ，吐，ｃｈ，ｓｈ，ｒ，ｇ（零声母）ｉｎｇＯ－４），ｉａｎｇ（１－４），ｉａｏ（１－４），ｉｎ（１－４），诅（１—４），ｕａＯ－４），ｏｕ（１－４），ｅｉ（１－４），ｕｉＯ－４），ｕｏＯ－４），ｉａ（１—４），ｕｎ（１－４），ｕａｎ（１－４），

ｉｏｎｇ（１－３）ｉａｎ（１－４），ｕａｉ（１－４），ｖａｎ（１－４），ｕ觚ｇ（１－４），ａｎｇ（１－－４），ｅｒ（２－４），

２．３．２语音信号的预滤波和数字化

语音信号的数字化一般包括放大以及增益控制、反混叠滤波、采样、Ａ／Ｄ变换及编码等，语音信号的数字化过程如图２．３所示。预滤波的作用主要有两点：第一，预滤波可以抑制频域分量中频率超出‘／２的分量，防止混叠干扰，其中Ｚ为采样频率；第二，预滤波可以消除５０Ｈｚ的电源工频干扰。语音信号所占据的频率范围可高达１０１ｄ－Ｉｚ以上，但语音信号本身有很多的冗余信息，对于语音清晰度和可懂度有明显影响的最高频率约为５．７１ｄ－Ｉｚ。在实际应用中，语音信号常用的采样率为８１ｄ－Ｉｚ、１０ｋＨｚ或１６ｋＨｚ，这样并不会影响对语音信号的理解。圈日圈日国母匝

模拟信号采样量化数字信号

图２．３语音信号数字化过程图

２．３．３语音信号的预加重

语音信号产生过程中，声门激励和口鼻辐射会影响语音信号的平均功率谱，使其高频端（８００Ｈｚ以上）按６ｄＢ／倍频程跌落。如果直接求语音信号的频谱，则其频率越高相应的成分就越小，高频部分的频谱求取十分困难，因此要进行预加重（Ｐｒｅ．ｅｍｐｈａｓｉｓ）处理以提升语音信号的高频部分。

语音信号的预加重一般在语音信号数字化转换之后进行，利用６ｄＢ／倍频程的一阶预加重数字滤波器来实现。其函数为【２】：

ｉ－ｉ（ｚ）＝ｌ。ｐｚ一但．１）

其中∥∈【０．９４，０．９７］为预加重滤波器的系数，本文取∥＝０．９５。预加重实现过程如图２．４所示。１３

语音信号处理相关论文

第二章语音识别系统概述

』叫Ｈ（ｚ）ｐ！盟一１．．．．．．．．．．．．．．．．．．．．．．．．．．．．．一

图２－４预加重过程图

其中Ｘ（ｎ）为原始语音信号，Ｙ（ｎ）为预加重后的语音信号。

２．３．４短时加窗处理‘

语音信号是非平稳信号，是随着时间的变化而不断变化的，因此不能直接用平稳信号的处理技术对语音信号进行处理。语音是由人的发声器官的振动而产生的，而发声器官的物理振动比语音信号的变化平缓的多，因此语音信号在短时间内（１０－．３０ｍｓ）可以认为是平稳的，即语音信号的短时特性是不变的。在这一前提下，就可以利用平稳信号的分析处理方法来对语音信号进行短时分析和处理，因此需要首先对语音信号进行分帧处理。

分帧可以采用连续分段的方法，但连续分段后，帧与帧之间不能平滑过渡。为了保证帧与帧之间的连续性，一般采用交叠分帧法，即前一帧与后一帧之间有重叠。帧与帧的交叠部分称为帧移，帧移的长度一般不超过帧长的一半。交叠分帧法如图２．５所示【ｌ】。

ｉ

＂

：／ｈ肌１／／：＼Ｉ７劬，÷，、Ｖ＾几加｛Ｖ｜

ｊ、／／Ｕ

Ｎ１／＼ｕ、

：／＼Ｎ／／Ｖ＼

二＼；Ｎ

帧长，Ｍ为帧间重叠长度

移－＞Ｉ＜…。帻苌…＞Ｉ

和帧移示例

交叠分帧法

过加窗操作来实现的，就是利用窗函数平滑的在语音信号上滑动，将语音

达式为【２】：１４

语音信号处理相关论文

西北大学硕士学位论文

舯甓呔并’１

汉明窗表达式为【２】：（２．２）

砌，：０．５４－０．４６ｃｏｓ（器），Ｏ＜ｎ＜Ｎ－１

Ｌ０，（２．３）其他

汉宁窗表达式为ｆ２】：

舯Ｈ一潞）］，Ｏ＜ｎ＜Ｎ－１

【０，

则对语音信号加窗心坪可表示为【２１：其他（２．４）

Ｑ。＝∑Ｔ［ｘ（ｍ）】０３（刀一ｍ）

脯＝－．ｃｏ（２．５）

其中，Ｎ为窗长，Ｔ【．．】表示信号处理方法，ｘ（ｍ）为语音帧序列，ｃｏ（ｎ—ｍ）为各个语音帧上的窗函数。

窗函数的选择对语音信号的短时分析影响很大，这些窗函数都具有低通特性。矩形窗、汉明窗和汉宁窗的主瓣宽度和旁瓣高度如表２－６所利”】。从表中可以看出：矩形窗的主瓣宽度最窄，旁瓣高度最高；汉明窗的主瓣宽度最宽，旁瓣高度最低。旁瓣太高会产生泄漏现象，汉明窗的旁瓣最低，具有更加平滑的低通特性，可以有效克服泄漏现象，因此应用最为广泛。

表２．６ｌｓ长的各种窗的主瓣宽度（ｂ）和旁瓣高度（ａ１）

矩形窗汉明窗

ｌ。１９ＨＺ汉宁窗１．８７ＨｚｂＯ．８ｌＨｚ

ａ１．１３ｄＢ＿４３ｄＢ．３２ｄＢ

２．３．５端点检测

端点检测的目的是从输入的语音信号中检测出各种段落（如词、音节、声韵母等）的起点和终点。准确的端点检测不仅可以减少系统的计算量，还可以排除噪声的干扰，提高系统的识别性能。

传统的能量一过零率双门限法是～种典型的端点检测方法，它是将语音信号的短时能量和短时过零率两个特征参数结合起来进行端点检测的。在实际应用中，通常用能量来检测浊音，用过零率检测清音，两者相互配合就可以实现可靠的端点检测。１５

语音信号处理相关论文

第二章语音识别系统概述

语音信号的短时能量Ｅ定义如下【１４】：

Ｅ＝∑［ｚ仰）似力一所）】２（２．６）

其中ｘ（ｍ）为语音序列，ｗ（ｎ一棚）为对应帧上的窗函数。

短时能量反映了语音的振幅或能量随时间变化的规律，一般情况下，浊音的幅度比清音的幅度大很多，浊音段的能量远大于清音段，因此短时能量可以用来判断浊音和清音。同时，在高信噪比环境下，可以用短时能量来判断有声与无声以及声韵母、连字的分界等。

信号的幅度值由正变负或由负变正时要经过零值，称为过零，信号的过零率是指在单位时间内信号过零的次数。语音信号的短时过零率定义如下【１４】：

乙＝∑Ｉｓｇｎ［ｘ（ｎ）］－ｓｇｎ［ｘ（ｎ－０］ｔｗ（ｎ－ｍ）（２．７）

其中ｘ（ｍ）为语音序列，ｓｇｎ［］是符号函数：

Ｌ

ｓｇｎ（，ｚ）：ｌｌｓ（行）２ｏ；ｘ（疗）＜ｏｘ！咒：≥竺（２．８）【２子）

从玎）：』嘉，ｏ≤刀≤Ｎ—ｌ（２．９）

ｌ０，其他

过零率间接反应了语音的频谱特性，可以用来进行语音的清音和浊音、有声和无声基于能量．过零率的双门限端点检测算法流程图如图２－６所示。在端点检测开始之语音信号可以分为静音段、过渡段、语音段和结束四个阶段。在静音段，如果某一

１６判断。前，首先为短时能量和短时过零率分别确定高、低两个门限。帧的能量或过零率超过了低门限，则该帧可能是语音的起始帧，标记该帧并进入过渡段；在过渡段中，如果能量或过零率超过了高门限，就可以确定进入语音段了，语音段的起始帧就是能量或过零率超过低门限的帧。如果能量与过零率都回落到低门限以下，则此段不是语音段，恢复到静音状态，继续判断后面的语音信号；在语音段中，如果能量与过零率都降低到了低门限以下并且持续时间超过了最大静音时间，则语音段结束，语音段的结束帧就是能量与过零率都回落到低门限以下的帧。对于检测出的语音段，如果时长小于语音最短时间门限，则认为这不是语音，而是一段噪声。汉字“去＂的双门限端点检测如图２．７所示。

语音信号处理相关论文

西北大学硕士学位论文

Ｉ读入语音信号，计算能量，过零率

Ｔ

变量，门限初始化，ｓ协ｔ鸺＝Ｏ；参数说明：Ｅｈ、Ｅｌ：能量高门限、低门限Ｚｈ、Ｚｈ过零率高门限、低门限ｓｔａｍｓ：状态标识｛Ｏ：静音段；１：过渡段；２：语音段｝ｓｉｌ∞ｃｅ：静音长度ｍａｘｓｉＩ翎ｃｅ：最大静音长度

ｃｏｕｍ：语音长度ｃ０姗＝Ｏ：ｓｉｌｃｎｃｅ＝０

图２—６基于能量一过零率的双门限端点检测算法流程图１７

本文来源：https://www.bwwdw.com/article/w2fj.html

相关文章：