语音识别及其关键技术
更新时间:2024-01-27 23:33:01 阅读量: 教育文库 文档下载
语音识别及其关键技术 一、语音识别概述
语音识别技术以语音信号处理为研究对象,涉及语言学、计算机科学、信号处
理、生理学、心理学等诸多领域,是模式识别的重要分支。该技术有非常广阔的应
用前景,从60年代至今,世界许多著名公司不惜投入巨资进行开发研究。我国的
北京大学和中科院声学研究所一直紧跟国际水平,进行汉语语音识别技术的研究工
作。50年代,是语音识别研究工作的开始时期,它以贝尔实验室研制成功可识别
十个数字的犃狌犱狉狔系统为标志。60年代,计算机广泛应用于语音识别的研究
工作中,动态规划和线性预测分析技术是这一时期的重要成果。70年代,语音识
别的研究取得了突破性进展。基于线性预测倒谱和动态时间规整技术的特定人孤立
语音识别系统被研制成功,提出了矢量量化和隐马尔可夫模型理论。80年代,语
音识别的研究工作进一步深入。其标志是人工神经元网络在语音识别中的成功应用
。90年代,随着计算机技术的飞速发展,语音识别正从研究走向实用,其研究成
果已达到相当高的水平。2000年,正象美国微软公司总裁所说的那样,语音识
别技术将使计算机丢掉键盘和鼠标。这无疑将改变我们许多人的工作和生活方式。
二、语音识别所面临的问题
尽管语音识别的研究工作迄今已近50年,但仍未有突破性进展,主要原因如 下:
1.语音识别系统的适应性差。全世界有近百种官方语言,每种语言有多达几
十种方言,同种语言的不同方言在语音上相差悬殊,这样,随着语言环境的改变,
系统性能会变得很差。
2.在强噪声干扰环境下语音识别困难。由于语音数据大部分都是在接近理想
的条件下采集的,语音识别的编码方案在研制时都要在高保真设备上录制语音,尤
其要在无噪环境下录音。然而,当语音处理由实验室走向实际应用时,环境噪声的
存在所带来的问题就变得越来越重要。特别是线性预测作为语音处理技术中最有效
的手段,恰恰是最容易受噪声影响的。
3.体态语言难以识别。有人在讲话时习惯用眼神、手势、面部表情等动作协
助表达自己的思想。由于这种体态语言的含义与个人习惯、文化背景、宗教信仰及
生存地域等因素有关,其信息提取非常困难。
4.对于?类由中枢神经控制的?忆机理、听觉理解机理、联想判断机理等人们目前仍知之甚少。
三、语音识别系统
语音识别系统的分类方式及依据如下:?
根据对说话人说话方式的要求,可分为孤立词语音识别系统,连接词语音识别
系统和连续语音识别系统。?
根据对说话人的依赖程度,可分为特定人语音识别系统和非特定人语音识别系 统。?
根据词汇量大小,可分为小词汇量、中等词汇量、大词汇量及无限词汇量语音识别
系统。
1.孤立单词识别系统 孤立单词指单词之间有停顿,这可使识别问题大为
简化。因为单词的端点检测(即检测单词的起点和终点)比较容易,而且单词之间
的协同发音影响可减至最低。此外,一般对孤立单词发音比较认真,由于单词之间
必须有停顿,读起来就不能太流利。鉴于以上原因,孤立单词识别系统存在的问题
最少,其许多技术可以用于单词挑选和连续语音识别系统。
2.连续语音识别系统 连续语音识别系统有两个重要问题是孤立单词识别
系统所没有的:
(1)切分,即对单词之间边界位置的确定。因为语言中短语的数量太大,对
整个短语进行识别显然是不可能的,必须把输入的语流切分为更小的组成部分。这
就要求系统必须能够识别单词之间的边界。这一点比较困难,因为确定单词之间的
边界位置没有现成的方法。
(2)发音变化,即关联语言的发音比孤立单词发音更随便,受协同发音的影
响更为严重。解决上述问题通常采用扩展动态时间规整技术。
3.语音理解系统 语音理解一词出自美国远景研究计划局资助的一个庞大
的连续语音识别研究项目,其目标称为语音理解系统。众所周知,只有人才能很好
地识别语音,因为人对语音有广泛的知识,人对要说的话有预见性和感知分析能力
,因此,指望机器对语言的识别能力超过人是不现实的,最好的办法是使机器也能
“理解”语言,并且能象人一样运用这种理解力。由于在人工智能领域对知识的应
用和知识的表示问题更加感性趣,这对语音识别来说无疑是有力地鼓舞。
运用这种理解力可以指望系统:
(1)能排除噪声和嘈杂声(即含糊不清或无关的语言);
(2)能理解上下文的意思并能用它来纠正错误,澄清不确定的语义;
(3)能够处理不合语法或不完整的语句。由此看来,语音理解系统的主要问题是知识的表示和系统的组织问题。
与其它语音处理问题相比,该系统更加依赖于人工智能研究。
四、语音识别的关键技术
语音识别的关键技术包括特征参数提取技术、模式匹配准则及模型训练技术、语音识别单元选取。
1.特征参数提取技术 所谓特征参数提取,就是从语言信号中提取用于语
音识别的有用信息。研究人员已对许多可以表征说话人个人特征的语音特征进行了
探讨,大多数特征选取方案不是试图集中在声道构造的个体差异方面,就是试图集
中在说话习惯的个人特征方面。
特征参数提取所考虑的参数为:
(1)单词中选定位置上的基音; (2)鼻辅音的频谱特性; (3)选定元音的频谱特性; (4)激励频谱的估计斜率; (5)擦音的频谱特性; (6)选定元音的时长;
(7)选定语言环?中提前发声的存在。 采用试验句进行录音时所考虑的特征参数为:
(1)元音的共振峰频率和共振峰带宽以及声门源的极点(由12阶线性预测分析来计算); (2)鼻辅音中极点频率的位置;
(3)选定实验句的基音轮廓;
(4)时变特性,尤其是在复合?音的整个发音期间和音位的收尾阶段第二共
振峰的变化率。
线性预测分析是应用较广的特征参数提取技术,其核心是由信号的过去值预测
其将来值。线性预测的概念早在本世纪40年代就已被提出,然而将其应用于语音
识别,不仅希望利用其预测功能,而且要求它为我们提供一个非常好的声道模型,
而这样的声道模型对于理论研究和实际应用都是相当有用的。此外,声道模型的优
良性能不仅意味着线性预测是语音编码的特别合适的编码方法,而且意味着预测参
数是语音识别的非常重要的信息来源。
2.模式匹配及模型训练技术
模式匹配是指根据一定准则,使未知模式与模型库中某一模型获得最佳匹配。
模型训练是指按照一定准则,从大量已知模式中提取表示该模式特征的模型参数。
语音识别所应用的模式匹配和模型训练技术有:动态时间规整技术、隐马尔克夫模
型、人工神经网络。
时间规整即时间校正,是把一个单词内的时变特征变为一致的过程。HMM是把
未知量均匀地伸长或缩短,直到它与参考模式的长度一致时为止。在时间规整过程
中,未知单词的时间轴要不均匀地扭曲或弯折,以便使其特征与模型特征对正。
HMM是一种非常有力的对正措施,对提高系统的识别精度极为有效。HMM是语言信号
时变特征的参数表示法,由相互关联的两个随机过程共同描述信号的统计特性。模
型参数包括HMM拓扑结构,状态转移概率和描述观察符号统计特性的一组随机函数
。HMM的性能在很多应用中都可以和DTW相比,而计算代价只有后者的几分之一。采
用这种技术,我们要以一个只具有有限不同状态的系统作为语音生成模型。每个状
态皆可产生有限个输出。在生成一个单词时,系统不断地由一个状态转移到另一个
状态,每一个状态都产生一个输出,直到整个单词输出完毕。状态之间的转移是随
机的,每一状态下的输出也是随机的。由于允许随机转移和随机输出,所以HMM能
适应发音的各种微妙变化。在识别词表中,每一个单词都要用一个这样的模型来表
示。识别器要做的工作就是输出,识别的任务就是决定由哪一个模型提供输出。因
为模型本身对识别器来说是看不见的,它只能根据获得的数据推导出来,故称为隐
马尔可夫模型。
ANN在语音识别中的应用是目前研究的热点。该网络本质上是一个自适应非线
性动力学系统,模拟了人类大脑神经元活动的基本原理,具有学习、记忆判断、联
想、对比、推理、概括等能力。与HMM和ANN相比,DTW是较早的一种模式匹配和模
型训练技术,它应用动态规划法成功地解决了在语音信号特征参数序列比较时时长
不等的难题,在孤立词语音识别中获得了良好的性能。但由于它不适合连续语音大
词汇量语音识别系统,目前已被HMM和ANN所代替。
3.语音识别单元的选取
语音识别单元的选取是语音识别研究工作很重要的第一步,语音识别单元有单
词、音节、音素三种,具体选哪种,由研究任务决定。单词单元适用于中小词汇语
音识别系统,不适合于大词汇系统。因为庞大的模型库意味着繁重的模型训练任务
和复杂的模型匹配算法,这难以满足实时性要求。音节单元多见于汉语识别,主要
因为汉语是单音节结构的语言,而英语等语言是多音节。如果不考虑声调的话,汉
语大约有400个音节,这个数量相对较少。所以,对于大词汇量汉语语音识别系
统而言,以音节为识别单元是较为合适的。音素单元多用于英语语音识别研究,因
为英语是多音节语言。但大、中词汇汉语语音识别系统也在越来越多地采用。
毫无疑问,飞速发展的计算机技术推动了语音识别技术的突破性进展,语音识
别技术又反过来作用于计算机。假如微软公司的语音识别技术真正能使计算机彻底
丢掉键盘和鼠标的话,这将不仅是计算机发展史上的又一场革命,而且将改变我们
许多人的工作和生活方式,因为动口比动手要容易得多.
正在阅读:
语音识别及其关键技术01-27
高二化学选修1期末测试题08-06
关于玩电脑游戏的作文02-05
镇墩及支墩砼施工方案01-19
校车驾驶员02-17
独木舟经典语录02-15
主要本科专业就业率排行榜05-06
安装工机械设备操作规程09-15
简单租房合同范本02-24
集装箱船舶及相关设备简介10-31
- exercise2
- 铅锌矿详查地质设计 - 图文
- 厨余垃圾、餐厨垃圾堆肥系统设计方案
- 陈明珠开题报告
- 化工原理精选例题
- 政府形象宣传册营销案例
- 小学一至三年级语文阅读专项练习题
- 2014.民诉 期末考试 复习题
- 巅峰智业 - 做好顶层设计对建设城市的重要意义
- (三起)冀教版三年级英语上册Unit4 Lesson24练习题及答案
- 2017年实心轮胎现状及发展趋势分析(目录)
- 基于GIS的农用地定级技术研究定稿
- 2017-2022年中国医疗保健市场调查与市场前景预测报告(目录) - 图文
- 作业
- OFDM技术仿真(MATLAB代码) - 图文
- Android工程师笔试题及答案
- 生命密码联合密码
- 空间地上权若干法律问题探究
- 江苏学业水平测试《机械基础》模拟试题
- 选课走班实施方案
- 语音
- 识别
- 及其
- 关键
- 技术
- 出口退税风险控制制度
- 病例分析模板
- Mega软件的使用1 - 图文
- 华为ASP数通工程师面试题目汇总
- 第11讲 外部影响
- 浅谈初中化学课堂中小组合作性学习的教学策略
- 2015—2017高考政治全国卷大题汇总含答案解析
- 2014年吉林省长春市中考数学试题(含答案)
- 江西省抚州市金溪二中九年级英语全册《Unit 8》单元综合检测题(无答案) 人教新目标版
- 岩土工程试卷2015年试题
- 2018高考数学(文)大一轮复习习题 冲刺985 压轴题命题区间(二) 函数与导数 Word版含答案
- 上海对外经贸大学机关各职能部门主要职责、内设机构和人员编制方案
- 成长小组工作计划书(共6篇)
- 电大本科金融《金融法规》试题及答案
- 500套学而思等课程合集-小学 初中 高中
- 2013年人民警察录用考试《申论》模拟试卷(1)-中大网校
- 申论范文 - 寒门能出贵子
- 人教版五年级下册课文内容填空复习题附答案
- 投资基金(有限合伙)投资决策委员会议事规则
- 中华成语千字文全文