嵌入式语音识别系统的研究和实现 - 方敏
更新时间:2024-01-02 15:10:01 阅读量: 教育文库 文档下载
嵌入式语音识别系统的研究和实现①
方 敏,浦剑涛,李成荣,台宪青
(中国科学院自动化研究所高技术创新中心,北京 100080)
摘要:本文首先给出了一种适合于在嵌入式平台上实现的可变命令集的非特定人语音识别系统,同传统
的基于PC的非特定人语音识别系统相比,该系统具备内存消耗小,运算速度快的优点。然后给出了该语音
识别系统在多种嵌入式平台上的实现和评估结果,论证了非特定人语音识别系统在嵌入式平台上实现的可
行性及其对硬件的最低配置要求,在技术层次上分析了目前实现高性能语音识别SOC的主要问题和困难,并
指出了今后相关的研究方向。
关键词:计算机应用;中文信息处理;嵌入式平台;非特定人语音识别;语音识别SOC 中图分类号:TP391.4 文献标识码:A
Research and Realization of Embedded Speech Recognition System FANG Min,PUJian-tao,LI Cheng-rong,TAI Xian-qing
(Hi-tech Innovation Center,Institute of Automation,Chinese Acadamy of Science Beijing 100080,China)
Abstract:Proposed in this paperis a novel speaker-independent speech recognition system,which is command-variable and
suitable for realization based on embedded platform.Compared with traditional speaker-independent speech recognition sys-
tem based on PC,our system is featured small storage and computation cost.The system is evaluated on several embedded
platformsthat are specially designed.According to the result of the evaluation,the feasibility of speaker-independent
speech recognition system based on embedded platform is proved and the least requirement for the hardware is given.Then
we analyzed the main problems and difficulties in the development of high performance speech recognition SOC(System On
a Chip)from the point of technology,and pointed out some future works. Key words:computer application;Chinese information processing;embedded platform;speaker-independent speech recog- nition;speech recognition SOC
1 前言
随着计算机软硬件技术、半导体技术、电子技术、通讯技术和网络技术等的飞速发展,人类已
经进入后PC时代。这个时代一个典型的特征就是:各种新型智能化的设备日益广泛地走进人们
的工作和生活,而人与这些智能化终端之间的自然快捷稳定可靠的交互方式有助于提高人机
交
互的效率,增强人对智能化设备的控制。作为人机交互最自然的方式,语音技术的研究近几十年
来取得了长足的进展,其中语音识别由于其重要性和研究的难度更成为研究的热点[1,8]。 嵌入式语音识别系统是指应用各种先进的微处理器在板级或是芯片级用软件或硬件实现 语音识别技术。语音识别系统的嵌入式实现要求算法在保证识别效果的前提下尽可能优化, 以适应嵌入式平台存储资源少、实时性要求高的特点。实验室中高性能的大词汇量连续语音 识别系统代表当今语音识别技术的先进水平。但由于嵌入式平台在资源和速度方面的限制, 其嵌入式实现尚不成熟。而中小词汇量的命令词语音识别系统由于算法相对简单,对资源的 需求较小,且系统识别率和鲁棒性较高,能满足大多数应用的要求,因而成为嵌入式应用的主 要着眼点。
目前,在嵌入式平台实现了的主要是对系统的运算资源和存储资源要求比较低的特定人
孤立词语音识别系统[7]。而在现实中,更多的语音识别应用要求系统具有非特定人的特点。 相对而言,特定人语音识别系统可以对整词声学建模,识别则采用简单的DTW等匹配算法,这 对小词汇量识别系统的实现效果比较理想。其缺点是,如果词表更换,就要求采集大量数据, 重新训练模型,且训练好的模型又具有特定人的局限。本文介绍的非特定人语音识别系统采 用基于汉语声韵母的声学建模单元,命令集可变,更换词表时无需重新训练模型,避免了特定 人识别系统词表增大模型空间线性增加的缺点。
此项研究的目的在于:通过比较不同平台上的系统实现,分析语音识别系统嵌入式实现的 最低运算和存储资源配置要求及系统优化方向,为语音识别系统板级及芯片级的设计开发提 供参考依据。
为使系统尽可能少的占用嵌入式平台存储和运算资源并保证识别效果,我们对系统进行
了优化,采用压缩的声学模型。我们分别在数字信号处理能力强的DSP平台和通用性好、性 价比高的ARM平台上实现了该系统,考虑到不同的处理器及不同的硬件平台在系统时钟频 率、数据处理速度、存储资源、缓冲机制等方面的差异,针对不同的平台对系统进行了模型大小
及代码等方面的优化,进一步给出了在各平台上系统实现所要求的最小硬件资源配置及系统 能达到的最高实时性能。嵌入式板级平台的测试评估结果为今后语音识别片上系统(SOC)的 研制奠定了技术基础。
本文各小节内容安排如下:第二部分给出了一种适合于嵌入式平台实现的非特定人语音
识别系统及其改进系统,第三部分分别介绍了三种嵌入式平台,第四部分给出了该非特定人语 音识别系统的实验结果及其在不同嵌入式平台上的评估结果,并对结果进行了分析,最后是本 项研究的阶段性结论,并对今后嵌入式语音识别技术的研究方向进行了探讨和展望。 2 适用于嵌入式平台的基于汉语声韵母建模的非特定人语音识别系统
汉语大词汇量连续语音识别系统(LVCSR)[2~6]一般采用以声韵母为建模单元的上下文相 关的声学模型,一遍或多遍的搜索算法,以及N-GRAM的语言模型,词汇量一般达到几万个词, 因此对运行平台的计算能力和存储能力要求非常高,目前只能在主流的PC机上运行。听写 机曾是LVCSR的主流应用模式,但在实际应用中,由于语音识别引擎的识别率及其鲁棒性还 不能达到应用的要求,因此听写机的应用并没有得到推广。但是,LVCSR系统的与说话人无 关和自然语言交互的特点,却始终是语音交互接口所不懈追求的。由于运算资源和存储资源, 以及语音识别引擎本身性能的限制,目前要在嵌入式平台上实现一个可用的口语交互接口是 很困难的。所以本文的研究集中在说话人无关上,希望能够在嵌入式平台上实现一个非特定 人的语音识别系统。
2.1 BASELINE系统(简称系统1)
图1给出了非特定人语音识别BASELINE系统的框架结构。 74
硬性结构图
该平台包含: a)一个CPU芯片 b)一片FLASH
c)一个CODEC语音输入输出接口 d)一片AD/DA芯片 e)一个麦克风
f)如果CPU芯片的片内RAM存储空间太小,还必 须外扩RAM
g)如果需要向外设输出识别结果,可以增加UART接口和RS232接口 3.2 基于TMS320C5409的DSP嵌入式平台(简称DSP5409平台) TMS320C5409 DSP是TI公司TMS320C54X系列的产品。TMS320C54X系列的DSP是一种 典型的高性能、低功耗、16位定点DSP,广泛应用在各种嵌入式应用场合。54X系列的DSP的
处理器速度快,片内资源丰富,完全能够满足非特定人语音识别系统的要求。我们选择的 TMS320C5409 DSP的处理器速度最高可达100MIPS;片内共48K字的存储空间,其中DRAM是
32K字,ROM是16K字;片内具有丰富的外设,如PLL,McBSP,DMA,HIP等,其中McBSP0我 们用来和AD DA连接,接收采集到的语音数据。
外扩的资源有:两片1M字节的8位FLASH,支持16位BOOTLOADER模式;外扩512K字 SRAM,其中256K字映射在程序区,供程序以扩展寻址方式访问,另外256K映射在数据区的高 32K字的空间,分成8页访问,页面切换由烧录在外部CPLD中的逻辑控制。AD DA芯片采 用TI公司的高速模拟接口芯片TLC320AD50,该芯片支持多种采样率,包括16KHz和8KHz,支
持16位精度的采样,动态范围为91dB。
3.3 基于TI320C5402的DSP嵌入式评估平台(简称DSP5402平台)
TI320C5402 DSP也是TI公司TMS320C54X系列的产品,同TI320C5409 DSP相比,主要差别 是,片内的存储空间要小得多,其中DARAM是16K字,ROM是4K字。由于片内DARAM是影
响系统的功耗和成本的主要因素,因此TI320C5402 DSP的功耗比5409 DSP更低,成本也只有 5409 DSP的1/3。TI320C5402 DSP的处理器的速度最高也可达100MIPS。
外扩的资源有:一片64K字的16位FLASH,支持16位BOOTLOADER模式;外扩64K字的 SARAM,其中高48K字的空间为程序空间和数据空间共享,低16K字的空间的使用方法视DSP
的中央处理器的配置寄存器的OVLY位的状态而定,当OVLY=0时,SARAM低16K字的空间 映射到程序区的低16K字空间,当OVLY=1时,程序空间和数据空间的低16K字共享DSP的 片内16K字的DARAM,片外扩展SARAM的低16K字将无法访问。由于程序在片内运行的速
度比程序在片外运行的速度快6~9倍,需要把语音识别系统中某些运算量大的代码放到片内 运行,因此我们选择OVLY=1,这样,如果不考虑FLASH和ROM的话,程序空间和数据空间一 共可用的RAM空间是64K字,这要比上述TI320C5409评估平台的存储资源小得多。AD DA 芯片采用AIC11,该芯片支持多种采样率,包括16KHz和8KHz,支持16位精度的采样。另外,
该平台对基于TI320C5409 DSP的评估平台上一些不必要的外部扩展资源进行了精简。 3.4基于S3C4510b的ARM的嵌入式平台(简称ARM平台)
ARM处理器采用三星公司的S3C4510b芯片,该芯片的主要特点是:采用32位ARM7TDMI 内核[9],主频50MHz,采用RISC指令集,包含8kb的可编程片内Cache/SRAM,主要的片内外设
包括:两路HDLC通道,两路UART通道,2个32位定时器,18个GPIO。选择该芯片的主要考 76
图1 非特定人语音识别系统框架
首先,本系统的BASELINE可以看作是 LVCSR的一个简化版本。具体简化是:忽略 词间扩展,这样系统就成为一个命令词的语 音识别系统;忽略语言模型,因为没有了词 间扩展,语音识别引擎不再是连续的,语言 模型也就不需要了;降低词汇量,因为一般 而言,词汇量越小,词表的混淆度越低,识别 引擎的识别率就越高,同时数据存储空间、 搜索空间和计算量也就越小;采用不带音调 的上下文无关声学模型,因为对于小词汇量 而言,上下文无关的BASEPHONE模型在数 据存储空间和计算量方面都要比上下文相
关的TRIPHONE模型小得多,同时识别率也能够满足实际应用的要求,而采用音调会使模型的
大小增加到原来的5倍,并且对口音敏感,因此也被忽略;把采样率从16KHz降为8KHz,实验 表明,对中小词表而言,采样率的降低所造成的识别引擎识别率的降低不超过1%,但可以节 省语音识别前端50%的动态存储空间,减少运行时识别前端25%的计算量。关于声学特征的 选择,根据文献[7]中的实验结果,我们选择“能量+MFCC+一阶差分”,共26维,同39维的声 学特征相比,节省了1/3的特征缓冲区空间。表1给出了该BASELINE系统的识别率测试结 果。我们在基于TI公司的TMS320C5409 DSP的嵌入式平台上实现和评估了该系统,评估结果
参考表2。
2.2 改进后的系统(简称系统2)
由BASELINE系统在TMS320C540平台上的评估结果可以看出,该系统对硬件平台的计算 能力和存储能力的要求仍然很高。主要问题是,即便采用BASEPHONE模型,但声学模型仍然 占用了系统整体存储空间消耗的80%,声学得分的计算占用了搜索时间消耗的90%,因此有 必要对系统进行改进。这里研究了一种声学模型压缩算法,在几乎不降低系统识别率的前提 下,对声学模型进行压缩,同时通过减少模型参数,降低声学得分运算的计算量。另外,通过优 化某些数据结构,删除其中一些不必要的信息,能够节省大约50%的动态空间。表1给出了 模型压缩后不同压缩比下的系统识别率,可从中选择一种既能大大减小模型空间且对识别率 影响不大的压缩比。这样就得到改进后的系统(系统2)。表2给出了系统2在基于 TMS320C5402 DSP的嵌入式平台上的评估结果。
CPU采用不同的体系结构和指令集时,代码大小和执行效率都会相差很大。为了保证算 法评估结果的可靠性,我们在当前比较流行的嵌入式中央处理器ARM平台上实现了上述优化
后的非特定人语音识别系统。由于ARM处理器的对某些数学运算(如LOG函数)的处理能力
远不如DSP强,大大影响了识别引擎的运行效率,因此对一些数学运算的函数进行了优化。 表2给出了ARM平台的评估结果。 3 三种嵌入式平台描述 3.1 平台的硬件框架描述 平台的硬件结构如图2所示。 75
嵌入式语音识别系统的研究和实现① 方 敏,浦剑涛,李成荣,台宪青
(中国科学院自动化研究所高技术创新中心,北京 100080)
摘要:本文首先给出了一种适合于在嵌入式平台上实现的可变命令集的非特定人语音识别系统,同传统
的基于PC的非特定人语音识别系统相比,该系统具备内存消耗小,运算速度快的优点。然后给出了该语音
识别系统在多种嵌入式平台上的实现和评估结果,论证了非特定人语音识别系统在嵌入式平台上实现的可
行性及其对硬件的最低配置要求,在技术层次上分析了目前实现高性能语音识别SOC的主要问题和困难,并
指出了今后相关的研究方向。
关键词:计算机应用;中文信息处理;嵌入式平台;非特定人语音识别;语音识别SOC 中图分类号:TP391.4 文献标识码:A
Research and Realization of Embedded Speech Recognition System FANG Min,PUJian-tao,LI Cheng-rong,TAI Xian-qing
(Hi-tech Innovation Center,Institute of Automation,Chinese Acadamy of Science Beijing 100080,China)
Abstract:Proposed in this paperis a novel speaker-independent speech recognition system,which is command-variable and
suitable for realization based on embedded platform.Compared with traditional speaker-independent speech recognition sys-
tem based on PC,our system is featured small storage and computation cost.The system is evaluated on several embedded
platformsthat are specially designed.According to the result of the evaluation,the feasibility of speaker-independent
speech recognition system based on embedded platform is proved and the least requirement for the hardware is given.Then
we analyzed the main problems and difficulties in the development of high performance speech recognition SOC(System On
a Chip)from the point of technology,and pointed out some future works. Key words:computer application;Chinese information processing;embedded platform;speaker-independent speech recog- nition;speech recognition SOC 1 前言
随着计算机软硬件技术、半导体技术、电子技术、通讯技术和网络技术等的飞速发展,人类已
经进入后PC时代。这个时代一个典型的特征就是:各种新型智能化的设备日益广泛地走进人
们
的工作和生活,而人与这些智能化终端之间的自然快捷稳定可靠的交互方式有助于提高人机交
互的效率,增强人对智能化设备的控制。作为人机交互最自然的方式,语音技术的研究近几十年
来取得了长足的进展,其中语音识别由于其重要性和研究的难度更成为研究的热点[1,8]。 嵌入式语音识别系统是指应用各种先进的微处理器在板级或是芯片级用软件或硬件实现 73
①收稿日期:2003-08-01
基金项目:863计划重点资助项目(2002AA118020);北京市自然科学基金资助项目(4022010) 作者简介:方敏(1980—),男,硕士研究生,研究方向为嵌入式语音识别技术. 本满足我们识别算法的要求;价格相当便宜,这对于该系统的商业化应 用极具吸引力;功耗低。
其他硬件部件:外扩了1片512K的SRAM,提供程序运行所需的临时空间;1片2M的
FLASH(SST39VF160)存放程序代码及模型等数据;一个CODEC语音输入输出接口(16位ADC/
DAC);1片TI公司的TLC320AD50,用于采集语音数据。 4 实验和评估结果分析 4.1 压缩模型性能测试
表1 压缩模型性能测试结果 模型压缩比模型大小(KB)识别率 1∶1 325 85.98% 7.8∶1 41.47 85.67% 11.4∶1 28.47 85.79% 14.8∶1 21.97 85.06% 16.4∶1 19.87 85.67% 17.4∶1 18.72 84.42%
首先以系统1为BASELINE,我们测试了声学模 型压缩对系统识别率的影响。测试环境描述如下: 词表大小为298词,词长为2~6个字,平均为3个 字;测试集采用实验室采集的孤立词测试集,共2960 个孤立词,由24个说话人(14男,10女)采集得到。 测试结果如表1所示,其中BASELINE采用未经压缩 的模型(大小为325KB),系统识别率为85.98%。压 缩比为原模型与压缩后模型的大小比。
测试结果表明:该声学模型压缩算法能够在压缩比达到11∶1的情况下,基本保持系统在 采用CDHMM模型的识别率。当模型压缩的更小时会对系统识别率有较大影响。因此在系统
2中选用压缩比为11.4∶1的模型。
4.2 非特定人语音识别系统在嵌入式平台上的评估结果
需要说明的是,用于算法评估的嵌入式平台都是针对语音识别算法设计的,算法的改进,
总是用资源更有限的硬件平台来实际验证之。系统1对资源的要求比较高,因此我们选择和 设计了TMS320C5409 DSP嵌入式平台。系统2对资源的要求比系统1小得多,因此我们设计
了基于TMS320C5402 DSP的嵌入式平台来实现和评估。TMS320C5402和TMS320C5409 DSP的
表2 系统在嵌入式平台上的评估结果 评估指标 评估平台
DSP5409 DSP5402 ARM 前端耗时0.31 0.31 1.5 搜索耗时1.6 0.30 1.2
消耗片上RAM64KB 32KB无
消耗片外RAM339KB 64KB 192KB 消耗FLASH365KB 64KB 167KB CACHE无无8KB
处理器速度可以根据需要在10~100MIPS 之间选择。通过测试系统在不同处理器速 度下的运行情况,发现当处理器速度降低 到30MIPS时,语音识别前端仍能实时运 行,而搜索引擎的运行为1.3倍实时,在可 接受的范围内,因此又选用了主频为
50MHz(相当于45MIPS)的基于ARM内核的 S3C4510B ARM嵌入式平台,以验证评估结 果,同时作为算法进一步优化的平台。表2 给出了三次评估的最终结果。 4.3 实验结果分析
1)系统2相对于系统1在速度和资源消耗方面的优势说明,系统的改进和优化是合理有 效的;在资源有限的嵌入式平台上,完全有可能实现高性能的非特定人语音识别系统,这为将 来在嵌入式平台上实现更为复杂的语音识别技术,如关键词检测等,奠定了基础。
2)从ARM平台的评估结果中,发现如下两个问题,一是ARM的处理速度比预想的要慢一 倍左右,这说明,为语音识别系统选择CPU的时候,处理器的MIPS指标不能成为衡量其数据 77
处理速度的唯一指标;二是开发环境为ARM生成的可执行代码为109KB,而同样的代码在 TMS320C54X的开发环境下生成的可执行代码仅22KB,是前者的1/5,经分析,认为这是由于 ARM采用了精简指令集的体系结构的缘故。 5 结论和展望
嵌入式语音识别系统具有广阔的市场应用前景。本文介绍的非特定人语音识别系统,相 对于特定人孤立词语音识别系统具有多方面的优点,因此成为嵌入式语音识别系统研究和实 现的主要着眼点。该系统的BASELINE是在LVCSR的基础上简化的,采用未压缩的模型,并在
TMS320C5409DSP平台实现。为了使系统更适合于嵌入式应用,对BASELINE进行了模型的压
缩和数据结构的优化,并在TMS320C5402DSP平台实现。系统改进后在ARM平台实现,也能 基本满足实时性要求,且成本下降很多。通过这几种平台的系统测试,发现对BASELINE系统 进行模型的压缩、数据结构的精简和代码优化之后,能大大降低系统实现平台的资源配置要 求。同时,根据不同平台的自身特点(如DSP平台具有较强的信号处理能力,ARM平台具有缓 冲机制等),对代码进行必要的优化。此项研究对于语音识别嵌入式模块的开发,对于今后研
制嵌入式语音识别API及语音识别片上系统(SOC)具有很好的参考意义。
目前系统已在各个平台上实现并进行了综合评估,今后进一步的工作是:在语音识别算法 方面,为了增强系统的环境鲁棒性,需要研究计算量和存储空间消耗都比较少的噪声消除或补 偿算法、可靠的集外词和噪声的拒识算法等;在嵌入式平台方面,研发语音识别前端的专用处 理模块,使其能执行更为复杂的语音信号前端处理算法。 参 考 文 献:
[1] Lawrence Rabiner,Biing-Hwang Juang.语音识别基本原理(影印版)[M].北京:清华大学出版社,1999.
[2] 杨行峻,迟惠生.语音信号数字处理[M].西安:电子工业出版社,1995.
[3] 高升.语境相关的声学模型和搜索策略的研究[D].中国科学院图书馆:中国科学院自动化研究所博士 学位论文,2001.
[4] 高升,徐波,黄泰翼.基于决策树的汉语三音子模型[J].声学学报,2000,25(6).
[5] 马龙.汉语命令词识别,关键词检测的研究与应用[D].中国科学院图书馆:中国科学院自动化研究所
硕士学位论文,2002.
[6] 易克初,田斌,付强.语音信号处理[M].北京:国防工业出版社,2000.
[7] 丁国宏,李成荣,徐波.非特定人孤立词语音识别系统在定点DSP上的应用[A].第六届全国人机语音
通讯会议[C],2001.
[8] B.H.Juang.The past,present and future of speech processing[J].IEEE Signal Processing Magzine,May,1998.
[9] [英]Steve Furber著,田泽等译.ARMSoc体系结构
正在阅读:
嵌入式语音识别系统的研究和实现 - 方敏01-02
HNC-XP铣床说明书09-29
重型载货汽车离合器设计05-09
2022选调生个人年终总结怎么写文档2篇04-20
JAVA实验报告分析04-30
中国服装制造业成本控制研究10-27
2014年行测牛吃草问题专项练习08-12
关于使用《机构编制管理证》的通知10-18
如何加快经济发展方式转变08-20
双高双普PPP项目总体方案 - 图文03-24
- exercise2
- 铅锌矿详查地质设计 - 图文
- 厨余垃圾、餐厨垃圾堆肥系统设计方案
- 陈明珠开题报告
- 化工原理精选例题
- 政府形象宣传册营销案例
- 小学一至三年级语文阅读专项练习题
- 2014.民诉 期末考试 复习题
- 巅峰智业 - 做好顶层设计对建设城市的重要意义
- (三起)冀教版三年级英语上册Unit4 Lesson24练习题及答案
- 2017年实心轮胎现状及发展趋势分析(目录)
- 基于GIS的农用地定级技术研究定稿
- 2017-2022年中国医疗保健市场调查与市场前景预测报告(目录) - 图文
- 作业
- OFDM技术仿真(MATLAB代码) - 图文
- Android工程师笔试题及答案
- 生命密码联合密码
- 空间地上权若干法律问题探究
- 江苏学业水平测试《机械基础》模拟试题
- 选课走班实施方案
- 方敏
- 嵌入式
- 语音
- 识别
- 实现
- 研究
- 系统
- 会计学专业简介
- 第1-4章习题参考答案
- 2015年基金资格模拟试题附详细答案
- X线成像技术模拟试题(3)
- 消防设备(FM认证)供应商一览表
- 地质环境条件复杂程度分类
- 01水利工程施工复习题
- 汽车检测与维修技术2+3专业人才培养方案
- 2019年一级建造师《港口与航道工程管理与实务》试卷A卷(附答案)
- c程作业文件
- 《非织造学》课后习题答案(复习题)
- 高职园艺专业实践性教学模式与职业技能训练的研究与实践体会-精选教育文档
- 石英晶体谐振器参数
- 自贡市沿滩投资实业有限公司+自贡市沿滩区生活污水处理厂及配套管网工程+报告表+自贡+63页 - 图文
- 中国实验室器材行业市场前景分析预测报告(目录) - 图文
- 2019-2020年八年级语文上册 第二单元 第7课《背影》同步练习(含解析)(新版)新人教版
- 洛阳兰迪玻璃机器股份有限公司首次公开发行股票辅导工作报告二
- 2013年黑龙江省哈尔滨市松北区初中毕业学年调研测试(二)数学试卷 人教版 - 图文
- 安徽省各市经济发展水平的聚类分析
- 2018年高考数学专题34空间中线线角、线面角的求法黄金解题模板