FPGA和NiosⅡ软核的语音识别系统的研究

更新时间:2023-08-08 05:42:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

FPGA和NiosⅡ软核的语音识别系统的研究

60

2010.46(2)ComputerEngineeringandApplications计算机工程与应用

FPGA和NiosII软核的语音识别系统的研究

巢一波,张曦煌

CHAOYi-bo,ZHANGXi-huang

江南大学信息工程学院,江苏无锡214122

Coflegeof

Information

Technology,JiangnanUnivemity,Wuxi,Jiangsu214122,China

E-mail:loveforeverl3579@yahoo.corn.cn

CHAOYi-lm.ZHANGXi-huang.SpeechrecognitionsystempHcations。2010。46(2):60-62.

on

FPGAandNiosHsoftcore.ComputerEngineeringandAp-

Abstract:Thereis

area

fewapplicationsofspeechrecognitionin

recognitionsystem

software

based

on

embededsystem,mainlyemplementedbyandNiosII

is

recommended.The

endpoint

DSP,and

theaccuracyCycloneII

signal

low.Anembedded

processor

speech

FPGA

design

uses

EP2C35

chip,NiosIIfeaturein

and

combinesthe

withhardware.Combinedwithadvanced

detectionmethod,theaudio

is

DynamicTime

this

system,is

LinearPrediction

Cepstrum

Coefficient(凹CC)and

accuracy.

recognitionalgorithmWarping

(DTⅣ)byIP

core.卟e

systemreacheshighspeech

Programmable

recognition

Gate

Keywords:speechTime

recognition;Field

core

Array(FPGA);LinearPredictionCepstrumCoefficient(LPCC);Dynamic

Warping(DTW):IP

摘要:嵌入式语音识别的应用还是比较少,主要还是通过DSP实现,而且准确率还不是太高。提出一种基于FPGA和NiosII软核处理器的嵌入式语音识别系统的设计方案。系统以EP2C35

Cyclone

II芯片和NiosII处理器为基础,采用软硬件结合的设计方式,

共同完成语音识别的设计。系统结合改进的端点检测方法,提取线性预测倒谱系数(LPCC)的音频信号特征,采用IP核硬件实现动

态时间规整(D哪)的识别算法。能达到较高的识别准确率。

关键词:语音识别;现场可编程门阵列;线性预测倒谱系数;动态时间规整;IP核DOI:10.3778,j.issn.1002—8331.2010.02.019

文章编号:1002—8331(2010)02—0060—03

文献标识码:A

中图分类号:TP302.1

1引言

语音识别的过程是—个模式匹配的过程。在这个过程中,首先根据i兑话人的语音特点建立语音模型,对输入的语音信号进行分析,并提取所需的语音特征,在此基础上建立语音识别所需的模板。在识别过程中,根据语音识别的整体模型,将输入的语音特征与已经存在的语音模板进行比较,根据一定的搜索和匹配策略,找最佳匹配对象作为识别结果。如图1是语音识别基本原理。

法的计算量相对较小,更适合嵌入式系统,因此该系统采用LPCC进行特征提取。在训练阶段,特征提取得到的特征矢量序

列作为参考模板被保存到模板库;在识别阶段,特征提取得到

一一网‘嚣果

图1语音识删的基本原理图

收稿口期:2008一10—07

修州日期:2009—01—07

的特征矢量序列作为测试模板与参考模板进行模式匹配。模式匹配是用测试模板与参考模板进行比较得到距离最小的参考模板作为识别结果输出。该系统采用计算复杂度较低的动态时间弯折(DynamicTimeWarping,DTW)算法实现模式匹配,它

是一种动态规划的方法,有效地解决了参考模板与测试模板长度不等的问题。另外,该系统用硬件知识产权(Intellecture时性。

Prop—

erty,IP)核实现该算法,极大地提高了系统运行速度,保证了实

2总体没计

系统的总体设计框图如图2所示,系统以CycloneFPGA芯片为核心,采用软硬件结合的设计方式。

II-EP2C35

由图1可知,语音识别系统对语音信号进行预处理、端点

检测、特征提取、模式匹配等处理过程得到识别结果输出。输入的语音信号经过预处理、端点检测得到若干帧,找到精确起点和终点的语音数据。对这些语音数据进行特征提取得到语音的特征矢量序列。特征提取主要有三种方法:线性预测倒谱系数(LPCC)、Mel频率倒谱系数(MFCC)、小波分析。其中,LPCC算

首先,在Pc机上通过Windows“录音机”录制音频way文

件,自编的程序将way文件的控制信息和数据分离,将音频数

据通过PC机串口送至FPGA内NiosII软核处理器;然后,NioslI将接收到的音频数据写入片内RAM,由FPGA的其他逻

作者简介:巢一波(1985一),男,硕士。主要研究领域为嵌入式系统、计算机网络技术;张曦煌(1963一),男,副教授,硕士生导师,主要研究领域为嵌

入式系统、计算机网络技术。

万方数据

FPGA和NiosⅡ软核的语音识别系统的研究

巢一波,张曦煌:FPGA和NiosII软核的语音识别系统的研究2010,46(2)61

—1ROMl——一

1地址.1

片内

RAMI地址

地址广—1

ROMI

片内

与中

—_

ROMl

生模菥孛I些厂]两

JROM2-块

二.

ROM2

RAM2地址

—●

片内

ROM2

预加重

1中的站lRAMI中断

片内RAM

七段数码B

LED显示

蠹1

ms

11

f吃瑟

LCD显示

F1.^SH音频

数据

Cyclone

SRAMSDRAM

图2系统总体设计图

辑资源完成预加重、加窗分帧处理等,再通过片内RAM写入

“短时”的基础上,系统的采样率为8kHz,取每帧30ms,240点Niosll;最后,完成端点检测、特征提取、训练建模、识别匹配、输为一帧,为了保证语音帧的连续性,采用帧重叠分析技术,帧移入控制和输出显示等。系统提取的音频信号特征为线性预测倒为10脚,即80个点。

谱系数(LPCC),采用动态时I’日J规整(DTW)的识别算法。预加重按公式(1)计算(式中Ol取0.93)

Data(n)=S(n)川×S(rg—1)

(1)

3硬件平台的搭建

加汉明窗采用的窗函数如公式(2)所示(其中Ⅳ为帧长,

该系统使用QuartusII和SOPCBuilder来创建Niosll嵌入即一帧的采样点数)。

式处理器系统。如图3,通过SOPCBUILDER,创建Nios系统模块,添加调试接口,内部时钟和Avalon

Tri—State

Bridge,外部

‰)=rm46×c08眨删Ⅳ。1”胆0’10Ⅳ。1(2)

存储器,输入控制和输出显示模块,UART控制器,片内RAM等。

4.3端点检测

端点检测的作用是找出一段语音信号中的起点和终点的位置。系统采用对短时平均幅度和短时平均过零率双门限的方

法进行端点检测,精确地检测到语音的起点和终点,从而保证

了系统的高识别率。

短时平均幅度的计算公式如式(3)所示(其中Ⅳ为帧长)

肚∑IData(n)I

(3)

图3

Niosll系统配置

短时过零率的计算公式如式(4)所示

4系统的软件设计与实现

压导∑IsgnfData(凡)hgn[Data(n一1)】I

(4)

4.1预滤波、采样与A/D转化

式中,sgnfl是符号函数,即

采样前要对语音信号进行预滤波处理,一是为了防止信号混叠干扰,二是要抑制50Hz的电源工作干扰。设置其上

神叱高’

(5)

下截止频率为矗和五,对于大多数语音编码器以=60~100Hz,

—般采用经典的LawrenceRabiner端点检测法,具体方法400

Hz,对于语音识别而言,指标与语音编码器相同,对于

如下:

较高要求的场合,一般A=60Uz,f.=4

500

Hz以上。

以短时平均幅度为特征的起止点算法:根据发音刚开始前

滤波处理后,再采用合适的采样频率进行采样。根据奈奎已知为静态的连续10帧内的数据,计算能量阀值ITL(低能量

斯特采样定理,如果模拟信号的频谱带宽是有限的(假如不包阀值)及,阿(高能量阀值)。开始计算前10帧每帧的平均幅

含高于厶的频率成分),那么用等于或高于矾的采样频率进值,设其最大值为IMX,最小值为IMN,算得

行采样,则所得到的等间隔离散时间取样值能够代表原模拟信11=0.03x(IMX—IMN)+IMN(6)号,或者说能够由取样信号恢复出原始信号。语音信号经过预

12=4xlMN

(7)

滤波和采样后,由A/D变换器转变为二进制数字码。

4.2预处理

ITL=min(1l,厶)

(8)

该系统预处理部分主要对语音信号进行了分帧、预加重、

ITU=5xlTL

(9)

加汉明窗处理。语音信号只有在一段短时间间隔内才保持相对然后计算过零率阀值IZCT

稳定一致的特征,因此对语音信号的分析和处理必须建立在

IZCT=min[IF.IZC+2xtr]

(10)

万方数据

A=3

FPGA和NiosⅡ软核的语音识别系统的研究

62

2010。46(2)Computer

EngineeringandApplications计算机工程与应用

其中,伊为固定值,一般为25,IZC和or分别为最初10帧过零率的均值和标准差。先根据ITL,,彤算得一初始起点Ⅳ1,方法

为从第ll帧开始,逐次比较每帧的平均幅度,M为平均幅度超

过,化的第—帧的帧号,但若后续帧的平均幅度在尚未超过,删

之前又降到ITL之下,则原N1不作为初始起点,改记下—个平均幅值超过ITL的帧的帧号为m,依此类推,在找到第一个平均幅度超过,7u的帧时停止比较。当肌确定后,从Ⅳ1帧向(Ⅳ1—

25)帧搜索,依次比较各帧的过零率,若有3帧以上的ZCR>

IZCT,则将起点ⅣI定为满足ZCR>IZCT的最前帧的帧号,否则即以Ⅳ1为起点。这种检测法也成为双门限前端检测算法。

语音结束点%的检测方法与检测起点类似。

4.4特征提取

语音信号是冗余度很高的随机信号,在进行语音信号处理的时候,必须经过特征提取才能有效降低信号的冗余度,而语音特征的提取又是通过对语音信号的分析来获得表征语音信号的特征参数。因此表征语音信号参数的准确性是语音处理正确的保证,而提取的语音特征参数的简洁度又成为能否实时提取语音特征的关键。特征的选择标准应尽量满足:

(1)能有效地代表语音特征,包括声道特征和听觉特征,具

有很好的区分性;

(2)各阶参数之间有良好的独立性;

(3)特征参数要计算方便,最好有高效的计算方法,以保证

语音识别的实时实现。

基于以上考虑,系统采用LPCC算法,主要步骤是:

(1)计算自相关系数;

(2)利用德宾算法解矩阵方程计算10阶LPC系数;

(3)利用倒谱系数与LPC系数之间的递推关系计算16阶

LPCC系数。

4.5模式匹配

系统模式匹配部分采用DTW算法,参考模板表示为R={R。,R:,…,尺甜,测试模板表示为码{正,死,…,珊,建立直角坐标系,横轴为测试模板的乃,乃,…,%,纵轴为参考模板的尺,,

R:,…,勘,根据DTW算法的要求,要寻找一条经过坐标系中某

些交叉点的最优路径,通过计算最优化的局部距离得到整体的最小累积距离。采用欧几里德公式计算局部距离,见公式(11),d(n,m)表示模板和测试之间的失真。

d(n,m)=艺(瓦(1)-R。(1))‘

(11)

/ffil

数据点(£,尺。)的累积距离用O(n,m)表示,则

fD(n-1,m一2)+2d(n,m-1)+d(n,m)

D(n,m)=min{D(n-1,m一1)+2d(n,I"/t)

(12)

ID(n一2,m—1)+2d(n-1,m)+d(凡,m)

在计算的时候,一般要求参考模板和测试模板采用相同类型的特征矢量。5技术改进和实现

5.1端点检测方法的改进

(1)将高、低能量阈值的计算改为如下形式:

ITL=1.4×IMM

(13)

ITU=1.5xlTL

(14)

其中,IMM是前lO帧幅值的均值。

在实验中,发现一般静音段的波形可能有起伏,但是能量

万方数据

值一般都保持为—个定值不变,进入语音段后,能量值就会迅

速上升。如公式(8)所用到的,l、,2由前10帧幅值的最大值删X

和最小值IMN决定。经过对实际采样数据的观察可以看到,前

10帧背景噪声中的幅值IMN往往十分接近于0,由于毛刺的存

在,IMX往往又很大,因此ITL将完全由IMN决定。这样造成

的结果是低能量阀值ITL很小,从而导致系统过度敏感,经常

将静音段误判为语音段。

经过大量的统计分析和实验,还发现,静音段到语音段的过渡是—个非常快速的过程,因此以平均能量的1.4倍作为语

音段的低能量阀值是合理的。另外,式(14)的系数1.5是经过大

量统计和实验得到的经验值,根据不同的环境可以做一定修改。

(2)在结束点的检测上,将对过零率的检测忽略。因为汉语

发音均以原音结尾,而原音的能量高而过零率低,因此结尾再进行过零率的检测没有意义。经过实验发现,采用改进的方法进行端点检测,可能造成截尾现象,可以通过适当提高低能量阀值ITL将有助于截断过多的拖尾音,提高系统的识别性能。

图4为数字。改进前算法的端点检测结果,图5为数字0改进后算法的端点检测结果,通过比较,可以看出改进后算法

得出的端点更加准确,减少了计算量,提高了系统的性能。

。曲I_趟觊k

,O

1’啊嘲§鞭孵F”””

2000

4000

6000

8000

10000

12000

专∞&∞盏l∞∞m

。./门\

2040

60

80

O蝤m

厂、^

100120140160

篮uN

5\

f..∥

j.j

20

40

60

80100

120

140

160图4算法改进前的端点检测

。舢韭:。fIJ一—I&k

,O

。~

118兰∞

1’礴l黼孵稀矿”97。

2000

4000

6000

800010000

12000

∞加m

20

40

∥、\

60

80

100

120140160

O”m

笛uN

50

}:∥飞

:j

20

40

60

80

100

120

140

160

图5算法改进后的端点检铡

5.2

DTW算法的口核化

根据系统采用的FPGA的特性,DTW算法通过IP核硬件

实现,硬件描述语言为VHDL,和用C语言实现相比,能极大地

提高系统的性能。如表1(表中所用的测试语音长度为2—5个

字,平均长度为2.74字)所示。

表1软硬件实现时间对照表

(下转166页)

FPGA和NiosⅡ软核的语音识别系统的研究

166

2010,46(2)ComputerEngineeringandApplications计算机工程与应用

表4

该文方法与采用向量机的实验结果比较

表3神经网络对图l的分类

4实验分析

该文是对core|图像库中的1000多张图片进行语义分类,对语义日落类检索的部分结果如图4所示。

5结束语

建立了一个语义图像检索模型,利用改进的BP神经网完成了图像的低层视党特征与高层语义特征之间的映射。实验表明,该方法取得了较好的效果。下一步工作将对图像进行不均匀的分割和提取更多有效的低层视觉特征作为BP神经网络的输入,以此来达到更好的分类效果。参考文献:

[1】f目岩sVM用于基于内容的自然图像分翔跳垒索口】计算柳胄匀侵,2003,26

图4语义13落检索结果

(10):1261—1265.

查全率=准确率=

该文方法与支持向量9"l,ta的实验结果比较如表4所示。实验结果分析:要对图像进行Ⅳ类的分类,就要训练一个有Ⅳ个输出节点的BP神经网络,需要大量的训练样本才能达到较好的分类效果和很好的泛化能力,而且训练时间也相对比较长。落13花卉绿水的查全率不高,落日和花卉的颜色相似,绿水和青山的颜色相似,可能需要更多的训练图片来训练该神经网络。另外对阈值的判定比较难。

【2]孙志杰,许宏丽.一种图像低层视觉特征获取高层语义的图像检索

方法fJl.计算机应用,2004,24(12):22—24.

【3】章毓晋.图像处理和分析rMl.北京:清华大学出版杜,1999:236—239.【4】王上飞,薛佳,王熙法.基于内容的情感图像获取模型【J】.计算机科

学,2004,31(9):186—190.

【5】高隽.人工神经网络原理及仿真实例[M】.北京:机械工业出版杜,

2003:44—55.

【6】JacobsRA.Increased

ratesof

convergence

throughlearningrote

adaptaion[J].NeuralNetwork8,1998,i(4):295—307.

【7]杨治明,王晓蓉.BP人工神经网络在图像分割中的应用册.计算机科学,2007。34(3):234—236.

(上接62页)由表2可以看出,系统基本能够实现其功能,特定人的识别

率比非特定人的识别率要高,但是总体识别率还有待提高,以后

从表1可以看出,通过IP核硬件实现比用C语言软件实现的速度陕了18倍左右,充分发挥了FPGA的计算能力,提高了

系统的性能。

的工作还需要在特征提取等改进,进—步提高系统的识别能力。7总结

6系统识别性能

识别实验分为特定人和非特定人的语音识别。识别对象为汉语的10个数字(o~9),发音者共20人,每人每个词采样3组数据。特定人的训练样本使用测试对象的一组语音数据,其他的两组语音数据做识别用。非特定人的训练样本使用信噪比较高的汉语语音样本库,这样做的目的是尽量减少噪声对识别性能的影响。

实验过程中,首先通过串口将训练数据送入FPGA进行训练。训练完成以后,再对其他数据进行识别,特定人和非特定人的识别率见表2所示。

表2特定人和非特定人识别率

识别数字0特定人,(%)

72

16560

27069

57771

67569

77374

87374

97166

阐述了基于CycloneII—EP2C35芯片的FPGA的语音识别系统的设计与实现。系统采用改进的端点检测算法来识别语音段,LPCC算法进行特征提取,IP核化的DTW算法进行匹配识别,通过两点改进,极大地提高了系统的识别率。系统可以推广到语音控制领域,具有深远的商业价值和社会价值。参考文献:

【1】杨行峻,迟惠生.语音信号数字处理【M】.北京:电子工业出版社,

1995:113-117.

[2】王炳锡.实用语音识别基础【MH匕京:国防工业工业出版社,2005:

65-99.

【3】李鹏怀,徐佩霞.基于DSP的嵌入式语音识别系统的实现叨.计算机

工程,2005,31(16):160—162.

[41RabinerL,JuangBH.Fundamentalsofspeechrecognition[M].北京:

69'7869

72

非特定人,(%)65

清华大学出版社,1999:33—54.

万方数据

FPGA和NiosⅡ软核的语音识别系统的研究

FPGA和NiosⅡ软核的语音识别系统的研究

作者:作者单位:刊名:英文刊名:年,卷(期):被引用次数:

巢一波, 张曦煌, CHAO Yi-bo, ZHANG Xi-huang江南大学,信息工程学院,江苏,无锡,214122计算机工程与应用

COMPUTER ENGINEERING AND APPLICATIONS2010,46(2)0次

参考文献(4条)

1.杨行峻.迟惠生 语音信号数字处理 19952.王炳锡 实用语音识别基础 2005

3.李鹏怀.徐佩霞 基于DSP的嵌入式语音识别系统的实现[期刊论文]-计算机工程 2005(16)4.Rabiner L.Juang B H Fundamentals of speech recognition 1999

相似文献(10条)

1.学位论文 高海英 基于DSP的机器人语音识别及控制系统设计 2006

一个完整的迎宾机器人系统需要综合运用多种人工智能技术,其目标是建立起

一个“人”的模型,让机器人听懂人的语言就是其中之一。机器人语音识别系统是迎宾机器人头部的重要组成部分,机器人语音识别系统主要是对人的声音进行语音识别并做出判断,然后输出相应的动作指令控制机器人的动作。

机器人要能够对非特定人的语音进行识别,当机器人接到语音信号后,对语音进行预处理,端点检测,特征向量提取,再通过对语音库里的特征向量进行模式匹配,输出识别结果。机器人识别的范围由其训练过的语音库决定,特定的语音对应特定的动作。

传统的机器人听觉系统一般是以PC机为系统运行平台对机器人进行控制,其特点是用一台计算机作为机器人的信息处理核心通过接口电路对机器人进行控制,处理能力比较强大,语音库比较完备,系统更新以及功能拓展比较容易。缺点是比较笨重,不利于机器人的小型化和复杂条件下进行工作,此外功耗大,成本高。近几年来微型处理器性能的提高促进了机器人的迅速发展,特别是大存储量及高速运算DSP处理芯片的出现使机器人在脱机状态下,独立完成复杂的语音信号处理和动作指令成为可能。

论文在硬件上使DSP芯片TMS320VC5509与音频芯片TLV320AIC23相结合作为机器人的语音采集系统,采用DSP作为语音识别处理器,具有较快的处理速度,并采用DSP集成开发环境CCS 3.1完成对DSP芯片的外部接口配置;在软件开发上,论文分析了语音信号的特点,对语音信号进行预处理和端点检测,语音特征向量采用美尔频率倒谱系数(MFCC),模式匹配和训练采用DTW动态规整算法,实现了机器人语音指令的识别。在动作控制上,采用FPGA芯片EP1CT100C8作为机器人头部动作逻辑控制器,使机器人能够根据非特定人的语音命令做出规定的头部动作。

DSP的使用使机器人在脱机状态下能够独立快速完成复杂的语音信号处理和动作指令控制,FPGA系统的开发降低了时序控制电路和逻辑电路在PCB板所占的面积,使机器人的“大脑”的语音处理部分微型化,低功耗。一个体积小,低功耗,高速度能完成特定范围语音识别和动作指令的机器人系统的研制具有很大的实际意义。

2.学位论文 龙潜 噪声环境下的语音识别技术研究 2007

本论文以应用型语音控制技术为目标,以系统鲁棒性为研究重点,对噪声环境下嵌入式孤立词语音识别技术的各个主要方面作了深入探讨。通过对鲁棒语音识别问题进行系统的研究和实验,本文形成了一套完整的鲁棒语音识别研究体系,包括了实验平台、鲁棒端点检测算法、鲁棒特征提取算法、特征补偿算法、声学模型等关键部分,涵盖了鲁棒语音识别的全过程,获得了一些有意义的成果。所有研究成果都被完整地实现并在语音库上进行了验证,最终建立了一个完整的孤立词语音识别系统,包括语音库、软件程序、硬件实现、应用系统等,以此为基础可直接构建出一个实用的语音控制系统。上述这些研究成果具体主要包括以下几个方面:

(1) 语音识别实验系统建立了一个基于隐马尔科夫模型 (Hidden Markov Model,HMM) 的语音识别实验系统。针对孤立词吾音识别的特点优化了系统中的 HMM 算法实现。给出了一套用于抗噪语音识别实验的选词方案,保证了实验的代表性。建立了完整的孤立词识别语音库和噪声库以及噪声度量标准,保证了实验的可重复性。

(2) 端点检测算法针对传统双门限端点检测算法在噪声环境下的不足之处,对算法细节作出了多处改进。首次将一种非线性动力学参数——排列熵(Permutation Entropy,PE)应用于噪声环境下的端点检测,提出了基于能频比和排列熵差分的双门限端点检测算法。在实验平台下与传统算法进行了对比实验,实验结果显示,提出的算法与传统算法相比,噪声鲁棒性更好,检测延时相当。

(3) 特征提取算法系统总结了目前常用的几种语音识别特征参数,特别是详细分析了线性预测编码 (Linear Prediction Coding,LPC) 特征和 Mel频率倒谱系数 (Mel Frequency Cepstral Coefficient,MFCC ) 特征的原理、优缺点和实现细节。针对LPC特征和MFCC 特征的问题,将最小方差无失真响应 (Minimum Variance Distortionless Response,MVDR) 潜估汁技术引入到语音特征提取中,使用这种技术得到的特征参数在某种程度上结合了上述两种主流特征参数的优点。针对语音信号的特点,给出了几种MVDR计算上的改进方法。最后通过实验对比了MVDR方法与其它方法的性能。

(4) 鲁棒语音识别技术全面研究了包括抗环境噪声、说话人自适应、信道自适应等在内的系统鲁棒性问题。提出了一种用于语音识别的鲁棒特征提取算法,这种算法基于MVDR谱估计技术,它在Mel频率尺度上估计MVDR谱,并对得到的MVDR谱进行调制谱滤波,然后提取其倒谱系数作为特征参数。在汽车噪声、人群噪声和高斯白噪声三种噪声环境下,与MVDR特征提取算法和MFCC特征提取算法按多种信噪比做了对比实验。实验结果表明使用该算法的系统在这三种噪声环境下的识别率均得到了不同程度的提高。

(5) 硬件实现问题针对孤立词语音识别算法的硬件实现问题,比较了通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列 (Field Programmable Gate Array,FPGA) 等四种硬件实现方案,提出了一套基于 FPGA 的硬件实现方案。基于 FPGA,针对孤立词语音识别算法,提出了完整的设计流程、设计方案和测试方案,并对每个模块的结构进行了详细说明。最后给出了外围电路的设计,从而完整地以硬件的方式实现了整个语音识别系统。

3.学位论文 刘志刚 语音识别芯片的设计——MCU及其接口的设计 2005

近二三十年来,语音识别技术在计算机、信息处理、通信与电子系统、自动控制等领域中有着广泛的应用。从目前的研究情况来看,国内在专用语音识别芯片上的应用有一定的进展。但是对专用语音识别芯片的研究还比较少。

本论文的语音识别芯片设计思想是:采用软硬件协同设计的方法来设计芯片,把语音识别过程分软件和硬件两部分进行。按照语音识别处理的过程来看,该芯片需要包括两部分,一部分是微处理器内核,用来执行语音识别处理的软件部分,另一部分是语音识别硬件模块。

本文介绍了一种基于OpenRISC1200嵌入式微处理器的语音识别芯片的设计方法,最后利用现场可编程门阵列(FPGA)实现了该语音识别芯片。

OpenRISC1200是一个哈佛结构、5级指令流水线的高性能的32位微处理器,基于Verilog硬件描述语言的源码开放,可以自由改进。OpenRISC1200可以用于ASIC流片。

FPGA和NiosⅡ软核的语音识别系统的研究

本文主要对语音识别芯片中MCU及其接口的设计实现上进行了研究,主要工作包括以下几个方面:

1.设计和验证OpenRISC1200内核和WISHBONE片上总线的实现,还有JTAG调试接口、UART串口、IO控制器和SRAM/FLASH/SDRAM接口的实现等。

2.建立用FPGA开发OpenRISC1200内核的EDA环境,建立OpenRISC1200程序开发的环境,编写和测试各个功能模块的驱动程序,为编写语音识别程序提高技术支持。

3.制作具有CycloneFPGA、串口、SRAM、FLASH、SDRAM和配置电路的FPGA电路板

4.期刊论文 刘志刚.贺前华.李韬.Liu Zhigang.He Qianhua.LI Tao 基于OpenRISC1200的语音识别SoC设计 -电子工程师2005,31(2)

介绍了一种基于OpenRISC1200嵌入式微处理器内核的语音识别片上系统(SoC)的设计方法,以及OpenRISC1200内核和WISHBONE片上总线及其特点,最后利用现场可编程门阵列(FPGA)验证了该语音识别SoC设计的可行性.

5.学位论文 费双波 小波去噪算法研究及小波硬件实现 2006

小波去噪是信号处理领域中的热点与前沿课题。噪声的干扰将会严重影响信号和图像的质量,致使产生后续处理的困难,如在特征提取、信号检测、语音识别等领域中,噪声的干扰会引起处理结果的偏差甚至错误。

近年来,小波理论得到了非常迅速的发展。小波分析是目前国际上公认的信号信息获取与处理领域的高新技术,是多学科关注的热点,是信号处理的前沿课题。由于小波变换具有低熵性、多分辨性、去相关性、选基灵活性等特性,使它成为在信号去噪领域内的有力工具。

本文在Donoho提出的小波阈值萎缩的基础上,以加性高斯噪声假设为前提,构造了一种新的无限阶连续可导函数,并以此阈值函数,基于suRE无偏估计,提出了一种自适应小波阈值去噪算法;又将NeighShrink阈值去噪方法进行扩展并结合相关去噪方法,提出了一种层内.层间混合模型的小波去噪算法;在非高斯噪声假设的前提下,以Laplacian和Gaussian分布混合模型对非高斯噪声进行建模,对信号的三阶、四阶统计量进行观察与分析,并进行直方图统计,提出了一种新的阈值去噪方法;最后,本文基于NiosⅡ软核处理器以及FPGA完成了小波变换的硬件实现,由此可以直接对以上算法进行硬件仿真。

6.学位论文 范炳远 基于协方差斜格法的语音信号特征参数的提取及其FPGA实现 2007

随着语音技术应用的发展,语音信号数字处理的实时性要求越来越突出。这就要求在系统设计中,对系统的硬件环境要求更高。随着语音处理算法的日益复杂,用普通处理器对语音信号进行实时处理,已经不能满足需要。专用语音信号处理芯片能解决实时性的要求,同时对器件的资源要求也是最低的。

论文利用Altera公司的新一代可编程逻辑器件在数字信号处理领域的优势,对语音信号的常用参数—LPC(线性预测编码,Linear Predictive

Coding)参数提取的FPGA(现场可编程门阵列,Field Programmable Gate Array)实现进行了深入研究。论文首先对语音的离散数学模型和短时平稳特性进行了分析,深入讨论了语音线性预测技术。第二,对解线性预测方程组的自相关法和协方差斜格法进行了比较,提出了一种基于协方差斜格法的LPC参数提取系统的总体设计方案。第三,对Altera公司的Cyclon系列可编程器件的内部结构进行了研究,分析了在QuartusⅡ开发平台上进行FPGA设计的流程。第四,对系统的各个功能模块进行了设计,所有算法通过Verilog硬件描述语言实现,并对其工作过程进行了详细的分析。最后,在Altera FPGA目标芯片EP1C6Q240C8上,对LPC参数提取系统进行了仿真验证。

系统具有灵活的输入输出接口,能方便地同其它语音处理模块相连,构成一个完整的语音处理专用芯片,可以应用于语音编解码、语音识别等系统。

7.学位论文 谢秋云 基于FPGA的语音识别技术研究 2007

许多已有的语音识别系统都是基于计算机软件的。但现在很多应用却要求体积压缩,方便携带和低功耗。所以基于集成电路的语音识别专用芯片有广阔的发展空间。当前语音芯片都采用以DSP为核心的结构,费用高,设计缺乏灵活性,很难进一步提高处理性能。FPGA(Field-Programmable GateArray,现场可编程门阵列)具有功耗低、体积小、集成度高、速度快、开发周期短、费用低、用户可定义功能及可重复编程和擦写等许多优点,可以实现高性能并行算法。

本文主要研究的就是用FPGA来实现语音识别算法。主要工作包括:

研究并实践了数字处理算法的多种FPGA设计方法--VLSI结构的设计方法;硬件DSP的Matlab建模设计方法;IP核设计方法等。运用这些方法,设计实现了一些基础运算功能的硬件实现,并用于语音识别算法。

语音识别的前端处理及硬件实现。包括预加重,分帧,加窗和端点检测。采用了基于能量变迁的语音的端点检测方法。并在该方法上改进,采用实时分帧,不但能够实现实时的端点检测,还具有一定的抗噪性。

语音特征提取及其硬件设计。采用Mel频标倒谱参数(Mel FrequencyCepstrum Coefficient,MFCC),充分模拟了人的听觉特性,具有较高的识别性能和抗噪能力。该参数计算主要包括快速傅立叶变换(FFT)、三角滤波、取对数和离散余弦变换(DCT)等过程。本文在每个过程的硬件结构上都进行了巧妙的设计,提高了速度和效率:FFT中针对实数的FFT做了硬件结构的改进减少了FFT点数,使速度提高了约40%;三角滤波器将其中心频率转化为频谱中对应点,提高了运算效率;取对数中用了查表和线性插值结合的方法,提高了精度。最后提出了三级流水计算MFCC参数的硬件结构,进一步加快了MFCC参数计算。矢量量化硬件设计中采用与最小值比较的方法来提高码本的搜索速度。

Viterbi识别算法及其硬件实现。采用隐马尔可夫(HMM)来进行声音建模和匹配。HMM在计算量和存储量上被认为是最有效的方法。在Viterbi识别中,对传统的Viterbi算法公式做了改进,进行了剪枝,使搜索速率大大提高,采用了4个ACS并行处理,简化了电路,提高了识别速度。

8.学位论文 孙学 基于FPGA实现可扩展高速FFT处理器的研究 2004

DFT(离散傅立叶变换)作为将信号从时域转换到频域的基本运算,在各种数字信号处理中起着核心作用<'[1,2]>,其快速算法FFT(快速傅立叶变换)在无线通信、语音识别、图像处理和频谱分析等领域有着广泛的应用.特别是随着OFDM(正交频分复用)技术的出现,不同OFDM系统需要不同变换点数的FFT运算,如何更快速、更灵活地实现FFT变得越来越重要.本文提出了基于FPGA(现场可编程门阵列)实现傅立叶变换点数可灵活扩展的高速FFT处理器的结构设计以及各功能模块的算法实现,包括高组合数FFT算法能按流水线方式工作的FFT级联实现结构、级间混序RAM读/写地址规律及其地址发生器的设计、补码实现的短点数FFT阵列处理结构以及补码实现的可用于不同级间完成数据相位旋转而又具有相同流水线结构的CORDIC(坐标旋转数字计算机)处理器等;实现了具有流水线处理能力的高速FFT处理器及其功能验证平台.

9.学位论文 王杰 语音信号LPC参数提取的FPGA实现 2005

随着语音技术应用的发展,越来越多的语音信号数字处理系统需要按照实时方式或在线方式工作。特别在嵌入式系统设计中,对系统的硬件环境要求更高。随着语音处理算法的日益复杂,用普通处理器对语音信号进行实时处理,已显得力不从心。专用语音信号处理芯片由于能解决语音信号处理并行性和速度的问题,在语音信号处理系统的应用上尤为重要。

论文利用Altera公司的新一代可编程逻辑器件在数字信号处理领域的优势,对语音信号的常用参数-LPC(线性预测编码)参数提取的FPGA(现场可编程门阵列)实现进行了深入研究。论文首先对语音的离散数字模型和短时平稳特性进行了分析,深入讨论了语音线性预测技术。第二,对Altera公司的Stratix系列可编程器件的内部结构进行了研究,分析了在QuartusⅡ开发平台上进行FPGA设计的流程。第三,对解LPC正则方程的格形算法、德宾递推算法和舒尔递推算法的硬件实现进行了比较,提出了一种基于舒尔递推算法的LPC参数提取系统的总体方案。第四,对系统的自关函数和舒尔递推两个功能模块进行了设计和实现,并对其工作过程进行了详细的分析。第五,针对系统所使用的除法运算都是商小于1的特点,设计并实现了一个系统专用的除法器模块。最后,在AlteraFPGA目标芯片EP1S25F1020C上,对LPC参数提取系统进行了仿真验证。

系统除具有处理速度快的特点外,还具有灵活的输入输出接口。系统能方便地同其它语音处理模块相连,构成一个完整的语音处理片上系统,以应用于语音编解码、语音识别等系统。

10.期刊论文 李彬.贺前华.齐凡.LI Bin.HE Qianhua.QI Fan 基于OpenRISC1200的孤立词识别系统设计与实现 -电子工程师2006,32(11)

介绍了一个基于32位0penRISC1200开放源码微处理器内核的小词汇量孤立词语音识别系统结构.根据软硬件协同设计方法,研究和比较了孤立词语音

FPGA和NiosⅡ软核的语音识别系统的研究

识别各个环节的计算量,合理分配软硬件资源,并提出一种适合FPGA(现场可编程门阵列)实现的动态时间规正硬件实现思路,大大缩短识别响应时间.该系统在成本和知识产权方面都较市场上流行的ARM、8051等内核有优势.实验结果表明,在特定场合下,该系统对于100个词组的平均识别响应时间少于2 s,特定人识别率95%以上,非特定人识别率87%以上.

本文链接:http://www.77cn.com.cn/Periodical_jsjgcyyy201002019.aspx

授权使用:沈阳理工大学(sylgdx),授权号:3ca76a3f-4a06-42ea-aa4f-9da1011b685b,下载时间:2010年6月

26日

本文来源:https://www.bwwdw.com/article/0n0j.html

Top