10116xx37周项勇-基于BP神经网络的语音识别系统-毕业设计论文

更新时间:2024-05-05 04:17:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

基于BP神经网络的语音识别系统

摘要

随着计算机技术与人工智能的快速发展与广泛应用,语音识别越来越受到人们的关注和重视。目前常见的语音识别技术主要包括,基于矢量量化(Vector Quantization, VQ)的识别技术、动态时间规整(Dynamic Time Warping, DTW)、隐马尔可夫模型(Hidden Markov Models, HMM)、人工神经网络(Artificial Neural Network, ANN)等等。

本文讨论了语音信号的处理技术,包括语音信号预处理、信号特征提取,分析论述了BP神经网络模型思想。在Matlab 7.0环境实现了语音信号的预加重、分帧加窗、端点检测等基本信号处理过程,提取出线性预测分析系数(Linear Prediction Coding, LPC)、Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient, MFCC)等特征数据。

针对语音识别,设计了三层的BP神经网络,对影响神经网络的关键参数进行了分析和调整。从统计角度上,分析对比了LPC和MFCC特征参数对应的BP神经网络的语音识别性能。

关键词:语音识别;神经网络;特征提取;语音信号处理;非稳定随机信号

I

洛阳师范学院2012届本科生毕业设计

Abstract

With speedy development and comprehensive application of computer technology and artificial intelligence, people began to focus on speech recognition. Up to now, there have been several speech recognition technologies being familiar by us, including Vector Quantization, Dynamic Time Warping, Hidden Markov Models, Artificial Neural Network, and so on.

This paper would go into details about some processing technologies of speech signal, including pre-process of speech signal and feature extraction, would relate and analyze the principle of the model of feedforward neural network based on back-propagation algorithm (BPNN). In Matlab2007 environment, those experiments have implemented some basic operation of signal processing, such as pre-emphasis, enframing, windowing and endpoint checking of speech signal, extracted corresponding Linear Prediction Coding Coefficient (LPC) and Mel Frequency Cepstrum Coefficient (MFCC) from speech’s data, and constructed BP neural network.

A endpoint checking algorithm having good performance is given in the paper. In the process, all the parameters are analyzed and setted properly in order to fetch the actual speech segment from the original speech accurately. A three-layer BPNN is designed for speech recognition system; the critical parameters of BPNN is studied. Statistically, it compares LPC’s BPNN with MFCC’s BPNN on the speech recognition ability. In the end, a strategy of reducing similar frame is proposed to solve the problem of the non-stationary of speech’s times. It also reduces the calculated amount of speech recognition system at the same time.

Keywords: Speech Recognition; Neural Network; Feature Extraction; Speech Signal Processing; Non-stationary Stochastic Signal

II

基于BP神经网络的语音识别系统

目录

第1章 绪论................................................................................................................... 1 1.1语音识别概述....................................................................................................... 1 1.2语音识别的发展................................................................................................... 1 1.2.1 语音识别的研究历史................................................................................... 1 1.2.2 语音识别的应用现状................................................................................... 2 1.3语音识别的主要技术........................................................................................... 4 1.3.1 基于矢量量化的语音识别........................................................................... 4 1.3.2 动态时间弯曲的语音识别........................................................................... 4 1.3.3 隐马尔科夫模型语音识别........................................................................... 5 1.3.4 基于神经网络的语音识别........................................................................... 6 1.4 语音识别的基本原理.......................................................................................... 6 第2章 语音信号预处理............................................................................................... 8 2.1预加重................................................................................................................... 8 2.2分帧加窗............................................................................................................. 10 2.3 端点检测............................................................................................................ 12 第3章 语音信号特征提取......................................................................................... 19 3.1线性预测系数..................................................................................................... 19 3.1.1 线性预测分析思想..................................................................................... 19 3.1.2 线性预测分析原理..................................................................................... 20 3.1.3 线性预测方程组的求解............................................................................. 21 3.2 MEL频率倒谱系数(MFCC) ........................................................................ 22 3.2.1 MEL频率倒谱分析原理 ............................................................................ 22 3.2.2 MEL频率倒谱的实现 ................................................................................ 23 第4章 神经网络模型分析......................................................................................... 25 4.1 神经网络基本模型............................................................................................ 25 4.1.1 神经元结构模型......................................................................................... 25 4.1.2 神经网络互连模式..................................................................................... 26 4.1.3 神经网络的学习方式................................................................................. 27 4.2 BP神经网络基本模型....................................................................................... 27 4.2.1 BP神经网络结构分析................................................................................ 27 4.2.2 BP神经网络学习规则................................................................................ 28 4.2.3 传递函数..................................................................................................... 30 第5章 语音识别系统的实现与分析......................................................................... 32

III

洛阳师范学院2012届本科生毕业设计

5.1语音识别系统前端............................................................................................. 32 5.1.1 语音库......................................................................................................... 32 5.1.2 实验环境..................................................................................................... 32 5.1.3 前端参数..................................................................................................... 32 5.2 BP神经网络实现与分析................................................................................... 34 5.2.1 BPNN的Matlab函数................................................................................. 34 5.2.2 BPNN的层次设计 ...................................................................................... 35 5.2.3 参数分析..................................................................................................... 35 5.2.4 LPC与MFCC效果分析 ............................................................................ 37 第6章 总结和展望..................................................................................................... 39 6.1主要工作总结..................................................................................................... 39 6.2展望..................................................................................................................... 39 参考文献....................................................................................................................... 41 致谢............................................................................................................................... 42

IV

基于BP神经网络的语音识别系统

第1章 绪论

1.1语音识别概述

语言是人类相互间传达信息的最重要工具,它方便快捷有效。随着现代计算机技术的发展与广泛应用,人们越来越希望计算机不只是能理解和执行程序语言,也能理解人类自然语言,与人类进行沟通。早期根据语音只能模拟出连续变化的电压信号,并采用模拟电路进行传输和处理。数字技术的发展,使得对连续变化的信号可以进行采样量化。高效低耗的数字传输和处理技术促进了信号处理的快速发展,语音识别技术就是基于离散时间语音信号处理的。从20世纪中期起,开始有许多的科学工作者投身语音信号技术研究:语音识别、语音合成、语音编码等等。

语音识别(Speech Recognition)是指,计算机从人类获取语音信息,对语音信息进行分析处理,准确地识别该语音信息的内容、含义,并对语音信息响应的过程。语音识别是一门新兴学科,它与许多领域有着密切联系,其中包括数字信号处理、模式识别、人工智能、统计信息理论、语言学、声学、心理学等。语音识别与这些领域是相辅相成的。

语音识别一般可以分成以下类别:按说话人的说话方式,分为孤立词语识别系统、连接词语识别系统和连续语音识别系统;按对说话人的依赖程度,分为特定人语音识别系统和非特定人语音识别系统;根据词汇量的大小,分为小、中、大词汇量语音识别系统;根据通信方式,分为麦克风语音识别和电话语音识别系统;也有可识别说话人语言情感的系统等等。

语音信号具有非稳定随机特性,这使得语音识别的难度大。目前人类甚至仍没有完全理解自身听觉神经系统的构造与原理,那么要求计算机能像人类一样地识别语音信号很有挑战性。语音信号包含的信号量大,即使部分信号是无意义的噪声,因而处理信号时计算量大,不利于实时处理。

1.2语音识别的发展

1.2.1 语音识别的研究历史

对语音识别的研究始于20世纪50年代。1952年贝尔实验室Davis等人研制了特定说话人孤立数字识别系统。该系统利用每个数字元音部分的频谱特征进行识别。1956年普林斯顿大学的RCA实验室使用滤波器组获得频谱的方法开发了单音节词识别系统。MIT 林肯实验室也采用滤波器组获得频谱信息,同时采用时变估计技术对元音进行识别。

20世纪60年代,日本许多学者使用特殊硬件来进行语音识别。东京无线电研

1

洛阳师范学院2012届本科生毕业设计

究中心在语音识别中采用了对频谱进行对数分析的方法,Sakai等则提出了过零率的分析方法。RCA实验室此时解决了语音在时间标尺上的非均匀问题。前苏联Vintsvuk首次将动态规划算法应用于语音对准问题,可以认为是后来的DTW算法的基础。Reddy尝试用动态跟踪音素的方法对连续语音进行识别。

到20世纪70年代,孤立词的语音识别有了突破性发展。日本学者Sakoe基于动态规划方法提出了DTW算法。DTW算法是把时间归正和距离测度计算结合起来的一种非线性归正技术。Itakura将应用于语音编码的线性预测编码(Linear Predictive Coding, LPC)引入语音识别中。此时期,IBM等研究机构开展了在连续语音识别方面的研究,Bell实验室也对非特定人语音识别进行了相关研究。

70年代末80年代初,Gray等人提出了矢量量化(Vector Quantization)技术,并将它应用到了语音识别、语音编码等方面。80年代语音识别方面很重要的进展,是隐马尔可夫模型(Hidden Markov Model, HMM)在语音识别上被Rabiner等人系统介绍之后得到广泛的响应。可以说,HMM标志着学者们的探索开始从模式匹配技术转向基于统计模型的技术,尝试从整体统计的角度来构建语音识别系统。目前,HMM仍为语音识别研究的主流技术。卡内基.梅隆大学使用VQ和HMM开发出了SPHINX系统,这是第一个非特定人、大词汇量、连续语音的识别系统,经过多次改进获得了较好的效果。

90年代以后,随着信息技术的快速发展,通讯手段的多样化,语音识别的研究热度越来越高。语音识别的研究工作在模型设计、特征参数提取、系统自适应等方面有了突出的进展。针对贝叶斯网络、人工神经网络的研究十分活跃,它们也被引入到语音识别的研究中。动态贝叶斯网络可以看作HMM的一种发展,它可以描述语音信号的动态特性,自适应地满足语音识别的要求。而人工神经网络在模式分类方面有较好的表现。

1.2.2 语音识别的应用现状

21世纪的信息技术发展日新月异,多媒体技术广泛应用到实际生活中,人机交互市场需求和语音识别技术的发展,促使语音识别系统从实验室走向实际应用。许多国家如美国、日本等,许多著名公司如微软、IBM、Intel、AT&T等为语音识别系统的应用研究投入巨资。IBM的Via Voice,Dragon System的Naturally Speaking,Nuance公司的Nuance Voice Platform,Microsoft的Whisper以及Sun的Voice Tone等都是具有代表性的语音识别系统。

语音识别的市场前景广阔,目前已经陆续应用到一些领域。语音识别技术,直接的应用是计算机将输入的语音信息进行处理,并转换成相应的命令或者文本。声控应用是指,计算机根据输入的语音,识别出其中的内容含义,并执行相应的动作。

2

基于BP神经网络的语音识别系统

这可以被运用到声控机器人、智能数字家庭、公共服务系统、信息网络查询、银行服务、工业控制等领域。目前最常见的有移动电话的语音拨号功能,用户可以通过语音输入要拨打的电话号码或者接收方的姓名,实现拨号。随着计算机技术的发展,各种移动设备日益增多。而语音识别能满足用户行走、开车时方便有效地与设备交互,类似于此的便捷性将成为语音识别研究进展的强大推力。当前互联网已经成为人们生活中不可或缺的一部分。可以想象,将语音识别应用到网站网页中,用户可以通过语音导航来浏览网页,该多方便。语音识别可以将语音转换成文本实现文字输入,当然提高这种输入方式的速度要求识别系统能对连续语音有很好的识别效果。Microsoft推出的Window Vista系统中含有语音识别的附件,可供用户初步体验语音到文本的转换。

语音翻译先进研究联盟(CSTAR)致力于口语翻译,结合语音识别、机器翻译和语音合成等技术,解决世界多语言的沟通问题。语音识别中说话人识别技术也别开生面,可以应用到信息安全相关领域,如网络传输加密、银行电话查询系统、家庭防盗系统等。传统的网络信息检索技术是基于文本搜索的,而随着网络技术的发展,基于语音信息检索的搜索引擎浮出水面。2008年,Google推出了语音检索服务GAUDI(Google Audio Indexing)。GAUDI可以根据语音内容对政治讲演视频进行检索。音频信息检索可以分为几个方面:基于语音内容的检索,如电视节目、采访录音、会议视频等;非语音音频检索,如动物声音、飞行物噪声等;音乐检索,如使用乐器音色、音乐节拍等检索。

语音信息在网络通路上被分割压缩成数据包进行传送。在网络环境下,对语音数据包进行获取、识别,也是一个有趣课题,它可以应用到电子商务、军事侦测等领域。鉴于世界语言的多样化,语音的语种识别也成为一个研究方向。语言因素集合、韵律特点、音节结构、语法语义等都可以成为供语种识别使用的语音特征。

近年来,随着中国市场需求的发展,汉语语音识别越来越来受到重视。IBM、Microsoft、DRAGON等公司相继设立了汉语语音识别研究机构。由于汉语语音的自身特点和使用的范围广,汉语语音识别逐渐成为学界的一个研究方向。上文提到的IBM的Via Voice就是汉语连续语音识别系统,经过改进后它具有较高的识别率和自学习功能。Microsoft在中国设立微软亚洲研究院,也将语音识别作为一项重点研究项目。

总的来说,随着计算机技术的发展与多媒体的广泛应用,仍未成熟的语音识别技术拥有相当大的研究空间和发展前景;语音识别也将会随着技术的进步,逐渐进入人们的生活,为我们提供便利。

3

洛阳师范学院2012届本科生毕业设计

1.3语音识别的主要技术

1.3.1 基于矢量量化的语音识别

矢量量化(Vector Quantization, VQ)是一种量化方法,它以R个采样值为单位组成一个R维矢量,并将矢量映射到R维的空间,必然落在某个子空间里;它的量化取值就是该子空间的中心矢量值。

基于矢量量化的语音识别的思想:假设共有M个语音需要识别,对语音进行R维的矢量量化,那么识别系统需要将R维空间划分为M个子空间。这个划分过程,是通过输入大量的语音样本信号矢量,识别系统对这些样本矢量进行分析统计,不断减小矢量在系统中的距离误差来实现的。语音识别时,则计算测试样本矢量落在哪个子空间,即可判断出语音属于哪个类别。每个子空间对应的中心矢量值称为码本,空间的一种划分方法就是码本的集合。

语音识别中常见的矢量量化方法有无时间归正的矢量量化和有记忆矢量量化。语音的识别过程如图1-1所示:

码本1测试样本码本2求最小值语音类别码本M

图 1-1 基于矢量量化的语音识别过程

1.3.2 动态时间弯曲的语音识别

语音信号是非稳定的随机信号,而且具有时序性。即使是同一个说话人说同一个词语,每次语音中的音素发音时间以及语音的总时间也不会完全相同。因此语音识别中将语音特征序列输入与语音特征序列模板进行匹配时,需要在时间轴上对语音特征序列进行处理,以解决同类语音因为时间持续长短的不同而带来的偏差。

动态时间弯曲(Dynamic Time Warping, DTW)是把时间弯曲和距离测度结合起来的一种非线性匹配技术。DTW基于动态规划技术(Dynamic Programming, DP),将

4

基于BP神经网络的语音识别系统

模板匹配过程的优化问题分解成许多优化子问题,寻求两个特征序列的时间点的映射关系,使得所有映射点对的平均距离误差最小。

y J (1, 1) I x

图1-2 基于动态时间弯曲的模板匹配

图1-2描述的是测试语音与模板在时间上的映射的情况。x轴表示测试语音样本特征序列的时间点,y轴表示识别系统参考模板特征序列的时间点,两者的取值范围不一定相同。动态时间弯曲是找到图上所示的从起点到终点的路径。

1.3.3 隐马尔科夫模型语音识别

隐马尔可夫模型(Hidden Markov Models, HMM)是语音信号处理的一种概率统计模型,它是由马尔可夫链变化而来的。

马尔可夫链的基本原理可以描述为:马尔可夫链是一个状态和时间都离散的随机过程。设一随机序列为X,t时刻它处在而且仅处在N个状态中的一个。从t到t+1时刻,X从一个状态到另个状态都有一个概率,称为状态转移概率。那么对于所有状态,这个马尔可夫链有个N×N的状态转移概率矩阵A。如果用大量数据对马尔可夫链进行训练,求出概率矩阵A,便可以使用A来进行状态预测,即对输入的测试数据输出下一个可能状态。

语音输入马尔可夫链A状态序列随机过程B观察值

图1-3 隐马尔可夫模型的语音识别过程

如图1-3,HMM可看作是双重的随机过程,A是马尔可夫链,描述状态的转移;而B则描述状态和状态转移同观察值的统计关系。隐含的状态表示语音中相对稳定的音段,那么状态的转移则反映了语音的变化情况;观察值表示语音的类别,它是从状态转移序列导出的。HMM既能描述语音信号特征的动态变化,又能很好的描述

5

洛阳师范学院2012届本科生毕业设计

语音特征统计分布,并且可以应用到连续语音识别。它不需要类似于DTW的方法进行语音信号的时间对齐。

1.3.4 基于神经网络的语音识别

人工神经网络(Artificial Neural Network, ANN)是模拟人脑组织结构和思维过程的非线性动力系统,它主要由神经元、学习训练算法和网络结构等要素描述。进行语音识别时,神经网络需要先经过一个训练过程,网络在此过程中不断地接受模式集合和每个特定模式所属类别这些信息的输入;完成训练的神经网络可以根据测试数据中提取的信息识别特定模式所属的类别。本质上,神经网络的语音识别是基于统计特性的,所有模式可以映射到多维空间中的区域,而判定边界由神经网络训练过程决定。如图1-4。

图1-4 基于神经网络的语音识别过程

语音数据

特征向量

特征提取 监督网络进行分析 m维 观察 空间 q维 特征 空间 r维 模式空间

到目前为止,用于语音识别的常见神经网络有反传网络(Back Propagation, BP)、自适应谐振理论和自组织特征映射网络(Self-Organizing Feature Map)等。

1.4 语音识别的基本原理

图1-5描述了语音识别系统的基本原理。由于语音信号的复杂性,对于语音输入语音识别系统需要先进行预处理,对信号进行适当放大和增益控制,按一定格式

6

洛阳师范学院2012届本科生毕业设计

2.3 端点检测

语音信号的端点检测是预处理中的重要步骤,它实现从语音信号序列中截取实际有效的语音信号。端点检测不仅能使识别系统处理时间减少,而且有利于消除无声段的噪声干扰。端点检测中通常使用短时过零率、平均能量等度量参考量。

1.短时平均过零率

平均过零率考察的是语音信号在时域上的波形穿过时间轴的情况。对于离散的语音数据,短时平均过零率实质上指的是在固定时间段里采样值的符号变化次数。其计算公式为:

m??N11ZCR??|sign[X()n]?sign[X(n?1)]| (2-4) 2n?m语音的浊音是由声带振动与声腔调节结合而产生的;清音是气流受阻塞时的类白噪声信号,声带不振动。浊音的能量主要集中在低频部分,而清音的主要集中在高频部分。相对地,清音的短时平均过零率高,浊音的低。于是,使用短时平均过零率可以判断清浊音的起止点。

为了增强平均过零率的抗干扰能力,消除随机噪声的影响,可以在求过零率过程中设置阀值T,由式子(2.4)得到式子(2.5)。图2-5描述了数字“5”语音信号的短时平均过零率的变化情况:(a)不设置阀值时平均过零率受噪音影响严重;(b)设置阀值T=0.3,此时平均过零率能更准确地表征实际语音的开始点和结束点。

mN??11ZCR??|signXn[()?T]?signXn[(?1)?T]|?2n?m (2-5)

?|signXn[()?T]?signXn[(?1)?T]|?2.短时能量分析与短时平均幅度

语音信号的能量大小随时间变化。相对地,清音的能量小,浊音的能量大,而随机噪声大多时候能量是较小的,也有短时能量突发的噪声。设经过分帧加窗处理后的语音信号为X(n),则第i帧语音信号的短时能量为:

m?N?1Ei??n?mX(n)2 (2-6)

为了简化计算,避免高低信号平方运算后导致差距变大的情况,可以采用短时平均幅度来描述信号能量的变化。短时平均幅度为:

m?N?1Mi??n?m|X(n)| (2-7)

12

基于BP神经网络的语音识别系统

以上两个度量可以用来区分语音信号中的清音和浊音,因为后者的能量比前者要大得多,也可以用来区分有声段和无声段。可以结合短时平均过零率,对语音信号进行端点检测。在背景噪声较小时,短时平均能量或幅度的分辨能力较好;在背景噪声较大时,短时平均过零率的分辨能力较好。数字“5”语音信号的短时平均幅度变化如图2-6。

300250200平均过零率150100500100200300400500600700语音帧

(a) 无阀值的过零率计算方法

18161412平均过零率1086420100200300400500600700语音帧

(b) 有阀值的过零率计算方法

图2-5 语音信号短时平均过零率的变化情况(数字5)

实现代码:

% 过零率,采用双门限短时过零率方法 % threshold 门限值 %-------------------

13

洛阳师范学院2012届本科生毕业设计

function [rate]=zerocrossRate(data,threshold) %-----testing-----

% data=[1 5 6 2 -1 -5 -6 0]; % size=8;

% threshold=3; %------------- n=length(data);

y1=sign(data-threshold); y1=abs(y1(2:n)-y1(1:n-1))/2;

y2=sign(data+threshold); y2=abs(y2(2:n)-y2(1:n-1))/2;

rate=zeros(1,n); rate(2:n)=y1+y2;

rate=hammingWindow(rate); rate=sum(rate);

706050平均幅度403020100100200300400500600700语音帧

图2-6 语音信号短时平均幅度的变化情况(数字5)

实现代码如下:

% 短时平均幅值

%----------------------------

function [amplitude]=averageAmplitude(data) %-------测试------

14

基于BP神经网络的语音识别系统

% data=ones(1,10);

%---------------------- y=hammingWindow(data); y=abs(y);

amplitude=sum(y); 3.端点检测算法

图2-7描述了对语音信号进行端点检测的具体过程。端点检测过程中,使用了低幅度阀值、高幅度阀值、过零率阀值和持续时间阀值这几个参考量。低幅度阀值,是指数值上较小的幅度水平;高幅度阀值则是数值上较大的。过零率阀值,取较小的值。若语音信号的短时平均幅度高于低幅度阀值,或者短时平均过零率高于过零率阀值,则认为实际的语音可能开始,即标识当前帧为可能起始点。当语音信号的幅度高于高幅度阀值时,则表示实际语音已经开始。最短持续时间,是指持续时间大于该数值的语音段才被认为是实际语音段,即短时间的突发信号会被忽略。一旦语音信号的短时平均幅度低于低幅度阀值,且平均过零率低于过零率阀值,同时语音起始点到当前帧的时间大于持续时间阀值,那么当前帧便是语音段的结束点。图2-8显示了语音端点检测的效果。

15

洛阳师范学院2012届本科生毕业设计

开始初始化还有语音帧是取下一帧语音,计算过零率A和幅度B语音可能起始点是否记录否否A>过零率或者B>低幅度阀值是是记录可能起始点否语音是否开始是否A<过零率并且B<低幅度阀值A<过零率并且B<低幅度阀值是B>高幅度阀值语音可能起始点为假,需重新选取是否标志语音开始判定之前信号为噪声,重新选取起始点记录语音结束点起始点到当前帧<时间阀值否否否是是取出语音段结束

图2-7 语音端点检测过程

16

基于BP神经网络的语音识别系统

端点检测前10.5幅度0-0.5-1123456x 104采样点

(a) 端点检测前的语音信号

端点检测后10.5幅值0-0.5-10.20.40.60.811.21.41.61.82x 104采样点

(b) 端点检测后的语音信号

图2-8 数字1语音的端点检测效果

相应实现代码如下:

% 端点检测 % input:

% LApt 低幅值阀值 % HApt 高幅值阀值 % Lacr 过零率阀值 % Ltime 持续时间阀值 % output parameters:

% bp the index of the first frame of speech % ep the index of the last frame of speech %---------------------------------------

function [dataleft,bp,ep]=endpointCheck(data,LApt,HApt,Lacr,threshold,Ltime) [frameNum,col]=size(data); time=0; isrecord=0; isbegin=0; isrecordep=0; bp=0;

17

洛阳师范学院2012届本科生毕业设计

ep=0;

tempbp=0; tempep=0;

for k=1:frameNum

a=averageAmplitude(data(k,:));

b=zerocrossRate(data(k,:),threshold); if isrecord==0 & (a>LApt | b>Lacr) tempbp=k; isrecord=1; continue; end

if isrecord==1

if isbegin==0

if a

if a>HApt

bp=tempbp; isbegin=1; end

else %语音开始

if a

isrecord=0;%判断之前的信号为突发的噪音,继续检测下一帧

isbegin=0; continue; else

if isrecordep==0

tempep=k; %语音可能的结束点

isrecordep=1; end end end

if isrecordep==1 & a>HApt & k-tempep>Ltime %之前记录的可能结束点是假的

isrecordep=0; end end end end

ep=tempep;

dataleft=data(bp:ep,:);

18

基于BP神经网络的语音识别系统

第3章 语音信号特征提取

许多现代语音识别系统一般由初始信号处理前端和具有统计性质的模式匹配构成。这些前端用来将语音波形变换成随时间变化的特征向量序列。根据这些特征向量序列,模式匹配能表征出声音信号中的因素、音节、词语、短语甚至是句子[18]。

语音信号的特征提取是语音识别系统中的一个关键步骤,系统能对语音加以区别便是基于语音信号的特征的不同。语音特征参数的提取针对分帧后的数据进行,每帧特征参数构成一个矢量序列。必要时,对这些特征参数序列进行压缩,成为所需要的语音模式,供训练阶段或者识别阶段使用。

语音特征参数主要有两大类:基于发声系统模型导出的特征参数和基于听觉系统模型导出的特征参数。线性预测分析属于前者,而Mel频率倒谱系统属于后者。

3.1线性预测系数

3.1.1 线性预测分析思想

语音采样之间存在相关性,一个语音的采样能用过去的若干个语音采样的线性组合来逼近。以原始语音信号与拟合后的信号序列之间的最小均方误差最小为优化目标,求解一组预测系数。这组预测系数就是线性组合中所使用的加权系数。它在此作用不在于预测,更重要的是它能反映语音信号的特性。在短时分析技术的背景下,这一组预测系数描述了说话人瞬时的声道状态。

线性预测编码(Linear Prediction Coding)分析,将语音信号s(n)看作是一个输入序列u(n)激励一个全极点滤波器而产生的输出。图3-1描述了语音信号产生的模型。

u(n) 全极点滤波器s(n)

图3-1 语音信号产生模型

该滤波器的传递函数为:

H(z)?Gp1??ap(k)zk?1?k (3-1)

其中,p是极点个数,即预测系数的个数;{ap(k)}是唯一确定该模型的预测系

19

洛阳师范学院2012届本科生毕业设计

数;G是增益常数。语音中的浊音可以通过使用周期等于音调周期的冲击串激励这个全极点滤波器模型来产生;清音可以通过使用随机噪声激励这个全极点滤波器模型来产生。

3.1.2 线性预测分析原理

在时域上,这个全极点滤波器模型的语音输出由过去的p个语音样本来确定,那么这个线性预测滤波器输出为:

ps(n)??ap(k)s(n?k) (3-2)

k?1那么线性预测模型的预测误差为:

pe()n?s()n?s()n?s()n?a()(ksn?k)?p (3-3)

k?1对于一帧语音信号,短时预测均方误差为:

2??e()n?[()sn?ak()(sn?k)] (3-4) ???p2n?1n?1k?1NNp线性预测分析模型主要由系数{ap(k)}构造而成,在最小均方误差的意义上对语音数据进行拟合,即估计出一组p阶的预测系数{ap(k)},使得?尽可能趋向于零。

?/?ak()?0,k?1,2...p在?的最小值处,需要满足?。于是,将?对每个预测p系数求偏导数得:

?/?a(k)??[2(sn)s(n?k)?2a(k)s(n?k)s(n?i)],k?1,2...p(3-5) ??pp?n?1i?1n?1?NpN

令式子右边等于零,得线性方程组:

NppNs(n)s(n??k)??a(k)s(n?k)s(n?i),k?1,2...p(3-6) ?

n?1i?1n?1定义语音信号的一个自相关函数为:

Nr(i,k)?s(nis?)(nki?),?1,2...p,k?1,2...p?n?1 (3-7)

那么线性方程组式子3.6可写成:

pr(0,k)?a(kri)(,k),k?1,2...p?pi?1 (3-8)

式子3.8是一个由p个方程组成的含有p个未知系数的线性方程组。该方程组的求解过程,便是求解线性预测系数{ap(k)}的过程。

20

基于BP神经网络的语音识别系统

3.1.3 线性预测方程组的求解

根据语音信号分帧加窗的思想,当前语音帧以外的采样数值均为零。由式子3.7得:

N?(k?i)r(i,k)?s(n?ki?)s(n),i?1,2...,pk?1,2...p? (3-9)

n?1定义另一形式的自相关函数:

N?kR(k)?sn(?ksn)(),k?1,2...p? (3-10)

n?1那么式子3.9可以表示为:

N?(k?i)r(i,)k?R(k?i)?s(n?k?i)s(n),i?1,2...,pk?1,2...p? (3-11)

n?1相同的序列间的相对运动,左移与右移是等价的,即自相关函数在整数域上是偶函数,那么有:

R(k?iR)(?i?k)(?R|k?i|),1i?,2...p,k?1,2...p (3-12)

由式子3.8、3.11和3.12得,关于线性预测系数的方程组可表示成:

(0)R(1)?R?R(1)R(0)?????(p?1)R(p?2)?R(1)??R?R(p?1)??a(0)?p????(?2)?R(p?2)aR(1)p?????? (3-13) ??????????????a(p)?R(0)??R(p)?p????Levinson-Durbin算法是求解式子3.13的常用算法之一,其算法过程如下: 1) 计算自相关系数R (k),k?0,1...p2) ?(0)?R(0),i=1 3) 计算:

i?1ki?[R(i)?ai(i)(i)?j?1aj(i?1)R(i?j)]/?(i?1)?ki(i?1)

?kiai?j,1?j?i?12(i?1)(i?1)aj?aj?(i)?(1?ki)?4) 若 i>p, 则结束, 否则返回 3)

(p),i?1,2...p是所求的预测系数。 最后求得的ai 21

洛阳师范学院2012届本科生毕业设计

3.2 MEL频率倒谱系数(MFCC)

3.2.1 MEL频率倒谱分析原理

MEL频率倒谱系数(Mel Frequency Cepstrum Coefficient, MFCC)是将人耳的听觉特性与语音产生机制相结合的一种特征参数。在分析语音上,它具有较高的识别率和较好的噪声鲁棒性,被许多的语音识别系统广泛采用。

耳蜗中的基底膜是人耳语音感知的重要部分,它的一端宽而软,另一端窄而硬。对不同频率的声音基底膜的不同位置会产生不同程度的响应。频率较低时,基底膜的幅度峰值出现在宽而软的一端;随着声音频率的增加,产生峰值的位置向另一端移动。声音频率在基底膜上的分布具有对数特点。

如表3-1所示,这是基于人耳听觉特性的临界带宽的一种划分。临界带宽反映在同一频带内的连续声音,可由功率上相同的纯音等价描述,该纯音一般是该频带的中心频率。这些频带与基底膜有着密切联系。相应地,可以将基底膜分成许多小部分,每一部分对应着一个频带。

耳蜗基底膜的滤波作用在对数频率尺度上进行。Mel频率倒谱分析是类似于此的一组滤波器组。Mel滤波器组的频率特性变化,与临界带宽的变化类似。Mel频率描述了人耳对声音频率感知的非线性关系,表示为:

Mel(f)?2595log(1?f/700) (3-14)

它将人耳对声音频率的感知的对数特性,映射到Mel刻度上均匀特性。 Mel滤波器组定义为:

???a(i)?c(i)?b(i),a(i)???c(i)??b(i)??hi(?)??,c(i)???b(i)(3-15)

?b(i)?c(i)?0,else??其中,i?1,2...M表示Mel滤波器组的序号,M是滤波器个数。a(i)表示第个频带的频率下界;b(i)表示第个频带的频率上界;c(i)表示第个频带的中心频率。

表3-1 临界带宽表

Bark序号 中心频率临界带宽频率下界频率上界(Hz) 1 50 (Hz) 80 22

(Hz) 20 (Hz) 100 基于BP神经网络的语音识别系统

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

150 250 350 450 570 700 840 1000 1170 1370 1600 1850 2150 2500 2900 3400 4000 4800 5800 7000 8500 10500 13500 100 100 100 110 120 140 150 160 190 210 240 280 320 380 450 550 700 900 1100 1300 1800 2500 3500 100 200 300 400 510 630 770 920 1080 1270 1480 1720 2000 2320 2700 3150 3700 4400 5300 6400 7700 9500 12000 200 300 400 510 630 770 920 1080 1270 1480 1720 2000 2320 2700 3150 3700 4400 5300 6400 7700 9500 12000 15500 3.2.2 MEL频率倒谱的实现

图3-2描述了MEL频率倒谱的实现过程,这个过程针对语音中的某一帧。首先需要对语音信号S(n)进行预加重、分帧、加窗,具体细节在第二章讨论了。

23

洛阳师范学院2012届本科生毕业设计

一帧语音预加重、分帧、加窗短时傅立叶变换得到频谱,求频谱平方信号能量谱用M个Mel滤波器滤波,对能M个频带功率量谱在每个频带的分量求和求M个频带功率对数,在作离散余弦变换L个MFCC系数

图3-2 Mel频率倒谱的实现过程

对预处理后的语音信号进行短时傅立叶变换,得到语音信号频谱f(?):

nf(?)??S(ne)?j? (3-16)

n????然后,用频谱平方直接求出语音信号的能量谱:

p(?)?|f(?)|2 (3-17)

使用M个Mel带通滤波器进行滤波。对于第个滤波器,语音信号的能量谱的各个频率在该滤波器上都有分量,将这些分量求和,便是该滤波器的输出。显然,总共有M个这样的滤波器输出x,分别代表各个Mel频带的功率。a(i)表示第个频带的频率下界;b(i)表示第个频带的上界。

bi()xi???a(i)(?)h?),1?i?Mi(?p (3-18)

先对M个滤波器输出求对数,得到相应的对数功率谱;再进行离散余弦变换,得到L个Mel频率倒谱系数

c。

Mi?1 (3-19) clogcxs[(?i?0.5)/jM],j?1,2...L?j?io

24

基于BP神经网络的语音识别系统

第4章 神经网络模型分析

4.1 神经网络基本模型

人工神经网络(Artificial Neural Networks, ANN)是由大量结构简单的神经元相互连接,模拟人类大脑神经系统处理信息的方式,对输入信息进行并行处理和非线性映射的网络系统。神经网络的信息处理通过神经元的相互作用来实现,具体表现为网络中神经元互相连接的强度系数。这些连接权值反映了神经元间的依赖程度关系,它们形成的权值矩阵统一决定了神经网络对知识和信息的学习结果。

4.1.1 神经元结构模型

人类大脑以神经元为基本元素,亿万个神经元紧密相连形成神经网络。信息在大脑中的传递,在细节上通过神经元与神经元之间的突触传递完成。突触传递的结果由膜电位变化来描述。上一个神经元传递过来的电脉冲信号,使得膜电位上升或者下降,前者称为兴奋性突触传递,后者称为抑制性传递。

神经元结构是一个多输入单输出的非线性构件模型,如图4-1。

xx1 wwi1 2i2?j??i y win xn

图4-1 神经元基本结构

神经元的数学模型可以描述为:

nui(t)??wijxj??i (4-1)

j?1yi?f[ut)] i( (4-2)

其中,x1,x2...xn是神经元在时间上的n个输入;w为神经元与其他神经元

的连接权值;?是神经元的阀值;ui(t)是神经元在时间的内部状态;是神

经元内部状态与输出的关系函数,称为传递函数;y是神经元的输出。

25

洛阳师范学院2012届本科生毕业设计

权值w描述了神经元间的结合强度,当w大于0时,神经信号经过此连接产

生兴奋性突触传递;当w小于0时,产生抑制性突触传递。阀值?衡量了神经元

输入的加权和对神经元内部状态的作用,当加权和超过阀值?时神经元处于兴奋状态,会引起兴奋性的输出。

神经元在输入输出和时间上连续时,数学模型可以描述为:

n?dui(t)???ui(t)??w?ijxj??idt (4-3) j?1??yi?f[ui(t)]?其中,?为膜电位变化的时间常数。

4.1.2 神经网络互连模式

大量的神经元按一定的拓扑结构连接起来,形成神经网络。按神经网络的物理拓扑,神经网络可分成相互结合型网络和分层型网络,如图4-2:

(a)相互结合型 图4-2 神经网络物理拓扑结构

(b)分层型

分层型神经网络模拟人脑神经系统的功能独立性,即特定的部位负责完成特定的功能。分层型网络中的信息按一定的方向层层传播,每一层神经元只接受来自前一层神经元的输入。在相互结合型神经网络中,信息在神经元之间反复传递,网络状态改变的动态特性十分明显。网络中的连接存在着反馈。对比分层型网络,神经元在信息经过后,需要经过较多次的状态改变才达到某种平衡状态。

26

基于BP神经网络的语音识别系统

4.1.3 神经网络的学习方式

人脑需要通过学习来获得知识;决定着神经网络性能优劣的神经元连接权值,也需要通过学习来获得。神经网络的学习是这样的一个过程,它通过环境的刺激作用不断调整网络权值,以适应神经网络能对外部条件作出正确反应的这一要求。首先设定初始值,一般为随机数值。然后根据神经网络输入样本进行学习,参照评价标准进行评判。若系统达到某种要求,则停止学习;否则按照给定的学习规则调整权值,使得输出趋向期望,继续进行学习直到达到要求。神经网络的学习方式包括有监督学习和无监督学习。

有监督学习的训练样本需要由输入样本和目标样本组成。在网络学习的过程中,根据神经网络的实际输出与目标样本的比较,调整神经元连接权值,使实际输出与目标期望相一致。神经网络使用样本迭代学习,通过调整权值逐步降低输出与期望间的误差,当误差小到符合要求或达到迭代最多次数时,停止学习。

无监督学习的神经网络没有目标样本进行指导,它学习评价标准隐含在网络内部。无监督的学习能自适应与输入空间,它通过迭代对输入样本进行观察,根据自身包含的评判标准,不断调整权值参数以反映样本的空间分布,即给输入样本在特定空间中划分活动区域,将样本映射到相应的区域。

4.2 BP神经网络基本模型

BP神经网络是一种多层前馈神经网络,采用误差反传算法(Back-Propagation Algorithm)。误差反传算法基于误差修正学习规则,使得神经网络内部隐含层的权值可以进行学习。BP神经网络是有监督学习的多层型网络。它的输入信息按层依次传播,最终得到输出信息;计算输出信息与期望信息间的误差,将误差反向传播并以此调整各层神经元连接权值。

4.2.1 BP神经网络结构分析

BP神经网络有三层或三层以上的神经元构成,分别称为输入层、隐含层和输出层,各层间的神经元实现全连接,如图4-3:

27

洛阳师范学院2012届本科生毕业设计

x1 y1 x2 ? y2 xn 图4-3 BP神经网络结构模型 ym

BP神经网络中的误差反传是其主要特点,它不仅使得输入输出层的连接权值可以进行调整,而且让隐含层连接权值根据误差与上层输出进行修改,即拥有了学习能力。在BP神经网络中,存在着两个方向上的信息流,即前向传播信息流和误差反传信息流。

前向传播信息流是输入信号从输入层经过隐含层,传递到输出层,最后产生输出信号的过程。而对于神经元来说,是由输入计算神经元的状态并产生相应输出的过程。具体地,输入层的输入是原始输入信号,它的输出将提供给第一层隐含层作为输入;隐含层的输入是上一层的输出;输出层的输入是最后一层隐含层的输出,它的输出是整个神经网络的计算结果。网络会计算最后输出与期望间的误差。如果误差不足够小,系统将进行误差反传。

误差反传信息流是误差从输出层反向传播回输出层的过程。误差衡量的是输出信息与期望间的距离远近。在误差反传过程中,连接权值根据误差值等一些参数来进行调整,使得调整后的BP网络的实际输出更接近期望输出。

4.2.2 BP神经网络学习规则

学习是人脑最重要的功能之一,同时兴奋的两个神经元之间的连接得到加强是大脑学习的基本机制。神经网络的学习规则描述了神经元连接权值的调整规则,即参考某些评价标准,衡量输入样本经过神经网络后的实际输出,并根据评价结果调整权值。BP神经网络学习规则的特点在于它采用了误差反传算法。

设BP神经网络中,第k层的第个神经元的输出为O接受输入后的内部状态为S连接权值为wk?1,kjikk;第k层的第个神经元

;第k?1层的第个神经元与第k层的第个神经元间的

??11,2...m;期望输出为T。 i,i?实际上,式子(4.1)中的阀值?可以归纳到连接权值中,即增加一个输入x028

基于BP神经网络的语音识别系统

对应着权值wi0??i。那么BP神经网络的神经元数学模型可以描述为:

S??wijijkk?1,kOjk?1 (4-4)

Oik?f(Sik) (4-5)

梯度下降算法是BP神经网络中根据误差进行权值调整的基本方法。在此方法中,连接权值的变化量正比于网络误差对连接权值的一阶导数。神经网络中第k层的误差来自第k?1层,设第个神经元的误差为?;神经网络整体误差为?,则梯度下降算法可描述为:

?1,k?wk???ji (4-6) ?1,k?wkji??其中,?wkji?1,k为第k?1层的第个神经元与第k层第个神经元间连接权值的

??k?1 (4-7) ????Ojkk?1,kkk?1,k?S?w?S?wijiiji?Sik变化量;?为学习速率常数。

????令?ik????Sik有:

k?1,kkk?1?w????O jiij (4-8)

式子(4.8)是连接权值调整的总规则,而在实际中权值的调整根据神经网络层的不同而有所区别。神经网络的输入层单纯地接收样本输入,可认为其没有权值,显然不用调整;隐含层和输出层的权值调整则因为误差等参数的不同而有各自的计算方法。

O?????'k?k?k?i?f(S) ikk ?S?O?S?Oiiiik?ki??(4-9)

1,2...m,那么网络总误差?为: 设神经网络的实际输出为yi,i?1??2m?(yi?1i?Ti)2 (4-10)

故对于输出层有:

k??i??ki?Of(S)?(y?T)f(S) iiii'k'k (4-11)

对于隐含层k,它的误差来自第k?1层,有:

nk?1k?1nk?1S???jk?1kk,?1??k????jwijkk?1 (4-12) ?O?S?Oj?1j?1iji??其中,

nk?1为第k?1层神经元个数。 29

洛阳师范学院2012届本科生毕业设计

综上所述,BP神经网络的权值调整规则为:

?1,k?1?wk????ikOkjij'k?(yi?T)f(Si),k为输出层i(4-13) ?nk k?1其中?i=?k?1k,k?1'k(?w)f(S),k为隐含层?jiji??j?14.2.3 传递函数

由于在误差反传过程中,需要对传递函数进行求导,所以要求BP神经网络的传递函数是连续可导的。BP神经网络常采用S型的对数传递函数和双曲正切传递函数。它们分别定义为(4-4)和(4-5):

f()x?logsig(x)?11?e?ax ,a为常数 (4-14) (4-15)

f()x?tansig()x?1?e?ax?ax1?e ,a为常数对数传递函数和双曲正切传递函数的函数曲线如图4-4和图4-5:

10.90.80.70.60.50.40.30.20.10-10-8-6-4-20246810

图4-4 S型对数传递函数曲线(a=1)

30

基于BP神经网络的语音识别系统

10.80.60.40.20-0.2-0.4-0.6-0.8-1-10-8-6-4-20246810

图4-5 S型双曲正切传递函数曲线(a=2)

31

洛阳师范学院2012届本科生毕业设计

第5章 语音识别系统的实现与分析

5.1语音识别系统前端

5.1.1 语音库

语音识别实验的语音样本均采集自一个WAV录音机。WAV是微软开发的一种声音文件格式,具有较高的声音质量。实验中的语音文件采样率为22.050kHz,单声道,16位量化。

实验的目标设定为识别0, 1, 2?9这10个数字语音,采用中文普通话发音。语音库包括一个训练样本库和一个识别测试库。每个库中的每个数字发音5遍,这样训练样本库和识别测试库均有50个语音样本,总共100个语音样本。

5.1.2 实验环境

实验平台的操作系统为Windows 7,CUP主频为3.20GHz,内存2G。

实验环境为Matlab7,实验使用了其中的信号处理函数以及神经网络工具箱等。

5.1.3 前端参数

1.帧长与帧移

根据短时分析技术,时间范围在10ms到30ms内的语音信号片段被认为是稳定的随机信号。基于这个前提,第三章的特征参数模型才得以构建。因此语音识别首先需要对语音进行分帧。语音样本的采样率为22.050kHz,所以实验中设置帧长为256,帧移为128。

2.端点检测

端点检测的过程,需要设置的参数有低平均幅度、高平均幅度、低平均过零率、过零率阀值和最短持续时间。

平均幅度参数的取值范围与语音帧长有关,与声音能量有关。它的设置一般基于对语音样本的平局幅度的观察统计。如图5-1显示了几个语音样本的平均幅度。实验中设置低平均幅度Lapt=15,高平均幅度Hapt=25。

32

基于BP神经网络的语音识别系统

数字710080平均幅度604020050100150200250300350400450语音帧

(a) 数字7

数字8706050平均幅值40302010050100150200250300350400450语音帧

(b) 数字8

图5-1 语音样本的短时平均幅值

低平均过零率和低平均幅度同样,用于决定实际语音的起始点和结束点。实验中,低平均过零率与过零率阀值密切相关,如图5-2。而过零率阀值的设置与否关系到噪音的影响问题,在第二章的图2-5中表明了这点。系统中,过零率阀值为0.3,而低平均过零率设置为6。

threshold=0.2250200平均过零率15010050050100150200250300350400450500语音帧

33

洛阳师范学院2012届本科生毕业设计

(a) 阀值threshold=0.2

threshold=0.3200150平均过零率10050050100150200250300350400450500语音帧

(b) 阀值threshold=0.3

图5-2 数字3的短时平均过零率

5.2 BP神经网络实现与分析

5.2.1 BPNN的Matlab函数

1.BPNN的创建函数

net=newff(pr, sn, transf, trainf);

其中,pr为样本输入的数值范围;sn是一维数组,指定BP神经网络各层神经元个数;transf也是一维数组,指定BP神经网络各层的传递函数;trainf为BP神经网络的训练函数。该创建函数返回一个未经训练的BP神经网络。

2.BPNN的训练函数

net=train(net, sample, target);

其中,参数中的net为未经训练的BP神经网络;sample为供训练的语音样本特征;target为与sample相对应的期望输出。该训练函数返回一个已经训练的BP神经网络。

3.BPNN的仿真函数 Y=sim(net, sample);

其中,net为已经训练的BP神经网络;sample为供识别测试使用的语音样本特征。该仿真函数返回每个样本特征对应的识别结果。

34

基于BP神经网络的语音识别系统

5.2.2 BPNN的层次设计

1.BPNN的输入层

在训练阶段或者识别测试阶段,BP神经网络的输入均由语音的特征参数组成。这些特征参数构成一个矩阵;矩阵的每一列数据单独代表一个语音;那么矩阵的行数为每个输入的维数,列数则为语音样本数量。

BP神经网络的训练或者识别均是针对固定维度的样本来进行的。而语音的时间长短不稳定,所以在进行训练或者识别前需要截取固定维的语音特征参数。由于实验中语音识别的对象是10个单独的数字语音,样本的时长即使不完全相同,相差也不会大。实验选定的输入维数为600维,可表示的时间估算为600/12×(128~256)×[1/(22.050×10^3)],约为500ms。

2.BPNN的输出层

BP神经网络的期望输出,用于训练阶段的输出监督和识别测试阶段的正误判决。实验中总共需要表示0~9这10个数字,故BP神经网络的输出可设计为4维输出,即使用4位二进制数表示数字语音。如,数字0表示为0000,数字9表示为1001。

3.BPNN的隐含层

当神经网络的各节点采用S型传递函数时,一个隐含层就可以实现任意判决分类问题。对于规模不大的神经网络的模式分类、边界判决问题,使用两层隐含层并不一定比一层隐含层更优越。同时考虑语音识别系统效率问题,实验采用隐含层只有一层的BP神经网络。

4.样本顺序

为了保证BP神经网络在训练阶段不会过于着重某个数字语音的特征,而忽略其他数字语音的,训练语音样本的输入序列设计成:012?9012...9。相应地,作为监督的期望输出的序列也设计成这个顺序。

5.2.3 参数分析

1.传递函数的选择

根据实验中语音识别系统的输出期望的要求,识别结果的每一位必须是0或1,因此实验为BP神经网络的输出层选择了logsig(x)作为传递函数。函数logsig(x)的值域为(0, 1),当输出层的一位输出数值小于0.5时,表示0;当输出数值大于0.5时,表示1。这可以通过简单的四舍五入运算得到。

35

洛阳师范学院2012届本科生毕业设计

同时,实验中为BP神经网络的隐含层选择了tanlog(x)作为传递函数。它的值域为(-1, 1),能为神经网络内部提供更灵活的数值表示。

2.隐含层神经元个数

BP神经网络隐含层神经元个数的选择对网络性能的影响很大,对语音识别系统的识别率有着关键作用。若隐含层神经元个数太少,神经网络可能训练不出所期望的输出结果。因为个数过少时,网络容易陷入局部极小,鲁棒性较弱,容错能力不强,结果造成识别率低。若隐含层神经元个数过多,网络的训练时间很长,而性能不一定得到提高。

1.000.950.900.850.800.750.700.650.600.550.500.450.400.350.300510152025hidec30354045 LPC MFCCmatchrate

图5-3 BPNN在不同隐含层神经元个数下的性能表现

图5-3显示了BP神经网络在不同隐含层神经元个数下的性能表现。X轴为隐含层神经元个数hidec;Y轴为语音识别系统的识别率。带加号曲线描述的是LPC特征参数对应的网络性能;带圆点曲线描述的是MFCC特征参数对应的网络性能。从图中看出,随着隐含层神经元个数hidec的不断变化,BPNN的识别率不断变化。整体上,在hidec从5到40的变化过程中,识别率的性能曲线不断上升;当hidec大于20后,识别率趋于稳定。从局部上看,在BPNN的识别率并不稳定,曲线上有许多的峰值和波谷。这是BPNN每次训练的误差不同造成的。从另一角度,曲线的峰值随着hidec的增多而变优,波谷也随着hidec的增多而变优。因此,可以认为BPNN的识别能力是随着hidec的增加而逐渐提高的。为了保证神经网络的效率,hidec的数值不宜过大。实验中,隐含层神经元个数hidec=30。另外,使用MFCC特征参数来训练BP神经网络得到的识别率要高得多,识别率多次达到80%以上。

36

本文来源:https://www.bwwdw.com/article/1zfg.html

Top