毕业论文

更新时间:2024-06-13 12:50:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

噪音环境下的语音识别系统的研究

摘 要

语音增强是一个涉及面很广的研究课题,它不仅涉及信号检测、波形估计等传统信号处理理论,而且还与语音特性、人耳感知特性和噪声特性密切相关。因此在语音特性、人耳感知特性及噪声特性的情况下常用语音增强法有:噪声对消法、谱减法、维纳滤波法、卡尔曼滤波法、FIR 自适应滤波法、基于神经网络的语音增强、基于听觉感知的语音增强、基于小波变换的语音增强方法、自相关法等。本文主要从以下三种算法进行分析:谱减法是处理宽带噪声较为传统和有效的方法,利用带噪语音的功率谱估值减去噪声的功率谱估值实现语音去噪;维纳滤波法是在最小均方准则下实现对语音信号估计的一种滤波器。对于带噪语音信号,确定滤波器的冲击响应,使得带噪语音信号经过该滤波器后得到最接近于“纯净”的语音信号。小波变换法应用小波阈值去噪的方法,分析了常用的软、硬阈值函数对语音增强的效果;仿真结果表明小波法效果较明显,而谱减法易产生“音乐噪声”,Wiener滤波增强后的残留噪声类似于白噪声,而不是音乐噪声。 关键词:语音增强 谱减法 小波阈值去噪 维纳滤波法

Research on speech recognition system under noisy

environment

Abstract

Speech enhancement is a broad topic, it not only relates to signal detection, Waveform Estimation and other traditional signal processing theory, but also is closely related to the speech characteristics, the human ear and the noise characteristics.Therefore, combined with the speech characteristics and the perceptual properties of human ear and the noise characteristics.Therefore, in common with speech speech characteristics, human perceptual characteristics and noise characteristics of the case enhancement method:Noise cancellation、Spectral subtraction、Wiener filtering method、Calman filter、FIR adaptive filtering method、Speech enhancement based on Neural Network、Speech enhancement based on auditory perception、A speech enhancement method based on Wavelet Transform、The autocorrelation method Etc.This article mainly carries on the analysis from the following three algorithms:Spectral subtraction method is traditional and effective broadband noise,Use the noisy speech power spectrum estimation subtract the noise power spectrum estimation implementation of speech denoising.Wiener filtering method is a kind of filter the speech signal estimation in the least mean square criterion implementation.For the speech signal with noise,Determine the filter's impulse response,The noisy speech signal through the filter to obtain the speech signal is closest to the \of wavelet transform using wavelet threshold denoising,Analysis of the commonly used soft

threshold、effect of hard threshold function for speech enhancement;The simulation results show that the wavelet method has obvious effect, and the spectral subtraction method is easy to produce \similar to white noise, not the music noise.

Keywords:Speech enhancement Spectral subtraction Wavelet threshold denoising Wiener filtering method

第一章 绪论

1.1引言

随着社会的不断进步和科技的飞速发展,计算机对人们的帮助越来越大,成为了人们不可缺少的好助手,但是一直以来人们都是通过键盘、鼠标等和它进行通信,这限制了人与计算机之间的交流,更限制了消费人群。为了能让多数人甚至是残疾人都能使用计算机,让计算机能听懂人的语言,理解人们的意图,人们开始了对语音识别的研究。

语音识别是语音学与数字信号处理技术相结合的一门交叉学科,它和认知学、心理学、语言学、计算机科学、模式识别和人工智能等学科都有密切关系。

1.2语音识别的发展历史和研究现状 1.2.1国外语音识别的发展状况

国外的语音识别是从1952年贝尔实验室的Davis等人研制的特定说话人孤立数字识别系统开始的。

20世纪60年代,日本的很多研究者开发了相关的特殊硬件来进行语音识别RCA实验室的Martin等人为解决语音信号时间尺度不统一的问题,开发了一系 列的时问归正方法,明显地改善了识别性能。与此同时,苏联的Vmtsyuk提出了采用动态规划方法解决两个语音的时闻对准问题,这是动态时间弯折算法DTW(dymmic time warping)的基础,也是其连续词识别算法的初级版.

20世纪70年代,人工智能技术走入语音识别的研究中来.人们对语音识别 的研究也取得了突破性进展.线性预测编码技术也被扩展应用到语音识别中,DTw也基本成熟。

20世纪80年代,语音识别研究的一个重要进展,就是识别算法从模式匹配 技术转向基于统计模型的技术,更多地追求从整体统计的角度来建立最佳的语音识别系统。隐马尔可夫模型(hidden Markov model,删)技术就是其中一个典型技术。删的研究使大词汇量连续语音识别系统的开发成为可能。

20世纪90年代,人工神经网络(artificial neural network,ANN)也被应用到语音识别的研究中,并使相应的研究工作在模型的细化、参数的提取和优化以及系统的自适应技术等方面取得了一些关键性的进展,此时,语音识别技术进一步成熟,并走向实用。许多发达国家,如美国、日本、韩国,已经IBM、Microsoft、Apple、AT&T、Nrr等著名公司都为语音识别系统的实用化开发研究投以巨资。当今,基于HMM和ANN相结合的方法得到了广泛的重视。而一些模式识别、机器学习方面的新技术也被应用到语音识别过程中,如支持向量机(supportvector machine,SVM)技术、进化算法(evolutionary computation)技术等。

1.2.2国内语音识别的发展状况

20世纪50年代我国就有人尝试用电子管电路进行元音识别,到70年代才由中科院声学所开始进行计算机语音识别的研究.80年代开始,很多学者和单位参与到语音识别的研究中来,也开展了从最初的特定人、小词汇量孤立词识别, 到非特定人、大词汇量连续语音识别的研究工作.80年代末,以汉语全音节识 别作为主攻方向的研究已经取得了相当大的进展,一些汉语语音输入系统已经向实用化迈进。90年代j四达技术开发中心和哈尔滨工业大学合作推出了具有自然语言理解能力的新产品.在国家“863”计划的支持下,清华大学和中科院自动化所等单位在汉语听写机原理样机的研制方面开展了卓有成效的研究.经过60多年的发展,语音识别技术已经得到了很大发展,对于语音识别的研究也达到了相当高的水平,并在实验室环境下能达到很好的识别效果。但是,在实际应用中,噪声以及各种因素的影响,使语音识别系统的性能大幅度下降,很难达到让人满意的效果。因此,对噪声环境下的语音识别的研究有着异常重要 的理论价值和现实意义.

1.3语音识别的分类

语音识别存在不同的分类方法:

(1)按词汇量大小分。每个语音识别系统都有一个词汇表,系统能识别词汇表中所包含的词条。通常按词汇量可分为小词汇量、中词汇量和大词汇量,一般小词汇量包括10~100个词;中词汇量大约包括100~500个词条;大词汇量则至少包含500个以上的词条。

(2)按发音方式分。语音识别可以分为孤立词识别、连续词识别、连续语音识别以及关键词检出等。孤立词识别,是机器只识别一个个孤立的音节、词或者短语等;连续语音识别,是机器识别连续自然的书面朗读形式的语音;在连续词识别中,发音方式介于孤立词和连续语音之间,它表面上看起来象连续语音发音,但能明显感受到音与音之间的停顿;关键词检出,通常用于说话人以类似自由交谈方式的发音,在这种发音方式下,只需要进行其中的关键词识别.

(3)按说话人分.可分为特定说话人和非特定说话人两种。前者只能识别固定某个人的声音,而后者是机器能识别出任意人的发音。

(4)从语音识别的方法分. 有模式匹配法、随机模型法和概率语法分析法。模式匹配法是将测试语音与参考模板的参数一一进行比较和匹配,判决的依据是失真测度最小准则;随机模型法是一种使用隐马尔可夫模型来对似然函数进行估计和判决,从而得到相应的识别结果的方法;概率语法分析法适用于大范围的连续语音识别,它可以利用连续语音中的语法约束知识来对似然函数进行估计和判决.

1.4噪声对语音识别的影响

随着科技的发展,人们对语音识别的研究越来越深入,在理论上达到了很成 熟的阶段,也开始步入实用化阶段。以mM的ViaVoice为代表,其对连续语的

识别率可以达到95%以上.但是所有识别系统对噪声都是极为敏感的,在噪声环境下,识别性能会大幅度下降州.例如,在一个典型的孤立词识别系统中,用纯净语音训练,识别效果会达到100%,但在以100公里每小时的速度行驶的小车上,其识别率将下降70%左右;一个用纯净语音训练的识别系统,误识率不到l%,但是在自助餐厅里,其误识率竟然上升近50%:一个与说话者无关的语音识别系统,在实验室环境下其误识率不到l%,但是如果用来识别一个通过长距离电话线并且信噪比为15dB的语音,其错误率将高达44%。在噪声环境下,识别系统的识别率大幅度下降,是现在语音识别产品无法广泛走入实用的主要障碍。

在噪声环境下语音识别系统的识别率大幅度下降的根本原因就是录入环境和识别环境的不匹配。在实验室环境下,训练环境相对安静,基本上是对纯净语 音迸行训练,模板库的特征矢量。是通过提取纯净语音的特征参数得到的。但是 在实际应用中,噪声是不可避免的,同一语音在噪声的影响下特征参数发生了变 化,从而影响了识别语音和模板库中的语音的相似度,导致识别系统的识别率大 幅度下降。

为解决噪声环境下,识别语音的特征参数和模叛库中的特征不匹配的问题我们必须想办法消除噪声对语音特征参数的影响,根据语音识别过程可知,有以下三种方法:

(1)假定语音模板和背景噪声无关,即无论是清晰语音还是带噪语音,都用同一套模板来识别.在这种情况下,重点在识别阶段,从带噪语音中提取出抗噪的特征参数或者采取抗噪声的失真测度.

(2)在语音的识别阶段,语音识别系统加一个前端处理,从带噪语音中提取出纯净语音,然后再提取语音的特征参数.这种方法被称为语音增强。

(3)在语音识别阶段,根据识别现场的环境噪声对语音模板进行变换,使之接近根据现场带噪语音训练而成的语音模板.这种方法称为语音模板的噪声补偿.无论使用哪种方法消除噪声,我们首先要了解噪声。根据噪声对语音频谱的干扰方式不同可以把噪声分为加性噪声和乘性噪声两类. (1)如性噪声

噪声和语音信号是相互独立的,而所采集到的信号是真实的语音信号和噪声的和,这种噪声就是所谓的加性噪声。语音信号在实际环境中受到的背景噪声、办公室里的打印机的工作声、计算机中的磁盘驱动器和风扇等设备的声音以及周围说话人的声音等都是加性噪声. (2)乘性噪声

乘性噪声也叫卷积噪声,是指噪声和语音在频谱是相乘的关系,在时域上则是卷积关系的噪声。乘性噪声可以转换为加性噪声.由于实际环境中的背景噪声多数是加性噪声,因此致使系统识别率的大幅度下降的“元凶”就是加性噪音。我们在后面讲到的去噪,也是指去除加性噪声。

1.5课题的意义及研究目标

语音是人类相互之间进行交流时使用最多、最自然、最基本也是最重要的信息载体。在实际环境中,语音信号总是会受到外界环境噪声的干扰,这些噪声包括从周围环境、传输媒质中引入的噪声、通信设备内部电噪声乃至其他说话人的干扰等等。这些干扰会使接收端的语音成为受噪声污染的语音,当噪声干扰严重时,

估值,从而得到纯净语音的频谱。由于人耳对语音频谱分量的相位不敏感,因而这种方法主要针对短时幅度谱。所谓“谱相减”就是从输入信号的幅度谱中减去估计得来的噪声平均幅度谱,其效果相当于在变换域对带噪信号进行了某种均衡化处理。相对于其它方法,谱相减法引入的约束条件最少,物理意义最直接,运算量小,而且经过改进后效果也较好。

传统的谱减法即在频域将带噪语音的功率谱减去噪声的功率谱,得到语音的功率谱估计,开方后就得到语音幅度估计,将其相位恢复后再采用逆傅立叶变换恢复时域信号。考虑到人耳对相位的感觉不灵敏,相位恢复时所采用的相位是带噪语音的相位信息。

由于语音是短时平稳的,所以在短时谱幅度估计中认为它是平稳随机信号,假设s?m?、n?m?和y?m?分别代表语音、噪声和带噪语音,Ss(?)、Sn(?)和Sy(?) 分别表示其短时谱。假设噪声n?m?是与语音s?m?不相关的加性噪声。于是得到信号的加性模型:

y?m??s?m??n?m? (3-1)

经过加窗处理后的信号分别表示为yw?m?,sw?m?,nw?m?,则有

yw?m??sw?m??nw?m? (3-2) 对上式两端分别做傅立叶变换,得

YW?w??SWw?NW?w? (3-3)

对功率谱有

Yw?w?Sw?w??Sw?w??Nw?w??Sw?w?N?w?w??S?w?w??S2222?w?w?Nw?w? (3-4)

可以根据观测数据估计|Yw(?)|2,其余各项必须近似为统计均值。由于错误!未

找到引用源。和n?m?独立,则互相的统计均值为0,所以原始语音的估值为

S?w??Yw?w??ENw?w?2?2?2? (3-5)

为了估计噪声功率,采用了端点检测法。因为噪声是局部平稳的,故可以认为发音前的噪声与发音期间的噪声功率谱相同,因而可以利用发语音前的“寂静帧”

来估计噪声。

从(3-5)式中可以看出,估计值S?w?不能保证是非负的,这是因为在估计噪声时存在误差,当估计噪声平均功率大于某帧带噪语音功率时,该帧得出的估计值这些负值我们可以通过改变它们的符号使之变为正S?w?就会出现为负的情况,

值,也可以直接给它们置零,本文我们采用后种处理方式。

只要在频域用(3-5)式得到纯净语音的谱估计,就可以根据(3-6)式得到增强后的语音。

???s?m??IFFT?sw???ej??w?? 3-6)

????2?2如前面分析,利用人耳对相位不敏感的特点,在式(3-6)中可利用原带噪语音的相位恢复到时域语音信号,从而得到处理后的语音信号,完成整个基于谱减法的语音增强过程。

根据前面分析,我们可以给出谱相减算法的整个算法流程,如图3-1所示:

带噪语音y(m)FFT |Yw(?)|2 减去估计噪声 相位信息 E[|Nw(?)|2] 增强后的语音s(m) ?IFFT |Sw(?)|1/2

图3-1 谱减法的算法流程

3.2 谱减法建立的假设

谱减法的建立要基于以下几点假设:

(1) 噪声信号和语音信号是互不相关的(独立的),并且在频域是加性的关

系。

(2) 背景噪声环境相对于语音活动区域来说是近似稳态的,这样就可以利用在无声段估测的平均噪声谱来逼近有声段的噪声谱。

(3) 如果背景噪声环境变化到一个新的稳态,则应有足够的时间(约300ms左右)以便于估计出新的背景噪声谱幅度估值。

(4) 对于缓慢变化的非平稳噪声环境,谱减法算法中有话音激活检测环节以

便适时的判断并进行调整。

(5) 假设主要噪声影响的消除可以通过仅仅从带噪语音谱幅度中减去噪声

而实现。

3.3 实现过程

3.3.1 基于谱减法的语音增强算法流程

本文采用了MATLAB语言实现了整个基于谱减法的语音增强算法,具体MATLAB程序见附录,其算法流程如下:

(1)对输入的语音信号进行预滤波; (2)对滤波后的语音信号进行预加重;

(3)将语音信号按每帧128个信号点进行分帧,帧移为64; (4)对信号帧加汉明窗(Haming); (5)对加窗后的信号帧进行FFT变换; (6)对各帧语音信号求功率谱; (7)根据前20帧求取平均噪声功率;

(8)利用VAD进行噪声估计检测寂静段,进而组合递归平滑,更新噪声谱; (9)进行谱减运算,得到估计出的语音信号功率谱; (10)插入相位谱,计算出语音谱; (11)进行IFFT变换,得到还原的语音帧; (12)根据各个语音帧组合为语音信号;

(13)对语音信号进行去加重处理,得到最终信号。

根据以上谱减法的算法流程,采用MATLAB语言进行仿真试验,试验用的

语音材料是WAV格式的语音,经处理后去噪效果明显,较好地抑制了噪声,提高了语音的可懂度。

3.3.2 仿真实验的结果

在仿真实验中,采用的是在实验室内录制的纯净男语音信号“基于谱减法的语音增强”,采样率8kHz,使用MATLAB函数wavread( )调用,在程序中对纯净语音加入高斯白噪声,调用MATLAB函数wavwrite( )进行输出,命名为“noised”。根据谱减法的假设:假定纯净语音与高斯白噪声相互独立,故我们可将两者直接相加得到带噪的语音信号。

当得到带噪语音信号后,对其进行谱减去噪处理,便到去噪后的语音信号,并调用MATLAB函数的wavwrite( )进行输出,命名为“zong”。从声音文件的测听效果来说,是令人满意的。

在本论文的MATLAB程序中,分别画出了加噪语音 (见图3-5)、增强后语音 (见图3-6)的语音图。从的语音图中可以很容易发现,本论文提出的算法具较明显的去噪效果。

0.20-0.20.511.52x 1040.30.20.10-0.1-0.20.511.52x 104

图3-5带噪语音信号(上) 增强后的语音信号(下)

400Frequency20000510Time1520500400Frequency30020010000510Time1520

图3-6带噪语谱信号(上) 增强后的语谱信号(下)

三、改善算法、减少音乐噪声

白噪声的短时功率谱上既有波峰,又有波谷。在一帧里,它们的频率分布是随机的;在帧与帧之间,它们的频率和幅度也是随机变化的。当我们从带噪语音的频谱中减去我们估计的噪声谱,所有的带噪语音频谱峰值都会变小,而谷值由于小于估计的噪声值被置零。因此,进行谱减法之后,在频谱上只留下波峰。在这些留下的波峰中,频带较宽的部分被视为时变宽带噪声,频带较窄的部分则被当成时变音调,也就是所谓的音乐噪声。

我们改善的算法为:

letD?w??ps?w???Pn?w?Ps??w???D?w?,ifD?w???Pn?w??Pn?w?,otherwisewith??1,and0????1

其中,错误!未找到引用源。是所求的语音幅度谱,错误!未找到引用源。是带

噪语音幅度谱,错误!未找到引用源。是估计的噪声幅度谱。当错误!未找到引用源。,改善的算法通过消除那些宽波峰,去除所有的宽频带噪声。然后,提高频谱下限?Pn?w?,使得波峰与波峰间的波谷不会那么深。两者结合,使噪声波峰间的频谱偏移不再那么大,从而减少了音乐噪声。

第四章 维纳滤波法原理及其算法实现过程

本章我们深入研究了传统的维纳滤波算法,发现传统的维纳滤波算法虽然具有一定的语音增强效果,但是其滤波效果还不够理想。文章结合先验概率理论对算法进行了改进,并将实验结果与传统的维纳滤波语音增强算法进行比较,实验结果表明,改进后的语音增强算法的去噪效果要比传统的维纳滤波算法优越。

4.1 概述

维纳滤波器是以最小均方误差准则设计的数字滤波器,其输入端是带噪语音信号,输出端则是对带噪语音信号中所含纯净语音信号的估计。因此维纳滤波器又被称作是一个最佳滤波器。

在信号处理中,维纳滤波器对所处理的信号有比较苛刻的要求,信号必须满足平稳性,维纳滤波器是在平稳条件最小均方误差意义下的最优估计。但是通常情况下语音信号并不满足平稳性,实际环境中的噪声也是非平稳的。而且维纳滤波模型也没有完全利用语音生成模型来抑制噪声。

维纳滤波法是通过估计噪声和带噪语音信号的功率谱,构造维纳滤波器的传递函数,然后从带噪语音功率谱中计算纯净语音信号的功率谱,然后再利用带噪语音频谱的相位,经过傅里叶反变换来恢复增强后的语音信号。维纳滤波算法通常采用最小均方误差(LMS)准则来迭代估计其传递函数。这种方法的关键是如何得到语音信号中的噪声。目前较常用的方法是用帧间无语音段噪声来估计带噪声语音段的噪声,这样处理虽然能够简化算法的复杂度,但是会影响维纳滤波效果。

4.2 维纳滤波基本思想

设有一个线性系统,它的单位脉冲响应是h(n),当输入一个观测得到的随机信号,简称观测值x(n),且该信号包含噪声信号w(n)和语音信号s(n),其信号的模型如式(4-1)所示:

x?n??s?n??w?n? (4-1) 那么输出为y(n)为:

y?n??x?n??h?n??

m????h?m?x?n?m??? (4-2)

我们希望输出得到的y(n)与有用信号s(n)尽量接近,因此称y(n)为 s(n)的估计值,用s?(n)来表示,我们就有了维纳滤波器的系统框图,如图2-1。这个系统的单位脉冲响应也称为对于s(n)的一种估计器。

x(n) = s(n) + w(n)

h(n) y(n) = s?(n) 图4-1 维纳滤波器的原理框图

如果该系统是因果系统,式(2-2)的m=0,1,2,?n,则输出的y(n)可以看成是当前时刻的观测值和过去时刻的观测值x(n-1)、x(n-2)、x(n-3)?的估计值。从图4-1 的系统框图中估计到的信号s?n?和我们期望得到的有用信号s(n)不可能完全相同,这里用e(n)来表示真值和估计值之间的误差

e?n??s?n??s?n? (4-3)

显然e(n)是随机变量,维纳滤波的误差准则就是最小均方误差准则

?2????Ee2?n??E??s?n??s?? (4-4)

??????????维纳滤波法是根据全部过去观测值和当前观测值来估计信号的当前值,因此它的解析形式是系统的传递函数H(z)或单位脉冲响应h(n)。

可见设计维纳滤波器就是寻求在最小均方误差下滤波器的单位脉冲响应 h(n)或传递函数H(z)的表达式,其实质就是解维纳-霍夫(Wiener-Hopf)方程。求解维纳-霍夫(Wiener-Hopf)方程可得:

RSS?j???hopt?m??RSS?j?m??Rww?j?m??,j?1,2,?,n (4-5)

m?0N?1Ee?n?min?RSS?0???hopt?m?Rss?m? (4-6)

2m?0??N?1其中Rss 表示有用信号s 的自相关函数, Rww表示噪声信号w 的自相关函数,N 表示滤波器的阶数。然后可以根据式(4-5)跟(4-6)及所要求的均方误差精度来计算维纳滤波器的单位脉冲响应h(n)。

由式(4-5)跟(4-6)不难看出维纳滤波器的精度与收敛快慢都与维纳滤波器的阶数有直接的关系,要想降低均方误差,即要想使输出的信号与目标信号更加接近,就需要增加维纳滤波器的阶数。然而,当增加滤波器的阶数时,又会增加计算量,从而降低了滤波器的收敛速度,也就导致滤波效率的下降。

维纳滤波在时域的解是平稳条件下时域波形在最小均方误差准则下的估计。由于没只考虑到语音频谱分量的幅度对人的听觉最重要,没有考虑到相位对人听觉的影响,因此采用维纳滤波来增强语音存在一定的缺陷。

4.3 维纳滤波增强算法

利用维纳滤波器对信号进行最小均方误差条件下的最优估计时,信号必须满足平稳性条件。语音信号不满足平稳性条件,只在30ms 内近似平稳。因此在进行维纳滤波前,必须对语音信号进行短时处理,例如加短时窗,使语音信号帧长不超过30ms。

设离散带噪语音信号序列模型为:

x?n??s?n??w?n? (4-7)

其中x,s,w 分别表示带噪语音信号,纯净语音信号,加性噪声信号,s 与w 统计独立。且设x 已经过加窗处理,为短时平稳的带噪语音信号。那么非因果维纳滤波器的频率响应函数为:

H????PS??? (4-8)PS?Pw???其中PS???,Pw???PS??? 分别表示信号s, n 的功率谱。 广义的维纳滤波器:

?PS????H?????? (4-9)

??P?P?w?S??此时的维纳滤波器称为带参数的维纳滤波器,其中α 和β 是参数。当α 和β 的值变化的时候,滤波器具有不同的性质。由于语音信号的不平稳性,信号的功率谱无法直接计算,所以广义的维纳滤波器也常表达为:

2?ES???H?????22?????ES???EW?????????????

(4-10)

4.4 仿真结果

下面是对一帧信号的仿真结果:

原始语音0.50-0.500.51带噪语音1.522.5x 1040.50-0.500.51增强语音50-51.522.5x 10400.511.522.5x 104

原始语音1Frequency0.500200040006000Time带噪语音800010000Frequency10.500200040006000Time增强语音800010000120001Frequency0.500200040006000Time80001000012000

的去噪效果,能更好的反应原始信号的特征。

5.4.3小波函数的选取

对傅立叶变换而言,变换基是唯一的,没有最优基的问题。小波变换则不然因为有众多的小波函数可供选择,从而使得同一信号可以在不同的变换基上展开,得到不同的展开结果。因此在进行小波变换时,选择一个适当的小波函数是很重要的。对于如何选择小波函数并无定论,通常考虑的是变换的有效性、通用性和系数的唯一性。

对于正交小波而言,可以考虑的变化因素有两个,一个是支撑度,另外一个是消失矩阶数。支撑有限的紧支撑正交小波基的重要性在于它在数字信号的分解过程中可以提供有限的从而更实际、更具体的数字滤波器。支撑越长,则频率分辨率越高,频带间干扰减小,但时域分辨率变差,变换的计算量也增大。消失矩则定义了小波变换的有效性,消失矩越高则变换系数衰减越快,从而变换更有效。对于支撑长度为2N的正交小波函数,其消失矩阶数最高为N。Daubechies小波即为具有最高消失矩的紧支正交小波。

进行语音增强时,必须考虑运算量、时域分辨力、频率分辨力等因素。 综合第三章所讨论的小波基函数可知,Haar小波不是连续可微的,应用有限,多用于理论研究。Meyer小波是正交、双正交的,不存在紧支集。CoifN,symN小波计算量均较大,不利于实时实现。biorNr.Nd小波的分解性和重构性好,但没有正交性并且计算量较大。Morlet小波是复值小波,能够提取信号中的幅值和相位信息,在地球物理信号处理中广泛应用,但是尺度函数不存在,也不具备正交性,只能满足连续小波的允许条件,也不存在紧支集,不能做正交小波变换和离散小波变换(DWT)。所以,本文选择Daubechies小波db5进行小波变换,这是在时域分辨率和频域分辨率之间的一个折衷。仿真结果表明,这个选择比较合理。

5.5 小波阈值的设定

阈值的设定是小波域阈值信号增强算法的关键,阈值的设定通常有四种,即通用阈值规则,Stein的无偏似然估计,启发式阈值规则和极值阈值规则等。 (1) Sqtwolog阈值

Sqtwolog采用固定阈值为??2lnN,其中N是信号长度。

(2) Rigrsure阈值

Rigrsure阈值是基于Stein的无偏似然估计的自适应阈值,是软件阈值估计器。先求出给定阈值的似然估计,再把非似然的阈值最小化就得到所选阈值。具体算法如下:

①将信号f(n)的每个元素取绝对值由小到大排序,再对各个元素平方得到:

sf2?k???sort?f??,k?0.1.?N?1

2 (5.5)

②取阈值为sf2?k?的第k个元素的平方根:??sf2?k?,k?0,1,?N?1那

么该阈值产生的风险为:

k?? Risk?k???N?2K??sf2?j???N?K?sf2?N?K?? (5.6) Nj?1?? ③由式(5.6),令kmin是最小风险点所对应的值,则阈值??sf2?kmin? (3) heursure

启发式阈值是Sqtwolog阈值和Rigrsure阈值的综合,当f(n)的信噪比小时,采用启发式阈值。

?NA???dj?j?12??N?N,B??1?lnN??? N?ln2?3如果AB,就选??2lnN和Rigrsure阈值中较小的为启发式阈值的选定阈值。 (4) 极值阈值

极值原理是使估计的最大风险最小化。阈值?是:

??0,N?32???0.3936?0.1829?lnN?,N?32 (5.7)

????ln2??以上阈值选取都没有涉及噪声方差?,用鲁棒估计计算?就是 ??mediadnj?k?0.6745?? (5.8)

即对分解出的第j尺度上的小波系数取绝对值再取中值,median是Matlab中的运算命令。

噪声水平采用鲁棒估计来计算,是因为如果信号足够规则,尺度上的小波系数若含有信号的细节,这些细节将集中在少数小波系数上;另外是为了避免小波系数计算中的边界效应。

5.6 算法的实现与仿真 5.6.1 算法实现的流程

选择纯语音 画出原始信号 选择带噪语音 画出带噪信号 用小波做7层分解 进行阈值处理 重建信号 画出去噪信号

图5.1 小波包语音去噪流程图

5.6.2 算法的实现步骤

基于小波包变换的语音增强算法的实现步骤如下:

(1)用db5小波对带噪语音信号进行Bark小波包分解,得到7层共68个结点的分解结构。

(2)用阈值???2lnN(N为信号长度)计算这7层结点的阈值。 (3)对分解结构的7层的各个结点的小波包分解系数进行新的阈值函数的阈值量化。

(4)利用阈值量化后的小波包系数对原始语音信号进行小波包重建。

5.6.3 算法的仿真结果

利用Matlab进行实验仿真,其中纯净语音是安静环境下8kHz的连续自然语音,噪声选了火车噪声、粉红噪声、F16战斗机噪声和工厂噪声四种噪声,都是选自Noisex-92数据包里的噪声。噪声是采用db5小波对信号进行小波包分解,然后进行阈值处理。

第六章 总结与展望

本文来源:https://www.bwwdw.com/article/r266.html

Top