听觉系统中语音信号处理性质研究

更新时间:2024-06-14 07:41:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

分类号 学 号 M200770091 学校代码 10487 密 级

硕士学位论文

听觉系统中语音信号处理相关性质研究

学位申请人: 罗海风 学科专业: 指导教师: 答辩日期:

理论物理 龙长才 教 授 2011年 1月 2日

A Thesis Submitted in Partial Fulfillment of the Requirements

for the Degree of Master of Science

Auditory System Property about Speech

Signal Process

Candidate: Luo HaiFeng Major : Theoretical Physics Supervisor: Professor Long Zhangcai

Huazhong University of Science &Technology

Wuhan 430074, P.R. China

Nov, 2010

独创性声明

本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。

学位论文作者签名: 日期: 年 月 日

学位论文版权使用授权书

本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

保密□,在_____年解密后适用本授权书。

本论文属于

不保密□。

(请在以上方框内打“√”)

学位论文作者签名: 指导教师签名: 日期: 年 月 日 日期: 年 月

华中科技大学硕士学位论文

摘 要

随着计算机科学技术的快速发展,计算机信息的处理和判断能力进步迅速,但计算机与人类信息交流却进步较小,使得信息瓶颈问题日益严重。语音技术作为人机接口的重要技术之一,经历了半个多世纪的发展,涌现了许多重大的技术突破。在语音识别、说话人识别和语音合成等诸多领域,已经产生了大量的进入实际应用水平的商业化产品,对社会带来了巨大的变化。但是,现有语音系统在面对实际应用环境时还存在着某些限制。因此,对于人类听觉系统的性质研究,具有非常重要的意义和价值。

现有的对听觉系统的大量抗噪性特性研究中,可以按照自下而上和自上而下的分析过程分为两个大类。自下而上分析过程是信号处理系统的基本功能,对声音信号的基本物理特征进行分析和归类;自上而下分析过程则是按照人的意识、注意力和经验等对声音信号的处理进行指导。其中后者作为人类听觉系统和人工系统最显著的区别,是当今听觉研究的热点领域。

本研究从三个不同的方面,揭示了人类听觉系统的两个过程中的某些特性。第一个研究通过心理声学实验,发现了人类听觉系统在进行说话人识别过程中,遵循着类似信息论的信息编码方式,而且受到了语言环境的训练带来的影响。第二个研究则通过同样的方式,揭示出人类在进行说话人识别过程中,不同与现有的技术模型,利用了词汇及更长时间尺度上的连续信息。在第三个研究则揭示了在对语音信号分析过程中,除了存在现有理论揭示的分析过程外,还可能存在基于频谱包络结构这样的高级特征作为辅助,更加增强了在某些特殊环境下(如耳语环境)中的识别能力。

关键词:说话人识别 听觉系统 抗噪性 信息论 频谱包络

I

华中科技大学硕士学位论文

Abstract

With the rapid development of computer science, computer has great improvement in information processing and judgment, but computer information exchange with human has smaller progress, which makes the information bottleneck problem increasingly serious. Speech technology as one of the most important technologies in man-machine interface, experienced more than half a century of development, has made many major breakthroughs. In speech recognition, speaker recognition and speech synthesis fields, a lot of commercial products have entered the practical application stage, which brought great changes to the society. However, the existing technology in practical application environment still has some problems. So, the research of human auditory system properties is of extremely significance and value.

The research on auditory system's robustness could be classified into two basic topics: bottom-up process and up-bottom process. Bottom-up process is the basic functional part of human auditory system, is used to analysis the physical character of sounds and classify them into different sound streams. But in up-bottom process, human auditory system reconstructs the sound scene based on consciousness, attention and experiences. The latter is the most remarkable difference between artificial system and human auditory system, is also the focus in auditory research field.

In our research we studied these two processes' property of human auditory system from three different aspects. From the first experiment and analysis, we can find that in speaker recognition process, human auditory system takes the method similar with the information theory method, is also influenced by native language environment. In the second study, we find that in speaker recognition process, people use word-length or longer information, which is different with modern modals such as GMM. In third research, we found auditory system maybe takes not only the sound clues that existing theory explored, but also high level characteristic such as the kurtosis of spectral envelope, which could improve the system ability in some special conditions, e.g. whisper environment.

Key words: speaker recognition auditory system robustness information theory spectral

envelope.

II

华中科技大学硕士学位论文

目 录

摘 要 ······································································································································································ I Abstract ·································································································································································· II 1 绪 论

1.1 自下而上加工过程 ······························································································································ (1) 1.2 自上而下加工过程 ······························································································································ (7) 1.3 其他相关研究 ····································································································································· (10) 1.4 本文研究内容 ····································································································································· (10) 2 说话人辨识听觉线索研究

2.1 引言 ······················································································································································· (11) 2.2 实验1:不同元音所含音质特征信息测定 ················································································ (12) 2.3 小结 ······················································································································································· (15) 3 文本无关说话人识别心理模型研究

3.1 引言 ······················································································································································· (17) 3.2 实验2:顺/倒序语句判断测试 ····································································································· (18) 3.3 小结 ······················································································································································· (20) 4 时频结构检测听觉模型

4.1 引言 ······················································································································································· (21) 4.2 相关定义 ·············································································································································· (23) 4.3 听觉特征检测器模型 ······················································································································· (25) 4.4 小结 ······················································································································································· (26) 5 总 结 ····················································································································································· (27) 致 谢 ·························································································································································· (29) 参考文献 ····················································································································································· (30) 附 录 攻读硕士学位期间发表论文 ······························································································· (39)

III

华中科技大学硕士学位论文

1 绪 论

人们对于人类听觉系统的研究已经有超过半个世纪的历史。早期的研究主要着眼于一些基本的听觉性质,如听觉感知阈限、耳蜗滤波特性等。随后的研究中引入了双耳模型,做了大量关于双耳时间差,双耳强度差,双耳效应,空间定位等工作。后来学者们认为相对于机器语音信号处理系统,人类听觉系统的优越性在很大程度上被认为是由于其有关于意识、注意力、经验等要素影响的结果,研究的热点逐渐转向了听觉系统的高级功能领域。研究者们广泛认识到后者对于听觉过程的影响非常显著:意识及注意力主导着对于声音信号信息的选择,经验知识主导着对于声音信号模式的识别,而且它们共同指导着对于已识别信号的检验和修正,对于未来信号的预测过程。从某种意义上来说,当前机器听觉系统想要达到人类听觉系统信号处理能力水平,最缺乏的就是注意力和经验知识机制的建立。这并非一件容易的事情,需要整个认知科学领域研究的深入来予以支持[1]。自下而上分析过程的研究主要集中于时频、空间听觉流形成、优先效应、前向掩蔽等方面,而自上而下分析过程的研究由于其本身的复杂性,并不像自下而上过程的研究那么深入,主要涉及对于信息掩蔽,语音理解和注意力等方面的心理及生理实验研究,下面对这几个方面进行简要的介绍。

1.1 自下而上加工过程

自下而上的加工过程,是指听觉系统依据某些声学特征,将声信号中的不同感觉元素分配到相应的听觉流中。在这个过程中声音信息经由外耳,中耳,内耳到达中枢听觉神经系统,在传输的过程中同时完成声音的分解和重组。关于这个过程的特性研究,主要分成以下几个方向: 1.1.1 时频相关听觉流

声音信号中不同的感觉元素在加工时被分离重组到相应的听觉事件和声源中,这

1

华中科技大学硕士学位论文

个过程中分离和重组的特征依据已经发现的有不少,其中研究最多的就是依据声音信号中时频特征进行分离的过程。这类研究范式是给被试循环播放不同频率的短音A和B,即声音序列“ABAB”。被试可能听到一个声音序列“ABAB”,也可能听到“A”和“B”两个同时出现的声音。A和B之间频率差越大,序列播放速度越快,被试越容易听到两个单独的声音;反之容易听到一个声音序列。近年来对此现象背后的特点和机制研究更加深入。

Elyse S. Sussman[2]利用ERPs检测没有意识参与的被试的失匹配负波,实验证明了:(1)分离出来的听觉流各自保持着相对独立性;(2)听觉流形成过程发生在流内整合之前;(3)听觉事件的前后内容影响听觉系统对于该听觉事件的整合。这个研究的结果反映出了听觉流形成过程的一些性质。

Christophe Micheyl等人[3]研究了在听觉皮层水平上,这种感觉现象后面的神经机制。他们观察到了在初级听觉皮质区(A1)中听觉流形成的神经“微机制”。还利用功能性核磁共振 (fMRI)和脑磁描记法(MEG)从人脑得到的结果表明了来自不同于A1区域的皮层区域对于听觉流形成也起到了作用。除此以外,Yonatan I. Fishman等人[4]通过动物生理实验也找到了一些时频特征分流的生理依据。不过以动物为被试的实验得到的结果并不是总和人类被试结果一致。Akihiro Izumi[5]的实验结果表明猴子在处理声音序列区分任务时采用频率变化线索,而且猴子比人类更依赖于局部特征作为分离线索。

Elyse Sussman等人[6]采用了电生理指标来记录结果的方法判断在没有意识参与情况下不同年龄的被试听觉流分离能力。结果反映了当频率近似程度为分离线索时,听觉流分离机制在小学生和成人之间基本一致。但是在类似实验中,研究者[7]以不同年龄段的被试进行对照实验,却发现其频率分流能力的差异,这反映了自下而上信息加工过程受到了长期经验的影响。

双耳系统不能够跟踪信号快速变化的耳间相关性,这种双耳迟缓效应被称为“双耳短时窗”——一种平均移动滤波器,将一段时间上的双耳信息整合到一个声音事件中。Susan E. Boehnke等人[8]研究了这个短时窗的等效矩形窗长度,给出的结果是平均86ms。Hilmi R. Dajani等人[9]对于双耳效应的实验研究给出了47和4.4ms的两个

2

华中科技大学硕士学位论文

时间常数。前者可能反映了皮层的综合,和双耳感知的“呆滞现象”吻合。后者可能反映了脑干或者主要听觉皮层中相关性交互过程。

除了对正常听力者的研究以外,在对非正常听力者的对照研究也可以为我们提供一些关于声音信号加工过程的信息,同时在医学领域的应用,因而显得也颇有价值。Marina M. Rose等人[10]通过正常听觉者和听力缺失者的心理声学实验,发现依据频率分流时频率差FB和人的频率分辨能力的生理极限FDL在这两种被试中关系不一致,表明了频率分流时的频率差阈限不是由FDL单独决定的。Chandra S. Throckmorton等人[11]对于人工耳蜗的研究从一个侧面也对此结论予以了支持。Monita Chatterjee等人[12]通过对于耳蜗移植者的心理实验,表明有些人工耳蜗移植者还是可能基于耳蜗不同电极和时域包络听得到分离的感觉。Huw R. Cooper等人[13]发现被试报告听觉感受出现分离的时间比例是随着耳蜗电极分离距离增大而增加的,但是声音序列播放速度对此却没有什么明显影响。这个结果预示着耳蜗移植者是以通道为声音分离依据而不是以时频为依据的听觉流分离。Thomas H. Stainsby等人[14]通过对听力损伤者的研究,用来了解在序列流分离情况下短时线索的影响。发现成份相关系和通频带的不同都对于最小可探测延迟有明显的影响。这意味着短时结构对于流分流有很大影响。Etienne Gaudrain等人[15]用模拟听力缺失患者听觉效果的频率缺失的声音来测试正常听力的被试。在实验中发现元音的谱平滑处理(spectral smearing)能够在某些方面改善听力效果,这可能对于听力缺失患者的困难有所裨益。 1.1.2 空间相关听觉流

听觉系统将声信号中的不同感觉元素分配到相应的听觉流的过程中,声场中声源的空间分布也是一个很重要的线索,对应到听觉系统中的特征,目前已知的重要特征主要是双耳时间差ITD,双耳声强差ILD,双耳相位差IPD等。依据这些特征,我们人类在听觉过程中可以感受到各个声源不同的方位和距离,为注意力指导下的选择性听觉过程作基础。

对于静态的空间定位研究出现较早,研究空间感受分辨率与频率,方位等因素的

3

华中科技大学硕士学位论文

关系,讨论其背后的机制。Mao dongxing等人[16]研究了人在双耳听觉中整体响度感受的依赖因素,包括ILD和声音频率,发现了感受响度级对于ILD和频率的非线性依赖关系。Gregg H. Recanzone等人[17]采用短尾猿(和人的听觉能力相当类似)做心理听觉实验,发现声源定位精度随着声音强度变化而变化,也随着声源方位变化而变化。随后Andrew T. Sabin等人[18]研究了在不同声音信号强度下人类听觉的空间区分阈限,得出同样的结论。Ruth Y. Litovsky等人[19]在对特殊脑部受损的病例的研究中发现单侧的下丘损伤很大程度上损坏了病人的声源空间定位能力(错认为发生在下丘损伤一侧的声音源是在下丘正常一侧)。Mark I. Sanderson等人[20]在对蝙蝠定位声纳系统的研究中发现:只有适当地提高频率,在蝙蝠内耳的滤波响应才可以在并行过程中得到完全的相位信息,并且可以解释蝙蝠声纳的精确性(其精确性比实验室水平高一个数量级)。

在生理微观机制的研究中,发现了神经对于ITD的编码依赖于一个特殊的机制(对双耳输入信号进行比较),曾经提出了一个著名的双耳精确时差的假设模型jeffress模型。jeffress模型采用了同时性神经元检测阵列比较来自两侧的输入信号使得不同的ITD对应着阵列上不同的神经元。虽然jeffress这类模型成功地预言了人类对于ITD的敏感性,但是也有一些神经响应性质用这种模型不能完全解释。Douglas C. Fitzpatrick等人[21]就记录下了在某些情况中超出了jeffress模型框架的神经元的响应信号。

相对较晚时候开始出现了动态的空间定位研究。这类研究范式主要利用先出现的适配音来影响听觉系统对于后出现的目标音的空间感受。Stephan Getzmann[22]以这种范式进行的实验结果表明声源空间分辨力的增强只有在适配音有合适的空间位置和频率时才会出现。当适配音和目标音的频谱不一样的时候,这种影响效果则很不明显。 Phillips等人[23]的研究描述了针对ILD和ITD的感知通道的频率特定的选择适应性。两种不同频率的适配音轮流地、强偏向性地呈现在相反两边。在适配音出现前后,进行基于ITD和ILD的偏向性心理测量。在适配音之后,感知中心点朝着适配音的方向移动,而且两种频率有着相反的移动方向。这个结果支持声音侧向性编码的双通道逆过程模型。Bronwyn K. Vigneault-MacLean和Dennis P. Phillips等人[24-25]

4

华中科技大学硕士学位论文

的实验结果也支持这个结论。Dennis P. Phillips等人[26]后来又采用了相同的范式来研究ITD和ILD的感知过程的关系。发现基于ITD呈现的适配音对基于ITD的目标音感知中心点的偏移,反之亦然。这又提供了神经系统处理ITD和ILD时之间的相互关系的一些证据。同时还有实验表明ITD,ILD还和频率有联系:Alan R. Palmer等人[27]测量了麻醉的几内亚猪下丘72个细胞的ITD敏感性对于频率和ILD的函数关系。发现对于许多单元存在“null”频率,即频率上ILD的变化对于ITD敏感性峰值位置没有影响。

除此之外,还有一些与听觉有关的其他的感知觉研究也引入了听觉研究范围。Fr?hlich 效应指人类视觉对于中快速移动的信号的初始位置的判断会出现偏移。Stephan Getzmann[28]将Fr?hlich效应引入听觉的研究中,发现听觉系统处理声音信号时也存在该效应,而且随着注意力参与到听觉空间定位过程,该效应还会被放大。

1.1.3 优先效应

刚才提到的研究中虚拟声源的主观空间感受都是利用ITD或ILD来模拟的,这利用了优先效应的结论。左右耳听到的有短暂时间差的类似信号,或者同时到达的不同强度的类似信号,会在人脑中形成声音来自某个方向声源的主管感受,这就是优先效应。优先效应在听觉研究中应用很多,所以也有不少对于优先效应本身的研究。Kourosh Saberi和Joseph V. Antonio[29-30]研究了优先效应实验中不同参数的影响,发现了在不同的实验条件下受试对实验的熟悉程度对于实验结果的明显影响,被试们的测试阈限值,阈限分布等对训练有着高度依赖性。Richard A. Roberts等人[31]检测了短时音的回音检测阈限,即多长的延迟时间下听觉系统把两个声音当作一个听觉事件,而不是前后两个不同的听觉事件。发现相对于没有回音的环境,在回音环境中两个先后出现的同样声音更容易整合到一个听觉事件中. Liang Li等人[32]不像以往采用瞬时声音材料来研究优先效应,而是采用持续时间较长的声音材料,且材料中包含短时静音端点。结果发现人的听觉系统对于声音事件的整合与端点的整合规则并不一样。这为听觉场景分析研究中感觉元素的整合机制提供了一些有价值的

5

华中科技大学硕士学位论文

参考。Andrew J. Oxenham[33]在基频不同和声源空间位置两种情况下研究听觉系统中哪部分对端点检测贡献最大,结果发现听觉外周主导着听觉系统的端点检测能力,深层次的神经编码机制没有什么影响。现今语音识别算法中语音端点的检测是一个非常重要的环节,所以这个结论在端点检测算法的研究上有很大的指导意义。 1.1.4 前向掩蔽效应

听觉系统对于瞬时信号的检测和整合等加工过程和神经元的刺激不应期有很密切的关系。神经元对刺激产生响应后,短时间内对于接下来的刺激不会产生响应,这在宏观上的表现就是前向掩蔽效应。对于正常听力者,在相同的功率谱情况下,谐波复音在基底膜上产生的尖锐波形导致的前向掩蔽效果要低于一般复音在基底膜上产生平滑些的波形导致的前向掩蔽效果.通常认为差异主要归结为听觉外周部分的压缩和抑制联合效应,这两个过程都依赖于耳蜗中活动机制的操作。Brian C.J. Moore[34]通过对耳蜗听力受损的被试的实验,间接地支持了这种看法。前向掩蔽常常被认为是由于神经自身的非线性效应引起的。Andrew J. Oxenham的研究[35]却表明,只要引入了一些非线性参量,前向掩蔽是可以用线性过程来描述的。 1.1.5 神经编码不对称性

D.P. Phillips等人[36]发现人的听觉系统在处理声音信号时,信号各个部分对于听觉系统而言重要程度是不一样的。起始端的编码占有非常重要的位置,而结束端重要程度就相对低的多。Christian Borgmann等人[37]采用脑磁图MEG和脑电图EEG来测量对于不同信号人的听觉中枢延迟响应MLR。发现在同样强度下起始端变化强烈的刺激信号产生的听觉中枢响应不仅幅度大而且反应时间短。Janine C. Clarey等人[38]检测了自然音节的声音起始时间段(VOT)编码,语音呈现过程采用了不同的强度,实验对象为麻醉的老鼠的耳蜗腹核(ventral cochlear nucleus, VCN)神经元。细胞外纪录了VCN响应形式。结果表明BF高于第一共振峰频率的VCN细胞的响应对于语音起始端敏感,使得它们能够精确传达音节VOT的信息。

有相似的起始端的信号,不同的频率、相位排列方式也会让听觉系统响应有明显差异。Dau等人[39]证明了频率瞬间提高的声脉冲(up-chirp)可以通过同步基底膜上

6

华中科技大学硕士学位论文

所有频率通道的激励,增强听觉脑干响应ABR的V波。下降声脉冲(down-chirp),是上升声脉冲在时域上的反转,可以增加耳蜗相位延迟,从而导致较小的ABR V波。Stefan Uppenkamp等人[40]采用了up-chirp和down-chirp来研究这种相位改变如何影响我们所听到的内容。结果感知的内容不同于在脑干水平上的研究结果,是down-chirp听起来更加的紧凑。 1.1.6 听觉外周

对于声音在外耳,中耳和内耳中的处理过程的研究,通常称为听觉外周模型研究。听觉外周由于其独特的非线性变换结构,对声音信号的处理时带有天然的频率选择性和抗噪性,在听觉信息加工过程中占有比较重要的地位。从总体上来说它是一个将声音信号由时域转化为频域的过程,但是其中还有许多细节尚未研究清楚,比如随机共振机制在听觉神经系统中的作用正被广泛的研究着。如Shahdad E. Behnam等人[41]的实验表明噪声明显增强了阈上谐波信号的分辨能力,尤其是在低强度信号伴随着阈上噪声的时候,这反映出合适的噪声强度可以优化听觉表现。对于听觉系统的研究,李朝晖等人[42]对此方面相关总结。

1.2 自上而下加工过程

自上而下的加工过程,主要是听觉中涉及的注意力,经验知识等内容的部分。人类听觉系统在对声音元素进行声源重组时,这些信息起到了非常重要的作用。在这些高级功能的支持下,人类才可以在复杂的声场环境中分辨目标信号,很大程度上提高对噪声的鲁棒性。但是由于这部分的研究涉及到对智能认知的深入理解,所以研究是以心理实验为主要研究手段,生理的实验研究大多较为局部。 1.2.1 信息掩蔽

当噪音和目标声音信号的信息模式有一定程度的相似时,例如两者都是语音信号时,噪音就会在心理加工过程中抢占一部分的心理资源,使人对于目标信号的信息加工受到影响,即目标信号受到了掩蔽作用。和前向掩蔽和频率掩蔽等低层次上的

7

华中科技大学硕士学位论文

掩蔽效应不同,信息掩蔽是一种在较高的神经和心理加工水平上所产生的掩蔽效应,即使同一时刻目标声音和噪声在频率上并没有重合。心理学实验证明了在同样的信噪比条件下,以语音为内容的噪声相对于普通噪声对于人的语音感知能力有着更大的干扰[43-44],而且当噪声中的语言和被试的母语为同一种语言时这种干扰效果尤其明显[45]。这些结果确认了在“语言干涉”形式下噪声中句子识别中的信息屏蔽效应。H. Kozou等人[46]在不同声场环境下测试被试的MMN,结果显示了在嘈杂环境和安静环境中语音和非语音的处理方式是不同的。相比于非语音处理过程,语音处理过程更多地受到噪音环境的影响。此外,对于语音和非语音声音的预注意辨别力在不同类别的噪音下受到的的影响也是不同的。Xihong Wu等人[47]语音噪音干扰效应相对于频谱噪声更容易通过优先效应来消除,这也从一个侧面反映出其处理过程的神经机制某些特征。另外,Marisciel Litong-Palima等人[48]揭示出语音跟踪不同于语音识别,人类在多语音干扰的情况下跟踪目标语音的能力鲁棒性很好,其反应表现出来的是一个线性系统的特征。而语音识别在环境中不相关的语音源增多的情况下,其识别能力迅速恶化。 1.2.2 语音理解

在各种不同的实验条件下对语音的可理解度的研究,可以有助于我们了解听觉系统在信号中提取什么样的语音特征,如何提取这些语音特征以及知识体系在大脑记忆系统中的存储形式。同时,这种研究在应用层面,对于语音识别系统采用新的特征提取技术有一定的指导意义。

M. Kathleen Pichora-Fuller等人[49]采用短时抖动来干扰语音的周期性线索来研究这种扰动如何影响词的辨认,得出时域扭曲比低频成分的谱扭曲更能影响词识别的结论。Thomas Baer等人[50]设计了对于语音进行的smearing操作,发现对于安静环境中的语音信号进行smearing处理后,可理解性没什么影响;对于噪音环境中的语音信号进行smearing处理后,可理解性明显降低。F. Apoux等人[51]对正常听力者和听力受损者进行了语音信号时域包络扩充效应对于噪音环境中语音识别效果影响的研究。时域扩展在正常听力者识别得分上改进很小(约为5%),在听力受损者识别

8

华中科技大学硕士学位论文

得分上没有影响。在另一方面,结果显示扩展导致在所有被试反应时间都明显下降。两个实验组平均反应时间减少65ms。这些结果显示噪声环境中语音信号时域包络扩充可以让正常听力和听力受损者“容易听到”信号。Rob DrullmanZ等人[52]描述了相对于传统的单双耳的听觉呈现方式,3D听觉呈现方式在考虑可理解性和有竞争语音的环境中说话人识别任务中的优点。在进行识别人任务时,能够很有效的减少反应时间。

语音理解研究中一个重要发现是相同的声音信号可以被感知为不同的语音,这倚赖于前后的语音内容。虽然这种语音内容效应在语音感知中非常普遍,它的神经机制仍然很大程度上没有被了解。Lori L. Holt等人[53]通过回顾这方面的研究情况,说明了这个效应受到高级听觉过程的支配,提出了一种描述性框架来整理这些工作。同时进行了4个心理实验揭示出语音内容效应持续数百毫秒。Matthew H. Davis等人

[54]

回顾四个对于语音理解很重要的过程:感知整合(perceptual grouping)、词汇分

割(lexical segmentation)、感知学习(perceptual learning)和绝对感知(categorical perception)。提出并证明了自上而下信息驱动过程和语音输入解释抑制过程之间的高度相互作用。这些相互作用的认知和神经基础依赖于对听到的语音两种独立的表述方式:对于输入语音信号的表述和能够产生该语音的肌肉行为表述。 1.2.3 注意力

在整个认知科学研究领域里,注意力对于知觉的影响都受到了研究人员广泛的承认和重视。在人的听觉系统处理大量复杂声音信号时,注意力机制能够让人有选择的处理某一部分信号而忽略其他信号,同时也就对大量复杂噪声干扰具有强大的抗噪能力。在听觉研究领域,注意力的研究可以说是难点和核心之一。

Claude Alain[55]综述了多声源感知的研究进展,指出初级听觉皮层和颞平面在多声源感知过程中发挥重要作用,而且揭示了丘脑皮层活动和多路语音成功分离与确认之间的联系。A.R. Palmer等人[56]回顾了近年关于非被动听觉(即包括注意力等因素的听觉过程)的研究进展。Tomas hromadka等人[57]则站在神经生理和动物行为实

9

华中科技大学硕士学位论文

验角度上,对于近年来有关注意力的生物实验研究作了回顾。

E. Ofek等人[58]采用提示注意范式研究了左耳优势现象的神经生理学关联,并且了评估刺激的方向和注意力的相互作用。Jonathan B. Fritz等人[59-60]在动物进行实验任务的同时记录它们大脑皮层信号,实验结果表明A1区中注意力引发的可塑变化可以很快的改变STRF形状(通过改变接受区域来增强特征/背景分离能力,通过对比匹配来滤掉背景,同时增强前景中目标声音的声学特征)。这些结果支持这样的观点:大脑可以动态的,和注意力相关地、自适应地可以根据当前面对的问题,快速改变其滤波性质和中枢连接。

1.3 其他相关研究

除了对于听觉系统本身的研究之外,还有不少相关工作涉及到听觉场景分析的系统实现,对于计算机智能化听觉作出有益的尝试。戴明扬等人[61]采用精细的听觉外周模型来提取信号特征,发现比常见的MFCC特征参数有更好的鲁棒性。赵鹤鸣等人[62]采用声源空间定位算法和简化的频率掩蔽算法实现了2个语音源的信号分离。Martin Cooke[63]模拟人的听觉过程中对于不完整信号的处理方法,采用数据丢失技术和基于不完整信息的模式识别技术来实现在不平稳噪声中语音信号的识别。不过由于对于生物听觉系统缺乏深入了解,这些人工系统听觉系统想要达到生物听觉的水平,还有相当长的路要走。

1.4 本文研究内容

以上对于听觉系统研究领域按照自下而上分析过程和自上而下分析过程两个大类进行了一些简单的介绍。本研究的工作是对听觉系统自上而下及自下而上分析过程中的一些特性进行了三个相关研究,包括声学实验及语音信号处理模拟计算。

10

华中科技大学硕士学位论文

2 说话人辨识听觉线索研究

2.1 引言

在多个说话人语音以及复杂的声环境中,辨识和跟踪某一个说话人的语音并提取语音信息,是语音识别技术走向应用面临的重要课题和难题。技术上是从接收的语音信号中提取某些特征,利用这些特征和一定的判据将语音信号进行分类。迄今,所取得的效果并不令人满意。但是,听觉系统却有很好的说话人跟踪和辨识能力,其工作模式和机理值得借鉴。在说话人辨识技术中,以MFCC为代表的主流语音特征在时域上对语音作均匀权重处理[64]。但是听觉系统是否按这种方式工作呢?由于说话人音质特征信息对于噪声环境中搜索目标语音起到了最为关键性的作用,这就转化成需要明确的具体问题:音质特征信息量在语音时域上如何分布? 语言学研究

[65]

表明在词汇处理上辅音音素起到支配性作用。类似地,如果语句字词识别过程中

辅音元音具有不同的重要性,提供不等的信息量,那么说话人语音特征信息量在元音/浊辅音中所含是否也不等呢?不同的元音对说话人识别过程的重要性是否一样的呢?如果不一样,那与什么因素有关?

直接对不同音素中语音音质特征信息量进行测量具有一定的难度,但是近年来心理声学研究中发现的“提示效应” [66-67]实验模式很好地解决了这个问题。提示效应是指通过预先播放与目标声音相关的提示音,能够有效提高人类在噪声中识别目标语音的能力的现象。我们研究了被试在进行说话人辨识任务时所依赖的提示信息,发现提示音中不同音素有着不同的提示效果,这反映出音素所包含的说话人语音特征信息是不等量的。同时,通过与自然语言环境中发音的统计结果相比较,不同音素所包含的说话人的特征信息,与信息论中的信息熵的估计是一致的。这些研究结果,为说话人听觉辨识机制的揭示,以及说话人辨识的语音特征时域非均匀权重处理提供了全新的思路和实验证据。

11

华中科技大学硕士学位论文

2.2 实验1:不同元音所含音质特征信息测定

2.2.1 实验参与者

26名华中科技大学本科生及研究生(20名女性和6位男性,年龄从20岁至25岁)参与实验担任被试人员。所有被试都通过面试确认拥有正常听力。 2.2.2 实验材料

实验语音材料是由6为男性说话人(华中科技大学研究生,年龄从23至25岁,普通话标准)录制,他们所有人都不认识参与实验的被试者。所有声音材料都是在隔音室中录制完成。录音材料最高频率为8kHz,保存格式为PCM(22.050kHz,16位,单声道)。

实验语音材料有三种不同内容:自然语句,非自然语句和元音串。自然语句是从常见流行书中随机抽取。对自然语句的统计分析可知,在总计2274个字中,各个元音的发音概率分别是:/i/ 46.9%, /a/ 29.1%, /e/ 25.9%, /u/ 24.8%, /o/ 20.6% and /v/ 3.39%。根据这个概率分布,针对性地设计了非自然语句。在保持原语句通顺有意义的前提下,通过将自然语句中某些词替换,得到非自然语句中各元音发音概率明显不同于原有语句:/u/ 32.1%, /e/ 30.7%, /o/ 25.5%, /i/ 23.7%, /a/ 22.7% and /v/ 5.97%。语句中元音发音概率分布见图1。

图1 在自然语句和非自然语句中各个元音的发音概率分布。自然语句经过修改后得到的非自然语句中,自然语句中出现概率高的元音变成了低概率元音,低概率元音变成了高概率元音(除了元音/v/,其在中文中的可搭配音素过少)。

12

华中科技大学硕士学位论文

自然语句经过修改后得到的非自然语句中,自然语句中出现概率高的元音变成了低概率元音,低概率元音变成了高概率元音。但是元音/v/例外,它在中文发音中十分特殊。因为缺乏与其能够结合成为C-V音节的辅音,元音/v/在中文语言环境中出现较少,所以无法将其在非自然语句中的出现概率设计成最高。所以实验中采用的两种不同的元音序列分别是:自然语句中的高概率元音(/i/,/a/和/e/)和低概率元音(/e/,/u/和/o/)。换句话说,前者在非自然语句中是低概率发音,后者在非自然语句中是高概率发音。在每个发音序列中,相邻元音的间隔为400ms左右。两个发音串中元音在语句中出现的平均概率如表1所示。

表1 两个元音串中元音在语句中出现的平均概率(%)

元音串 /i a e/ 自然 语句类型 非自然 25.7 29.4 34.0 /e u o/ 23.8

每个录音者所录的是1个完整的中文单元音序列(/a/, /o/, /e/, /i/, /u/ and /v/),10个自然语句和10个非自然语句。两种类型的元音发音串是基于这个录音制作出来的,所有发音的平均声强级都被归一化了。录音和制作的工作都是用Cool Edit Pro 2.1完成的。 2.2.3 实验方法

实验采用2×2完全随机化设计,启动效应范式。因素A的两个水平表示两种不同的待判断语句(Xa1:自然语句;Xa2:非自然语句),因素B的两个水平表示提示元音串在自然语言环境中的出现概率(Xb1:提示元音在自然语句中出现较多,如/iae/;Xb2:提示元音在自然语句总出现较少,如/euo/)首先呈现元音串进行提示,两种提示元音串随机出现。元音串后间隔500ms,同时播放语句A和B。语句A和B长度均为4秒,具有相同的平均功率。A和B内容不同,且其说话人是从说话人集合中随机挑选。A和

13

华中科技大学硕士学位论文

B中有可能出现元音串的发音人,也可能没有。两个语句的类型相同,均为自然语句或非自然语句。两类型随机出现。被试被要求判断提示元音串发音人是否出现在语句发音人中。每个被试进行5组,每组10次,共50次测试。每完成一组测试,被试可以休息3分钟。整个测试在隔音室中进行,通过基于MATLAB R2007A 编写的人机交互界面程序实现声音信号呈现,被试结果记录等所有工作。实验过程中实验者不对被试施加任何提示或干扰。 2.2.4 实验结果

总共26个被试者参与了实验,每人进行了50次测试,总共应有1300次测试判断结果。由于疏忽等原因,只记录了1293个结果。在对照组Xa1b1348个判断结果中,219个是正确的,129个是错误的,判断准确率为62.9%;在对照组Xa1b2356个判断结果中,238个是正确的,112个是错误的,判断准确率为66.9%;在对照组Xa2b1297个判断结果中,176个是正确的,121个是错误的,判断准确率为59.3%;在对照组Xa2b2292个判断结果中,179个是正确的,113个是错误的,判断准确率为62.9%。在实验中,由于录音人总数是6个,而只需要选择一个,所以被试者如果选择“是”则导致16.7%的先验准确率,而选择“否”则导致了83.3%的先验准确率。因为每个被试的选择倾向性不同,所以4个对照组中先验准确率分别为Xa1b1: 53.6%, Xa1b2: 54.1%, Xa2b1: 54.0%, Xa2b2: 50.8%。在各个对照组中被试的准确率提高百分比如表2所示。

表2 实验中4个对照条件下被试者的说话人判断准确率提高百分比(%)。

提示音概率 (Xb) 高概率 (Xb1) 语句类型 (Xa) 自然(Xa1) 非自然(Xa2) 9.3 5.3 7.3 低概率(Xb2) 12.8 10.5 11.7 11.1 7.9 在Xa1水平上,共记录了704个判断结果,其中457个正确,247个错误。判断准确率为64.9%,由提示音带来的判断准确率的提高百分比为11.1%。在Xa2水平上,共记录了589个判断结果,其中355个正确,234个错误。判断准确率为60.3%,由提示音带来

14

华中科技大学硕士学位论文

的判断准确率的提高百分比为7.9%。当测试语句是自然语句时,判断准确率的提高百分比比当测试语句是非自然语句时更高。这两个结果差异显著(|Z|=1.9414, p<0.05),说明测试语句是自然还是非自然对于说话人判断过程中的准确率有明显影响。

在Xb1水平上,共记录了645个判断结果,其中395个正确,250个错误。判断准确率为61.2%,由提示音带来的判断准确率的提高百分比为7.3%。在Xb2水平上,共记录了642个判断结果,其中417个正确,225个错误。判断准确率为65.0%,由提示音带来的判断准确率的提高百分比为11.7%。当提示元音串中元音是自然语言环境中出现概率低的元音时,判断准确率的提高百分比比当提示元音串中元音是自然语言环境中出现概率高的元音时更高。这两个结果差异显著(|Z|=2.6923, p<0.05),说明提示元音在自然语言环境中发音概率高低对于说话人判断过程中的准确率有明显影响。

2.3 小结

通过该实验,我们发现人类在进行说话人识别处理时,不仅说话人语言的自然程度对其结果有影响,而且即使是自然语句中,在语言环境中出现概率高的发音和出现概率低的发音对结果也有明显影响。在这里我们着重讨论后一种现象。

在听觉心理现象研究中,D.P. Phillips等人[68]发现人的听觉系统在处理声音信号时,信号各个部分对于听觉系统而言重要程度是不一样的。起始端的编码占有非常重要的位置,而结束端重要程度就相对低的多。这和Boris New等人在研究字词识别时发现辅音对于字词识别的贡献大于元音的现象[69]是很类似的,后者还提出了这种现象可能与信息论有关:自然语言环境中,辅音数量明显多于元音,因此在搭配成音节时,辅音携带的信息量更多。而在我们的这个研究中,同样也发现了在听觉信号处理时,人类听觉系统对于信号在时域上的关注程度不一致。但是,我们的发现也不同于前面的研究:前面的研究反映出人类听觉神经系统和发音器官结构限制对于听觉理解的影响,而我们的研究则揭示了人类听觉系统在进行语音信号处理时,

15

华中科技大学硕士学位论文

不仅仅受到生理物理结构限制带来的条件约束,而且在长期语言环境的训练下,按照语言发音习惯等统计要素进行了合理的改进,依照信息论的思想对语音信号进行了编码处理,对高概率发音粗略编码,对低概率发音细致编码,这样可以充分地利用神经资源。

在视觉听觉信号的编码技术领域,能够对信号进行无损压缩的方法主要有两个途径:一个是通过数学手段,尽量减少信号的冗余性,提高信号传输效率,最终能够达到信息论所指出的编码极限;另一个就是利用人类感觉器官本身的性质,丢弃感觉器官不会注意的部分信息,达到数据压缩的效果。虽然这个方法实际上造成了信息的损失,但是由于丢失的部分信息是人感觉器官不关注的,所以不会对实际信息的理解带来困难。而我们的这个研究则为语音信号处理提供了一种全新的听觉器官特性,为听觉信号压缩编码处理的进一步研究提供了一个心理学实验基础。

16

华中科技大学硕士学位论文

3 文本无关说话人识别心理模型研究

3.1 引言

说话人识别作为语音技术中一个重要领域,在社会许多领域都具有非常重要的应用。其研究最早可以追溯到二十世纪六十年代。1962年,Bell实验室的L. G. Kersta首次提出了“声纹”的概念[70]。到七十年代后期,动态时间规整和矢量量化开始被应用到说话人识别中,这两项技术在语音研究领域具有重大的意义[71],使得说话人识别的性能得到了大幅度的提高,该模型至今在一些特定情况下如小词库识别中仍在使用。八十年代中,借鉴与生理心理研究结果的Mel频率倒谱系数的引入,使说话人识别的正确率有了进一步的提高。同时,人工神经网络[72]和隐马尔可夫模型[73]开始在语音识别领域中得到了成功和应用,并且很快成为说话人识别的重要技术。特别是隐马尔可夫模型,作为概率统计模型,对发音过程的良好的描述,是语音识别研究历史上划时代的技术,已成为文本有关的说话人识别建模的首选[74-75]。九十年代以后,Reynolds将高斯混合模型[76]引入说话人识别领域。由于其无关文本内容的统计特性,模型计算复杂度大大低于隐马尔可夫模型,并且具有良好的鲁棒性,迅速成为当今与文本无关的说话人识别中的主流技术[77]。近年来备受关注的支持向量机也开始用于说话人识别模型并逐渐成为研究热点[78-79]。 时至今日,文本相关的说话人识别和安静环境下的说话人识别系统已经达到而来相当优秀的性能。说话人识别领域的研究主要集中于提高文本无关的噪声环境中识别系统性能方面的工作。一年一度的NIST大赛主要测试条件也主要是文本无关的噪声环境。现有文本无关的说话人识别的主流技术常常采用UBM-GMM[80],SVM[81]等等模型。其中,制约说话人识别系统应用的主要问题是实际应用环境中的噪声,这导致了说话人系统鲁棒性问题是研究的主要热点[82-83]。当前的许多说话人识别系统在低噪声、低失真的环境条件下的性能已经相当的高,但是一旦应用于噪声环境性能急剧下降。因此,要使说话人识别技术更进一步走向实用,必须解决抗环境噪声的问题。

17

华中科技大学硕士学位论文

如何进一步改进现有技术?现有研究很多专注于对于多种不同模型的融合以期

改进识别性能。但是,无论是GMM还是基于帧处理方法的SVM,都存在着一个共同点:都是以短时语音帧作为提取特征参数,进行聚类分类统计等工作的基本处理单元。即使是基于语句方法的SVM方法,其输入端也仅仅是增加了基于帧单元的处理统计环节,并没有和之前方法的本质差异。这些模型仅仅利用了说话人语音的声学分布,并没有充分利用到语音中蕴含文本、韵律等高层信息,因此人的语音中包含的信息还有进一步发掘的可能。很可能就是这种模型上的局限性,导致了当训练和测试条件匹配时,机器的能力已经接近和甚至超过了人的能力,但是当训练和测试条件不匹配时,人的识别效果会明显高于机器[84]。因此,了解在噪声环境下人类听觉系统的工作机制,对改进当前说话人识别技术有很重要的意义。本研究就通过心理实验,对存在干扰声源情况下的文本无关说话人识别任务中人类听觉系统的工作机制进行了研究。

3.2 实验2:顺/倒序语句判断测试

在实验1中,我们发现自然语音材料作为测试语句导致被试对于说话人识别的准确率的提高有影响,反映了人类在进行文本无关的说话人识别判断时,并不是仅仅采用短时谱统计特征,如类似GMM模型这样的处理方式,同时还利用了对于常用词汇的词汇长度声学模型进行辅助。为了更加直接的证实这样的模型存在,我们设计了实验2。实验2整体过程和实验1类似,不过对照组换成了顺序语句和倒序语句。因为声学模型显著的时间序列特性,基于声学模型的识别系统对于语音材料的时间顺序性十分敏感,而基于短时谱特征的统计模型则相反。通过比较这两个对照组的结果,我们可以更加直接的确认人类听觉系统中文本无关说话人识别过程所用模型。 3.2.1 实验参与者

24名华中科技大学本科生及研究生(15名女性和9位男性,年龄从20岁至25岁)参与实验担任被试人员。所有被试都通过面试确认拥有正常听力。

18

华中科技大学硕士学位论文

3.2.2 实验材料

所有语音材料均是随机从实验1所录制的语音库中挑选的。提示元音串为/a, o, e, i, u, v/,顺序语句和实验1中的自然语句相同,而倒序语句则是顺序语句在时间上反演。倒序的操作是通过Cool Edit Pro 2.1完成的,效果见图2。

图2 实验2中的一个顺序语句(上)和一个倒序语句(下)。

3.2.3 实验方法

实验采用完全随机化设计,启动效应范式。因素的两个水平表示两种不同的待判断语句(Xa1:顺序语句;Xa2:倒序语句)。在每次测试中,首先呈现元音串进行提示,两种提示元音串随机出现。元音串后间隔500ms,同时播放测试语句。语句长度均为4秒,具有相同的平均功率,且其内容和说话人是从声音材料集合中随机挑选。语句的可能是元音串的发音人,也可能不是。语句的类型随机出现,为顺序语句或倒序语句。实验的其他细节和实验1相同。 3.2.4 实验结果

实验中有24名被试者,记录了其1200个判断结果。对照组Xa中有588个结果,对照组Xb中有612个结果。在实验2中,被试总是选择“是”会导致16.7%的先验正确率,总是选择“否”会导致83.3%的先验正确率。被试判断准确率的提高百分比在对照组

19

华中科技大学硕士学位论文

Xa中为9.95%,在对照组Xb中为6.81%,两者结果的差异性达到显著性(|Z|=1.97, p<0.05)。具体结果见表3。

表3 两个对照组中被试判断准确率的提升百分比(%)。 先验准确率 后验准确率 准确率提升百分比 顺序语句材料 (Xa) 49.77 59.72 9.95 倒序语句材料 (Xb) 61.98 68.79 6.81 在文本无关的说话人识别任务中,顺序语句对照组中的被试表现更好。当测试语句改成倒序语句时,虽然语音帧中没有任何信息损失,但是被试识别准确率的提高百分比明显下降。这个结果说明了人类在文本无关说话人识别过程中,不仅利用了短时谱特征的统计分布信息,还利用了词汇及更长尺度上的时间序列顺序信息。

3.3 小结

在这个研究中,我们发现了人类在进行文本无关的说话人识别任务中采用了不同于现有主流说话人识别系统的机制。现有说话人技术如UBM-GMM,SVM等主要利用了短时语音的统计信息来进行判断,而人类除了利用短时信息之外,还利用了词汇长度水平的语音信息作为辅助。从实验数据分析来看,这种较长时间尺度信息利用机制性质类似于常用词汇的DTW模型。这种辅助识别机制在训练样本和测试样本不匹配时作用尤其明显。这个结论揭示了噪声环境下现有文本无关说话人识别模型和人类说话人识别心理模型的差异,为现有模型鲁棒性研究提供了有力的支持。

20

华中科技大学硕士学位论文

4 时频结构检测听觉模型

4.1 引言

声源分离技术是一种依据声音信号波形中反映出的声源结构和行为特征来对声源进行分离的技术,复杂噪声处理是其最重要的应用之一。在实际应用中,目标声音信号总会受到各种不同类型的噪声源的干扰,使得在实验室环境下成熟的声源识别系统的性能迅速下降。尽管现代信号处理技术提供了大量噪声滤除方法,包括针对复杂非平稳噪声的自适应滤波器,但是这些滤波器都存在着各种局限性,尚不能很好地处理实际应用时遇到的各种类型的噪声,尤其是在当噪声声源与信号声源性质相似甚至相同的情况下。与此同时,人类听觉系统在复杂噪声环境中却表现良好。在复杂的多声源混合信号中,它能够有效地识别目标声源并加以跟踪,并且忽略其他干扰声源的信号[1],其优秀性能长期以来一直吸引了大量的科研人员对它的内在机制进行了大量深入的研究。人们期望通过对人类听觉系统的模拟,来实现计算机智能化的听觉能力。目前为止,虽然并没有彻底了解听觉系统所有的细节,但是我们也已经相当多的相关信息。

大量的实验研究暗示着人脑中存在着对于特定声源(如语音)的发音特征高度敏感的检测结构。神经生理研究很早就在动物的听皮质中发现了对于信号中不同特征敏感的神经元,从简单特征如频率变化[85]到复杂特征如人的语音[86]都存在着对应的检测细胞。同时, 脑成像研究发现了对于语音信号特征敏感的脑[87]区,心理学的追随耳实验研究也映证了人脑存在着对语音特征的检测功能[88]。不仅如此,从进化论的角度来看,对物种内发出的信息的敏感探测和准确识别对于生物个体生存非常重要。因此,认为人类听觉通路中存在对语音特征敏感的检测机制是十分合理的。

在这样的一个研究背景下,人们不禁要问:到底存在哪些子特征检测器,组成了对语音检测的机制呢?现在众多研究人员致力于寻找对声音信号中较复杂特征敏感的检测神经元,但是却遇到了不少的困难。与寻找简单特征不同,复杂特征的时频结构难以

21

华中科技大学硕士学位论文

预期,需要采用大量的特征集进行测试[89],而且神经元时频感受野的快速可塑性[90-91]也使得这种寻找工作变得更加困难。

从进化论的角度来考虑,由于在长期进化过程中人类听到的声音信号来自于自

然界,听觉系统对于人类常遇到的自然界声音具有非常高的适应性[92],因此对可能的常见声音加以统计,将其共有特征加以概括和提取,并对这些特征进行实验验证和讨论是个行之有效的方法[93]。

人类对于声音信号的处理依据哪些规则,具有哪些特点?认知心理学很早就对

于这个问题有了较为全面的答案。Bregman在1990年对此方面的研究进行了详尽的总结,总结出了以格式塔规则为基础的一系列感知规则[94]。而对于人类听觉系统的模拟,则在Bregman的书出版之前就已经开始了。Weintraub在1985年建立了第一个模拟单耳声源分离原理的人工听觉模型,将两个语音信号成功分离[95]。后续的研究沿着类似的思想,不断地对模型进行完善[96-97]。时至今日,根据人类听觉信号处理规则和特点建立起来的听觉场景分析模型,已经达到了相当高的水平,能够较好的将基频分布范围处于相同频带上的多个同时语音进行分离。

但是,这并不代表听觉场景分析模型已经发展到尽头了。人类听觉系统还有些重

要特征尚未被充分借鉴。现有的听觉场景分析模型主要依赖对于多个声源的基频分析,以此将不同声源进行分离。但是,在这个过程中,并没有认为人类语音和其他声音在重要性方面有所区分,这是不符合实际情况的。人类听觉系统对于人类语音的敏感性和分辨力高于其他声音,处理时神经信号传递的通路都不同,甚至对于男声和女声,人脑对应的处理脑区也是不同的[98]。同时,人类也常常处理没有基频的语音信号,如耳语音。在有正常语音干扰的环境中去听取耳语音声音,是人类常常面对的情况。这种现象显示出了对于声源的分离,并不能单纯依赖于基频的分析[99]。所以,针对这种情况,现有模型还有需要改进的地步。

由于脑功能成像实验证实了存在分析频谱包络的特定脑区[100-101],认知心理学实验也显示出语音信号频谱包络对于语音的可懂性的重要意义[102-103],因此我们认为人脑在对语音信号特征分析的过程中,语音信号频谱包络特征具有非常重要的作用,由此假设人类听觉系统中存在对“频谱包络峰度”这样的复杂特征的检测机制。对语

22

华中科技大学硕士学位论文

音和自然环境背景噪声的频谱包络峰度特征的统计来看,二者的特征值分布存在明显差异。由此我们设计了一个听觉特征检测器模型,即采用频谱包络峰度作为判据的glimpsing模型[104]来模拟听觉通路中特征检测机制对混噪信号的处理模式。结果显示,对于被日常环境背景噪声(如汽车发动机噪声)干扰下的语音信号,信噪比能够得到明显提高。

4.2 相关定义

发音声道的结构特点导致了语音频谱具有相对固定的频谱结构,包括一定数量的共振峰。无论是在认知心理研究中还是语音信号处理技术中,语音的频谱包络都具有非常重要的意义。对于频谱包络的计算,应用最广泛的算法是线性预测分析。但是,由于我们要处理的声音信号是被类型不可预期的非稳定噪声干扰的语音信号,因此要对线性预测分析模型阶数进行估计存在困难。因此,我们在这项研究中得到的声音信号频谱包络是通过对频谱进行低通滤波的方法完成的。在下面的图3一组图中,显示了语音和汽车发动机噪声的频谱与频谱包络曲线。

图3 某帧语音的频谱及其频谱包络曲线(上),某帧发动机噪声的频谱及其频谱包络曲线(下)。

虽然频谱包络可以较好地描述频谱的形状特征,但是在噪声存在的情况下频谱包络很容易产生畸变。实际应用中人们需要找到一些这样的参数,既能刻画频谱的

23

华中科技大学硕士学位论文

特征,又具有更强的鲁棒性。因为共振峰特征对于语音频谱特征具有非常重要的意义,而共振峰信息在语音频谱中最难以被噪声频谱掩盖,共振峰处的时频信息具有很强的天然鲁棒性。所以我们设计了频谱包络峰度这样的参量来刻画频谱包络中共振峰的形态特征。频谱包络峰度的定义为:

KSEPi,j?(?Af(i?j)??Af(i?j))/2Af(i)

?1?Af(i?j)?Af(i?j)2Af(i)

其中,f(i)为共振峰的中心频率,f(i?j)为附近频率,距离中心频率j个步长。步长由模型参数确定,我们模型中一个步长为33.3Hz。A为幅度谱幅值。由一组取不同j构成一个参量组(这里我们选用5个子参量),可以较好得描述频谱中共振峰的形态特征。依据共振峰形态特征,我们就可以在混噪信号中找出语音共振峰所在的区间,从而将目标语音和背景噪声有效分离。为了通过频谱包络峰度特征对共振峰形态的定量化的表述的有效性,我们检验了语音和汽车噪声信号的频谱包络峰度特征值分布范围。见图4。

图4 一段汽车噪声信号的频谱包络峰度特征(j?3)分布(左)和一段语音信号的频谱包络峰度

特征(j?3)分布(右)。

图4中,左图和右图分别是汽车噪声和语音的频谱包络峰度特征(j?3)分布。图中横坐标是信号中各个帧上符合共振峰基本形态要求(峰频带宽度达到一定数值,峰高度

24

华中科技大学硕士学位论文

高于频谱平均高度一定倍数)的能量峰的频谱包络峰度,纵坐标是峰度分布区间上对应的能量峰的统计数目。这种分布范围显示出语音和汽车噪声的频谱包络曲线中共振峰形态具有明显差异。语音的共振峰峰度分布更集中,汽车噪声频谱包络峰峰度的分布则非常随机。这表明相对与汽车噪声,语音频谱包络中共振峰具有更多相似性。另外,两段声音信号长度一致,但是从统计数目上看,频谱中具有类似共振峰的峰的数量,汽车噪声明显少于语音。(这点从图中纵坐标数值很容易看出来),这也反映出了语音和街道噪声在频谱形态上的差异。

4.3 听觉特征检测器模型

4.3.1 模型的设计

现有研究暗示了人类听觉系统中存在一种基于复杂特征检测机制的信号检测与识别系统。我们根据已有的研究建立了一个基于频谱包络峰度特征的听觉检测glimpse模型来模拟人脑中的这种机制,并用它来进行在汽车噪声背景下的混噪语音的滤噪试验。

模型主要分成两个部分:在学习部分,系统需要用纯净的语音信号对它进行训练,使它掌握说话人语音的频谱包络峰度分布信息;在工作部分,系统依据语音共振峰分布频带的先验知识和已掌握的频谱包络峰度信息,在混噪信号的时频谱中语音共振峰可能出现的频带上寻找出具有语音共振峰形态的时频片段及其邻域,标定为语音片段。其他则认为是噪声完全掩盖了语音的时频片段,将其幅值归零。最后将处理后的时频谱转换成时域信号,得到滤噪后的语音信号。因为语音合成研究结果显示利用语音频谱前3个共振峰频率信息即合成出较好的语音信号,因此我们模型中对共振峰搜索的频带范围是260Hz~3600Hz。 4.3.2 模型的实际效果

对于语音-汽车噪声类型的混合信号,模型对其滤噪的效果如表4所示。即使在信噪比非常低的情况下模型依然可以使信号达到8dB的信噪比提升。随着初始信噪比的提

25

华中科技大学硕士学位论文

升,模型能够改善的能力也稍有增强,可达到接近10dB的信噪比提升效果。主观听觉感受的检验也证实了,混噪信号的听觉改善效果是明显的。

表4 模型在不同信噪比情况下能够使信噪比提升的分贝数

原始信噪比(dB) -15 -10 -5 0 5 10 15 处理后信噪比(dB) -6.7 -1.2 4.3 9.6 14.7 19.8 24.9 信噪比提高(dB) 8.3 8.8 9.3 9.6 9.7 9.8 9.9 4.4 小结

根据现有的神经生理学和认知心理学实验研究结果,我们这篇文章中假设了人类听觉系统中’频谱包络峰度’特征检测机制的存在,并以此作为语音声源识别线索,建立了针对在背景噪声中语音信号的听觉特征检测器模型。模拟结果显示,在处理语音-汽车噪声混合信号时,模型能够依据语音时频谱结构特征线索有效地区分语音和噪声,达到明显改善混噪声音信号的信噪比的目的。

但是,该模型还存在的一些不足。如果干扰信号是同样由类似声道的共振腔产生的声音,如乐器,鸟鸣等,模型进行滤噪时几乎没有效果。这是因为在求取频谱包络峰度特征后,模型仍无法有效区分语音和共振腔发音信号在时频谱结构细节的差别。在不借助其他听觉时频谱结构特征情况下,无论怎样改进频谱包络算法和调节特征参数范围,不会对结果产生大的改变。也就是说,单纯依赖于频谱包络峰度特征的单一特征检测器模型是无法有效分离语音与其他类似共振峰发音的。因此,想要扩大模型所能处理的噪声类型范围,需要进一步完善该模型,在现有基础上引入其他听觉特征,形成一个多特征并行检测听觉模型。

26

华中科技大学硕士学位论文

5 总 结

本文简要介绍了听觉系统研究领域的重点研究方向,包括时频相关、空间相关听觉流形成,优先效应,前向掩蔽,神经编码不对称性,听觉外周,信息掩蔽,语音理解,注意力等,并对整个研究领域做了一些简单的概括。听觉研究领域中对于频域上的研究已经较为深入,对于耳蜗频率分析过程,信号频谱相关的心理实验研究,都已经发现和总结出了人类听觉系统很多的性质特征,但是对于声音信号在时域上的研究却相对大大落后。在对语音理解的研究中研究者注意到了听觉系统对于信号在时域上的重要性不同的性质,但是相关研究要么仅限于具体的神经层面和语音学层面的音素音节特征,要么过于抽象地关注于不同母语人之间的语言学差异。与此同时,在听觉系统的底层频域研究中,以往以神经生理学研究带动的听觉神经系统频率特征响应研究做出了大量的贡献,发现了许多重要的听觉感知基本要素和规则,但是随着需要寻找的时频谱特征越发复杂化,这方面的进步显得相当困难。在本文的研究中,我们对此进行了几项相对独立的研究,简要总结如下。

(1)对于听觉研究中已经发现的语音中不同音素在语音识别等过程中重要性不同的现象,我们进行了更加细致的心理声学实验研究。实验发现了在说话人识别过程中,同种类型的不同音素的重要性与其在自然语言环境中出现概率有密切关系。在自然语言环境中出现概率低的发音,其重要性更大,提供更多的关于说话人音色的信息,概率高的则相反。人类听觉系统的这个性质与信息论中所阐述的信息传输编码优化方法相当吻合。这反映了在长期进化过程中,人类听觉系统所具有的高效性。同时,这个现象对于现有的语音信号编码技术有着很强的借鉴性。这个新的听觉感知现象,为听觉信号压缩编码处理的进一步研究提供了一个心理学实验基础。

(2)现有的文本无关说话人识别西系统的主流模型是基于短时帧频谱特征统计的高斯混合模型,这类模型的主要思想是对短时频谱特征进行大量统计得到说话人的特征,与模板比较然后输出结果。但是我们的实验显示人类在进行文本无关说话人识别任务时,其判断准确率还和测试用的说话人语句内容相关。对于自然的语句识别率高,对于不自然的语句识别率降低。这个现象反映出人类听觉系统还具备词

27

华中科技大学硕士学位论文

汇及更长时间尺度上的声学模型作为判断的辅助。这可能是人类听觉系统在复杂声场环境中表现更优秀的原因。这个研究为文本无关是说话人识别研究提供了相关的心理声学实验基础。

(3)人类听觉系统在进行声音信号处理时,利用了信号中大量的线索信息来进行对声音信号的分解和组织。以往的研究中已经发现了相当多的基础的时频谱线索特征,并总结出了一系列声音感知的规则。但是随着所要寻找的特征复杂程度的提高,这种搜索工作越发显得困难。相当多的生理实验研究表明频谱包络是人脑皮层中处理声音音色的重要特征,但是其处理规则却难以和现有技术手段联系起来。我们依据现有生理实验研究材料,对其声音处理模式进行合理的猜测,提出一种基于频谱包络峰度的听觉处理模型并进行了模拟计算。计算显示其区分不同声源效果明显,并且为高级听觉特征线索的搜索工作提供了一条可能的寻找方案。以上是本文对于听觉研究领域较为热点的方向进行了三项实验及模拟计算研究,各在相关方向阐述了一些新的发现,为相关领域的深入研究提供了一些心理声学实验及模拟计算结果基础。

28

华中科技大学硕士学位论文

致 谢

本文所做的选题、课题研究及论文撰写工作是在导师龙长才教授的悉心指导下完成的。龙老师思维敏锐,学识渊博,待人热情诚恳,对新事物的接受能力及对学术前沿深邃的洞察力,对我都产生了极大的影响。在龙老师的指导下,我不仅学术上有所收获,更培养起了自己独立思考,敢于怀疑的学术习惯,也培养了独立分析问题和解决问题的能力。在此向我的恩师表示崇高的敬意和衷心的感谢!在此我要感谢我的父亲母亲,没有他们的养育和支持,我不会走到现在;要感谢实验室的师兄师姐赵祥辉、张冰、杨楠、沈涛,师弟师妹王飞、田霖、叶兰,有了他们的帮助和陪伴,我才有了前进的动力!感谢所有在我成长路上给我帮助过的人们!

罗海风 2010年11月20日

29

华中科技大学硕士学位论文

参考文献

[1] Dave Moore et al. Hearing research special issue ?Auditory cortex 2006 – The

listening brain? Hearing Research (2007).

[2] Elyse S. Sussman Integration and segregation in auditory scene analysis J.

Acoust. Soc. Am., Vol.117, No.3, Pt. 1, March 2005.

[3] Christophe Micheyl et al. The role of auditory cortex in the formation of auditory

streams Hearing Research 2007.

[4] Yonatan I. Fishman et al. Neural correlates of auditory stream segregation in

primary auditory cortex of the awake monkey. Hearing Research 151 (2001) 167-187.

[5] Akihiro Izumi Effect of temporal separation on tone-sequence discrimination in

monkeys Hearing Research 175 (2003) 75-81.

[6] Elyse Sussman et al. Auditory stream segregation processes operate similarly in

school-aged children and adults Hearing Research 153 (2001) 108-114. [7] E. Sussman et al. The development of the perceptual organization of sound by

frequency separation in 5–11-year-old children Hearing Research 225 (2007) 117–127

[8] Susan E. Boehnke et al. Detection of static and dynamic changes in interaural

correlation J. Acoust. Soc. Am., Vol. 112, No. 4, October 2002

[9] Hilmi R. Dajani et al. Human auditory steady-state responses to changes in

interaural correlation Hearing Research 219 (2006) 85–100

[10] Marina M. Rose , Brian C.J. Moore The relationship between stream segregation

and frequency discrimination in normally hearing and hearing-impaired subjects Hearing Research 204 (2005) 16–28

[11] Chandra S. Throckmorton et al. The effect of frequency estimation on speech

30

华中科技大学硕士学位论文

recognition using an acoustic model of a cochlear implant Hearing Research 228 (2007) 230–231

[12] Monita Chatterjee et al. Auditory stream segregation with cochlear implants: A

preliminary report Hearing Research 222 (2006) 100–107

[13] Huw R. Cooper et al. Auditory stream segregation of tone sequences in cochlear

implant listeners Hearing Research 225 (2007) 11–24

[14] Thomas H. Stainsby et al. Auditory streaming based on temporal structure in

hearing-impaired listeners Hearing Research 192 (2004) 119–130

[15] Etienne Gaudrain et al. Effect of spectral smearing on the perceptual segregation

of vowel sequences Hearing Research 231 (2007) 32–41

[16] Mao dongxing et al. Level and frequency dependence character of overall

loudness perception in dichotic condition The Japan-china Joint Conference on Acoustics 2007

[17] Gregg H. Recanzone et al. Effects of intensity and location on sound location

discrimination in macaque monkeys Hearing Research 198 (2004) 116–124 [18] Andrew T. Sabin et al. Human sound localization at near-threshold levels Hearing

Research 199 (2005) 124–134

[19] Ruth Y. Litovsky et al. Functional role of the human inferior colliculus in binaural

hearing Hearing Research 165 (2002) 177-188

[20] Mark I. Sanderson et al. Evaluation of an auditory model for echo delay accuracy

in wideband biosonar J. Acoust. Soc. Am. 114 (3), September 2003 [21] Douglas C. Fitzpatrick et al. Transformations in processing interaural time

differences between the superior olivary complex and inferior colliculus: beyond the Jeffress model Hearing Research 168 (2002) 79-89

[22] Stephan Getzmann spatial discrimination of sound sources in the horizontal plane

following an daapter sound Hearing Research 191 (2004) 14–20

[23] Phillips et al. Interaction in the perceptual processing of interaural time and level

31

华中科技大学硕士学位论文

differences Hearing research 202 (2005) 188–199

[24] Bronwyn K. Vigneault-MacLean et al. The effects of lateralized adaptors on

lateral position judgements of tones within and across frequency channels Hearing Research 224 (2007) 93–100

[25] Dennis P. Phillips, Susan E. Hall Psychophysical evidence for adaptation of

central auditory processors for interaural differences in time and level Hearing Research 202 (2005) 188–199

[26] Dennis P. Phillips Interaction in the perceptual processing of interaural time and

level differences Hearing Research 211 (2006) 96–102

[27] Alan R. Palmer et al. Changes in interaural time sensitivity with interaural level

differences in the inferior colliculus Hearing Research 223 (2007) 105–113 [28] Stephan Getzmann Shifting the onset of a moving sound source: A Fr?hlich effect

in spatial hearing Hearing Research 210 (2005) 104–111

[29] Kourosh Saberi,Joseph V. Antonio Precedence-effect thresholds for a population

of untrained listeners as a function of stimulus intensity and interclick interval J. Acoust. Soc. Am. 114 (1), July 2003

[30] Kourosh Saberi,Joseph V. Antonio A population study of the precedence effect

Hearing Research 191 (2004) 1–13

[31] Richard A. Roberts et al. Effects of reverberation on fusion of lead and lag noise

burst stimuli Hearing Research 187 (2004) 73-84

[32] Liang Li et al. Attribute capture in the precedence effect for long-duration noise

sounds Hearing Research 202 (2005) 235–247

[33] Andrew J. Oxenham Influence of spatial and temporal coding on auditory gap

detection J. Acoust. Soc. Am. 107 (4), April 2000

[34] Brian C.J. Moore et al. Effects of masker component phase on the forward

masking produced by complex tones in normally hearing and hearing-impaired subjects Hearing Research 192 (2004) 90–100

32

华中科技大学硕士学位论文

[35] Andrew J. Oxenham et al. Effects of masker frequency and duration in forward

masking: further evidence for the influence of peripheral nonlinearity Hearing Research 150 (2000) 258-266

[36] D.P. Phillips et al. Central auditory onset responses, and temporal asymmetries in

auditory perception Hearing Research 167 (2002) 192-205

[37] Christian Borgmann et al. Human auditory middle latency responses:influence of

stimulus type and intensity Hearing Research 158 (2001) 57-64

[38] Janine C. Clarey et al. Ventral cochlear nucleus coding of voice onset time in

naturally spoken syllables Hearing Research 190 (2004) 37-59

[39] Dau. T et al. Auditory brainstem responses (ABR) with optimized chirp signals

compensating basilar membrane dispersion. J. Acoust. Soc. Am. 107, 1530-1540. [40] Stefan Uppenkamp et al. The effects of temporal asymmetry on the detection and

perception of short chirps Hearing Research 158 (2001) 71-83

[41] Shahdad E. Behnam et al. Noise improves suprathreshold discrimination in

cochlear-implant listeners Hearing Research 186 (2003) 91-93

[42] 李朝晖、迟惠生 听觉外周模型研究进展 声学学报, Sept,2006,Vol31,No.5 [43] Simpson, S.A., and Cooke,M. (2005). Consonant identification in N-talker babble

is a nonmonotonic of N J. Acoust. Soc. Am. 118,2775-2778

[44] Wperry, J.L., Wiley, T.L., and Chial, M. R.(1997). Word recognition performance in

various background competitors J. Am. Acad. Audiol. 8,71-80

[45] Kristin J. Van Engen et al. Sentence recognition in native- and foreign-language

multi-talker background noise J. Acoust. Soc. Am. 121(1), January 2007 [46] H. Kozou et al. The effect of different noise types on the speech and non-speech

elicited mismatch negativity Hearing Research 199 (2005) 31–39

[47] Xihong Wu et al. The effect of perceived spatial separation on informational

masking of Chinese speech Hearing Research 199 (2005) 1–10

[48] Marisciel Litong-Palima et al. voice tracking an spoken word recognition in the

33

华中科技大学硕士学位论文

presence of other voice Physica D 199 (2004) 400–406

[49] M. Kathleen Pichora-Fuller et al. Temporal jitter disrupts speech intelligibility:A

simulation of auditory aging Hearing Research 223 (2007) 114–121

[50] Thomas Baer et al. Effects of spectral smearing on the intelligibility of sentences

in noise J. Acoust.S oc. Am. 94 (3), Pt. 1, Sept. 1993

[51] F. Apoux et al. Temporal envelope expansion of speech in noise for

normal-hearing and hearing-impaired listeners: effects on identification performance and response times Hearing Research 153 (2001) 123-131

[52] Rob DrullmanZ et al. Multichannel speech intelligibility and talker recognition

using monaural, binaural, and three-dimensional auditory presentation J. Acoust. Soc. Am. 107 (4), April 2000

[53] Lori L. Holt et al. Behavioral examinations of the level of auditory processing of

speech context effects Hearing Research 167 (2002) 156-169

[54] Matthew H. Davis et al. Hearing speech sounds: Top-down influences on the

interface between audition and speech perception Hearing Research (2007) [55] Claude Alain et al. Breaking the wave: Effects of attention and learning on

concurrent sound perception Hearing Research (2007)

[56] A.R. Palmer et al. Some investigations into non-passive listening Hearing

Research (2007)

[57] Tomas hromadka et al. Toward the mechanisms of auditory attention Hearing

Research (2007)

[58] E. Ofek et al. Ear advantage and attention: an ERP study of auditory cued attention

Hearing Research 189 (2004) 107-118

[59] Jonathan B. Fritz et al. Active listening: Task-dependent plasticity of

spectrotemporal receptive Welds in primary auditory cortex Hearing Research 206 (2005) 159–176

[60] Jonathan B. Fritz et al. Does attention play a role in dynamic receptive field

34

本文来源:https://www.bwwdw.com/article/xeu6.html

Top