语音识别与合成入门4(内有matlab源码)

更新时间:2023-04-24 14:30:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

语音识别与合成入门

「音色」(Timber)是一個很模糊的名詞,泛指音訊的內容,例如「天書」這兩個字的發音,雖然都是第一聲,因此它們的音高應該是蠻接近的,但是由於音色的不同,我們可以分辨這兩個音。直覺來看,音色的不同,代表基本週期的波形不同,因此我們可以使用基本週期的波形來代表音色。

若要從基本週期的波形來直接分析音色,是一件很困難的事。通常我們的作法,是將每一個音框進行頻譜分析(Spectral Analysis),算出一個音框訊號如何可以拆解成在不同頻率的分量,然後才能進行比對或分析。在頻譜分析時,最常用的方法就是「快速傅立葉轉換」(Fast Fourier Transform),簡稱 FFT,這是一個相當實用的方法,可以將在時域(Time Domain)的訊號轉換成在頻域(Frequency Domain)的訊號,並進而知道每個頻率的訊號強度。 若要看看 FFT 的實際展示,可以輸入下列指令:

dspstfft_nt (MATLAB 5) dspstfft_win32 (MATLAB 6)

開啟的 Simulink 系統如下:

语音识别与合成入门

當你啟動程式並開始對麥克風說話時,就會出現下列動態的「頻譜圖」(Spectrum),隨時間而呈現急遽的變化:

若將頻譜圖「立」起來,並用不同的顏色代表頻譜圖的高低,就可以得到頻譜對時間所產生的影像,稱為「光譜圖」(Spectrogram),如下:

Spectrogram 代表了音色隨時間變化的資料,因此有些厲害的人,可以由

语音识别与合成入门

Specgrogram 直接看出語音的內容,這種技術稱為 Specgrogram Reading,有興趣的同學,可以在搜尋引擎上找到很多相關的網頁,也可以試試自己的功力。

本文来源:https://www.bwwdw.com/article/rpxq.html

Top