東北話，機器都能聽懂，吳恩達說的端到端學(xué)習(xí)究竟是什么

天道酬勤YXJ1 2016-12-29

展開全文

傳統(tǒng)的語音識別系統(tǒng)，是由聲學(xué)模型、詞典、語言模型構(gòu)成的，而其中的語音模型和語言模型是分別訓(xùn)練的，而不同的語言也有不同的語言模型，比如英語和中文。

最近崛起的端到端的語音識別系統(tǒng)，從語音特征（輸入端）到文字串（輸出端）中間就只有一個神經(jīng)網(wǎng)絡(luò)模型，成為語音識別領(lǐng)域新的研究熱點。

硅谷密探獨家專訪了Baidu Silicon Valley AI Lab總監(jiān)Adam Coates，探討了語音和語音識別的新動向。

東北話，機器都能聽懂，吳恩達說的端到端學(xué)習(xí)究竟是什么

傳統(tǒng)的語音識別系統(tǒng)

東北話，機器都能聽懂，吳恩達說的端到端學(xué)習(xí)究竟是什么

（來源：wiki）

傳統(tǒng)的語音識別需要把語音轉(zhuǎn)換成語音特征向量，然后把這組向量通過機器學(xué)習(xí)，分類到各種音節(jié)上（根據(jù)語言模型），然后通過音節(jié)，還原出最大概率的語音原本要表達的單詞，一般包括以下模塊：

特征提取模塊 (Feature Extraction)：該模塊的主要任務(wù)是從輸入信號中提取特征，供聲學(xué)模型處理。一般也包括了一些信號處理技術(shù)，盡可能降低環(huán)境噪聲、說話人等因素對特征造成的影響，把語音變成向量。

聲學(xué)模型 (Acoustic Model): 用于識別語音向量

發(fā)音詞典 (Pronnuciation Dictionary)：發(fā)音詞典包含系統(tǒng)所能處理的詞匯集及其發(fā)音。發(fā)音詞典提供了聲學(xué)模型與語言模型間的聯(lián)系。

語言模型 (Language Model)：語言模型對系統(tǒng)所針對的語言進行建模。

解碼器 (Decoder)：任務(wù)是對輸入的信號，根據(jù)聲學(xué)、語言模型及詞典，尋找能夠以最大概率輸出該信號的詞串。

傳統(tǒng)的語音識別中的語音模型和語言模型是分別訓(xùn)練的，缺點是不一定能夠總體上提高識別率。

端到端的語音識別系統(tǒng)

東北話，機器都能聽懂，吳恩達說的端到端學(xué)習(xí)究竟是什么

（來源：吳恩達NIPS 2016演講）

端到端學(xué)習(xí)的思路則非常簡單：音頻→學(xué)習(xí)算法→轉(zhuǎn)錄結(jié)果；

而現(xiàn)在，我們可以直接通過深度學(xué)習(xí)將語音直接對標(biāo)到我們最終顯示出來的文本。通過深度學(xué)習(xí)自己的特征學(xué)習(xí)功能來完成從特征提取到音節(jié)表達的整個過程。

在給定了足夠的有標(biāo)注的訓(xùn)練數(shù)據(jù)時（語音數(shù)據(jù)以及對應(yīng)的文本數(shù)據(jù)），端到端的語音識別方法的效果會很好。

Deep Speech 2

Baidu Silicon Valley AI Lab研發(fā)了端到端的能夠識別英文的語音識別系統(tǒng)Deep Speech，之后在此基礎(chǔ)上研發(fā)了能識別中英文的Deep Speech 2，Deep Speech 2通過使用一個單一的學(xué)習(xí)算法就能準(zhǔn)確識別英語和漢語。

東北話，機器都能聽懂，吳恩達說的端到端學(xué)習(xí)究竟是什么

Deep Speech 2這個大規(guī)模的深度學(xué)習(xí)系統(tǒng)需要豐富的標(biāo)記訓(xùn)練數(shù)據(jù)。為訓(xùn)練英語模式，這個系統(tǒng)使用了11940小時含800萬標(biāo)注的語音片段，而普通話系統(tǒng)采用了9400小時含1100萬話語標(biāo)記的講話語音。

Deep Speech 2這種端到終的深度學(xué)習(xí)，可以利用數(shù)據(jù)和計算的增加不斷改善語音識別系統(tǒng)。由于該方法是高度通用的，它可以迅速地應(yīng)用于新的語言。

Deep Speech 2能夠識別方言

Deep Speech 2最早是用英語訓(xùn)練的，最早只能夠識別英語，但由于Deep Speech 2是端到端的訓(xùn)練模式，Adam在硅谷密探的采訪中表示，在這個系統(tǒng)建立之后，只需要用中文訓(xùn)練數(shù)據(jù)替代英文訓(xùn)練數(shù)據(jù)，在經(jīng)過訓(xùn)練之后就有了強大的中文識別引擎，就能夠很好的識別中文。

同樣的道理，只要給Deep Speech 2足夠多的方言訓(xùn)練數(shù)據(jù)，比如粵語，那么Deep Speech 2理論上也能夠很好的識別粵語。

能解決中英混合問題

中英混合一度是一個很頭疼的問題，在我們使用Siri的時候，必須要選好一個語言，如果設(shè)置成了中文就識別不了英文。

但在我們?nèi)粘Ｉ钪?，由于專業(yè)術(shù)語或者品牌名等原因，有時不得不中英混合。基于同樣的原因，Deep Speech 2也能很好的解決中英混合這個問題，只要我們訓(xùn)練的數(shù)據(jù)里同樣是中英夾雜。

東北話，機器都能聽懂，吳恩達說的端到端學(xué)習(xí)究竟是什么

Adam Coates在采訪中表示有一個特別有意思的現(xiàn)象，我們發(fā)現(xiàn)很多中文語音識別里經(jīng)常出現(xiàn)一個明星Angelababy，然后Deep Speech 2就立馬變成英文。

看來Angelababy已經(jīng)是國際影星！曉明哥的英語要加強啊...

Deep Speech 2的開發(fā)難度

Adam Coates表示Deep Speech 2開發(fā)過程中，第一大難點就是獲得標(biāo)記的數(shù)據(jù)。大家想象中百度應(yīng)該有大量的數(shù)據(jù)，然而大部分我們?nèi)粘PP使用中產(chǎn)生的數(shù)據(jù)都是沒有標(biāo)記的，比如我們發(fā)了一個語音，對應(yīng)的中文文本我們往往沒有提供，這些都是沒有標(biāo)記的數(shù)據(jù)，無法用于語音識別的訓(xùn)練。即使有一些標(biāo)記的數(shù)據(jù)，我們也不能保證其準(zhǔn)確性，而數(shù)據(jù)清理往往耗費更多的時間。

東北話，機器都能聽懂，吳恩達說的端到端學(xué)習(xí)究竟是什么

Deep Speech 2的開發(fā)過程，除了通過把會話片段標(biāo)記出文字(transcript)作為訓(xùn)練數(shù)據(jù)，還使用了大量的朗讀數(shù)據(jù)（就是提供文本，然后花錢請人朗讀成音頻）。雖然后者的質(zhì)量不如前者，但是非常便宜，而且能夠獲得大量的數(shù)據(jù)。

Deep Speech 2這個大規(guī)模的深度學(xué)習(xí)系統(tǒng)需要豐富的標(biāo)記訓(xùn)練數(shù)據(jù)，這個系統(tǒng)使用了11940小時含800萬標(biāo)注的英文語音片段，以及普通話系統(tǒng)采用9400小時含1100萬話語標(biāo)記的講話語音。

除了訓(xùn)練數(shù)據(jù)的獲取，建立這樣一個高性能計算系統(tǒng)(HPC)也是一個很大的調(diào)整。Adam表示他們擁有一個團隊致力于構(gòu)建深度學(xué)習(xí)系統(tǒng)。當(dāng)然也少不了喜聞樂見的調(diào)參過程。

Deep Speech 2未來的發(fā)展方向

Deep Speech 2已經(jīng)從Deep Speech的8%的錯誤率提升到了5%，Deep Speech的下一個目標(biāo)就是繼續(xù)降低識別錯誤率，并且處理語音識別的各種極端情況，比如重噪以及交叉談話等場景。

東北話，機器都能聽懂，吳恩達說的端到端學(xué)習(xí)究竟是什么