免费高清特黄a大片,九一h片在线免费看,a免费国产一级特黄aa大,国产精品国产主播在线观看,成人精品一区久久久久,一级特黄aa大片,俄罗斯无遮挡一级毛片

分享

東北話,機器都能聽懂,吳恩達說的端到端學(xué)習(xí)究竟是什么

 天道酬勤YXJ1 2016-12-29

傳統(tǒng)的語音識別系統(tǒng),是由聲學(xué)模型、詞典、語言模型構(gòu)成的,而其中的語音模型和語言模型是分別訓(xùn)練的,而不同的語言也有不同的語言模型,比如英語和中文。

最近崛起的端到端的語音識別系統(tǒng),從語音特征(輸入端)到文字串(輸出端)中間就只有一個神經(jīng)網(wǎng)絡(luò)模型,成為語音識別領(lǐng)域新的研究熱點。

硅谷密探獨家專訪了Baidu Silicon Valley AI Lab總監(jiān)Adam Coates,探討了語音和語音識別的新動向。

東北話,機器都能聽懂,吳恩達說的端到端學(xué)習(xí)究竟是什么

傳統(tǒng)的語音識別系統(tǒng)

東北話,機器都能聽懂,吳恩達說的端到端學(xué)習(xí)究竟是什么

(來源:wiki)

傳統(tǒng)的語音識別需要把語音轉(zhuǎn)換成語音特征向量,然后把這組向量通過機器學(xué)習(xí),分類到各種音節(jié)上(根據(jù)語言模型),然后通過音節(jié),還原出最大概率的語音原本要表達的單詞,一般包括以下模塊:

特征提取模塊 (Feature Extraction):該模塊的主要任務(wù)是從輸入信號中提取特征,供聲學(xué)模型處理。一般也包括了一些信號處理技術(shù),盡可能降低環(huán)境噪聲、說話人等因素對特征造成的影響,把語音變成向量。

聲學(xué)模型 (Acoustic Model): 用于識別語音向量

發(fā)音詞典 (Pronnuciation Dictionary):發(fā)音詞典包含系統(tǒng)所能處理的詞匯集及其發(fā)音。發(fā)音詞典提供了聲學(xué)模型與語言模型間的聯(lián)系。

語言模型 (Language Model):語言模型對系統(tǒng)所針對的語言進行建模。

解碼器 (Decoder):任務(wù)是對輸入的信號,根據(jù)聲學(xué)、語言模型及詞典,尋找能夠以最大概率輸出該信號的詞串。

傳統(tǒng)的語音識別中的語音模型和語言模型是分別訓(xùn)練的,缺點是不一定能夠總體上提高識別率。

端到端的語音識別系統(tǒng)

東北話,機器都能聽懂,吳恩達說的端到端學(xué)習(xí)究竟是什么

(來源:吳恩達NIPS 2016演講)

端到端學(xué)習(xí)的思路則非常簡單:音頻→學(xué)習(xí)算法→轉(zhuǎn)錄結(jié)果;

而現(xiàn)在,我們可以直接通過深度學(xué)習(xí)將語音直接對標(biāo)到我們最終顯示出來的文本。通過深度學(xué)習(xí)自己的特征學(xué)習(xí)功能來完成從特征提取到音節(jié)表達的整個過程。

在給定了足夠的有標(biāo)注的訓(xùn)練數(shù)據(jù)時(語音數(shù)據(jù)以及對應(yīng)的文本數(shù)據(jù)),端到端的語音識別方法的效果會很好。

Deep Speech 2

Baidu Silicon Valley AI Lab研發(fā)了端到端的能夠識別英文的語音識別系統(tǒng)Deep Speech,之后在此基礎(chǔ)上研發(fā)了能識別中英文的Deep Speech 2,Deep Speech 2通過使用一個單一的學(xué)習(xí)算法就能準(zhǔn)確識別英語和漢語。

東北話,機器都能聽懂,吳恩達說的端到端學(xué)習(xí)究竟是什么

Deep Speech 2這個大規(guī)模的深度學(xué)習(xí)系統(tǒng)需要豐富的標(biāo)記訓(xùn)練數(shù)據(jù)。為訓(xùn)練英語模式,這個系統(tǒng)使用了11940小時含800萬標(biāo)注的語音片段,而普通話系統(tǒng)采用了9400小時含1100萬話語標(biāo)記的講話語音。

Deep Speech 2這種端到終的深度學(xué)習(xí),可以利用數(shù)據(jù)和計算的增加不斷改善語音識別系統(tǒng)。由于該方法是高度通用的,它可以迅速地應(yīng)用于新的語言。

Deep Speech 2能夠識別方言

Deep Speech 2最早是用英語訓(xùn)練的,最早只能夠識別英語,但由于Deep Speech 2是端到端的訓(xùn)練模式,Adam在硅谷密探的采訪中表示,在這個系統(tǒng)建立之后,只需要用中文訓(xùn)練數(shù)據(jù)替代英文訓(xùn)練數(shù)據(jù),在經(jīng)過訓(xùn)練之后就有了強大的中文識別引擎,就能夠很好的識別中文。

同樣的道理,只要給Deep Speech 2足夠多的方言訓(xùn)練數(shù)據(jù),比如粵語,那么Deep Speech 2理論上也能夠很好的識別粵語。

能解決中英混合問題

中英混合一度是一個很頭疼的問題,在我們使用Siri的時候,必須要選好一個語言,如果設(shè)置成了中文就識別不了英文。

但在我們?nèi)粘I钪?,由于專業(yè)術(shù)語或者品牌名等原因,有時不得不中英混合。基于同樣的原因,Deep Speech 2也能很好的解決中英混合這個問題,只要我們訓(xùn)練的數(shù)據(jù)里同樣是中英夾雜。

東北話,機器都能聽懂,吳恩達說的端到端學(xué)習(xí)究竟是什么

Adam Coates在采訪中表示有一個特別有意思的現(xiàn)象,我們發(fā)現(xiàn)很多中文語音識別里經(jīng)常出現(xiàn)一個明星Angelababy,然后Deep Speech 2就立馬變成英文。

看來Angelababy已經(jīng)是國際影星!曉明哥的英語要加強啊...

Deep Speech 2的開發(fā)難度

Adam Coates表示Deep Speech 2開發(fā)過程中,第一大難點就是獲得標(biāo)記的數(shù)據(jù)。大家想象中百度應(yīng)該有大量的數(shù)據(jù),然而大部分我們?nèi)粘PP使用中產(chǎn)生的數(shù)據(jù)都是沒有標(biāo)記的,比如我們發(fā)了一個語音,對應(yīng)的中文文本我們往往沒有提供,這些都是沒有標(biāo)記的數(shù)據(jù),無法用于語音識別的訓(xùn)練。即使有一些標(biāo)記的數(shù)據(jù),我們也不能保證其準(zhǔn)確性,而數(shù)據(jù)清理往往耗費更多的時間。

東北話,機器都能聽懂,吳恩達說的端到端學(xué)習(xí)究竟是什么

Deep Speech 2的開發(fā)過程,除了通過把會話片段標(biāo)記出文字(transcript)作為訓(xùn)練數(shù)據(jù),還使用了大量的朗讀數(shù)據(jù)(就是提供文本,然后花錢請人朗讀成音頻)。雖然后者的質(zhì)量不如前者,但是非常便宜,而且能夠獲得大量的數(shù)據(jù)。

Deep Speech 2這個大規(guī)模的深度學(xué)習(xí)系統(tǒng)需要豐富的標(biāo)記訓(xùn)練數(shù)據(jù),這個系統(tǒng)使用了11940小時含800萬標(biāo)注的英文語音片段,以及普通話系統(tǒng)采用9400小時含1100萬話語標(biāo)記的講話語音。

除了訓(xùn)練數(shù)據(jù)的獲取,建立這樣一個高性能計算系統(tǒng)(HPC)也是一個很大的調(diào)整。Adam表示他們擁有一個團隊致力于構(gòu)建深度學(xué)習(xí)系統(tǒng)。當(dāng)然也少不了喜聞樂見的調(diào)參過程。

Deep Speech 2未來的發(fā)展方向

Deep Speech 2已經(jīng)從Deep Speech的8%的錯誤率提升到了5%,Deep Speech的下一個目標(biāo)就是繼續(xù)降低識別錯誤率,并且處理語音識別的各種極端情況,比如重噪以及交叉談話等場景。

東北話,機器都能聽懂,吳恩達說的端到端學(xué)習(xí)究竟是什么

目前Deep Speech 2只是純軟件和算法層面,沒有涉及到硬件相關(guān)的優(yōu)化,在問到是否可以結(jié)合硬件來提升Deep Speech 2的性能時,Adam表示結(jié)合硬件有提升識別率的可能性,但目前AI Lab沒有嘗試。

Adam把語音識別的噪音環(huán)境分成兩大類,一大類是有噪音但是人類能無干擾的聽到目標(biāo)聲音,第二大類則是有噪音干擾下人耳都聽不清目標(biāo)聲音,在第一類環(huán)境下通過軟件和算法優(yōu)化就有很大的提升空間,而第二類則可能需要硬件參與進來獲得超越人類聽力的能力。

語音是未來

在問道最看好未來的下一件大事時(next big thing),Adam表示非常看好語音的前景。

目前語音識別能力還有提升空間,雖然語義理解、自然語言處理等的進步還需要更多時間,但是語音識別加上非常簡單的自然語言處理就能顯著的改善我們的生活。

Adam舉了一個例子,斯坦福和華盛頓大學(xué)等高校的研究表明,用語音輸入代替鍵盤輸入,能提升約3倍的效率。

Adam希望語音識別的持續(xù)進步,能夠使得語音成為一個大家真正放心使用的交互方式。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多