長(zhǎng)文本表示學(xué)習(xí)概述

昵稱(chēng)16619343 2019-05-12

展開(kāi)全文

'如果你愿意一層一層的剝開(kāi)我的心·······那么你會(huì)坐牢的我跟你說(shuō)'。自然語(yǔ)言就是這么神奇，句子中的長(zhǎng)距離特征對(duì)于理解語(yǔ)義也非常關(guān)鍵，本文基于Tranformer、RNN、CNN、TCN分別概述近期學(xué)界對(duì)長(zhǎng)句表示學(xué)習(xí)的諸多方法。

1.長(zhǎng)文本表示學(xué)習(xí)挑戰(zhàn)

NLP任務(wù)的特點(diǎn)和圖像有極大的不同，上圖展示了一個(gè)例子，NLP的輸入往往是一句話(huà)或者一篇文章，所以它有幾個(gè)特點(diǎn)：首先，輸入是個(gè)一維線(xiàn)性序列，這個(gè)好理解；其次，輸入是不定長(zhǎng)的，有的長(zhǎng)有的短，而這點(diǎn)其實(shí)對(duì)于模型處理起來(lái)也會(huì)增加一些小麻煩；再者，單詞或者子句的相對(duì)位置關(guān)系很重要，兩個(gè)單詞位置互換可能導(dǎo)致完全不同的意思。如果你聽(tīng)到我對(duì)你說(shuō)：“你欠我那一千萬(wàn)不用還了”和“我欠你那一千萬(wàn)不用還了”，你聽(tīng)到后分別是什么心情？?jī)烧邊^(qū)別了解一下。最后，句子中的長(zhǎng)距離特征對(duì)于理解語(yǔ)義也非常關(guān)鍵，征抽取器能否具備長(zhǎng)距離特征捕獲能力這一點(diǎn)對(duì)于解決NLP任務(wù)來(lái)說(shuō)也是很關(guān)鍵的。針對(duì)長(zhǎng)文本表示學(xué)習(xí)，現(xiàn)階段主要有Transformer、RNN、CNN、TCN四種流派，下面分別概述。

2.學(xué)界研究

2.1Transformer 流派

近期基于Tranformer的模型在NLP諸多領(lǐng)域取得了不錯(cuò)的效果，針對(duì)長(zhǎng)句表示學(xué)習(xí)，谷歌和OpenAI分別提出了相應(yīng)的改進(jìn)方案。

2.1.1 Transformer-XL

以往的 Transformer 網(wǎng)絡(luò)由于受到上下文長(zhǎng)度固定的限制，學(xué)習(xí)長(zhǎng)期以來(lái)關(guān)系的潛力有限。谷歌的Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context提出的新神經(jīng)架構(gòu) Transformer-XL 可以在不引起時(shí)間混亂的前提下，可以超越固定長(zhǎng)度去學(xué)習(xí)依賴(lài)性，同時(shí)還能解決上下文碎片化問(wèn)題。具體地說(shuō)，此方法在 Transformer 架構(gòu)中引入了循環(huán)機(jī)制。在訓(xùn)練過(guò)程中，為之前的片段計(jì)算的隱藏狀態(tài)序列是固定的，將其緩存起來(lái)，并在模型處理后面的新片段時(shí)作為擴(kuò)展上下文重復(fù)使用，如下圖所示:

Transformer-XL 學(xué)習(xí)到的依賴(lài)性比 RNN 學(xué)習(xí)到的長(zhǎng) 80%，比標(biāo)準(zhǔn) Transformer 學(xué)到的長(zhǎng) 450%，無(wú)論在長(zhǎng)序列還是短序列中都得到了更好的結(jié)果，而且在評(píng)估時(shí)比標(biāo)準(zhǔn) Transformer 快 1800+ 倍。

2.1.2 Sparse Transformer

OpenAl 的論文Generating Long Sequences with Sparse Transformers提出了一種適用于文本、圖像和語(yǔ)音的稀疏Transformer，將先前基于注意力機(jī)制的算法處理序列的長(zhǎng)度提高了三十倍。OpenAI的研究人員在最新的論文中為注意力矩陣引入了多種稀疏的分解方式，通過(guò)將完全注意力計(jì)算分解為多個(gè)更快的注意力操作，通過(guò)稀疏組合來(lái)進(jìn)行稠密注意力操作，在不犧牲性能的情況下大幅降低了對(duì)于內(nèi)存和算力的需求。

稀疏Transformer將先前Transformer的平方復(fù)雜度O(N^2)降低為O(NN^1/2),通過(guò)一些額外的改進(jìn)使得自注意力機(jī)制可以直接用于長(zhǎng)程的語(yǔ)音、文本和圖像數(shù)據(jù)。

上圖中間是第一種步進(jìn)注意力的版本，可以粗略的理解為每一個(gè)位置需要注意它所在的行和列；另一種固定注意力的方式則嘗試著從固定的列和元素中進(jìn)行處理，這種方式對(duì)于非二維結(jié)構(gòu)的數(shù)據(jù)有著很好的效果。

2.1.3 小結(jié)

盡管新興的Tranformer在NLP各個(gè)領(lǐng)域都取得了不錯(cuò)的效果，針對(duì)長(zhǎng)文本表示學(xué)習(xí)也有諸多優(yōu)化技術(shù)，然而Tranformer本質(zhì)上無(wú)法編碼位置（只能基于位置編碼）, Why Self-Attention? A Targeted Evaluation of Neural Machine Translation Architectures對(duì)Transformer進(jìn)行了深入的實(shí)證分析，在建模長(zhǎng)距離主謂一致任務(wù)上的實(shí)驗(yàn)結(jié)果并沒(méi)有表明，Transformer 在這方面優(yōu)于 RNN, Transformer 是強(qiáng)大的語(yǔ)義特征提取器，但是在某些NLP任務(wù)上RNN仍然有一席空間。

2.2 RNN流派

因?yàn)镽NN的結(jié)構(gòu)天然適配解決NLP的問(wèn)題，NLP的輸入往往是個(gè)不定長(zhǎng)的線(xiàn)性序列句子，而RNN本身結(jié)構(gòu)就是個(gè)可以接納不定長(zhǎng)輸入的由前向后進(jìn)行信息線(xiàn)性傳導(dǎo)的網(wǎng)絡(luò)結(jié)構(gòu)，而在LSTM引入三個(gè)門(mén)后，對(duì)于捕獲長(zhǎng)距離特征也是非常有效的。然而對(duì)于長(zhǎng)句表示學(xué)習(xí)，RNN的并行計(jì)算能力極差。因?yàn)門(mén)時(shí)刻的計(jì)算依賴(lài)T-1時(shí)刻的隱層計(jì)算結(jié)果，而T-1時(shí)刻的計(jì)算依賴(lài)T-2時(shí)刻的隱層計(jì)算結(jié)果……..這樣就形成了所謂的序列依賴(lài)關(guān)系。自從深度學(xué)習(xí)在NLP領(lǐng)域火爆以來(lái)，出現(xiàn)了很多針對(duì)RNN方法。

2.2.1 稀疏注意力回溯

本方法出自Bengio組的論文Sparse Attentive Backtracking （SAB）: Temporal Credit Assignment Through Reminding。先舉個(gè)例子，當(dāng)你在高速公路上開(kāi)車(chē)時(shí)，你聽(tīng)到了一種異常的爆炸聲。但是仍然不以為意，直到你停下來(lái)加油時(shí)發(fā)現(xiàn)輪胎癟了。然后你突然想起了在開(kāi)車(chē)時(shí)聽(tīng)到的爆炸聲。這樣的回想能夠幫助你確定爆胎的原因，并可能導(dǎo)致突觸變化。而由于這種變化，在以后開(kāi)車(chē)時(shí)聽(tīng)到這種爆炸聲，你的處理方式可能會(huì)不一樣。

在稀疏性限制最大的條件下（不利用過(guò)去的經(jīng)驗(yàn)），SAB 將退化為使用常規(guī)的靜態(tài)神經(jīng)網(wǎng)絡(luò)。在稀疏性限制最小的條件下（利用過(guò)去所有的經(jīng)驗(yàn)），SAB 將退化為完全使用自注意力機(jī)制。為了達(dá)到目的，他們通過(guò)特定種類(lèi)的增強(qiáng) LSTM 模型探究前面二者之間的差距。

SAB分為兩個(gè)階段：

在前饋傳播過(guò)程中，管理一個(gè)內(nèi)存單元，并在每個(gè)時(shí)間步中最多選擇過(guò)去記憶中的一個(gè)稀疏子集。這個(gè)過(guò)程稱(chēng)之為稀疏檢索。
在反向傳播過(guò)程中，將梯度僅僅傳播到記憶的稀疏子集及其局部環(huán)境中。這個(gè)過(guò)程稱(chēng)之為稀疏回放。

2.2.2 QRNN

論文Quasi-Recurrent Neural NetworksQuasi 提出QRNN，其結(jié)合了RNN和CNN的特性。在使用卷積結(jié)構(gòu)替代循環(huán)結(jié)構(gòu)上，QRNN 沒(méi)有純 CNN 模型（e.g. WaveNet）那么激進(jìn)，依然保留了一些循環(huán)結(jié)構(gòu)。

2.2.3 IndRNN

論文Independently Recurrent Neural Network (IndRNN): Building A Longer and Deeper RNN, 提出了 IndRNN，亮點(diǎn)在于：1) 將 RNN 層內(nèi)神經(jīng)元解耦，使它們相互獨(dú)立，提高神經(jīng)元的可解釋性。2) 有序列表能夠使用 Relu 等非飽和激活函數(shù)，解決層內(nèi)和層間梯度消失/爆炸問(wèn)題，同時(shí)模型也具有魯棒性。3) 有序列表比 LSTM 能處理更長(zhǎng)的序列信息。

對(duì)比原始的RNN隱層計(jì)算：

IndRNN 引入了 Relu 作為激活函數(shù)，并且將層內(nèi)的神經(jīng)元獨(dú)立開(kāi)來(lái)。對(duì) RNN 的式子稍加改進(jìn)，就變成了 IndRNN：

2.2.4 SRU

論文Simple Recurrent Units for Highly Parallelizable Recurrence中提出的SRU方法，它最本質(zhì)的改進(jìn)是把隱層之間的神經(jīng)元依賴(lài)由全連接改成了哈達(dá)馬乘積，這樣T時(shí)刻隱層單元本來(lái)對(duì)T-1時(shí)刻所有隱層單元的依賴(lài)，改成了只是對(duì)T-1時(shí)刻對(duì)應(yīng)單元的依賴(lài)，于是可以在隱層單元之間進(jìn)行并行計(jì)算，但是收集信息仍然是按照時(shí)間序列來(lái)進(jìn)行的。所以其并行性是在隱層單元之間發(fā)生的，而不是在不同時(shí)間步之間發(fā)生的。SRU的測(cè)試速度為：在文本分類(lèi)上和原始TextCNN的速度相當(dāng)。

2.2.5 SRNN

論文Sliced Recurrent Neural Networks提出打斷隱層之間的連接，比如每隔2個(gè)時(shí)間步打斷一次，并通過(guò)層深來(lái)建立遠(yuǎn)距離特征之間的聯(lián)系。SRNN速度比GRU模型快5到15倍。

2.2.6小結(jié)

對(duì)于原生的RNN，目前很多實(shí)驗(yàn)已經(jīng)證明效果比起Transformer有較大差距，只有少數(shù)NLP任務(wù)RNN仍占有一席之地。然而RNN并行計(jì)算能力受限制太嚴(yán)重，RNN的發(fā)展目前處于進(jìn)退維谷的階段，也許未來(lái)的發(fā)展方向是RNN和其他模塊如Transformer相結(jié)合，提高并行性。

2.4 CNN流派

最早將CNN引入NLP的是Kim在2014年做的工作。CNN捕獲到的特征關(guān)鍵在于卷積核覆蓋的那個(gè)滑動(dòng)窗口。大小為k的滑動(dòng)窗口輕輕的穿過(guò)句子的一個(gè)個(gè)單詞，捕獲到的是單詞的k-gram片段信息，這些k-gram片段就是CNN捕獲到的特征，k的大小決定了能捕獲多遠(yuǎn)距離的特征，對(duì)于長(zhǎng)句而言，暴力的取很大的k是無(wú)法解決長(zhǎng)句依賴(lài)的特征提取問(wèn)題的，針對(duì)長(zhǎng)句表示學(xué)習(xí)挑戰(zhàn)，針對(duì)CNN有以下兩個(gè)方向的改進(jìn)。

2.4.1 Dilated CNN

空洞卷積主要通過(guò)跳躍的方式實(shí)現(xiàn)擴(kuò)大感受野，在論文An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling中，作者利用Dilated CNN拓展單層卷積層的輸入覆蓋長(zhǎng)度，利用全卷積層堆疊層深，使用Skip Connection輔助優(yōu)化，引入Casual CNN讓網(wǎng)絡(luò)結(jié)構(gòu)看不到T時(shí)間步后的數(shù)據(jù)。

不過(guò)TCN的論文有兩個(gè)明顯問(wèn)題：一個(gè)問(wèn)題是任務(wù)除了語(yǔ)言模型外都不是典型的NLP任務(wù)，而是合成數(shù)據(jù)任務(wù)，所以論文結(jié)論很難直接說(shuō)就適合NLP領(lǐng)域；另外一點(diǎn)，它用來(lái)進(jìn)行效果比較的對(duì)比方法，沒(méi)有用當(dāng)時(shí)效果很好的模型來(lái)對(duì)比，比較基準(zhǔn)低。所以TCN的模型效果說(shuō)服力不太夠。不過(guò)本人認(rèn)為精調(diào)過(guò)的TCN對(duì)長(zhǎng)句表示學(xué)習(xí)還是會(huì)優(yōu)于傳統(tǒng)的CNN。

2.4.2 Deep CNN

針對(duì)CNN改進(jìn)的第二個(gè)方向是加深層數(shù)。第一層卷積層，假設(shè)滑動(dòng)窗口大小k是3，如果再往上疊一層卷積層，假設(shè)滑動(dòng)窗口大小也是3，但是第二層窗口覆蓋的是第一層窗口的輸出特征，所以它其實(shí)能覆蓋輸入的距離達(dá)到了5。如果繼續(xù)往上疊加卷積層，可以繼續(xù)增大卷積核覆蓋輸入的長(zhǎng)度。

在論文Do Convolutional Networks need to be Deep for Text Classification出現(xiàn)之前，卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行文本分類(lèi)都是用的很淺層的CNN，基本是一個(gè)詞嵌入層、一個(gè)卷積一個(gè)池化然后兩個(gè)全連接層，文章利用了29個(gè)卷積層，提升文本分類(lèi)的準(zhǔn)去率。

2.4.2 小結(jié)

以上是兩種典型的解決CNN遠(yuǎn)距離特征捕獲能力的方案，Dilated CNN偏技巧一些，而且疊加卷積層時(shí)超參如何設(shè)置有些學(xué)問(wèn)，因?yàn)檫B續(xù)跳接可能會(huì)錯(cuò)過(guò)一些特征組合，所以需要精心調(diào)節(jié)參數(shù)搭配，保證所有可能組合都被覆蓋到。相對(duì)而言，把CNN作深是主流發(fā)展方向，似乎BERT中疊加了n層的Transformer也是做深的一個(gè)例子。總的來(lái)說(shuō)，CNN本身具有并行優(yōu)勢(shì)，在NLP也占有一席之地，不過(guò)近期不斷被Transformer蠶食。

3.總結(jié)

1.不同的句子表征方法都有不同的特色，在具體業(yè)務(wù)問(wèn)題上需要根據(jù)具體問(wèn)題選擇模型。

2.Tranformer和做深，高度并行是未來(lái)的一個(gè)趨勢(shì)。

3.集合各種模型的優(yōu)勢(shì)如Transformer+CNN+RNN也是未來(lái)的一個(gè)趨勢(shì)。

4.模擬人思考的方式進(jìn)行模型的改進(jìn)也是一個(gè)趨勢(shì)，如Sparse Attentive Backtracking

5.RNN不管怎么改進(jìn)并行化還是很差，實(shí)際使用先用CNN或Transformer。

參考文獻(xiàn):

1.Sparse Attentive Backtracking: Temporal Credit Assignment Through Reminding

2.Generating Long Sequences with Sparse Transformers

3.Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

4.Why Self-Attention? A Targeted Evaluation of Neural Machine Translation Architectures

5.Independently Recurrent Neural Network (IndRNN): Building A Longer and Deeper RNN

6.Simple Recurrent Units for Highly Parallelizable Recurrence

7.Sliced Recurrent Neural Networks

8.Quasi-Recurrent Neural Networks

9.An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling

10.Do Convolutional Networks need to be Deep for Text Classification ?

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶(hù)發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：昵稱(chēng)16619343 > 《自然語(yǔ)言處理，文本分析》

舉報(bào)/認(rèn)領(lǐng)