免费高清特黄a大片,九一h片在线免费看,a免费国产一级特黄aa大,国产精品国产主播在线观看,成人精品一区久久久久,一级特黄aa大片,俄罗斯无遮挡一级毛片

分享

視覺 Transformer 的可視化|CVPR2021

 極市平臺 2021-03-07

報道丨極市平臺

極市導讀

 

可視化對于Transformer的模型調(diào)試、驗證等過程都非常重要,F(xiàn)AIR的研究者開源了一種Transformer可視化新方法,能針對不同類呈現(xiàn)不同且準確的效果。 >>加入極市CV技術(shù)交流群,走在計算機視覺的最前沿

近兩年,“Transformer”的熱潮從自然語言處理領(lǐng)域席卷至計算機視覺領(lǐng)域。Transformer及其衍生方法不僅是幾乎所有NLP基準測試中最先進的方法,還成為了傳統(tǒng)計算機視覺任務(wù)中的領(lǐng)先工具。在結(jié)果公布不久的CVPR2021中,與Transformer相關(guān)的工作數(shù)量也十分可觀。

來自FAIR和以色列特拉維夫大學的學者在CVPR2021中發(fā)表了一篇名為“Transformer Interpretability Beyond Attention Visualization”的論文。在這篇論文中,作者提出了一種計算Transformer網(wǎng)絡(luò)結(jié)構(gòu)相關(guān)性的新穎方法,首次實現(xiàn)Transformer的可視化能針對不同類呈現(xiàn)不同且準確的效果。

該方法基于深度泰勒分解原理分配局部相關(guān)性,而后將相關(guān)性傳播到各層。與以往方法相比不同的是,它的傳播涉及注意層和殘差連接。與此同時,作者在最新的視覺Transformer網(wǎng)絡(luò)以及文本分類任務(wù)上進行了基準測試,證明了該方法相對于現(xiàn)有可解釋性方法的明顯優(yōu)勢。

目前,作者已經(jīng)公布了該工作的開源代碼:

代碼地址:https://github.com/hila-chefer/Transformer-Explainability
論文鏈接:https:///abs/2012.09838

論文簡介

可視化對于Transformer的模型調(diào)試、驗證等過程都非常重要,而目前現(xiàn)有工作對于Transformer可視化的探索并不是很多。

過去可視化Transformer模型常見的做法是,針對單個注意力層,將注意力視為相關(guān)性得分;另一種則是組合多個注意力層,簡單地平均獲得每個標記的注意力。但由于更深的層更具有語義,而每次應(yīng)用自注意力時,每個標記都會積累額外的上下文,這會導致信號模糊,各層的不同作用被忽視,并使得不相關(guān)的標記被凸顯。

Transformer嚴重依賴于殘差連接和注意力運算符,這兩者都涉及兩個激活圖的混合。此外,Transformer使用ReLU以外的其他非線性因素,這會同時帶來正向和負向的特征。由于存在非正值,如若處理不當,則殘差連接會導致數(shù)值的不穩(wěn)定。

針對上述問題,本文作者引入適用于正面和負面歸因的相對傳播規(guī)則,并提出了針對非參數(shù)層的歸一化項,如矩陣乘法。同時,整合注意力與相關(guān)性得分,并將結(jié)果整合到多個注意力模塊中。

在實踐中,計算機視覺使用的許多可解釋性方法并不是特定于類的,即無論嘗試可視化的類是什么,即便對于包含多個對象的圖像,也會返回相同的可視化效果。因而特定于類的信號通常會因為圖像的顯著區(qū)域而變得模糊。本文的方法則設(shè)計提供了基于類的分離,這也是目前唯一能夠呈現(xiàn)此屬性的Transformer可視化方法。

方法介紹

本文采用基于LRP[1]的相關(guān)性來計算Transformer每一層中每個注意力層的得分,通過合并相關(guān)性和梯度信息,通過迭代消除負面影響,然后將它們整合到注意力圖中,得到自注意力模型特定于類的可視化。

相關(guān)性和梯度

為分類頭的類數(shù),為要可視化的類,并傳播關(guān)于的相關(guān)性和梯度。將表示為層的輸入,其中是由層組成網(wǎng)絡(luò)中的層索引,是輸入,是輸出。通過鏈式規(guī)則,將梯度傳播到分類器的輸出

表示該層在兩個張量上的操作。通常,這兩個張量是輸入特征圖和第層的權(quán)重。相關(guān)性傳播遵循通用的深度泰勒分解公式:

非參數(shù)相關(guān)傳播

Transformer模型中有兩個運算符涉及兩個特征圖張量的混合(與具有學習張量的特征圖相反):殘差連接和矩陣乘法。這兩個運算符需要通過兩個輸入張量傳播相關(guān)性。給定兩個張量,我們計算這些二進制運算符的相關(guān)性傳播如下:

證明得到:

相關(guān)性和梯度擴散

為一個由模塊組成的Transformer模型,其中每一個模塊由自注意力,殘差連接以及附加的線性層和歸一化層組成。該模型將維數(shù)為,長度為的標記序列作為輸入,為類別輸出作特殊標記,輸出由分類標記向量計算出的長度為的分類概率向量。自注意模塊在輸入維度為的小空間上運行,為head數(shù)量。自注意模塊的定義如下:

實驗與結(jié)果

對于語言分類任務(wù),作者使用基于BERT的模型作為分類器,假設(shè)最多512個標記,并使用分類標記作為分類頭的輸入。對于視覺分類任務(wù),作者采用基于ViT的預(yù)訓練模型。輸入圖像尺寸為的所有不重疊色塊的序列,線性化圖層以生成向量序列。

下圖給出了本文的方法與各種基線方法之間的直觀比較??梢钥闯?,本文方法獲得了更加清晰一致的可視化。

下圖顯示了帶有兩個對象的圖像,每個對象來自不同的類。可以看出,除GradCAM之外,所有方法對不同類都產(chǎn)生了相似的可視化效果,而本文方法則取得了兩個不同且準確的可視化效果,因而證明該方法是特定于類的。

下表為在ImageNet驗證集上,預(yù)測類別和目標類別的正負擾動AUC結(jié)果。

ImageNet分割數(shù)據(jù)集上的分割性能:

本文方法不同消融方案性能:

    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多