【原】視覺 Transformer 的可視化｜CVPR2021

極市平臺 2021-03-07

展開全文

報道丨極市平臺

極市導讀

可視化對于Transformer的模型調(diào)試、驗證等過程都非常重要，F(xiàn)AIR的研究者開源了一種Transformer可視化新方法，能針對不同類呈現(xiàn)不同且準確的效果。 >>加入極市CV技術(shù)交流群，走在計算機視覺的最前沿

近兩年，“Transformer”的熱潮從自然語言處理領(lǐng)域席卷至計算機視覺領(lǐng)域。Transformer及其衍生方法不僅是幾乎所有NLP基準測試中最先進的方法，還成為了傳統(tǒng)計算機視覺任務(wù)中的領(lǐng)先工具。在結(jié)果公布不久的CVPR2021中，與Transformer相關(guān)的工作數(shù)量也十分可觀。

來自FAIR和以色列特拉維夫大學的學者在CVPR2021中發(fā)表了一篇名為“Transformer Interpretability Beyond Attention Visualization”的論文。在這篇論文中，作者提出了一種計算Transformer網(wǎng)絡(luò)結(jié)構(gòu)相關(guān)性的新穎方法，首次實現(xiàn)Transformer的可視化能針對不同類呈現(xiàn)不同且準確的效果。

該方法基于深度泰勒分解原理分配局部相關(guān)性，而后將相關(guān)性傳播到各層。與以往方法相比不同的是，它的傳播涉及注意層和殘差連接。與此同時，作者在最新的視覺Transformer網(wǎng)絡(luò)以及文本分類任務(wù)上進行了基準測試，證明了該方法相對于現(xiàn)有可解釋性方法的明顯優(yōu)勢。

目前，作者已經(jīng)公布了該工作的開源代碼：

代碼地址：https://github.com/hila-chefer/Transformer-Explainability
論文鏈接：https:///abs/2012.09838

論文簡介

可視化對于Transformer的模型調(diào)試、驗證等過程都非常重要，而目前現(xiàn)有工作對于Transformer可視化的探索并不是很多。

過去可視化Transformer模型常見的做法是，針對單個注意力層，將注意力視為相關(guān)性得分；另一種則是組合多個注意力層，簡單地平均獲得每個標記的注意力。但由于更深的層更具有語義，而每次應(yīng)用自注意力時，每個標記都會積累額外的上下文，這會導致信號模糊，各層的不同作用被忽視，并使得不相關(guān)的標記被凸顯。

Transformer嚴重依賴于殘差連接和注意力運算符，這兩者都涉及兩個激活圖的混合。此外，Transformer使用ReLU以外的其他非線性因素，這會同時帶來正向和負向的特征。由于存在非正值，如若處理不當，則殘差連接會導致數(shù)值的不穩(wěn)定。

針對上述問題，本文作者引入適用于正面和負面歸因的相對傳播規(guī)則，并提出了針對非參數(shù)層的歸一化項，如矩陣乘法。同時，整合注意力與相關(guān)性得分，并將結(jié)果整合到多個注意力模塊中。

在實踐中，計算機視覺使用的許多可解釋性方法并不是特定于類的，即無論嘗試可視化的類是什么，即便對于包含多個對象的圖像，也會返回相同的可視化效果。因而特定于類的信號通常會因為圖像的顯著區(qū)域而變得模糊。本文的方法則設(shè)計提供了基于類的分離，這也是目前唯一能夠呈現(xiàn)此屬性的Transformer可視化方法。