提高3D CNN時空融合分析效率的秘訣｜CVPR2020

taotao_2016 2020-05-28

展開全文

來源｜微軟研究院AI頭條

極市導(dǎo)讀：時空融合（Spatiotemporal fusion）是三維卷積神經(jīng)網(wǎng)絡(luò)（3D CNNs）的關(guān)鍵要素，它決定了網(wǎng)絡(luò)前饋過程中每一層如何提取、融合空間信號和時間信號。目前已有的時空融合分析方法囿于過大的網(wǎng)絡(luò)訓(xùn)練開銷，僅能對有限數(shù)量的融合策略進(jìn)行網(wǎng)絡(luò)級別分析。微軟亞洲研究院將時空融合策略嵌入到預(yù)先定義的概率空間，從而能夠?qū)θ我舛喾N融合策略進(jìn)行網(wǎng)絡(luò)級評估，而不必分別訓(xùn)練它們，極大地提高了針對時空融合策略的分析效率。

盡管二維卷積神經(jīng)網(wǎng)絡(luò)（2D CNNs）在圖像識別方面取得了很大的成功，但是在過去的數(shù)年中，用于時空信號任務(wù)的三維卷積神經(jīng)網(wǎng)絡(luò)仍然受到性能和效率的困擾。近些年來，領(lǐng)域內(nèi)學(xué)者對分析三維卷積神經(jīng)網(wǎng)絡(luò)中不同要素的性質(zhì)進(jìn)行了很多嘗試，為設(shè)計(jì)更強(qiáng)大高效的時空網(wǎng)絡(luò)框架奠定基礎(chǔ)。其中，時空融合是一關(guān)鍵要素。它決定了網(wǎng)絡(luò)前饋過程中每一層如何提取、融合空間信號和時間信號。目前已有的時空融合分析方法通常是經(jīng)驗(yàn)性地搭建不同融合策略，然后通過基于網(wǎng)絡(luò)訓(xùn)練而獲得的性能得到觀察并進(jìn)行規(guī)律總結(jié)。由于網(wǎng)絡(luò)訓(xùn)練的開銷過大，這類方法僅能夠?qū)τ邢迶?shù)量的融合策略進(jìn)行網(wǎng)絡(luò)級別分析。

在本文中，我們將時空融合策略嵌入到預(yù)先定義的概率空間，使我們能夠?qū)θ我舛喾N融合策略進(jìn)行網(wǎng)絡(luò)級評估，而不必分別訓(xùn)練它們，極大地提高了針對時空融合策略的分析效率。

在基于深度學(xué)習(xí)的眾多視頻應(yīng)用中，例如動作識別、視頻標(biāo)簽和人員重新識別，時空特征融合是不可或缺的組成部分。以動作識別為例，深度網(wǎng)絡(luò)中的時空融合大致可分為兩大類：1，兩路（Two-stream）形式的融合/集成，例如自然圖像幀中的空間語義信息與光流場中的運(yùn)動信息獨(dú)立提取后相互結(jié)合；2，單一三維卷積神經(jīng)網(wǎng)絡(luò)（3D CNNs）中時空信息的交互與融合。本文主要關(guān)注于后者上。

概率角度分析時空融合

從概念上講，三維卷積神經(jīng)網(wǎng)絡(luò)能夠很好地學(xué)習(xí)視頻內(nèi)容的時空特征，然而，根據(jù)最近的研究顯示，其性能仍然對不同的時空融合策略十分敏感。現(xiàn)有的針對時空融合的分析工作通常經(jīng)驗(yàn)性地設(shè)計(jì)不同的融合策略，并根據(jù)相應(yīng)的性能表現(xiàn)來進(jìn)行分析總結(jié)。由于每種策略都需要進(jìn)行單獨(dú)的訓(xùn)練和評估，以及現(xiàn)有解決方案很難針對大量融合策略進(jìn)行分析評估，同時也無法支持細(xì)粒度的層級分析。

為了提高分析效率，本文提出從概率的角度分析三維卷積神經(jīng)網(wǎng)絡(luò)中的時空融合。具體而言，我們將時空融合分析建模為一個優(yōu)化問題，旨在將每個單獨(dú)的融合策略均視為隨機(jī)事件并嵌入到一個滿足以下兩個性質(zhì)的概率空間：1，可以從概率空間低成本地得到每個時空融合策略（事件）的性能，因此我們可以基于該性能來評估不同融合策略，而不必分別訓(xùn)練每個策略；2，能夠通過該概率空間推斷出時空融合的局部性偏好，從而可以對融合策略進(jìn)行逐層的細(xì)粒度分析。算法框架如下圖所示：

圖1：基于概率空間嵌入的時空融合分析算法框架

圖1中不同顏色的方塊表示由不同形式的卷積核實(shí)例化的基本時空融合單元，比如，藍(lán)色表示空間融合單元（由作用于空間域上的二維卷積核實(shí)例化）；綠色表示時空融合單元（由三維卷積核實(shí)例化）；黃色表示空間與時空的混合融合單元（由二維與三維混合卷積核實(shí)例化）。

進(jìn)一步地，我們通過觀察發(fā)現(xiàn)，由融合策略和其對應(yīng)的網(wǎng)絡(luò)參數(shù)權(quán)重的聯(lián)合后驗(yàn)分布所定義的概率空間能夠很好地滿足上述兩個性質(zhì)。為了高效地將時空融合策略嵌入到該概率空間，我們借鑒 Variational Dropout，提出了 Variational DropPath, 通過對模板網(wǎng)絡(luò)（template network）進(jìn)行端到端的訓(xùn)練，來完成嵌入過程。其中，模板網(wǎng)絡(luò)是混合了不同的時空融合策略的超網(wǎng)絡(luò)，并可通過 DropPath 操作得到采用不同混合策略的子網(wǎng)絡(luò)，如圖2所示：

圖2：Variational DropPath 的訓(xùn)練過程

通過推導(dǎo)我們發(fā)現(xiàn)，對該模版網(wǎng)絡(luò)按照如下目標(biāo)函數(shù)進(jìn)行端到端的優(yōu)化：

近似等價于最小化：KL(Q(ω,M)||P(ω,M|X,Y)) 。其中 M 和 ω 表示時空融合策略以及對應(yīng)的網(wǎng)絡(luò)參數(shù)權(quán)重；p 表示 DropPath 的概率；N 為總樣本數(shù)；? 為依 p 采樣得到的二值掩碼（Binary mask），l、i、u 為模版網(wǎng)絡(luò)中當(dāng)前層數(shù)、使用的特征圖的所屬層數(shù)以及基本時空融合單元的索引；Q 為分解（factorize）在不同基本時空融合單元上的變分分布（variational distribution）。

上述近似等價關(guān)系表明，通過對模板網(wǎng)絡(luò)的訓(xùn)練，我們可以將不同時空融合策略嵌入到由后驗(yàn)分布定義的概率空間。當(dāng)訓(xùn)練完成后，從概率空間采樣不同的時空融合策略以及其對應(yīng)的網(wǎng)絡(luò)參數(shù)等價于按照收斂后的 DropPath 概率從模板網(wǎng)絡(luò)采樣不同的子網(wǎng)絡(luò)。由于策略是和其對應(yīng)的參數(shù)權(quán)重成對進(jìn)行采樣的，故可以直接在驗(yàn)證集上對該策略進(jìn)行測試得到性能作為評價指標(biāo)。同時，我們還可計(jì)算網(wǎng)絡(luò)中每一層不同融合單元的邊緣概率分布，作為細(xì)粒度的時空融合偏好評價指標(biāo)：

圖3：計(jì)算網(wǎng)絡(luò)中每一層不同融合單元的邊緣概率分布

圖3中紅點(diǎn)代表采樣得到性能（分類準(zhǔn)確度）最高的一組樣本的具體時空融合策略，柱狀圖表示每一層使用不同時空融合單元的邊緣分布，它能夠反映出每一層哪些融合單元更傾向于被使用。綜合這兩組信息我們可以在針對不同性質(zhì)的數(shù)據(jù)集設(shè)計(jì)不同的融合策略。

實(shí)驗(yàn)結(jié)果

為了驗(yàn)證本文方法的有效性和普適性，我們在四種不同類型的動作識別數(shù)據(jù)集上做驗(yàn)證實(shí)驗(yàn)，它們分別是 Something-something V1、Kinetics400、Something-something V2 和 UCF101。實(shí)驗(yàn)設(shè)計(jì)主要驗(yàn)包含兩個部分：1，是否能夠從概率空間得到比現(xiàn)有方法性能更好的時空融合策略；2，根據(jù)上述兩組信息總結(jié)得到的規(guī)律，是否能適用于不同的主干網(wǎng)絡(luò)（backbone network）。

對于第一點(diǎn)，我們將采樣得到的性能最好的樣本與其它基于三維卷積神經(jīng)網(wǎng)絡(luò)的 state-of-the-art 方法進(jìn)行對比，發(fā)現(xiàn)無論從模型復(fù)雜度還是分類準(zhǔn)確行上，都取得了最佳成績，如表1：

表1：性能檢驗(yàn)

對于第二點(diǎn)，我們在不同數(shù)據(jù)集上根據(jù)對采樣情況以及邊緣分布的觀察，總結(jié)得到融合偏好的規(guī)律，并將其應(yīng)用到不同的主干網(wǎng)絡(luò)中去，發(fā)現(xiàn)能夠給絕大多數(shù)主干網(wǎng)絡(luò)帶來可觀的性能提升，說明我們的分析方法可以幫助得到泛化性能非常好的觀察與規(guī)律。具體如表2：

表2：普適性檢驗(yàn)

其中 Opt 代表根據(jù)從概率空間所得到的信息來設(shè)計(jì)在不同主干網(wǎng)絡(luò)上設(shè)計(jì)的時空融合策略，其它策略，如 ST 表示在主干網(wǎng)絡(luò)上全部使用時空融合單元的融合策略，均為對照組。數(shù)字表示分類 Top1 準(zhǔn)確度（%）?？梢园l(fā)現(xiàn)，我們的方法提供的時空融合信息能夠很有效地幫助不同的主干網(wǎng)絡(luò)進(jìn)行時空融合策略設(shè)計(jì)，展示出了較強(qiáng)的泛化性能。

作為總結(jié)，本文我們將分析三維卷積神經(jīng)網(wǎng)絡(luò)中時空融合的問題轉(zhuǎn)換為優(yōu)化問題，旨在將所有可能的融合策略嵌入到由融合策略和其對應(yīng)的網(wǎng)絡(luò)參數(shù)權(quán)重的聯(lián)合后驗(yàn)分布所定義的概率空間中。這樣的概率空間使我們能夠從概率的角度去研究時空融合，無需單獨(dú)的網(wǎng)絡(luò)訓(xùn)練就可以評估和分析各種融合策略，且可以提供細(xì)粒度的局部偏好。我們進(jìn)一步提出 Variational DropPath，使得端到端地訓(xùn)練模板網(wǎng)絡(luò)即可有效地解決上述優(yōu)化問題。通過在四個動作識別數(shù)據(jù)庫上的對比實(shí)驗(yàn)，證明了這一方法的有效性和普適性。

更多細(xì)節(jié)請參考原文和附錄：

https:///pdf/2004.04981.pdf

實(shí)驗(yàn)代碼請參考 GitHub 目錄：

https://github.com/scenarios/Probabilistic3DCNN

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： taotao_2016 > 《AI》

舉報(bào)/認(rèn)領(lǐng)