免费高清特黄a大片,九一h片在线免费看,a免费国产一级特黄aa大,国产精品国产主播在线观看,成人精品一区久久久久,一级特黄aa大片,俄罗斯无遮挡一级毛片

分享

提高3D CNN時空融合分析效率的秘訣|CVPR2020

 taotao_2016 2020-05-28
來源|微軟研究院AI頭條
極市導(dǎo)讀:時空融合(Spatiotemporal fusion)是三維卷積神經(jīng)網(wǎng)絡(luò)(3D CNNs)的關(guān)鍵要素,它決定了網(wǎng)絡(luò)前饋過程中每一層如何提取、融合空間信號和時間信號。目前已有的時空融合分析方法囿于過大的網(wǎng)絡(luò)訓(xùn)練開銷,僅能對有限數(shù)量的融合策略進(jìn)行網(wǎng)絡(luò)級別分析。微軟亞洲研究院將時空融合策略嵌入到預(yù)先定義的概率空間,從而能夠?qū)θ我舛喾N融合策略進(jìn)行網(wǎng)絡(luò)級評估,而不必分別訓(xùn)練它們,極大地提高了針對時空融合策略的分析效率。

盡管二維卷積神經(jīng)網(wǎng)絡(luò)(2D CNNs)在圖像識別方面取得了很大的成功,但是在過去的數(shù)年中,用于時空信號任務(wù)的三維卷積神經(jīng)網(wǎng)絡(luò)仍然受到性能和效率的困擾。近些年來,領(lǐng)域內(nèi)學(xué)者對分析三維卷積神經(jīng)網(wǎng)絡(luò)中不同要素的性質(zhì)進(jìn)行了很多嘗試,為設(shè)計(jì)更強(qiáng)大高效的時空網(wǎng)絡(luò)框架奠定基礎(chǔ)。其中,時空融合是一關(guān)鍵要素。它決定了網(wǎng)絡(luò)前饋過程中每一層如何提取、融合空間信號和時間信號。目前已有的時空融合分析方法通常是經(jīng)驗(yàn)性地搭建不同融合策略,然后通過基于網(wǎng)絡(luò)訓(xùn)練而獲得的性能得到觀察并進(jìn)行規(guī)律總結(jié)。由于網(wǎng)絡(luò)訓(xùn)練的開銷過大,這類方法僅能夠?qū)τ邢迶?shù)量的融合策略進(jìn)行網(wǎng)絡(luò)級別分析。

在本文中,我們將時空融合策略嵌入到預(yù)先定義的概率空間,使我們能夠?qū)θ我舛喾N融合策略進(jìn)行網(wǎng)絡(luò)級評估,而不必分別訓(xùn)練它們,極大地提高了針對時空融合策略的分析效率。

在基于深度學(xué)習(xí)的眾多視頻應(yīng)用中,例如動作識別、視頻標(biāo)簽和人員重新識別,時空特征融合是不可或缺的組成部分。以動作識別為例,深度網(wǎng)絡(luò)中的時空融合大致可分為兩大類:1,兩路(Two-stream)形式的融合/集成,例如自然圖像幀中的空間語義信息與光流場中的運(yùn)動信息獨(dú)立提取后相互結(jié)合;2,單一三維卷積神經(jīng)網(wǎng)絡(luò)(3D CNNs)中時空信息的交互與融合。本文主要關(guān)注于后者上。

概率角度分析時空融合

從概念上講,三維卷積神經(jīng)網(wǎng)絡(luò)能夠很好地學(xué)習(xí)視頻內(nèi)容的時空特征,然而,根據(jù)最近的研究顯示,其性能仍然對不同的時空融合策略十分敏感。現(xiàn)有的針對時空融合的分析工作通常經(jīng)驗(yàn)性地設(shè)計(jì)不同的融合策略,并根據(jù)相應(yīng)的性能表現(xiàn)來進(jìn)行分析總結(jié)。由于每種策略都需要進(jìn)行單獨(dú)的訓(xùn)練和評估,以及現(xiàn)有解決方案很難針對大量融合策略進(jìn)行分析評估,同時也無法支持細(xì)粒度的層級分析。

為了提高分析效率,本文提出從概率的角度分析三維卷積神經(jīng)網(wǎng)絡(luò)中的時空融合。具體而言,我們將時空融合分析建模為一個優(yōu)化問題,旨在將每個單獨(dú)的融合策略均視為隨機(jī)事件并嵌入到一個滿足以下兩個性質(zhì)的概率空間:1,可以從概率空間低成本地得到每個時空融合策略(事件)的性能,因此我們可以基于該性能來評估不同融合策略,而不必分別訓(xùn)練每個策略;2,能夠通過該概率空間推斷出時空融合的局部性偏好,從而可以對融合策略進(jìn)行逐層的細(xì)粒度分析。算法框架如下圖所示:


圖1:基于概率空間嵌入的時空融合分析算法框架

圖1中不同顏色的方塊表示由不同形式的卷積核實(shí)例化的基本時空融合單元,比如,藍(lán)色表示空間融合單元(由作用于空間域上的二維卷積核實(shí)例化);綠色表示時空融合單元(由三維卷積核實(shí)例化);黃色表示空間與時空的混合融合單元(由二維與三維混合卷積核實(shí)例化)。

進(jìn)一步地,我們通過觀察發(fā)現(xiàn),由融合策略和其對應(yīng)的網(wǎng)絡(luò)參數(shù)權(quán)重的聯(lián)合后驗(yàn)分布所定義的概率空間能夠很好地滿足上述兩個性質(zhì)。為了高效地將時空融合策略嵌入到該概率空間,我們借鑒 Variational Dropout,提出了 Variational DropPath, 通過對模板網(wǎng)絡(luò)(template network)進(jìn)行端到端的訓(xùn)練,來完成嵌入過程。其中,模板網(wǎng)絡(luò)是混合了不同的時空融合策略的超網(wǎng)絡(luò),并可通過 DropPath 操作得到采用不同混合策略的子網(wǎng)絡(luò),如圖2所示:

圖2:Variational DropPath 的訓(xùn)練過程

通過推導(dǎo)我們發(fā)現(xiàn),對該模版網(wǎng)絡(luò)按照如下目標(biāo)函數(shù)進(jìn)行端到端的優(yōu)化:

近似等價于最小化:KL(Q(ω,M)||P(ω,M|X,Y))  。其中 M 和 ω 表示時空融合策略以及對應(yīng)的網(wǎng)絡(luò)參數(shù)權(quán)重;p 表示 DropPath 的概率;N 為總樣本數(shù);? 為依 p 采樣得到的二值掩碼(Binary mask),l、i、u 為模版網(wǎng)絡(luò)中當(dāng)前層數(shù)、使用的特征圖的所屬層數(shù)以及基本時空融合單元的索引;Q 為分解(factorize)在不同基本時空融合單元上的變分分布(variational distribution)。

上述近似等價關(guān)系表明,通過對模板網(wǎng)絡(luò)的訓(xùn)練,我們可以將不同時空融合策略嵌入到由后驗(yàn)分布定義的概率空間。當(dāng)訓(xùn)練完成后,從概率空間采樣不同的時空融合策略以及其對應(yīng)的網(wǎng)絡(luò)參數(shù)等價于按照收斂后的 DropPath 概率從模板網(wǎng)絡(luò)采樣不同的子網(wǎng)絡(luò)。由于策略是和其對應(yīng)的參數(shù)權(quán)重成對進(jìn)行采樣的,故可以直接在驗(yàn)證集上對該策略進(jìn)行測試得到性能作為評價指標(biāo)。同時,我們還可計(jì)算網(wǎng)絡(luò)中每一層不同融合單元的邊緣概率分布,作為細(xì)粒度的時空融合偏好評價指標(biāo):

圖3:計(jì)算網(wǎng)絡(luò)中每一層不同融合單元的邊緣概率分布

圖3中紅點(diǎn)代表采樣得到性能(分類準(zhǔn)確度)最高的一組樣本的具體時空融合策略,柱狀圖表示每一層使用不同時空融合單元的邊緣分布,它能夠反映出每一層哪些融合單元更傾向于被使用。綜合這兩組信息我們可以在針對不同性質(zhì)的數(shù)據(jù)集設(shè)計(jì)不同的融合策略。

實(shí)驗(yàn)結(jié)果

為了驗(yàn)證本文方法的有效性和普適性,我們在四種不同類型的動作識別數(shù)據(jù)集上做驗(yàn)證實(shí)驗(yàn),它們分別是 Something-something V1、Kinetics400、Something-something V2 和 UCF101。實(shí)驗(yàn)設(shè)計(jì)主要驗(yàn)包含兩個部分:1,是否能夠從概率空間得到比現(xiàn)有方法性能更好的時空融合策略;2,根據(jù)上述兩組信息總結(jié)得到的規(guī)律,是否能適用于不同的主干網(wǎng)絡(luò)(backbone network)。

對于第一點(diǎn),我們將采樣得到的性能最好的樣本與其它基于三維卷積神經(jīng)網(wǎng)絡(luò)的 state-of-the-art 方法進(jìn)行對比,發(fā)現(xiàn)無論從模型復(fù)雜度還是分類準(zhǔn)確行上,都取得了最佳成績,如表1:

表1: 性能檢驗(yàn)

對于第二點(diǎn),我們在不同數(shù)據(jù)集上根據(jù)對采樣情況以及邊緣分布的觀察,總結(jié)得到融合偏好的規(guī)律,并將其應(yīng)用到不同的主干網(wǎng)絡(luò)中去,發(fā)現(xiàn)能夠給絕大多數(shù)主干網(wǎng)絡(luò)帶來可觀的性能提升,說明我們的分析方法可以幫助得到泛化性能非常好的觀察與規(guī)律。具體如表2:

表2:普適性檢驗(yàn)

其中 Opt 代表根據(jù)從概率空間所得到的信息來設(shè)計(jì)在不同主干網(wǎng)絡(luò)上設(shè)計(jì)的時空融合策略,其它策略,如 ST 表示在主干網(wǎng)絡(luò)上全部使用時空融合單元的融合策略,均為對照組。數(shù)字表示分類 Top1 準(zhǔn)確度(%)??梢园l(fā)現(xiàn),我們的方法提供的時空融合信息能夠很有效地幫助不同的主干網(wǎng)絡(luò)進(jìn)行時空融合策略設(shè)計(jì),展示出了較強(qiáng)的泛化性能。

作為總結(jié),本文我們將分析三維卷積神經(jīng)網(wǎng)絡(luò)中時空融合的問題轉(zhuǎn)換為優(yōu)化問題,旨在將所有可能的融合策略嵌入到由融合策略和其對應(yīng)的網(wǎng)絡(luò)參數(shù)權(quán)重的聯(lián)合后驗(yàn)分布所定義的概率空間中。這樣的概率空間使我們能夠從概率的角度去研究時空融合,無需單獨(dú)的網(wǎng)絡(luò)訓(xùn)練就可以評估和分析各種融合策略,且可以提供細(xì)粒度的局部偏好。我們進(jìn)一步提出 Variational DropPath,使得端到端地訓(xùn)練模板網(wǎng)絡(luò)即可有效地解決上述優(yōu)化問題。通過在四個動作識別數(shù)據(jù)庫上的對比實(shí)驗(yàn),證明了這一方法的有效性和普適性。

更多細(xì)節(jié)請參考原文和附錄:

https:///pdf/2004.04981.pdf

實(shí)驗(yàn)代碼請參考 GitHub 目錄:

https://github.com/scenarios/Probabilistic3DCNN

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多