360doc--極市平臺(tái)的文章

360doc--極市平臺(tái)的文章 360doc--極市平臺(tái)的文章 http://www.yushtrip.com/rssperson/73546223.aspx 360doc (http://www.yushtrip.com) zh-cn 360doc--個(gè)人圖書(shū)館 CNN終于殺回來(lái)了！京東AI開(kāi)源最強(qiáng)ResNet變體CoTNet：即插即用的視覺(jué)識(shí)別模塊 http://www.yushtrip.com/content/21/0729/22/73546223_988748248.shtml 2021/7/29 22:09:28

京東AI開(kāi)源最強(qiáng)ResNet變體CoTNet：即插即用的視覺(jué)識(shí)別模塊。本文是京東AI研究院梅濤團(tuán)隊(duì)在自注意力機(jī)制方面的探索，不同于現(xiàn)有注意力機(jī)制僅采用局部或者全局方式進(jìn)行上下文信息獲取，他們創(chuàng)造性的將Transformer中的自注意力機(jī)制的動(dòng)態(tài)上下文信息聚合與卷積的靜態(tài)上下文信息聚合進(jìn)行了集成，提出了一種新穎的Transformer風(fēng)格的“即插即用”CoT模塊，它可以直接替換現(xiàn)有ResNet架構(gòu)Bottleneck中的。

無(wú)需檢測(cè)器提取特征！LeCun團(tuán)隊(duì)提出MDETR：實(shí)現(xiàn)真正的端到端多模態(tài)推理｜ICCV 2021 Oral http://www.yushtrip.com/content/21/0728/22/73546223_988612781.shtml 2021/7/28 22:09:11

LeCun團(tuán)隊(duì)提出MDETR：實(shí)現(xiàn)真正的端到端多模態(tài)推理｜ICCV 2021 Oral.本文提出了MDETR，一種端到端調(diào)制檢測(cè)器，能夠根據(jù)原始文本query直接來(lái)檢測(cè)圖像中的目標(biāo)，基于Transformer的結(jié)構(gòu)，通過(guò)在模型的早期階段融合這兩種模態(tài)的信息，來(lái)對(duì)文本和圖像進(jìn)行共同的推理。因此，本文的作者基于DETR，提出了一個(gè)端到端的調(diào)制檢測(cè)器MDETR，結(jié)合訓(xùn)練數(shù)據(jù)中的自然語(yǔ)言理解來(lái)執(zhí)行目標(biāo)檢測(cè)任務(wù)，真正實(shí)現(xiàn)了端到端的多模態(tài)推理。

大概是全網(wǎng)最詳細(xì)的何愷明團(tuán)隊(duì)頂作MoCo系列解讀?。ㄉ希?/title> <link>http://www.yushtrip.com/content/21/0726/22/73546223_988314603.shtml</link> <category> </category> <pubDate>2021/7/26 22:09:28</pubDate> <description> <blockquote>1 MoCo v11.1 自監(jiān)督學(xué)習(xí)的 Pretext Task1.2 自監(jiān)督學(xué)習(xí)的 Contrastive loss1.3 MoCo v1 之前的做法1.4 MoCo v1 的做法1.5 MoCo v1 FAQ1.6 MoCo v1 實(shí)驗(yàn)1.7 MoCo v1 完整代碼解讀。圖8：MoCo方法。2 構(gòu)造模型 # create model print("=> creating model ''''''''{}''''''''".format(args.arch)) model = moco.builder.MoCo( models.__dict__[args.arch], args.moco_dim, args.moco_k, args.moco_m, args.moco_t, args.mlp) print(model)</blockquote></description> <dc:creator></dc:creator> </item> <item> <title>ICCV2021｜性能優(yōu)于何愷明團(tuán)隊(duì)MoCo v2，DetCo：為目標(biāo)檢測(cè)定制任務(wù)的對(duì)比學(xué)習(xí) http://www.yushtrip.com/content/21/0725/22/73546223_988177951.shtml 2021/7/25 22:12:25

ICCV2021｜性能優(yōu)于何愷明團(tuán)隊(duì)MoCo v2，DetCo：為目標(biāo)檢測(cè)定制任務(wù)的對(duì)比學(xué)習(xí)作者丨小馬編輯丨極市平臺(tái)。作者專為目標(biāo)檢測(cè)任務(wù)“量身定制”了對(duì)比學(xué)習(xí)框架DetCo，在PASCAL VOC數(shù)據(jù)集上，DetCo在100個(gè)epoch時(shí)的性能就與MoCo V2 800個(gè)epoch的性能差不多，最終性能優(yōu)于Mask RCNN-C4/FPN/RetinaNet等監(jiān)督學(xué)習(xí)的方法。從上圖可以看出，雖然Relative-Loc（結(jié)構(gòu)如下圖所示）在分類任務(wù)上表現(xiàn)一般，但是在檢測(cè)任務(wù)上性能還是比較好的。

MLP 又又又升級(jí)了！港大&商湯開(kāi)源首個(gè)用于檢測(cè)與分割任務(wù)的MLP架構(gòu) http://www.yushtrip.com/content/21/0723/22/73546223_987925687.shtml 2021/7/23 22:09:14

本文是香港大學(xué)&商湯科技在MLP架構(gòu)方面的探索，針對(duì)MLP-Mixer等已有方案存在的分辨率相關(guān)、不便于向下游任務(wù)遷移的問(wèn)題，提出了一種新穎的CycleFC操作，并由此構(gòu)建了CycleMLP架構(gòu)。提出了一種新的MLP模塊：CycleFC，它是一個(gè)廣義的即插即用操作，可用于替換MLP-Mixer中的token mixing MLP操作；基于所提CycleFC，我們構(gòu)建了用于提取分層特征的MLP架構(gòu)：CycleMLP，首個(gè)用于檢測(cè)與分割任務(wù)的MLP架構(gòu)；

ICCV 2021接收結(jié)果出爐！最新40篇論文分方向匯總（附打包下載） http://www.yushtrip.com/content/21/0723/22/73546223_987925685.shtml 2021/7/23 22:09:14

[2] MDETR : Modulated Detection for End-to-End Multi-Modal Understanding(Oral)paper:https://arxiv.org/pdf/2104.12763code:https://github.com/ashkamath/mdetrproject:https://ashkamath.github.io/mdetr_page/colab:https://colab.research.google.com/github/ashkamath/mdetr/blob/colab/notebooks/MDETR_demo.ipynb.

萬(wàn)字長(zhǎng)文細(xì)說(shuō)工業(yè)缺陷檢測(cè) http://www.yushtrip.com/content/21/0722/22/73546223_987785385.shtml 2021/7/22 22:09:21

萬(wàn)字長(zhǎng)文細(xì)說(shuō)工業(yè)缺陷檢測(cè)作者丨皮特潘編輯丨極市平臺(tái)。主要難點(diǎn)場(chǎng)景分析缺陷歸納簡(jiǎn)單粗暴的可行性分析數(shù)據(jù)的四大難點(diǎn)數(shù)據(jù)生成場(chǎng)景VS數(shù)據(jù)方法論算法積木任務(wù)拆分定制分類模型定制語(yǔ)義分割模型語(yǔ)義分割利器dice loss定制目標(biāo)檢測(cè)模型正常樣本建模工具鏈技術(shù)壁壘總結(jié)（一）主要難點(diǎn)。另外，應(yīng)用語(yǔ)義分割任務(wù)做缺陷檢測(cè)，其實(shí)缺陷檢測(cè)并不局限語(yǔ)義分割，它更像提取一張高斯熱圖，有缺陷的地方概率高，背景區(qū)域概率低。

ICML2021｜超越SE、CBAM，中山大學(xué)開(kāi)源SAM：無(wú)參Attention！ http://www.yushtrip.com/content/21/0721/22/73546223_987641295.shtml 2021/7/21 22:09:24

不同于現(xiàn)有的通道/空域注意力模塊，該模塊無(wú)需額外參數(shù)為特征圖推導(dǎo)出3D注意力權(quán)值。受啟發(fā)于人腦注意力機(jī)制，本文提出一種3D注意力模塊并設(shè)計(jì)了一種能量函數(shù)用于計(jì)算注意力權(quán)值；本文推導(dǎo)出了能量函數(shù)的解析解加速了注意力權(quán)值的計(jì)算并得到了一種輕量型注意力模塊；在正式介紹本文所提注意力模塊之前，我們先對(duì)現(xiàn)有代表性注意力模塊(比如SE、CBAM、GC)進(jìn)行簡(jiǎn)要總結(jié)；在大網(wǎng)絡(luò)方面，所提SimAM同樣優(yōu)于SE與CBAM等注意力機(jī)制；

吊打一切現(xiàn)有版本的YOLO！曠視重磅開(kāi)源YOLOX：新一代目標(biāo)檢測(cè)性能速度擔(dān)當(dāng)！ http://www.yushtrip.com/content/21/0720/12/73546223_987428689.shtml 2021/7/20 12:09:28

具有與YOLOv4-CSP、YOLOv5-L相當(dāng)?shù)膮?shù)量，YOLOX-L取得了50.0%AP指標(biāo)同事具有68.9fps推理速度(Tesla V100)，指標(biāo)超過(guò)YOLOv5-L 1.8%;值得一提的是，YOLOX-L憑借單模型取得了Streaming Perception(Workshop on Autonomous Driving at CVPR 2021)競(jìng)賽冠軍。上表對(duì)比了所提YOLOX與其他SOTA檢測(cè)器的性能對(duì)比，從中可以看到：相比YOLOv3、YOLOv4、YOLOv5系列，所提YOLOX取得了最佳性能，同時(shí)具有極具競(jìng)爭(zhēng)力的推理速度。

用簡(jiǎn)單Mask分類實(shí)現(xiàn)語(yǔ)義分割、實(shí)例分割“大一統(tǒng)”！Facebook&UIUC開(kāi)源MaskFormer http://www.yushtrip.com/content/21/0719/22/73546223_987357747.shtml 2021/7/19 22:09:18

用簡(jiǎn)單Mask分類實(shí)現(xiàn)語(yǔ)義分割、實(shí)例分割“大一統(tǒng)”！因此本文作者提出將實(shí)例分割任務(wù)和語(yǔ)義分割任務(wù)都用mask分類的范式來(lái)處理，并在性能上能夠超過(guò)當(dāng)前per-pixel分類的處理范式。因此作者就提出了，將實(shí)例分割任務(wù)和語(yǔ)義分割任務(wù)都用mask分類的范式來(lái)處理，并在性能上能夠超過(guò)當(dāng)前per-pixel分類的處理范式。1）什么是語(yǔ)義分割（semantic segmentation）、實(shí)例分割（instance segmentation）、全景分割（panoptic segmentation）？

一文看盡 6篇 CVPR2021 2D 異常檢測(cè)論文 http://www.yushtrip.com/content/21/0718/22/73546223_987217423.shtml 2021/7/18 22:09:08

一文看盡 6篇 CVPR2021 2D 異常檢測(cè)論文作者丨劉冰一編輯丨極市平臺(tái)。本文對(duì)我們匯總的 CVPR 2021 檢測(cè)大類中的“異常檢測(cè)領(lǐng)域”的論文進(jìn)行了盤(pán)點(diǎn)，將會(huì)依次闡述每篇論文的方法思路和亮點(diǎn)。在極市平臺(tái)回復(fù)“CVPR21檢測(cè)”，即可獲得論文打包下載。在之前極市平臺(tái)曾對(duì) CVPR 2021中 “2D目標(biāo)檢測(cè)” 領(lǐng)域的論文進(jìn)行了盤(pán)點(diǎn)，今天我們繼續(xù)盤(pán)點(diǎn) CVPR 2021 檢測(cè)大類中的“異常檢測(cè)領(lǐng)域”領(lǐng)域的論文，將依次闡述每篇論文的方法思路和亮點(diǎn)。

給圖像特征提取開(kāi)個(gè)“ViP”是什么效果？字節(jié)&牛津提出視覺(jué)解析器，全面超越HaloNet！ http://www.yushtrip.com/content/21/0717/22/73546223_987088179.shtml 2021/7/17 22:09:15

因?yàn)閜art特征表示的是一個(gè)高級(jí)屬性的信息，因此一個(gè)part特征向量往往對(duì)應(yīng)whole特征中的多個(gè)向量（如果把一只貓看做是part特征，整張圖片看做是whole特征，那么一只貓往往跟圖片中的多個(gè)像素對(duì)應(yīng)，所以part到whole的對(duì)應(yīng)往往是“一對(duì)多”的關(guān)系）。本文構(gòu)建了一個(gè)ViP框架，將視覺(jué)特征編碼成了part級(jí)別的特征和whole級(jí)別的特征，通過(guò)顯式建模part特征來(lái)提高模型的語(yǔ)義理解能力，作者在CV三大任務(wù)上也做了實(shí)驗(yàn)，都取得了不錯(cuò)的效果。

搞懂 Vision Transformer 原理和代碼，看這篇技術(shù)綜述就夠了（十四） http://www.yushtrip.com/content/21/0715/22/73546223_986719358.shtml 2021/7/15 22:09:31

#self.attention1 = Token_performer(dim=token_dim, in_dim=in_chans*7*7, kernel_ratio=0.5) #self.attention2 = Token_performer(dim=token_dim, in_dim=token_dim*3*3, kernel_ratio=0.5) self.attention1 = Token_performer(dim=in_chans*7*7, in_dim=token_dim, kernel_ratio=0.5) self.attention2 = Token_performer(dim=token_dim*3*3, in_dim=token_dim, kernel_ratio=0.5) self.project = nn.self.cls_token = nn.

霸榜COCO和Cityscapes！南理工&CMU提出極化自注意力，更精細(xì)的雙重注意力建模結(jié)構(gòu) http://www.yushtrip.com/content/21/0714/22/73546223_986577174.shtml 2021/7/14 22:09:31

基于此，作者提出了一個(gè)即插即用的模塊——極化自注意力機(jī)制（ Polarized Self-Attention(PSA)），用于解決像素級(jí)的回歸任務(wù)，相比于其他注意力機(jī)制，極化自注意力機(jī)制主要有兩個(gè)設(shè)計(jì)上的亮點(diǎn)：本文提出極化自注意力結(jié)構(gòu)如上圖所示，分為兩個(gè)分支，一個(gè)分支做通道維度的自注意力機(jī)制，另一個(gè)分支做空間維度的自注意力機(jī)制，最后將這兩個(gè)的分支的結(jié)果進(jìn)行融合，得到極化自注意力結(jié)構(gòu)的輸出。Polarized Self-Attention (PSA) Block.

CVPR 2021 Short-video Face Parsing Challenge 季軍方案分享 http://www.yushtrip.com/content/21/0714/22/73546223_986577171.shtml 2021/7/14 22:09:30

CVPR 2021 Short-video Face Parsing Challenge 季軍方案分享作者丨劉瀟，司曉飛，謝江濤編輯丨極市平臺(tái)。本文為來(lái)自大連理工大學(xué)的大賽季軍的方案分享：訓(xùn)練一個(gè)人臉解析模型，能夠?qū)Χ桃曨l人臉進(jìn)行解析分割。第一階段：目標(biāo)檢測(cè)裁剪人臉。我們訓(xùn)練一個(gè)目標(biāo)檢測(cè)器來(lái)裁剪人臉，因?yàn)槲覀冎恍枰馨讶四槞z測(cè)出來(lái)，不需要檢的很準(zhǔn)，只需要盡可能的保證人臉都能夠檢測(cè)出來(lái)就可以，即需要一個(gè)高召回率。第二階段：人臉語(yǔ)義分割。

輕量高效！清華智能計(jì)算實(shí)驗(yàn)室開(kāi)源基于PyTorch的視頻 (圖片) 去模糊框架SimDeblur http://www.yushtrip.com/content/21/0713/22/73546223_986430115.shtml 2021/7/13 22:09:22

import torchfrom simdeblur.config import build_config, merge_argsfrom simdeblur.engine.parse_arguments import parse_argumentsfrom simdeblur.engine.trainer import Trainerdef main(): args = parse_arguments() cfg = build_config(args.config_file) cfg = merge_args(cfg, args) cfg.args = args trainer = Trainer(cfg) trainer.train() if __name__ == "__main__": main()def before_epoch(self): for h in self.

圓形的CNN卷積核？清華黃高團(tuán)隊(duì)&康奈爾提出圓形卷積，進(jìn)一步提升卷積結(jié)構(gòu)性能！ http://www.yushtrip.com/content/21/0712/22/73546223_986285234.shtml 2021/7/12 22:09:17

最終，作者并沒(méi)有采用了單獨(dú)的圓形卷積，而是采用一種圓形和方形集成的卷積，并在訓(xùn)練過(guò)程中采用自適應(yīng)的卷積核大?。ㄒ簿褪钦f(shuō)，每個(gè)集成的卷積核都有一對(duì)方核和圓核。隨著卷積核大小的增加，圓核比方核的優(yōu)勢(shì)變得更加顯著，表明了圓核的優(yōu)越性?；谌祟惖囊曈X(jué)感知原理，作者提出了一種更接近人類視覺(jué)感受的卷積核——圓形卷積核，作者也通過(guò)實(shí)驗(yàn)證明了，在沒(méi)有數(shù)據(jù)增強(qiáng)的情況下，圓形卷積核的表現(xiàn)確實(shí)比方形卷積核要好。

一文看盡 27 篇 CVPR2021 2D 目標(biāo)檢測(cè)論文 http://www.yushtrip.com/content/21/0711/22/73546223_986142309.shtml 2021/7/11 22:09:28

一文看盡 27 篇 CVPR2021 2D 目標(biāo)檢測(cè)論文作者丨二玖編輯丨極市平臺(tái)。在極市平臺(tái)回復(fù)“CVPR21檢測(cè)”，即可獲得論文打包下載。標(biāo)題：你只需要看一層特征論文：https://arxiv.org/abs/2103.09460代碼：https://github.com/megvii-model/YOLOF詳細(xì)解讀：我扔掉FPN來(lái)做目標(biāo)檢測(cè)，效果竟然這么強(qiáng)！標(biāo)題：通過(guò)對(duì)比提案編碼進(jìn)行的小樣本目標(biāo)檢測(cè)論文：https://arxiv.org/abs/2103.05950v2代碼：https: //github.com/MegviiDetection/FSCE.

?CVPR2021最佳學(xué)生論文提名：Less is More http://www.yushtrip.com/content/21/0711/22/73546223_986142307.shtml 2021/7/11 22:09:27

CVPR2021最佳學(xué)生論文提名：Less is More.以前的Video-Text任務(wù)大多是對(duì)視頻進(jìn)行Dense采樣，而本文通過(guò)預(yù)訓(xùn)練的Image-Text模型，對(duì)視頻進(jìn)行稀疏采樣，只需要很少的幀數(shù)，就能超過(guò)密集采樣的效果，進(jìn)而提出了本文標(biāo)題中的 “Less is More”。以往的方法對(duì)于視頻-文本任務(wù)，往往都是直接對(duì)密集的視頻V和文本S提取特征，每個(gè)視頻V可以被分成N個(gè)clip，因此，以前視頻-文本任務(wù)的模型可以被建模成下面的公式：

Transformer一作又出新作！HaloNet：用Self-Attention的方式進(jìn)行卷積 http://www.yushtrip.com/content/21/0710/22/73546223_986009472.shtml 2021/7/10 22:09:36

HaloNet：用Self-Attention的方式進(jìn)行卷積?；谝陨系挠^察，作者提出了將整張圖片分為多個(gè)Block，并對(duì)每個(gè)Block進(jìn)行SA（Blocked Local Self-Attention）。HaloNet基于以上的結(jié)構(gòu)，作者提出了HaloNet，模型參數(shù)設(shè)置如下表：為了能和SOTA模型進(jìn)行更加公平的比較，作者采用了與EfficientNet類似的參數(shù)設(shè)置，提出8個(gè)HaloNet的變種：4.實(shí)驗(yàn)4.1. 分類任務(wù)可以看出，在相似的參數(shù)量下，HaloNet的性能能夠超過(guò)EfficientNet。