360doc--極市平臺(tái)的文章 360doc--極市平臺(tái)的文章 http://www.yushtrip.com/rssperson/73546223.aspx 360doc (http://www.yushtrip.com) zh-cn 360doc--個(gè)人圖書(shū)館 CNN終于殺回來(lái)了!京東AI開(kāi)源最強(qiáng)ResNet變體CoTNet:即插即用的視覺(jué)識(shí)別模塊 http://www.yushtrip.com/content/21/0729/22/73546223_988748248.shtml 2021/7/29 22:09:28
京東AI開(kāi)源最強(qiáng)ResNet變體CoTNet:即插即用的視覺(jué)識(shí)別模塊。本文是京東AI研究院梅濤團(tuán)隊(duì)在自注意力機(jī)制方面的探索,不同于現(xiàn)有注意力機(jī)制僅采用局部或者全局方式進(jìn)行上下文信息獲取,他們創(chuàng)造性的將Transformer中的自注意力機(jī)制的動(dòng)態(tài)上下文信息聚合與卷積的靜態(tài)上下文信息聚合進(jìn)行了集成,提出了一種新穎的Transformer風(fēng)格的“即插即用”CoT模塊,它可以直接替換現(xiàn)有ResNet架構(gòu)Bottleneck中的。
無(wú)需檢測(cè)器提取特征!LeCun團(tuán)隊(duì)提出MDETR:實(shí)現(xiàn)真正的端到端多模態(tài)推理|ICCV 2021 Oral http://www.yushtrip.com/content/21/0728/22/73546223_988612781.shtml 2021/7/28 22:09:11
LeCun團(tuán)隊(duì)提出MDETR:實(shí)現(xiàn)真正的端到端多模態(tài)推理|ICCV 2021 Oral.本文提出了MDETR,一種端到端調(diào)制檢測(cè)器,能夠根據(jù)原始文本query直接來(lái)檢測(cè)圖像中的目標(biāo),基于Transformer的結(jié)構(gòu),通過(guò)在模型的早期階段融合這兩種模態(tài)的信息,來(lái)對(duì)文本和圖像進(jìn)行共同的推理。因此,本文的作者基于DETR,提出了一個(gè)端到端的調(diào)制檢測(cè)器MDETR,結(jié)合訓(xùn)練數(shù)據(jù)中的自然語(yǔ)言理解來(lái)執(zhí)行目標(biāo)檢測(cè)任務(wù),真正實(shí)現(xiàn)了端到端的多模態(tài)推理。
大概是全網(wǎng)最詳細(xì)的何愷明團(tuán)隊(duì)頂作MoCo系列解讀?。ㄉ希?/title> <link>http://www.yushtrip.com/content/21/0726/22/73546223_988314603.shtml</link> <category> </category> <pubDate>2021/7/26 22:09:28</pubDate> <description> <blockquote>1 MoCo v11.1 自監(jiān)督學(xué)習(xí)的 Pretext Task1.2 自監(jiān)督學(xué)習(xí)的 Contrastive loss1.3 MoCo v1 之前的做法1.4 MoCo v1 的做法1.5 MoCo v1 FAQ1.6 MoCo v1 實(shí)驗(yàn)1.7 MoCo v1 完整代碼解讀。圖8:MoCo方法。2 構(gòu)造模型 # create model print("=> creating model ''''''''{}''''''''".format(args.arch)) model = moco.builder.MoCo( models.__dict__[args.arch], args.moco_dim, args.moco_k, args.moco_m, args.moco_t, args.mlp) print(model)</blockquote></description> <dc:creator></dc:creator> </item> <item> <title>ICCV2021|性能優(yōu)于何愷明團(tuán)隊(duì)MoCo v2,DetCo:為目標(biāo)檢測(cè)定制任務(wù)的對(duì)比學(xué)習(xí) http://www.yushtrip.com/content/21/0725/22/73546223_988177951.shtml 2021/7/25 22:12:25
ICCV2021|性能優(yōu)于何愷明團(tuán)隊(duì)MoCo v2,DetCo:為目標(biāo)檢測(cè)定制任務(wù)的對(duì)比學(xué)習(xí)作者丨小馬編輯丨極市平臺(tái)。作者專為目標(biāo)檢測(cè)任務(wù)“量身定制”了對(duì)比學(xué)習(xí)框架DetCo,在PASCAL VOC數(shù)據(jù)集上,DetCo在100個(gè)epoch時(shí)的性能就與MoCo V2 800個(gè)epoch的性能差不多,最終性能優(yōu)于Mask RCNN-C4/FPN/RetinaNet等監(jiān)督學(xué)習(xí)的方法。從上圖可以看出,雖然Relative-Loc(結(jié)構(gòu)如下圖所示)在分類任務(wù)上表現(xiàn)一般,但是在檢測(cè)任務(wù)上性能還是比較好的。
MLP 又又又升級(jí)了!港大&amp;商湯開(kāi)源首個(gè)用于檢測(cè)與分割任務(wù)的MLP架構(gòu) http://www.yushtrip.com/content/21/0723/22/73546223_987925687.shtml 2021/7/23 22:09:14
本文是香港大學(xué)&商湯科技在MLP架構(gòu)方面的探索,針對(duì)MLP-Mixer等已有方案存在的分辨率相關(guān)、不便于向下游任務(wù)遷移的問(wèn)題,提出了一種新穎的CycleFC操作,并由此構(gòu)建了CycleMLP架構(gòu)。提出了一種新的MLP模塊:CycleFC,它是一個(gè)廣義的即插即用操作,可用于替換MLP-Mixer中的token mixing MLP操作;基于所提CycleFC,我們構(gòu)建了用于提取分層特征的MLP架構(gòu):CycleMLP,首個(gè)用于檢測(cè)與分割任務(wù)的MLP架構(gòu);
ICCV 2021接收結(jié)果出爐!最新40篇論文分方向匯總(附打包下載) http://www.yushtrip.com/content/21/0723/22/73546223_987925685.shtml 2021/7/23 22:09:14
[2] MDETR : Modulated Detection for End-to-End Multi-Modal Understanding(Oral)paper:https://arxiv.org/pdf/2104.12763code:https://github.com/ashkamath/mdetrproject:https://ashkamath.github.io/mdetr_page/colab:https://colab.research.google.com/github/ashkamath/mdetr/blob/colab/notebooks/MDETR_demo.ipynb.
萬(wàn)字長(zhǎng)文細(xì)說(shuō)工業(yè)缺陷檢測(cè) http://www.yushtrip.com/content/21/0722/22/73546223_987785385.shtml 2021/7/22 22:09:21
萬(wàn)字長(zhǎng)文細(xì)說(shuō)工業(yè)缺陷檢測(cè)作者丨皮特潘編輯丨極市平臺(tái)。主要難點(diǎn)場(chǎng)景分析缺陷歸納簡(jiǎn)單粗暴的可行性分析數(shù)據(jù)的四大難點(diǎn)數(shù)據(jù)生成場(chǎng)景VS數(shù)據(jù)方法論算法積木任務(wù)拆分定制分類模型定制語(yǔ)義分割模型語(yǔ)義分割利器dice loss定制目標(biāo)檢測(cè)模型正常樣本建模工具鏈技術(shù)壁壘總結(jié)(一) 主要難點(diǎn)。另外,應(yīng)用語(yǔ)義分割任務(wù)做缺陷檢測(cè),其實(shí)缺陷檢測(cè)并不局限語(yǔ)義分割,它更像提取一張高斯熱圖,有缺陷的地方概率高,背景區(qū)域概率低。
ICML2021|超越SE、CBAM,中山大學(xué)開(kāi)源SAM:無(wú)參Attention! http://www.yushtrip.com/content/21/0721/22/73546223_987641295.shtml 2021/7/21 22:09:24
不同于現(xiàn)有的通道/空域注意力模塊,該模塊無(wú)需額外參數(shù)為特征圖推導(dǎo)出3D注意力權(quán)值。受啟發(fā)于人腦注意力機(jī)制,本文提出一種3D注意力模塊并設(shè)計(jì)了一種能量函數(shù)用于計(jì)算注意力權(quán)值;本文推導(dǎo)出了能量函數(shù)的解析解加速了注意力權(quán)值的計(jì)算并得到了一種輕量型注意力模塊;在正式介紹本文所提注意力模塊之前,我們先對(duì)現(xiàn)有代表性注意力模塊(比如SE、CBAM、GC)進(jìn)行簡(jiǎn)要總結(jié);在大網(wǎng)絡(luò)方面,所提SimAM同樣優(yōu)于SE與CBAM等注意力機(jī)制;
吊打一切現(xiàn)有版本的YOLO!曠視重磅開(kāi)源YOLOX:新一代目標(biāo)檢測(cè)性能速度擔(dān)當(dāng)! http://www.yushtrip.com/content/21/0720/12/73546223_987428689.shtml 2021/7/20 12:09:28
具有與YOLOv4-CSP、YOLOv5-L相當(dāng)?shù)膮?shù)量,YOLOX-L取得了50.0%AP指標(biāo)同事具有68.9fps推理速度(Tesla V100),指標(biāo)超過(guò)YOLOv5-L 1.8%;值得一提的是,YOLOX-L憑借單模型取得了Streaming Perception(Workshop on Autonomous Driving at CVPR 2021)競(jìng)賽冠軍。上表對(duì)比了所提YOLOX與其他SOTA檢測(cè)器的性能對(duì)比,從中可以看到:相比YOLOv3、YOLOv4、YOLOv5系列,所提YOLOX取得了最佳性能,同時(shí)具有極具競(jìng)爭(zhēng)力的推理速度。
用簡(jiǎn)單Mask分類實(shí)現(xiàn)語(yǔ)義分割、實(shí)例分割“大一統(tǒng)”!Facebook&amp;UIUC開(kāi)源MaskFormer http://www.yushtrip.com/content/21/0719/22/73546223_987357747.shtml 2021/7/19 22:09:18
用簡(jiǎn)單Mask分類實(shí)現(xiàn)語(yǔ)義分割、實(shí)例分割“大一統(tǒng)”!因此本文作者提出將實(shí)例分割任務(wù)和語(yǔ)義分割任務(wù)都用mask分類的范式來(lái)處理,并在性能上能夠超過(guò)當(dāng)前per-pixel分類的處理范式。因此作者就提出了,將實(shí)例分割任務(wù)和語(yǔ)義分割任務(wù)都用mask分類的范式來(lái)處理,并在性能上能夠超過(guò)當(dāng)前per-pixel分類的處理范式。1)什么是語(yǔ)義分割(semantic segmentation)、實(shí)例分割(instance segmentation)、全景分割(panoptic segmentation)?
一文看盡 6篇 CVPR2021 2D 異常檢測(cè)論文 http://www.yushtrip.com/content/21/0718/22/73546223_987217423.shtml 2021/7/18 22:09:08
一文看盡 6篇 CVPR2021 2D 異常檢測(cè)論文作者丨劉冰一編輯丨極市平臺(tái)。本文對(duì)我們匯總的 CVPR 2021 檢測(cè)大類中的“異常檢測(cè)領(lǐng)域”的論文進(jìn)行了盤(pán)點(diǎn),將會(huì)依次闡述每篇論文的方法思路和亮點(diǎn)。在極市平臺(tái)回復(fù)“CVPR21檢測(cè)”,即可獲得論文打包下載。在之前極市平臺(tái)曾對(duì) CVPR 2021中 “2D目標(biāo)檢測(cè)” 領(lǐng)域的論文進(jìn)行了盤(pán)點(diǎn),今天我們繼續(xù)盤(pán)點(diǎn) CVPR 2021 檢測(cè)大類中的“異常檢測(cè)領(lǐng)域”領(lǐng)域的論文,將依次闡述每篇論文的方法思路和亮點(diǎn)。
給圖像特征提取開(kāi)個(gè)“ViP”是什么效果?字節(jié)&amp;牛津提出視覺(jué)解析器,全面超越HaloNet! http://www.yushtrip.com/content/21/0717/22/73546223_987088179.shtml 2021/7/17 22:09:15
因?yàn)閜art特征表示的是一個(gè)高級(jí)屬性的信息,因此一個(gè)part特征向量往往對(duì)應(yīng)whole特征中的多個(gè)向量(如果把一只貓看做是part特征,整張圖片看做是whole特征,那么一只貓往往跟圖片中的多個(gè)像素對(duì)應(yīng),所以part到whole的對(duì)應(yīng)往往是“一對(duì)多”的關(guān)系 )。本文構(gòu)建了一個(gè)ViP框架,將視覺(jué)特征編碼成了part級(jí)別的特征和whole級(jí)別的特征,通過(guò)顯式建模part特征來(lái)提高模型的語(yǔ)義理解能力,作者在CV三大任務(wù)上也做了實(shí)驗(yàn),都取得了不錯(cuò)的效果。
搞懂 Vision Transformer 原理和代碼,看這篇技術(shù)綜述就夠了(十四) http://www.yushtrip.com/content/21/0715/22/73546223_986719358.shtml 2021/7/15 22:09:31
#self.attention1 = Token_performer(dim=token_dim, in_dim=in_chans*7*7, kernel_ratio=0.5) #self.attention2 = Token_performer(dim=token_dim, in_dim=token_dim*3*3, kernel_ratio=0.5) self.attention1 = Token_performer(dim=in_chans*7*7, in_dim=token_dim, kernel_ratio=0.5) self.attention2 = Token_performer(dim=token_dim*3*3, in_dim=token_dim, kernel_ratio=0.5) self.project = nn.self.cls_token = nn.
霸榜COCO和Cityscapes!南理工&amp;CMU提出極化自注意力,更精細(xì)的雙重注意力建模結(jié)構(gòu) http://www.yushtrip.com/content/21/0714/22/73546223_986577174.shtml 2021/7/14 22:09:31
基于此,作者提出了一個(gè)即插即用的模塊——極化自注意力機(jī)制( Polarized Self-Attention(PSA)),用于解決像素級(jí)的回歸任務(wù),相比于其他注意力機(jī)制,極化自注意力機(jī)制主要有兩個(gè)設(shè)計(jì)上的亮點(diǎn):本文提出極化自注意力結(jié)構(gòu)如上圖所示,分為兩個(gè)分支,一個(gè)分支做通道維度的自注意力機(jī)制,另一個(gè)分支做空間維度的自注意力機(jī)制,最后將這兩個(gè)的分支的結(jié)果進(jìn)行融合,得到極化自注意力結(jié)構(gòu)的輸出。Polarized Self-Attention (PSA) Block.
CVPR 2021 Short-video Face Parsing Challenge 季軍方案分享 http://www.yushtrip.com/content/21/0714/22/73546223_986577171.shtml 2021/7/14 22:09:30
CVPR 2021 Short-video Face Parsing Challenge 季軍方案分享作者丨劉瀟,司曉飛,謝江濤編輯丨極市平臺(tái)。本文為來(lái)自大連理工大學(xué)的大賽季軍的方案分享:訓(xùn)練一個(gè)人臉解析模型,能夠?qū)Χ桃曨l人臉進(jìn)行解析分割。第一階段:目標(biāo)檢測(cè)裁剪人臉。我們訓(xùn)練一個(gè)目標(biāo)檢測(cè)器來(lái)裁剪人臉,因?yàn)槲覀冎恍枰馨讶四槞z測(cè)出來(lái),不需要檢的很準(zhǔn),只需要盡可能的保證人臉都能夠檢測(cè)出來(lái)就可以,即需要一個(gè)高召回率。第二階段:人臉語(yǔ)義分割。
輕量高效!清華智能計(jì)算實(shí)驗(yàn)室開(kāi)源基于PyTorch的視頻 (圖片) 去模糊框架SimDeblur http://www.yushtrip.com/content/21/0713/22/73546223_986430115.shtml 2021/7/13 22:09:22
import torchfrom simdeblur.config import build_config, merge_argsfrom simdeblur.engine.parse_arguments import parse_argumentsfrom simdeblur.engine.trainer import Trainerdef main(): args = parse_arguments() cfg = build_config(args.config_file) cfg = merge_args(cfg, args) cfg.args = args trainer = Trainer(cfg) trainer.train() if __name__ == "__main__": main()def before_epoch(self): for h in self.
圓形的CNN卷積核?清華黃高團(tuán)隊(duì)&amp;康奈爾提出圓形卷積,進(jìn)一步提升卷積結(jié)構(gòu)性能! http://www.yushtrip.com/content/21/0712/22/73546223_986285234.shtml 2021/7/12 22:09:17
最終,作者并沒(méi)有采用了單獨(dú)的圓形卷積,而是采用一種圓形和方形集成的卷積,并在訓(xùn)練過(guò)程中采用自適應(yīng)的卷積核大?。ㄒ簿褪钦f(shuō),每個(gè)集成的卷積核都有一對(duì)方核和圓核。隨著卷積核大小的增加,圓核比方核的優(yōu)勢(shì)變得更加顯著,表明了圓核的優(yōu)越性?;谌祟惖囊曈X(jué)感知原理,作者提出了一種更接近人類視覺(jué)感受的卷積核——圓形卷積核,作者也通過(guò)實(shí)驗(yàn)證明了,在沒(méi)有數(shù)據(jù)增強(qiáng)的情況下,圓形卷積核的表現(xiàn)確實(shí)比方形卷積核要好。
一文看盡 27 篇 CVPR2021 2D 目標(biāo)檢測(cè)論文 http://www.yushtrip.com/content/21/0711/22/73546223_986142309.shtml 2021/7/11 22:09:28
一文看盡 27 篇 CVPR2021 2D 目標(biāo)檢測(cè)論文作者丨二玖編輯丨極市平臺(tái)。在極市平臺(tái)回復(fù)“CVPR21檢測(cè)”,即可獲得論文打包下載。標(biāo)題:你只需要看一層特征論文:https://arxiv.org/abs/2103.09460代碼:https://github.com/megvii-model/YOLOF詳細(xì)解讀:我扔掉FPN來(lái)做目標(biāo)檢測(cè),效果竟然這么強(qiáng)!標(biāo)題:通過(guò)對(duì)比提案編碼進(jìn)行的小樣本目標(biāo)檢測(cè)論文:https://arxiv.org/abs/2103.05950v2代碼:https: //github.com/MegviiDetection/FSCE.
?CVPR2021最佳學(xué)生論文提名:Less is More http://www.yushtrip.com/content/21/0711/22/73546223_986142307.shtml 2021/7/11 22:09:27
CVPR2021最佳學(xué)生論文提名:Less is More.以前的Video-Text任務(wù)大多是對(duì)視頻進(jìn)行Dense采樣,而本文通過(guò)預(yù)訓(xùn)練的Image-Text模型,對(duì)視頻進(jìn)行稀疏采樣,只需要很少的幀數(shù),就能超過(guò)密集采樣的效果,進(jìn)而提出了本文標(biāo)題中的 “Less is More”。以往的方法對(duì)于視頻-文本任務(wù),往往都是直接對(duì)密集的視頻V和文本S提取特征,每個(gè)視頻V可以被分成N個(gè)clip,因此,以前視頻-文本任務(wù)的模型可以被建模成下面的公式:
Transformer一作又出新作!HaloNet:用Self-Attention的方式進(jìn)行卷積 http://www.yushtrip.com/content/21/0710/22/73546223_986009472.shtml 2021/7/10 22:09:36
HaloNet:用Self-Attention的方式進(jìn)行卷積?;谝陨系挠^察,作者提出了將整張圖片分為多個(gè)Block,并對(duì)每個(gè)Block進(jìn)行SA(Blocked Local Self-Attention)。HaloNet基于以上的結(jié)構(gòu),作者提出了HaloNet,模型參數(shù)設(shè)置如下表:為了能和SOTA模型進(jìn)行更加公平的比較,作者采用了與EfficientNet類似的參數(shù)設(shè)置,提出8個(gè)HaloNet的變種:4.實(shí)驗(yàn)4.1. 分類任務(wù)可以看出,在相似的參數(shù)量下,HaloNet的性能能夠超過(guò)EfficientNet。