一文看盡2020全年AI技術(shù)突破

昵稱48898074 2020-12-27

展開全文

曉查蕾師師發(fā)自凹非寺
量子位報道 | 公眾號 QbitAI

2020年在緊張的防疫工作中悄然過去。這一年，人工智能卻從來沒有停下前進(jìn)的腳步。

這一年人工智能行業(yè)有哪些新進(jìn)展？為全球疫情做了哪些貢獻(xiàn)？明年趨勢又將如何？數(shù)據(jù)科學(xué)社區(qū)Analytics Vidhya對此進(jìn)行了總結(jié)。

報告認(rèn)為，2020年是巨大飛躍的一年。從OpenAI的GPT-3，再到AlphaFold，都是令人振奮的成就。與此同時，數(shù)據(jù)科學(xué)在機(jī)器學(xué)習(xí)、自然語言處理（NLP）、計(jì)算機(jī)視覺等領(lǐng)域中蓬勃發(fā)展。

一起來逐一盤點(diǎn)2020的哪些突破性的技術(shù)吧：

自然語言處理（NLP）

最大語言模型GPT-3

今年2月微軟才發(fā)布全球最大的深度學(xué)習(xí)模型，擁有170億參數(shù)的Turing NLP，幾個月之后它就被GPT-3遠(yuǎn)遠(yuǎn)地超越了。

GPT-3是一個具有1750億參數(shù)的自然語言深度學(xué)習(xí)模型，它還收集了Common Crawlhe和Wikipedia的數(shù)據(jù)集，數(shù)據(jù)集總量是之前發(fā)布的GPT-2的116倍，是迄今為止最大的訓(xùn)練模型。

作為GPT-2的升級版，它們功能上有什么異同呢？

雖然都是基于Transformer的，修改初始化、預(yù)規(guī)范化、可逆標(biāo)記化性能也都是一樣的。

但是T它們的ransformer類型不同，GPT-3使用了一種類似于稀疏Transformer的東西，在各層中運(yùn)用了交替密集、局部帶狀的稀疏注意模式。

GPT-3還完美地彌補(bǔ)了BERT的兩個不足之處，它既不用對領(lǐng)域內(nèi)標(biāo)記的數(shù)據(jù)過分依賴，也不會對領(lǐng)域數(shù)據(jù)分布過擬合。

這個強(qiáng)大的語言模型，不僅能夠答題、翻譯、算數(shù)、完成推理任務(wù)、替換同義詞等。它還能夠撰寫新聞，寫出來的新聞有理有據(jù)，難辨真假。

這么強(qiáng)大的GPT-3，普通的用戶應(yīng)該怎么使用？

OpenAI以付費(fèi)的形式開放了API，只要通過一個“文本輸入、文本輸出”的接口，就可以訪問他們的GPT-3模型。

它的相關(guān)論文入選了NeurIPS2020最佳論文。

論文地址：
https:///abs/2005.14165
項(xiàng)目地址：
https://github.com/openai/gpt-3
參考鏈接：
https:///blog/openai-api/

最大聊天機(jī)器人BlenderBot

BlenderBot是Facebook開源的94億參數(shù)聊天機(jī)器人。

Facebook宣稱，BlenderBot比Google的Meena更好，它是Facebook多年研究的成果，具有包括同情心、知識和個性在內(nèi)的多種會話技巧的組合。

根據(jù)人類評估者的看法，BlenderBot在參與度方面優(yōu)于其他模型，并且感覺更人性化。

這個聊天機(jī)器人包含94億個參數(shù)，具有改進(jìn)的解碼技術(shù)，新穎的技能融合，是之前最大的聊天機(jī)器人系統(tǒng)的3.6倍。

官方博客：

https://ai./blog/state-of-the-art-open-source-chatbot/

項(xiàng)目地址：
https:///projects/recipes/

計(jì)算機(jī)視覺

目標(biāo)檢測模型DETR

DETR是使用Transformer的端到端目標(biāo)檢測模型。

與傳統(tǒng)的計(jì)算機(jī)視覺模型不同，DETR將目標(biāo)檢測問題作為NLP模型中的預(yù)測問題來解決。

Facebook聲稱DETR是“一種重要的目標(biāo)檢測和全景分割新方法”。它包括一個基于集合的全局損失，該損失使用二分匹配以及一個Transformer編碼器-解碼器體系結(jié)構(gòu)來強(qiáng)制進(jìn)行唯一的預(yù)測。

與以前的物體檢測系統(tǒng)相比，DETR的體系結(jié)構(gòu)完全不同。它是第一個成功集成Transformer作為檢測pipeline的中心組建模塊的目標(biāo)檢測框架。

DETR通過最先進(jìn)的方法實(shí)現(xiàn)性能均衡，同時完全簡化了體系結(jié)構(gòu)。

官方博客：
https://ai./research/publications/end-to-end-object-detection-with-transformers

源代碼：
https://github.com/facebookresearch/detr

語義分割模型FasterSEG

FasterSEG不僅有著出色的性能，也有著最快的速度。它是一個實(shí)時語義分割網(wǎng)絡(luò)模型。

眾所周知，語義分割可以精確到對圖像的像素單位進(jìn)行標(biāo)注。

但隨著時代發(fā)展，圖像的分辨率越來越高。

這里，F(xiàn)asterSeg采用神經(jīng)架構(gòu)搜索（NAS）的方式，使之可以被應(yīng)用到更新穎的、更廣泛的搜索空間，解決不同分辨率的圖像問題。

它還提出了一種解耦和細(xì)粒度的延遲正則化的處理方式，這種方法，在提高準(zhǔn)確度的同時，也能夠提高速率，從而緩解“架構(gòu)崩潰”問題。

通過實(shí)驗(yàn)發(fā)現(xiàn)，F(xiàn)asterSeg在保持了準(zhǔn)確度的同時，運(yùn)行速度比Cityscapes快了30%多。

關(guān)于FasterSeg的論文被發(fā)表在ICLR 2020上。

論文地址：
https:///abs/1912.10917
項(xiàng)目地址：
https://github.com/VITA-Group/FasterSeg

EfficientDet-D7

EfficientNet-D7主要用于CV領(lǐng)域上的邊緣設(shè)備，使之更加高效便利。

它由谷歌基于AutoML開發(fā)，在COCO對象檢測任務(wù)上達(dá)到了SOTA水平。

它需要的模型參數(shù)比同類產(chǎn)品少4-9倍，在GPU上的運(yùn)行速度則比其他檢測器快5-11倍。

其作者是來自谷歌大腦的工程師Mingxing Tan和首席科學(xué)家Quoc V. Le。

它的相關(guān)論文被CVPR 2020采用。

論文地址：
https:///abs/1911.09070

項(xiàng)目地址：
https://github.com/google/automl/tree/master/efficientdet

Detectron2

這項(xiàng)超強(qiáng)PyTorch目標(biāo)檢測庫來自Facebook。

比起初代Detectron，它訓(xùn)練比之前更快，功能比之前更全，支持的模型也比之前前更豐富，還一度登上GitHub熱榜第一。

實(shí)際上，Detectron2是對初代Detectron的完全重寫：初代是在Caffe2里實(shí)現(xiàn)的，而為了更快地迭代模型設(shè)計(jì)和實(shí)驗(yàn)，Detectron2是在PyTorch里從零開始寫成的。

并且，Detectron2實(shí)現(xiàn)了模塊化，用戶可以把自己定制的模塊實(shí)現(xiàn)，加到一個目標(biāo)檢測系統(tǒng)的任何部分里去。

這意味著許多的新研究，都能用幾百行代碼寫成，并且可以把新實(shí)現(xiàn)的部分，跟核心Detectron2庫完全分開。

Detectron2在一代所有可用模型的基礎(chǔ)上（Faster R-CNN，Mask R-CNN，RetinaNet，DensePose），還加入了了Cascade R-NN，Panoptic FPN，以及TensorMask等新模型。

開源地址：
https://github.com/facebookresearch/detectron2

DeepMind的AlphaFold解決蛋白質(zhì)折疊問題

谷歌旗下人工智能技術(shù)公司 DeepMind 提出的深度學(xué)習(xí)算法「AlphaFold」，破解了困擾生物學(xué)家五十年之久的蛋白質(zhì)分子折疊問題。

AlphaFold還能夠準(zhǔn)確判斷出蛋白質(zhì)結(jié)構(gòu)中的哪一個部分更重要。

Nature、Science爭先報道這項(xiàng)科技成果，科技大佬們也紛紛發(fā)來賀電。

Alphafold實(shí)現(xiàn)了在生物學(xué)上的重大突破，成為了CV和ML領(lǐng)域的里程碑，被稱作是：“生物界的ImageNet時刻”。

在這個算法中，科學(xué)家將蛋白質(zhì)的折疊形狀看作一個“空間圖”，用殘基（residue）來表示它們之間的節(jié)點(diǎn)。由此創(chuàng)建了一個注意神經(jīng)網(wǎng)絡(luò)系統(tǒng)，進(jìn)行端與端之間的訓(xùn)練，探索出蛋白質(zhì)的具體結(jié)構(gòu)。

為了訓(xùn)練好這個算法，Alphafold采用了具有17萬個蛋白質(zhì)結(jié)構(gòu)的數(shù)據(jù)庫，使用約128個 TPUv3 內(nèi)核（相當(dāng)于 100-200 個 GPU）運(yùn)行數(shù)周，算法的效率較高。

這項(xiàng)研究成果的影響深遠(yuǎn)。哥倫比亞生物學(xué)家Mohammed AlQuraishi 在 Nature 文章中說道：

這對蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域影響深大，是一流的科學(xué)突破，也是我畢生追求的科學(xué)成果。

開源代碼：
https://github.com/deepmind/deepmind-research/tree/master/alphafold_casp13
論文地址：
https://www./content/10.1101/846279v1.full.pdf

強(qiáng)化學(xué)習(xí)

Agent57得分高于人類baseline

Agent57是由DeepMind開發(fā)的，在Atari測試集中的2600場游戲比賽中，它的成績都高于人類平均水平。

它還創(chuàng)造了57種不同的Atari視頻游戲的評估機(jī)制。由于這些評估機(jī)制要求RL智能體要掌握的東西太多了，因此，很少有RL算法能夠?qū)崿F(xiàn)。

Agent57在其Arcade學(xué)習(xí)環(huán)境中(ALE)環(huán)境中采用了RL、模型學(xué)習(xí)、基于模型的訓(xùn)練、模仿學(xué)習(xí)、遷移學(xué)習(xí)和內(nèi)推力等一系列方法。

它提供的Atari2600游戲環(huán)境接口，使人類玩家能接受更豐富的人機(jī)挑戰(zhàn)。

在游戲方面，Agent57毋庸置疑成為最強(qiáng)的RL智能體。

其研究論文發(fā)表在了《人工智能研究雜志》上。

論文地址：
https:///abs/1207.4708f

機(jī)器學(xué)習(xí)運(yùn)維興起

MLOps（Machine learining Operations）是數(shù)據(jù)科學(xué)領(lǐng)域中一個相對較新的概念。類似于DevOps（Development和Operations組合詞），簡單來說，就是機(jī)器學(xué)習(xí)方面的DevOps。

如果說DevOps是為IT開發(fā)者服務(wù)，解決了開發(fā)者將項(xiàng)目交給IT運(yùn)營部門實(shí)施和維護(hù)的問題。

那么，MLOps就為數(shù)據(jù)科學(xué)家、ML工程師提供服務(wù)，使他們轉(zhuǎn)向協(xié)同工作，提高工作效率。

它擁有一套完整的行為策略方式，用來解決ML和AI在運(yùn)行周期內(nèi)遇到的各種問題。

在增長最快的GitHub項(xiàng)目Top-20中有5個是機(jī)器學(xué)習(xí)運(yùn)維工具。

這表明整個AI行業(yè)正在從“如何開發(fā)模型”轉(zhuǎn)向“如何運(yùn)維模型”的趨勢。

參考鏈接：
https:///expertise/mlops/
開源地址：
https://github.com/microsoft/MLOps

AI對抗新冠病毒

世界衛(wèi)生組織列出了對抗新冠病毒的9大研究方向。

美國白宮邀請Kaggle參與其中，發(fā)起NLP挑戰(zhàn)，找到這9大關(guān)鍵問題的答案。

在Kaggle上，包含20萬篇學(xué)術(shù)文章的新冠數(shù)據(jù)集，免費(fèi)提供給世界各地的NLP研究和AI研究，希望全世界AI學(xué)者，能夠科技手段，促進(jìn)解決新冠病毒問題。

數(shù)據(jù)集由白宮科學(xué)技術(shù)政策辦公室協(xié)調(diào)策劃，艾倫AI研究所、扎克伯格基金會、喬治城大學(xué)安全與新興技術(shù)中心、微軟研究院、IBM等多家科技巨頭都有參與貢獻(xiàn)。

Kaggle還發(fā)動了一個預(yù)測比賽。預(yù)測全球不同地區(qū)感染新冠肺炎、死亡人數(shù)等。并且將預(yù)測的數(shù)據(jù)與實(shí)際數(shù)據(jù)對比，形成一個數(shù)據(jù)預(yù)測模型。

假如預(yù)測模型足夠好，就可以緩解新冠肺炎帶來的醫(yī)療資源稀缺問題。

新冠病毒九大研究方向：

https://www./blueprint/priority-diseases/key-action/Global_Research_Forum_FINAL_VERSION_for_web_14_feb_2020.pdf?ua=1
新冠數(shù)據(jù)集：
https://www./allen-institute-for-ai/CORD-19-research-challenge/

展望2021年的機(jī)器學(xué)習(xí)

從NLP到計(jì)算機(jī)視覺，在從強(qiáng)化學(xué)習(xí)到機(jī)器學(xué)習(xí)運(yùn)維。所有人見證了AI領(lǐng)域的進(jìn)步，也期待AI能夠?yàn)槿蛞咔樘峁┝α俊?/p>

科技仍在進(jìn)步，2021年又會發(fā)生什么樣的變化呢？

Analytics Vidhya預(yù)測了一下2021年的一些關(guān)鍵趨勢：

1、2021年數(shù)據(jù)科學(xué)領(lǐng)域的工作機(jī)會將繼續(xù)增加。因?yàn)閿?shù)據(jù)爆炸和消費(fèi)習(xí)慣的改變，數(shù)據(jù)科學(xué)將會扮演越來越重要角色。同時，傳統(tǒng)的制造業(yè)、采礦業(yè)也需要對數(shù)據(jù)進(jìn)行分析。

2、Facebook的PyTorch使用率將超過Google的TensorFlow。機(jī)器學(xué)習(xí)框架之戰(zhàn)有兩個主要競爭者：PyTorch和TensorFlow。分析表明，研究人員正在逐漸放棄TensorFlow，大量使用PyTorch。

3、Python在2021年將更加流行。毋庸置疑，Python是當(dāng)前最受歡迎的語言。為了鞏固它的地位，在10月時候，它推出了Python 3.9，提升性能。目前，Python 3.10現(xiàn)在正在開發(fā)中，預(yù)計(jì)2021年初發(fā)布。

4、基于前疫情時代數(shù)據(jù)的模型有效性將下降。疫情導(dǎo)致全球的消費(fèi)習(xí)慣發(fā)生了改變，前疫情時代的數(shù)據(jù)模型有效性在逐漸下降。在后疫情時代，誰能抓住這些新的消費(fèi)模式特征，誰就能取得成功。

5、數(shù)據(jù)市場將持續(xù)上升。新冠疫情改變了全球的消費(fèi)行為和市場游戲規(guī)則，這意味著多樣化、全新的數(shù)據(jù)集正在產(chǎn)生，將創(chuàng)造更大的價值。

— 完 —

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報。

免费高清特黄a大片,九一h片在线免费看,a免费国产一级特黄aa大,国产精品国产主播在线观看,成人精品一区久久久久,一级特黄aa大片,俄罗斯无遮挡一级毛片