曉查 蕾師師 發(fā)自 凹非寺 2020年在緊張的防疫工作中悄然過去。這一年,人工智能卻從來沒有停下前進(jìn)的腳步。 這一年人工智能行業(yè)有哪些新進(jìn)展?為全球疫情做了哪些貢獻(xiàn)?明年趨勢又將如何?數(shù)據(jù)科學(xué)社區(qū)Analytics Vidhya對此進(jìn)行了總結(jié)。 報告認(rèn)為,2020年是巨大飛躍的一年。從OpenAI的GPT-3,再到AlphaFold,都是令人振奮的成就。與此同時,數(shù)據(jù)科學(xué)在機(jī)器學(xué)習(xí)、自然語言處理(NLP)、計(jì)算機(jī)視覺等領(lǐng)域中蓬勃發(fā)展。 一起來逐一盤點(diǎn)2020的哪些突破性的技術(shù)吧: 自然語言處理(NLP)最大語言模型GPT-3 今年2月微軟才發(fā)布全球最大的深度學(xué)習(xí)模型,擁有170億參數(shù)的Turing NLP,幾個月之后它就被GPT-3遠(yuǎn)遠(yuǎn)地超越了。 GPT-3是一個具有1750億參數(shù)的自然語言深度學(xué)習(xí)模型,它還收集了Common Crawlhe和Wikipedia的數(shù)據(jù)集,數(shù)據(jù)集總量是之前發(fā)布的GPT-2的116倍,是迄今為止最大的訓(xùn)練模型。 作為GPT-2的升級版,它們功能上有什么異同呢? 雖然都是基于Transformer的,修改初始化、預(yù)規(guī)范化、可逆標(biāo)記化性能也都是一樣的。 但是T它們的ransformer類型不同,GPT-3使用了一種類似于稀疏Transformer的東西,在各層中運(yùn)用了交替密集、局部帶狀的稀疏注意模式。 GPT-3還完美地彌補(bǔ)了BERT的兩個不足之處,它既不用對領(lǐng)域內(nèi)標(biāo)記的數(shù)據(jù)過分依賴,也不會對領(lǐng)域數(shù)據(jù)分布過擬合。 這個強(qiáng)大的語言模型,不僅能夠答題、翻譯、算數(shù)、完成推理任務(wù)、替換同義詞等。它還能夠撰寫新聞,寫出來的新聞有理有據(jù),難辨真假。 這么強(qiáng)大的GPT-3,普通的用戶應(yīng)該怎么使用? OpenAI以付費(fèi)的形式開放了API,只要通過一個“文本輸入、文本輸出”的接口,就可以訪問他們的GPT-3模型。 它的相關(guān)論文入選了NeurIPS2020最佳論文。 論文地址: 最大聊天機(jī)器人BlenderBot BlenderBot是Facebook開源的94億參數(shù)聊天機(jī)器人。 Facebook宣稱,BlenderBot比Google的Meena更好,它是Facebook多年研究的成果,具有包括同情心、知識和個性在內(nèi)的多種會話技巧的組合。 根據(jù)人類評估者的看法,BlenderBot在參與度方面優(yōu)于其他模型,并且感覺更人性化。 這個聊天機(jī)器人包含94億個參數(shù),具有改進(jìn)的解碼技術(shù),新穎的技能融合,是之前最大的聊天機(jī)器人系統(tǒng)的3.6倍。 官方博客: https://ai./blog/state-of-the-art-open-source-chatbot/ 項(xiàng)目地址: 計(jì)算機(jī)視覺目標(biāo)檢測模型DETR DETR是使用Transformer的端到端目標(biāo)檢測模型。 與傳統(tǒng)的計(jì)算機(jī)視覺模型不同,DETR將目標(biāo)檢測問題作為NLP模型中的預(yù)測問題來解決。 Facebook聲稱DETR是“一種重要的目標(biāo)檢測和全景分割新方法”。它包括一個基于集合的全局損失,該損失使用二分匹配以及一個Transformer編碼器-解碼器體系結(jié)構(gòu)來強(qiáng)制進(jìn)行唯一的預(yù)測。 與以前的物體檢測系統(tǒng)相比,DETR的體系結(jié)構(gòu)完全不同。它是第一個成功集成Transformer作為檢測pipeline的中心組建模塊的目標(biāo)檢測框架。 DETR通過最先進(jìn)的方法實(shí)現(xiàn)性能均衡,同時完全簡化了體系結(jié)構(gòu)。 官方博客: 源代碼: 語義分割模型FasterSEG FasterSEG不僅有著出色的性能,也有著最快的速度。它是一個實(shí)時語義分割網(wǎng)絡(luò)模型。 眾所周知,語義分割可以精確到對圖像的像素單位進(jìn)行標(biāo)注。 但隨著時代發(fā)展,圖像的分辨率越來越高。 這里,F(xiàn)asterSeg采用神經(jīng)架構(gòu)搜索(NAS)的方式,使之可以被應(yīng)用到更新穎的、更廣泛的搜索空間,解決不同分辨率的圖像問題。 它還提出了一種解耦和細(xì)粒度的延遲正則化的處理方式,這種方法,在提高準(zhǔn)確度的同時,也能夠提高速率,從而緩解“架構(gòu)崩潰”問題。 通過實(shí)驗(yàn)發(fā)現(xiàn),F(xiàn)asterSeg在保持了準(zhǔn)確度的同時,運(yùn)行速度比Cityscapes快了30%多。 關(guān)于FasterSeg的論文被發(fā)表在ICLR 2020上。 論文地址: EfficientDet-D7 EfficientNet-D7主要用于CV領(lǐng)域上的邊緣設(shè)備,使之更加高效便利。 它由谷歌基于AutoML開發(fā),在COCO對象檢測任務(wù)上達(dá)到了SOTA水平。 它需要的模型參數(shù)比同類產(chǎn)品少4-9倍,在GPU上的運(yùn)行速度則比其他檢測器快5-11倍。 其作者是來自谷歌大腦的工程師Mingxing Tan和首席科學(xué)家Quoc V. Le。 它的相關(guān)論文被CVPR 2020采用。 論文地址: 項(xiàng)目地址: Detectron2 這項(xiàng)超強(qiáng)PyTorch目標(biāo)檢測庫來自Facebook。 比起初代Detectron,它訓(xùn)練比之前更快,功能比之前更全,支持的模型也比之前前更豐富,還一度登上GitHub熱榜第一。 實(shí)際上,Detectron2是對初代Detectron的完全重寫:初代是在Caffe2里實(shí)現(xiàn)的,而為了更快地迭代模型設(shè)計(jì)和實(shí)驗(yàn),Detectron2是在PyTorch里從零開始寫成的。 并且,Detectron2實(shí)現(xiàn)了模塊化,用戶可以把自己定制的模塊實(shí)現(xiàn),加到一個目標(biāo)檢測系統(tǒng)的任何部分里去。 這意味著許多的新研究,都能用幾百行代碼寫成,并且可以把新實(shí)現(xiàn)的部分,跟核心Detectron2庫完全分開。 Detectron2在一代所有可用模型的基礎(chǔ)上(Faster R-CNN,Mask R-CNN,RetinaNet,DensePose),還加入了了Cascade R-NN,Panoptic FPN,以及TensorMask等新模型。 開源地址: DeepMind的AlphaFold解決蛋白質(zhì)折疊問題 谷歌旗下人工智能技術(shù)公司 DeepMind 提出的深度學(xué)習(xí)算法「AlphaFold」,破解了困擾生物學(xué)家五十年之久的蛋白質(zhì)分子折疊問題。 AlphaFold還能夠準(zhǔn)確判斷出蛋白質(zhì)結(jié)構(gòu)中的哪一個部分更重要。 Nature、Science爭先報道這項(xiàng)科技成果,科技大佬們也紛紛發(fā)來賀電。 Alphafold實(shí)現(xiàn)了在生物學(xué)上的重大突破,成為了CV和ML領(lǐng)域的里程碑,被稱作是:“生物界的ImageNet時刻”。 在這個算法中,科學(xué)家將蛋白質(zhì)的折疊形狀看作一個“空間圖”,用殘基(residue)來表示它們之間的節(jié)點(diǎn)。由此創(chuàng)建了一個注意神經(jīng)網(wǎng)絡(luò)系統(tǒng),進(jìn)行端與端之間的訓(xùn)練,探索出蛋白質(zhì)的具體結(jié)構(gòu)。 為了訓(xùn)練好這個算法,Alphafold采用了具有17萬個蛋白質(zhì)結(jié)構(gòu)的數(shù)據(jù)庫,使用約128個 TPUv3 內(nèi)核(相當(dāng)于 100-200 個 GPU)運(yùn)行數(shù)周,算法的效率較高。 這項(xiàng)研究成果的影響深遠(yuǎn)。哥倫比亞生物學(xué)家Mohammed AlQuraishi 在 Nature 文章中說道:
開源代碼: 強(qiáng)化學(xué)習(xí)Agent57得分高于人類baseline Agent57是由DeepMind開發(fā)的,在Atari測試集中的2600場游戲比賽中,它的成績都高于人類平均水平。 它還創(chuàng)造了57種不同的Atari視頻游戲的評估機(jī)制。由于這些評估機(jī)制要求RL智能體要掌握的東西太多了,因此,很少有RL算法能夠?qū)崿F(xiàn)。 Agent57在其Arcade學(xué)習(xí)環(huán)境中(ALE)環(huán)境中采用了RL、模型學(xué)習(xí)、基于模型的訓(xùn)練、模仿學(xué)習(xí)、遷移學(xué)習(xí)和內(nèi)推力等一系列方法。 它提供的Atari2600游戲環(huán)境接口,使人類玩家能接受更豐富的人機(jī)挑戰(zhàn)。 在游戲方面,Agent57毋庸置疑成為最強(qiáng)的RL智能體。 其研究論文發(fā)表在了《人工智能研究雜志》上。 論文地址: 機(jī)器學(xué)習(xí)運(yùn)維興起MLOps(Machine learining Operations)是數(shù)據(jù)科學(xué)領(lǐng)域中一個相對較新的概念。類似于DevOps(Development和Operations組合詞),簡單來說,就是機(jī)器學(xué)習(xí)方面的DevOps。 如果說DevOps是為IT開發(fā)者服務(wù),解決了開發(fā)者將項(xiàng)目交給IT運(yùn)營部門實(shí)施和維護(hù)的問題。 那么,MLOps就為數(shù)據(jù)科學(xué)家、ML工程師提供服務(wù),使他們轉(zhuǎn)向協(xié)同工作,提高工作效率。 它擁有一套完整的行為策略方式,用來解決ML和AI在運(yùn)行周期內(nèi)遇到的各種問題。 在增長最快的GitHub項(xiàng)目Top-20中有5個是機(jī)器學(xué)習(xí)運(yùn)維工具。 這表明整個AI行業(yè)正在從“如何開發(fā)模型”轉(zhuǎn)向“如何運(yùn)維模型”的趨勢。 參考鏈接: AI對抗新冠病毒世界衛(wèi)生組織列出了對抗新冠病毒的9大研究方向。 美國白宮邀請Kaggle參與其中,發(fā)起NLP挑戰(zhàn),找到這9大關(guān)鍵問題的答案。 在Kaggle上,包含20萬篇學(xué)術(shù)文章的新冠數(shù)據(jù)集,免費(fèi)提供給世界各地的NLP研究和AI研究,希望全世界AI學(xué)者,能夠科技手段,促進(jìn)解決新冠病毒問題。 數(shù)據(jù)集由白宮科學(xué)技術(shù)政策辦公室協(xié)調(diào)策劃,艾倫AI研究所、扎克伯格基金會、喬治城大學(xué)安全與新興技術(shù)中心、微軟研究院、IBM等多家科技巨頭都有參與貢獻(xiàn)。 Kaggle還發(fā)動了一個預(yù)測比賽。預(yù)測全球不同地區(qū)感染新冠肺炎、死亡人數(shù)等。并且將預(yù)測的數(shù)據(jù)與實(shí)際數(shù)據(jù)對比,形成一個數(shù)據(jù)預(yù)測模型。 假如預(yù)測模型足夠好,就可以緩解新冠肺炎帶來的醫(yī)療資源稀缺問題。 新冠病毒九大研究方向: https://www./blueprint/priority-diseases/key-action/Global_Research_Forum_FINAL_VERSION_for_web_14_feb_2020.pdf?ua=1 展望2021年的機(jī)器學(xué)習(xí)從NLP到計(jì)算機(jī)視覺,在從強(qiáng)化學(xué)習(xí)到機(jī)器學(xué)習(xí)運(yùn)維。所有人見證了AI領(lǐng)域的進(jìn)步,也期待AI能夠?yàn)槿蛞咔樘峁┝α俊?/p> 科技仍在進(jìn)步,2021年又會發(fā)生什么樣的變化呢? Analytics Vidhya預(yù)測了一下2021年的一些關(guān)鍵趨勢: 1、2021年數(shù)據(jù)科學(xué)領(lǐng)域的工作機(jī)會將繼續(xù)增加。因?yàn)閿?shù)據(jù)爆炸和消費(fèi)習(xí)慣的改變,數(shù)據(jù)科學(xué)將會扮演越來越重要角色。同時,傳統(tǒng)的制造業(yè)、采礦業(yè)也需要對數(shù)據(jù)進(jìn)行分析。 2、Facebook的PyTorch使用率將超過Google的TensorFlow。機(jī)器學(xué)習(xí)框架之戰(zhàn)有兩個主要競爭者:PyTorch和TensorFlow。分析表明,研究人員正在逐漸放棄TensorFlow,大量使用PyTorch。 3、Python在2021年將更加流行。毋庸置疑,Python是當(dāng)前最受歡迎的語言。為了鞏固它的地位,在10月時候,它推出了Python 3.9,提升性能。目前,Python 3.10現(xiàn)在正在開發(fā)中,預(yù)計(jì)2021年初發(fā)布。 4、基于前疫情時代數(shù)據(jù)的模型有效性將下降。疫情導(dǎo)致全球的消費(fèi)習(xí)慣發(fā)生了改變,前疫情時代的數(shù)據(jù)模型有效性在逐漸下降。在后疫情時代,誰能抓住這些新的消費(fèi)模式特征,誰就能取得成功。 5、數(shù)據(jù)市場將持續(xù)上升。新冠疫情改變了全球的消費(fèi)行為和市場游戲規(guī)則,這意味著多樣化、全新的數(shù)據(jù)集正在產(chǎn)生,將創(chuàng)造更大的價值。 — 完 — |
|