免费高清特黄a大片,九一h片在线免费看,a免费国产一级特黄aa大,国产精品国产主播在线观看,成人精品一区久久久久,一级特黄aa大片,俄罗斯无遮挡一级毛片

分享

火爆的老照片動(dòng)起來(lái)、唱歌,微視把AI視頻特效打包「一鍵」實(shí)現(xiàn)了

 長(zhǎng)沙7喜 2021-03-14
機(jī)器之心原創(chuàng)

作者:張倩

從論文到手機(jī),這個(gè)團(tuán)隊(duì)正在「一鍵實(shí)現(xiàn)」越來(lái)越多的好玩特效。


這幾年,AI 模型在特效方向的技能似乎已被拉滿。因此,我們?cè)谟猩暌姷搅?a target='_blank' textvalue='會(huì)說(shuō)話的蒙娜麗莎' data-itemshowtype='0' tab='innerlink' data-linktype='2'>會(huì)說(shuō)話的蒙娜麗莎、cos 油畫的周杰倫以及可以讓人一秒變禿的「東升發(fā)型生成器」。但是,這些技術(shù)似乎在使用層面都不太「接地氣」,很少有人將其做成「一鍵生成」類應(yīng)用放到手機(jī)上,實(shí)時(shí)類應(yīng)用就更少了。

到了 2021 年,這種局面正在發(fā)生變化。

在一款短視頻應(yīng)用上,我們驚喜地看到,最近火遍全網(wǎng)的「深度懷舊」、「照片唱歌」都已經(jīng)可以一鍵生成了:

圖片


這些特效都來(lái)自騰訊微視,用戶只需要下載微視 APP,上傳一張照片就可以得到想要的特效效果。其中,「會(huì)動(dòng)的老照片」可以完成老照片上色、超分辨率、讓照片中的人物動(dòng)起來(lái)等效果;而「讓照片唱首歌」可以讓任意照片中的人演唱一首曲目,還搭配豐富的面部表情。

不過,這還只是微視實(shí)現(xiàn)的眾多特效之一,還有更多特效可以在微視 APP 實(shí)時(shí)體驗(yàn),如變明星、變歐美、變娃娃等。


圖片


圖片


此外,你還可以通過手機(jī)實(shí)時(shí)控制生成圖像的面部動(dòng)作,實(shí)現(xiàn)人臉動(dòng)作遷移:

圖片


這些實(shí)時(shí)特效就像一面又一面的「魔鏡」,可以實(shí)現(xiàn)各種奇妙的人臉魔法特效。而且玩法非常簡(jiǎn)單,只需要在 APP 中找到相應(yīng)模板,然后打開攝像頭拍攝即可。

也許有人會(huì)問:論文都出來(lái)那么久了,怎么現(xiàn)在才在手機(jī)上看到這些效果?這就不得不提把 AI 模型從論文搬上手機(jī)的那些難處了。

把特效搬上手機(jī)難在哪兒?

我們知道,近年來(lái)興起的很多 AI 特效都是基于 GAN(生成對(duì)抗網(wǎng)絡(luò))的,上文中的大部分特效也不例外。但是,傳統(tǒng)的 GAN 往往存在以下問題:

1. 需要大量的訓(xùn)練數(shù)據(jù)。數(shù)據(jù)對(duì) AI 模型的重要性不言而喻,但對(duì)于一些基于 GAN 的人臉特效來(lái)說(shuō),模型不光需要數(shù)據(jù),還需要大量的成對(duì)數(shù)據(jù),這給數(shù)據(jù)采集工作帶來(lái)了新的挑戰(zhàn)。比如,在變換人種的特效中,我們不可能同時(shí)擁有一個(gè)人作為不同人種的圖片。

2. 可控性差。我們?cè)趹?yīng)用 GAN 生成人臉的時(shí)候可能會(huì)希望單獨(dú)調(diào)整某個(gè)屬性,其他屬性保持不變,如只把眼睛放大。但麻煩的是,圖像的信息被壓縮在一個(gè)維度很小的隱向量空間中,各個(gè)屬性耦合十分緊密。因此,如何實(shí)現(xiàn)這些屬性的解耦、提高人臉屬性的可控性就成了一個(gè)難題。

3. 生成質(zhì)量不穩(wěn)定。由于輸入數(shù)據(jù)的質(zhì)量和生成模型本身的不穩(wěn)定性,GAN 模型生成的圖像畫質(zhì)可能較低,因此我們還需要采取其他措施來(lái)提高生成圖像的質(zhì)量。

4. 計(jì)算量大,難以部署在移動(dòng)端。一個(gè)擁有強(qiáng)大生成能力的 GAN 可能計(jì)算量要達(dá)到上百 G,不適合在移動(dòng)端部署。因此,如何在不明顯損失視覺效果的前提下實(shí)現(xiàn)模型的高效壓縮成了一個(gè)亟待解決的問題。

這些挑戰(zhàn)如何克服?

針對(duì)上述挑戰(zhàn),騰訊微視的技術(shù)團(tuán)隊(duì)研發(fā)出了一套支持移動(dòng)端實(shí)時(shí)特效的 GAN 模型訓(xùn)練和部署框架,整體流程可以概括為以下幾個(gè)步驟:

  1. 按需求采集非成對(duì)數(shù)據(jù),并訓(xùn)練高參數(shù)量的模型生成成對(duì)數(shù)據(jù);

  2. 對(duì)成對(duì)數(shù)據(jù)進(jìn)行畫質(zhì)增強(qiáng);

  3. 利用成對(duì)數(shù)據(jù)訓(xùn)練移動(dòng)端輕量化模型。


借助這些步驟,模型不需要真實(shí)的成對(duì)數(shù)據(jù)也能達(dá)到預(yù)期的效果,可控性、生成圖像的質(zhì)量都得到了顯著提升,還適配各種機(jī)型,讓更多人用上了簡(jiǎn)單、高質(zhì)量的人臉魔法特效。

利用高參數(shù)量模型生成成對(duì)數(shù)據(jù)

當(dāng)成對(duì)的數(shù)據(jù)難以獲得,利用高參數(shù)量的大模型生成成對(duì)數(shù)據(jù)就成了一個(gè)必然選擇。生成效果如下圖:

圖片


為了完成這項(xiàng)任務(wù),微視的技術(shù)團(tuán)隊(duì)研發(fā)了三種不同的大模型。

第一種是融合了 CycleGAN 和 StyleGAN 的 Cycle-StyleGAN。StyleGAN 擁有強(qiáng)大的高清人臉生成能力,但它是非條件生成模型,只能通過隨機(jī)向量生成隨機(jī)人臉。因此,研究人員引入了 CycleGAN 的思想,使模型具備 image-to-image 的條件生成能力。


圖片

Cycle-StyleGAN 的基本結(jié)構(gòu)。

借助這一模型設(shè)計(jì),微視研發(fā)并上線了變年輕的效果:

圖片


但這一模型也有缺點(diǎn):需要的數(shù)據(jù)量太大,而且穩(wěn)定性、可控性都不強(qiáng)。因此,微視又研發(fā)了第二種大模型:基于隱向量的屬性編輯模型。

首先,他們利用亞洲人臉數(shù)據(jù)集訓(xùn)練了一個(gè)高質(zhì)量的生成模型。該模型通過 AdaIN 模塊來(lái)提取隱向量的信息,然后利用 Decoder 網(wǎng)絡(luò)來(lái)生成數(shù)據(jù)。為了解決數(shù)據(jù)解耦問題,實(shí)現(xiàn)單屬性可控(如只調(diào)節(jié)眼睛大小),團(tuán)隊(duì)做出了以下優(yōu)化:

  • 對(duì)方向向量進(jìn)行解耦,摸索出了一套有效的屬性解耦方法;

  • 在訓(xùn)練的過程中,通過監(jiān)督信息控制隱向量的具體意義,比如限定某些維度控制鼻型,某些維度控制臉型。


通過以上操作,團(tuán)隊(duì)實(shí)現(xiàn)了對(duì)大部分屬性的單獨(dú)控制,但眼袋、魚尾紋等過于細(xì)致的屬性依舊無(wú)法做到干凈的解耦。為此,團(tuán)隊(duì)開發(fā)出了一套基于風(fēng)格空間的屬性編輯方法。此外,團(tuán)隊(duì)還針對(duì)真實(shí)數(shù)據(jù)與訓(xùn)練數(shù)據(jù)之間的差異所導(dǎo)致的模糊、噪聲等問題進(jìn)行了優(yōu)化。

整體來(lái)看,第二代大模型不僅提高了模型可控性,還大大減少了數(shù)據(jù)需求量,可以在只能收集到少量非成對(duì)數(shù)據(jù)的真實(shí)人臉生成場(chǎng)景中使用?;谶@套方案,微視研發(fā)并上線了變明星和變假笑等效果。

圖片


然而,現(xiàn)實(shí)中的人臉特效需求并不局限于真實(shí)人臉,還有一些風(fēng)格化的需求需要滿足,如 CG 人臉生成。這類任務(wù)的數(shù)據(jù)匱乏程度更為嚴(yán)重,因此需要一種數(shù)據(jù)量需求更小的模型。為此,微視的團(tuán)隊(duì)設(shè)計(jì)了第三種大模型——基于小樣本的模型融合模型。這種模型的主要思想是:在收集的少量數(shù)據(jù)上對(duì)預(yù)訓(xùn)練的真實(shí)人臉模型進(jìn)行調(diào)優(yōu)訓(xùn)練,使預(yù)訓(xùn)練模型能夠較好地生成目標(biāo)風(fēng)格的圖片(如 CG 風(fēng)格圖)。然后,將調(diào)優(yōu)訓(xùn)練后的模型與原始模型進(jìn)行融合得到一個(gè)混合模型,該模型既能生成目標(biāo)風(fēng)格的圖片,又兼具原始預(yù)訓(xùn)練模型強(qiáng)大多樣的生成能力。

圖片

CG 效果圖。

為了增加數(shù)據(jù)的多樣性,研發(fā)人員還給該模型加了一個(gè)數(shù)據(jù)增強(qiáng)模塊,借助 3D 人臉等技術(shù)生成更加多樣的數(shù)據(jù)。借助這一模型,只需要幾十張數(shù)據(jù)就能生成符合要求的人臉。

成對(duì)數(shù)據(jù)畫質(zhì)增強(qiáng)

在迭代了三種大模型之后,小模型訓(xùn)練所需的成對(duì)數(shù)據(jù)已經(jīng)基本就緒,但還需要在美觀程度、穩(wěn)定性和清晰度等方面進(jìn)行優(yōu)化。在美觀程度方面,微視利用圖像處理技術(shù)和屬性編輯方案對(duì)大模型生成的圖片進(jìn)行美化,如利用去皺紋模型去除眼袋和淚溝。在穩(wěn)定性和清晰度方面,微視參考圖像修復(fù)和超分辨率的相關(guān)方法單獨(dú)訓(xùn)練了一個(gè)既能提升清晰度又能消除人臉瑕疵的 GAN 模型。隨機(jī)調(diào)研的結(jié)果顯示,用戶對(duì)美化后的圖片的喜愛程度明顯提高。

圖片

去眼袋和淚溝效果示意圖。

移動(dòng)端小模型訓(xùn)練

在手機(jī)上部署的特效對(duì)算法的實(shí)時(shí)性、穩(wěn)定性要求都很高,因此微視的團(tuán)隊(duì)設(shè)計(jì)了能在移動(dòng)端流暢運(yùn)行的小模型結(jié)構(gòu),把大模型生成的成對(duì)數(shù)據(jù)作為小模型訓(xùn)練的監(jiān)督信息進(jìn)行訓(xùn)練和蒸餾。

輕量級(jí)的小模型整體骨干基于 Unet 結(jié)構(gòu),參考了 MobileNet 深度可分離卷積和 ShuffleNet 的特征重利用等優(yōu)點(diǎn)。為了提高生成圖像的清晰度和整體質(zhì)量,研究團(tuán)隊(duì)不僅將整張圖放進(jìn)判別器進(jìn)行訓(xùn)練,還根據(jù)人臉點(diǎn)位裁剪出眼、眉、鼻、嘴,并將其分別輸入到判別器進(jìn)行訓(xùn)練。

圖片


為了適配不同機(jī)型,團(tuán)隊(duì)設(shè)計(jì)了多種計(jì)算量的模型。而且,考慮到低端機(jī)部署的模型參數(shù)量較少,他們還用到了知識(shí)蒸餾的方法讓 student 小模型學(xué)習(xí)到更多的信息。

以上三大步驟幫助微視實(shí)現(xiàn)了 image-to-image 的實(shí)時(shí)特效生成效果,但團(tuán)隊(duì)并沒有止步于此,他們還實(shí)現(xiàn)了實(shí)時(shí)的輕量化人臉動(dòng)作遷移。

實(shí)時(shí)人臉動(dòng)作遷移

在人臉動(dòng)作遷移方向,有一部分工作的思路是:首先估計(jì)從目標(biāo)圖片到源圖片的反向光流,基于光流對(duì)源圖片的特征表示進(jìn)行扭曲(warping)操作,然后再恢復(fù)出重建結(jié)果,例如 Monkey-Net、FOMM 等。微視的實(shí)時(shí)人臉動(dòng)作遷移大模型就借鑒了此類方法。

為了實(shí)現(xiàn)手機(jī)端實(shí)時(shí)推斷,他們?cè)谀P痛笮『陀?jì)算量?jī)蓚€(gè)方面對(duì)大模型進(jìn)行了優(yōu)化,借鑒 GhostNet 分別設(shè)計(jì)了相應(yīng)的小模型結(jié)構(gòu),從而將模型大小縮減了 99.2%,GFLOPs 降低了 97.7%。為了讓小模型成功學(xué)到大模型的能力,他們還采用了分階段蒸餾訓(xùn)練的策略。

訓(xùn)練完小模型之后,團(tuán)隊(duì)借助騰訊自己研發(fā)的移動(dòng)端深度學(xué)習(xí)推理框架 TNN實(shí)現(xiàn)了手機(jī)端的部署和實(shí)時(shí)推理,從而使得用戶通過攝像頭驅(qū)動(dòng)任意人臉圖片的玩法變?yōu)榭赡堋?/span>

圖片


做特效,騰訊微視優(yōu)勢(shì)在哪兒

逼真的效果、高效的模型離不開堅(jiān)實(shí)的技術(shù)支撐。這些項(xiàng)目的核心技術(shù)由騰訊微視拍攝算法團(tuán)隊(duì)與騰訊平臺(tái)與內(nèi)容事業(yè)群(PCG)應(yīng)用研究中心(Applied Research Center,ARC)共同研發(fā)。騰訊微視拍攝算法團(tuán)隊(duì)致力于圖像 / 視頻方向的技術(shù)探索,匯聚了一批行業(yè)內(nèi)頂尖的算法專家和產(chǎn)品經(jīng)驗(yàn)豐富的研究員和工程師,擁有豐富的業(yè)務(wù)場(chǎng)景,持續(xù)探索前沿 AI 和 CV 算法在內(nèi)容生產(chǎn)和消費(fèi)領(lǐng)域的應(yīng)用和落地。ARC 則是 PCG 的偵察兵和特種兵,主要任務(wù)是探索和挑戰(zhàn)智能媒體相關(guān)的前沿技術(shù),聚焦于音視頻內(nèi)容的生成、增強(qiáng)、檢索和理解等方向。

在 AI 特效落地方面,團(tuán)隊(duì)建立了以下優(yōu)勢(shì):

  1. 已經(jīng)搭建了從算法研發(fā)、模型迭代到線上部署的一整套流程化框架,可以實(shí)現(xiàn)各項(xiàng)技術(shù)的快速落地,為探索更多特效提供了效率保證;

  2. 算法經(jīng)過了多次迭代,數(shù)據(jù)需求量已經(jīng)降至很低的水平,幾十張圖像就能實(shí)現(xiàn)不錯(cuò)的效果,使得更多特效的實(shí)現(xiàn)成為可能;

  3. 在圖像質(zhì)量提升、模型壓縮等方面積累了一些自己的技術(shù),可以保障 AI 模型在各種移動(dòng)端平臺(tái)上成功部署。


除了上面討論的 GAN 之外,研發(fā)團(tuán)隊(duì)在增強(qiáng)現(xiàn)實(shí)、3D 空間理解等方面也做了一些探索,并在微視 APP 上上線了一批特效,這也是當(dāng)前整個(gè)社區(qū)比較熱門的研究方向。

隨著技術(shù)的不斷迭代,未來(lái),我們還將在微視上看到更多原本只能在論文中看到的驚艷效果。

如果你也想?yún)⑴c這些有趣的項(xiàng)目,可以按照以下方式聯(lián)系騰訊微視的技術(shù)團(tuán)隊(duì),具體方向包括但不限于 GAN 生成、2D/3D 人體 / 人臉、SLAM/3D 視覺 / AR、AutoML、移動(dòng)端推理引擎、特效工程、渲染引擎、算法工程等。

聯(lián)系方式:quenslincai@tencent.com、jonytang@tencent.com

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多