火爆的老照片動(dòng)起來(lái)、唱歌，微視把AI視頻特效打包「一鍵」實(shí)現(xiàn)了

長(zhǎng)沙7喜 2021-03-14

展開全文

機(jī)器之心原創(chuàng)

作者：張倩

從論文到手機(jī)，這個(gè)團(tuán)隊(duì)正在「一鍵實(shí)現(xiàn)」越來(lái)越多的好玩特效。

這幾年，AI 模型在特效方向的技能似乎已被拉滿。因此，我們?cè)谟猩暌姷搅?a target='_blank' textvalue='會(huì)說(shuō)話的蒙娜麗莎' data-itemshowtype='0' tab='innerlink' data-linktype='2'>會(huì)說(shuō)話的蒙娜麗莎、cos 油畫的周杰倫以及可以讓人一秒變禿的「東升發(fā)型生成器」。但是，這些技術(shù)似乎在使用層面都不太「接地氣」，很少有人將其做成「一鍵生成」類應(yīng)用放到手機(jī)上，實(shí)時(shí)類應(yīng)用就更少了。

到了 2021 年，這種局面正在發(fā)生變化。

在一款短視頻應(yīng)用上，我們驚喜地看到，最近火遍全網(wǎng)的「深度懷舊」、「照片唱歌」都已經(jīng)可以一鍵生成了：

這些特效都來(lái)自騰訊微視，用戶只需要下載微視 APP，上傳一張照片就可以得到想要的特效效果。其中，「會(huì)動(dòng)的老照片」可以完成老照片上色、超分辨率、讓照片中的人物動(dòng)起來(lái)等效果；而「讓照片唱首歌」可以讓任意照片中的人演唱一首曲目，還搭配豐富的面部表情。

不過，這還只是微視實(shí)現(xiàn)的眾多特效之一，還有更多特效可以在微視 APP 實(shí)時(shí)體驗(yàn)，如變明星、變歐美、變娃娃等。

此外，你還可以通過手機(jī)實(shí)時(shí)控制生成圖像的面部動(dòng)作，實(shí)現(xiàn)人臉動(dòng)作遷移：

這些實(shí)時(shí)特效就像一面又一面的「魔鏡」，可以實(shí)現(xiàn)各種奇妙的人臉魔法特效。而且玩法非常簡(jiǎn)單，只需要在 APP 中找到相應(yīng)模板，然后打開攝像頭拍攝即可。

也許有人會(huì)問：論文都出來(lái)那么久了，怎么現(xiàn)在才在手機(jī)上看到這些效果？這就不得不提把 AI 模型從論文搬上手機(jī)的那些難處了。

把特效搬上手機(jī)難在哪兒？

我們知道，近年來(lái)興起的很多 AI 特效都是基于 GAN（生成對(duì)抗網(wǎng)絡(luò)）的，上文中的大部分特效也不例外。但是，傳統(tǒng)的 GAN 往往存在以下問題：

1. 需要大量的訓(xùn)練數(shù)據(jù)。數(shù)據(jù)對(duì) AI 模型的重要性不言而喻，但對(duì)于一些基于 GAN 的人臉特效來(lái)說(shuō)，模型不光需要數(shù)據(jù)，還需要大量的成對(duì)數(shù)據(jù)，這給數(shù)據(jù)采集工作帶來(lái)了新的挑戰(zhàn)。比如，在變換人種的特效中，我們不可能同時(shí)擁有一個(gè)人作為不同人種的圖片。

2. 可控性差。我們?cè)趹?yīng)用 GAN 生成人臉的時(shí)候可能會(huì)希望單獨(dú)調(diào)整某個(gè)屬性，其他屬性保持不變，如只把眼睛放大。但麻煩的是，圖像的信息被壓縮在一個(gè)維度很小的隱向量空間中，各個(gè)屬性耦合十分緊密。因此，如何實(shí)現(xiàn)這些屬性的解耦、提高人臉屬性的可控性就成了一個(gè)難題。

3. 生成質(zhì)量不穩(wěn)定。由于輸入數(shù)據(jù)的質(zhì)量和生成模型本身的不穩(wěn)定性，GAN 模型生成的圖像畫質(zhì)可能較低，因此我們還需要采取其他措施來(lái)提高生成圖像的質(zhì)量。

4. 計(jì)算量大，難以部署在移動(dòng)端。一個(gè)擁有強(qiáng)大生成能力的 GAN 可能計(jì)算量要達(dá)到上百 G，不適合在移動(dòng)端部署。因此，如何在不明顯損失視覺效果的前提下實(shí)現(xiàn)模型的高效壓縮成了一個(gè)亟待解決的問題。

這些挑戰(zhàn)如何克服？

針對(duì)上述挑戰(zhàn)，騰訊微視的技術(shù)團(tuán)隊(duì)研發(fā)出了一套支持移動(dòng)端實(shí)時(shí)特效的 GAN 模型訓(xùn)練和部署框架，整體流程可以概括為以下幾個(gè)步驟：

按需求采集非成對(duì)數(shù)據(jù)，并訓(xùn)練高參數(shù)量的模型生成成對(duì)數(shù)據(jù)；
對(duì)成對(duì)數(shù)據(jù)進(jìn)行畫質(zhì)增強(qiáng)；
利用成對(duì)數(shù)據(jù)訓(xùn)練移動(dòng)端輕量化模型。

借助這些步驟，模型不需要真實(shí)的成對(duì)數(shù)據(jù)也能達(dá)到預(yù)期的效果，可控性、生成圖像的質(zhì)量都得到了顯著提升，還適配各種機(jī)型，讓更多人用上了簡(jiǎn)單、高質(zhì)量的人臉魔法特效。

利用高參數(shù)量模型生成成對(duì)數(shù)據(jù)

當(dāng)成對(duì)的數(shù)據(jù)難以獲得，利用高參數(shù)量的大模型生成成對(duì)數(shù)據(jù)就成了一個(gè)必然選擇。生成效果如下圖：

為了完成這項(xiàng)任務(wù)，微視的技術(shù)團(tuán)隊(duì)研發(fā)了三種不同的大模型。

第一種是融合了 CycleGAN 和 StyleGAN 的 Cycle-StyleGAN。StyleGAN 擁有強(qiáng)大的高清人臉生成能力，但它是非條件生成模型，只能通過隨機(jī)向量生成隨機(jī)人臉。因此，研究人員引入了 CycleGAN 的思想，使模型具備 image-to-image 的條件生成能力。

Cycle-StyleGAN 的基本結(jié)構(gòu)。

借助這一模型設(shè)計(jì)，微視研發(fā)并上線了變年輕的效果：

但這一模型也有缺點(diǎn)：需要的數(shù)據(jù)量太大，而且穩(wěn)定性、可控性都不強(qiáng)。因此，微視又研發(fā)了第二種大模型：基于隱向量的屬性編輯模型。

首先，他們利用亞洲人臉數(shù)據(jù)集訓(xùn)練了一個(gè)高質(zhì)量的生成模型。該模型通過 AdaIN 模塊來(lái)提取隱向量的信息，然后利用 Decoder 網(wǎng)絡(luò)來(lái)生成數(shù)據(jù)。為了解決數(shù)據(jù)解耦問題，實(shí)現(xiàn)單屬性可控（如只調(diào)節(jié)眼睛大小），團(tuán)隊(duì)做出了以下優(yōu)化：

對(duì)方向向量進(jìn)行解耦，摸索出了一套有效的屬性解耦方法；
在訓(xùn)練的過程中，通過監(jiān)督信息控制隱向量的具體意義，比如限定某些維度控制鼻型，某些維度控制臉型。

通過以上操作，團(tuán)隊(duì)實(shí)現(xiàn)了對(duì)大部分屬性的單獨(dú)控制，但眼袋、魚尾紋等過于細(xì)致的屬性依舊無(wú)法做到干凈的解耦。為此，團(tuán)隊(duì)開發(fā)出了一套基于風(fēng)格空間的屬性編輯方法。此外，團(tuán)隊(duì)還針對(duì)真實(shí)數(shù)據(jù)與訓(xùn)練數(shù)據(jù)之間的差異所導(dǎo)致的模糊、噪聲等問題進(jìn)行了優(yōu)化。

整體來(lái)看，第二代大模型不僅提高了模型可控性，還大大減少了數(shù)據(jù)需求量，可以在只能收集到少量非成對(duì)數(shù)據(jù)的真實(shí)人臉生成場(chǎng)景中使用?；谶@套方案，微視研發(fā)并上線了變明星和變假笑等效果。

然而，現(xiàn)實(shí)中的人臉特效需求并不局限于真實(shí)人臉，還有一些風(fēng)格化的需求需要滿足，如 CG 人臉生成。這類任務(wù)的數(shù)據(jù)匱乏程度更為嚴(yán)重，因此需要一種數(shù)據(jù)量需求更小的模型。為此，微視的團(tuán)隊(duì)設(shè)計(jì)了第三種大模型——基于小樣本的模型融合模型。這種模型的主要思想是：在收集的少量數(shù)據(jù)上對(duì)預(yù)訓(xùn)練的真實(shí)人臉模型進(jìn)行調(diào)優(yōu)訓(xùn)練，使預(yù)訓(xùn)練模型能夠較好地生成目標(biāo)風(fēng)格的圖片（如 CG 風(fēng)格圖）。然后，將調(diào)優(yōu)訓(xùn)練后的模型與原始模型進(jìn)行融合得到一個(gè)混合模型，該模型既能生成目標(biāo)風(fēng)格的圖片，又兼具原始預(yù)訓(xùn)練模型強(qiáng)大多樣的生成能力。

CG 效果圖。

為了增加數(shù)據(jù)的多樣性，研發(fā)人員還給該模型加了一個(gè)數(shù)據(jù)增強(qiáng)模塊，借助 3D 人臉等技術(shù)生成更加多樣的數(shù)據(jù)。借助這一模型，只需要幾十張數(shù)據(jù)就能生成符合要求的人臉。

成對(duì)數(shù)據(jù)畫質(zhì)增強(qiáng)

在迭代了三種大模型之后，小模型訓(xùn)練所需的成對(duì)數(shù)據(jù)已經(jīng)基本就緒，但還需要在美觀程度、穩(wěn)定性和清晰度等方面進(jìn)行優(yōu)化。在美觀程度方面，微視利用圖像處理技術(shù)和屬性編輯方案對(duì)大模型生成的圖片進(jìn)行美化，如利用去皺紋模型去除眼袋和淚溝。在穩(wěn)定性和清晰度方面，微視參考圖像修復(fù)和超分辨率的相關(guān)方法單獨(dú)訓(xùn)練了一個(gè)既能提升清晰度又能消除人臉瑕疵的 GAN 模型。隨機(jī)調(diào)研的結(jié)果顯示，用戶對(duì)美化后的圖片的喜愛程度明顯提高。

去眼袋和淚溝效果示意圖。

移動(dòng)端小模型訓(xùn)練

在手機(jī)上部署的特效對(duì)算法的實(shí)時(shí)性、穩(wěn)定性要求都很高，因此微視的團(tuán)隊(duì)設(shè)計(jì)了能在移動(dòng)端流暢運(yùn)行的小模型結(jié)構(gòu)，把大模型生成的成對(duì)數(shù)據(jù)作為小模型訓(xùn)練的監(jiān)督信息進(jìn)行訓(xùn)練和蒸餾。

輕量級(jí)的小模型整體骨干基于 Unet 結(jié)構(gòu)，參考了 MobileNet 深度可分離卷積和 ShuffleNet 的特征重利用等優(yōu)點(diǎn)。為了提高生成圖像的清晰度和整體質(zhì)量，研究團(tuán)隊(duì)不僅將整張圖放進(jìn)判別器進(jìn)行訓(xùn)練，還根據(jù)人臉點(diǎn)位裁剪出眼、眉、鼻、嘴，并將其分別輸入到判別器進(jìn)行訓(xùn)練。

為了適配不同機(jī)型，團(tuán)隊(duì)設(shè)計(jì)了多種計(jì)算量的模型。而且，考慮到低端機(jī)部署的模型參數(shù)量較少，他們還用到了知識(shí)蒸餾的方法讓 student 小模型學(xué)習(xí)到更多的信息。

以上三大步驟幫助微視實(shí)現(xiàn)了 image-to-image 的實(shí)時(shí)特效生成效果，但團(tuán)隊(duì)并沒有止步于此，他們還實(shí)現(xiàn)了實(shí)時(shí)的輕量化人臉動(dòng)作遷移。

實(shí)時(shí)人臉動(dòng)作遷移

在人臉動(dòng)作遷移方向，有一部分工作的思路是：首先估計(jì)從目標(biāo)圖片到源圖片的反向光流，基于光流對(duì)源圖片的特征表示進(jìn)行扭曲（warping）操作，然后再恢復(fù)出重建結(jié)果，例如 Monkey-Net、FOMM 等。微視的實(shí)時(shí)人臉動(dòng)作遷移大模型就借鑒了此類方法。

為了實(shí)現(xiàn)手機(jī)端實(shí)時(shí)推斷，他們?cè)谀Ｐ痛笮『陀?jì)算量?jī)蓚€(gè)方面對(duì)大模型進(jìn)行了優(yōu)化，借鑒 GhostNet 分別設(shè)計(jì)了相應(yīng)的小模型結(jié)構(gòu)，從而將模型大小縮減了 99.2%，GFLOPs 降低了 97.7%。為了讓小模型成功學(xué)到大模型的能力，他們還采用了分階段蒸餾訓(xùn)練的策略。

訓(xùn)練完小模型之后，團(tuán)隊(duì)借助騰訊自己研發(fā)的移動(dòng)端深度學(xué)習(xí)推理框架 TNN實(shí)現(xiàn)了手機(jī)端的部署和實(shí)時(shí)推理，從而使得用戶通過攝像頭驅(qū)動(dòng)任意人臉圖片的玩法變?yōu)榭赡堋?/span>

做特效，騰訊微視優(yōu)勢(shì)在哪兒

逼真的效果、高效的模型離不開堅(jiān)實(shí)的技術(shù)支撐。這些項(xiàng)目的核心技術(shù)由騰訊微視拍攝算法團(tuán)隊(duì)與騰訊平臺(tái)與內(nèi)容事業(yè)群（PCG）應(yīng)用研究中心（Applied Research Center，ARC）共同研發(fā)。騰訊微視拍攝算法團(tuán)隊(duì)致力于圖像 / 視頻方向的技術(shù)探索，匯聚了一批行業(yè)內(nèi)頂尖的算法專家和產(chǎn)品經(jīng)驗(yàn)豐富的研究員和工程師，擁有豐富的業(yè)務(wù)場(chǎng)景，持續(xù)探索前沿 AI 和 CV 算法在內(nèi)容生產(chǎn)和消費(fèi)領(lǐng)域的應(yīng)用和落地。ARC 則是 PCG 的偵察兵和特種兵，主要任務(wù)是探索和挑戰(zhàn)智能媒體相關(guān)的前沿技術(shù)，聚焦于音視頻內(nèi)容的生成、增強(qiáng)、檢索和理解等方向。

在 AI 特效落地方面，團(tuán)隊(duì)建立了以下優(yōu)勢(shì)：

已經(jīng)搭建了從算法研發(fā)、模型迭代到線上部署的一整套流程化框架，可以實(shí)現(xiàn)各項(xiàng)技術(shù)的快速落地，為探索更多特效提供了效率保證；
算法經(jīng)過了多次迭代，數(shù)據(jù)需求量已經(jīng)降至很低的水平，幾十張圖像就能實(shí)現(xiàn)不錯(cuò)的效果，使得更多特效的實(shí)現(xiàn)成為可能；
在圖像質(zhì)量提升、模型壓縮等方面積累了一些自己的技術(shù)，可以保障 AI 模型在各種移動(dòng)端平臺(tái)上成功部署。

除了上面討論的 GAN 之外，研發(fā)團(tuán)隊(duì)在增強(qiáng)現(xiàn)實(shí)、3D 空間理解等方面也做了一些探索，并在微視 APP 上上線了一批特效，這也是當(dāng)前整個(gè)社區(qū)比較熱門的研究方向。

隨著技術(shù)的不斷迭代，未來(lái)，我們還將在微視上看到更多原本只能在論文中看到的驚艷效果。

如果你也想?yún)⑴c這些有趣的項(xiàng)目，可以按照以下方式聯(lián)系騰訊微視的技術(shù)團(tuán)隊(duì)，具體方向包括但不限于 GAN 生成、2D/3D 人體 / 人臉、SLAM/3D 視覺 / AR、AutoML、移動(dòng)端推理引擎、特效工程、渲染引擎、算法工程等。

聯(lián)系方式：quenslincai@tencent.com、jonytang@tencent.com

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

免费高清特黄a大片,九一h片在线免费看,a免费国产一级特黄aa大,国产精品国产主播在线观看,成人精品一区久久久久,一级特黄aa大片,俄罗斯无遮挡一级毛片

火爆的老照片動(dòng)起來(lái)、唱歌，微視把AI視頻特效打包「一鍵」實(shí)現(xiàn)了

火爆的老照片動(dòng)起來(lái)、唱歌，微視把AI視頻特效打包「一鍵」實(shí)現(xiàn)了