如何成為表情管理大師?AI或許能給你不一樣的答案
如果你看過《驚奇隊長》與《雙子殺手》這些電影,你就會發(fā)現(xiàn),塞繆爾·杰克遜和威爾·史密斯看起來要比他們出席其他活動時年輕得多,因為電影團(tuán)隊通過好幾個專業(yè)人員,手動編輯了他們出現(xiàn)的數(shù)百小時的所有場景內(nèi)容,這才使得他們看起來十分年輕且表情更為豐富。
這是一項十分巨大的工程,但也僅限于現(xiàn)在的影視制作行業(yè)。據(jù)悉,當(dāng)前已有研究人員通過AI對視頻中的人臉進(jìn)行高效編輯,同樣的工作在AI的幫助下幾分鐘內(nèi)便能完成。
AI闖入視頻編輯
事實上,AI幫助創(chuàng)作者美化面部、編輯面部表情并不是什么新鮮事,當(dāng)前有許多技術(shù)都可以讓創(chuàng)作者在圖像中添加微笑,讓你看起來更年輕或更老,所有這些都使用基于AI的算法自動進(jìn)行。
不過它們主要應(yīng)用于圖像領(lǐng)域,因為圖片相較于哈希值巨大的視頻來說要容易得多,但是近期實驗室傳來的結(jié)果打破了這種認(rèn)知,研究人員認(rèn)為通過小的調(diào)整也可以將相同的技術(shù)應(yīng)用于視頻,這對電影行業(yè)來說是一個巨大的好消息。
因為當(dāng)前電影行業(yè)存在一個問題是,目前這些生成的"舊版本"編輯圖像不僅看起來很奇怪,而且在視頻中使用時,會出現(xiàn)故障和偽影,你肯定不希望在一部百萬美元的電影中出現(xiàn)這些問題。
這是因為獲取人物的視頻比獲得圖片要困難得多,這使得訓(xùn)練這種需要許多不同的示例才能理解該做什么、不該做什么,AI模型的訓(xùn)練因此變得更加困難,這種強大的數(shù)據(jù)依賴性是當(dāng)前AI距離人類理想的機器智能十分遙遠(yuǎn)的原因之一。
但是特拉維夫大學(xué)的研究人員Rotem Tzaban解決了這一難題,他轉(zhuǎn)變了思路,通過輕微改變圖像訓(xùn)練的模型,也達(dá)到了提高AI自動編輯視頻質(zhì)量的目的,同時不需要要那么多視頻示例來輔助訓(xùn)練。當(dāng)前,使用圖像訓(xùn)練模型的AI編輯視頻,除了要編輯的單個視頻之外,它不需要任何東西,你可以給人物添加微笑,也可以使你看起來更年輕或更老,甚至還可以與動畫視頻一起使用。
當(dāng)然,新的訓(xùn)練模型也使用的是GAN(假設(shè)我們有兩個網(wǎng)絡(luò),G和D。G是一個生成圖片的網(wǎng)絡(luò),它接收一個隨機的噪聲z,通過這個噪聲生成圖片,記作G(z);D是一個判別網(wǎng)絡(luò),判別一張圖片是不是“真實的”。它的輸入?yún)?shù)是x,x代表一張圖片,輸出D(x)代表x為真實圖片的概率,如果為1,就代表100%是真實的圖片,而輸出為0,就代表不可能是真實的圖片。在訓(xùn)練過程中,生成網(wǎng)絡(luò)G的目標(biāo)就是盡量生成真實的圖片去欺騙判別網(wǎng)絡(luò)D。而D的目標(biāo)就是盡量把G生成的圖片和真實的圖片分別開來。這樣,G和D構(gòu)成了一個動態(tài)的“博弈過程”,最后我們便得到了一個生成式的模型G,它可以用來生成圖片),新的AI模型僅在編碼部分有所改動。
GAN如何發(fā)揮作用?
因此,在這種情況下,它可以使用任何基于GAN架構(gòu)的模型,例如StyleGAN。這只是NVIDIA幾年前發(fā)布的用于面部圖像識別的GAN架構(gòu),但是其改造的結(jié)果卻非常令人滿意。其實,生成模型本身并不那么重要,因為它可以與您可以找到的任何強大的GAN架構(gòu)一起使用。
是的,即使這些模型都經(jīng)過圖像訓(xùn)練,但它們也都可以用來執(zhí)行視頻編輯。假設(shè)你將發(fā)送的視頻人物與現(xiàn)實人物是高度吻合的,那么AI將只是專注于保持真實感,而不是像我們在視頻合成工作中必須做的那樣創(chuàng)建真正一致的視頻。
因此,每個圖像都將單獨處理,而不是發(fā)送整個視頻并期望獲得新視頻作為回報。這種假設(shè)使任務(wù)變得更加簡單,但還有更多的挑戰(zhàn)需要面對,比如保持如此逼真的視頻,其中每一幀都能流暢地轉(zhuǎn)到下一幀,而不會出現(xiàn)明顯的故障。
在這里,他們將視頻的每一幀作為輸入圖像,僅提取面部并對齊(1)以保持一致性,這是我們將要看到的必不可少的一步,使用他們預(yù)先訓(xùn)練的編碼器(2)和生成器(3)對幀進(jìn)行編碼并為每個幀生成新版本。不幸的是,這并不能解決一些現(xiàn)實問題,即新面孔在從一幀到另一幀時可能看起來很奇怪或不合時宜,以及奇怪的照明錯誤和背景差異。
為了解決這個問題,他們將進(jìn)一步訓(xùn)練初始生成器(3),并使用它來幫助使所有幀中的生成器更加相似和全局一致。他們還引入了另外兩個步驟,一個編輯步驟和一個他們稱之為"拼接-調(diào)諧"的新操作。
編輯步驟(4)將簡單地獲取圖像的編碼版本并對其進(jìn)行一些更改。在這種情況下,這是它將學(xué)會改變它以使該人看起來更老的部分。因此,將訓(xùn)練模型以了解要移動哪些參數(shù)以及修改圖像的正確特征以使人看起來更老。比如增加一些白發(fā),增加皺紋等。
然后,這種拼接調(diào)整方法(5)將獲取你在此處看到的編碼圖像,并將經(jīng)過訓(xùn)練,以從編輯的代碼中生成最適合背景和其他幀的圖像。它將通過獲取新生成的圖像,將其與原始圖像進(jìn)行比較,并找到僅使用蒙版替換面部并保持裁剪圖像的其余部分不變的最佳方法來實現(xiàn)這一目標(biāo)。
最后,我們將修改后的人臉粘貼回框架(6)。這個過程非常簡單,允許制作真正高質(zhì)量的視頻,因為你只需要在模型中裁剪和對齊的臉,從而大大降低了計算需求和任務(wù)的復(fù)雜性。因此,即使人臉顯示很小,比如說200像素的面積,你仍然可以將其保持一個相當(dāng)高分辨率的視頻。
本文來自微信公眾號“Techsoho”(ID:scilabs),作者:Light,36氪經(jīng)授權(quán)發(fā)布。