紙片人「活」了,Meta AI新作:只需幾分鐘,手繪小人有了靈魂
想讓畫中的「紙片人」有生命,Meta AI來搞定!昨日,Meta AI宣布了一種獨(dú)創(chuàng)性方法,只需幾分鐘,就能動(dòng)畫化兒童手繪的角色,效果拔群。
快看,「紙片人」居然自己跳出來了!
小貓學(xué)會(huì)了hiphop。
小蜜蜂還會(huì)做wave。
火柴人竟然會(huì)打跆拳道。
糖果人還能空中飛踢。
這些卡通動(dòng)畫都是用孩子們的簡(jiǎn)筆畫生成的,不過,作者可是一個(gè)AI!
AI動(dòng)畫工具在兒童繪畫上翻車?
孩子們富有想象力和創(chuàng)造性的簡(jiǎn)筆畫,有的時(shí)候能帶給人一些不一樣的思考。
不過,雖然家長(zhǎng)或老師很容易就能看出孩子的畫想展示什么,但人工智能卻很難完成這項(xiàng)任務(wù)。
為什么呢?
這是因?yàn)楹⒆觽兊睦L畫通常比較超脫常規(guī),比如,人物的腳并不能支撐身子,或者人物的雙臂位于身體的同一側(cè)。
這樣一來,AI系統(tǒng)有時(shí)候就無法識(shí)別出圖像和繪畫中的人物。
不過,研究人員已經(jīng)有了一些眉目。
昨日,Meta AI宣布了一種獨(dú)創(chuàng)性方法,只需幾分鐘,就能自動(dòng)生成兒童手繪人物或類人角色(即具有雙臂、兩條腿等的角色)的動(dòng)畫,而且生成的動(dòng)畫還能做到栩栩如生。
只需將孩子的手繪上傳給Meta AI,就可以看到它們變成會(huì)跳舞的角色,十分逼真。
手繪變動(dòng)畫四步走
許多AI工具和技術(shù)都是為了處理真實(shí)的人類圖像而設(shè)計(jì)的,但兒童繪畫增加了人物特征的多樣性和不可預(yù)測(cè)性,這使得識(shí)別手繪人物變得更加復(fù)雜。
兒童繪畫中的「人」有許多不同的形式、顏色、大小和比例,在身體對(duì)稱性、形態(tài)等方面幾乎沒有相似之處。
于是,Meta AI通過四個(gè)步驟來應(yīng)對(duì)這一挑戰(zhàn)。
通過物體檢測(cè)識(shí)別人形
制作兒童人物動(dòng)畫的第一步是將人物與背景和圖片中的其他類型的角色區(qū)分開來。
Meta AI采用基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)模型Mask R-CNN來提取兒童繪畫中的人物。
雖然Mask R-CNN已經(jīng)在最大的分割數(shù)據(jù)集上進(jìn)行過預(yù)訓(xùn)練,但是這些數(shù)據(jù)集都是由真實(shí)世界物體的照片組成的,不包含手繪圖。
因此,研究人員又將模型在大約1000張手繪圖上進(jìn)行了微調(diào)。
經(jīng)過微調(diào)過程后,模型就能夠很好地檢測(cè)出測(cè)試數(shù)據(jù)集中的人物。
不過,雖然現(xiàn)有的目標(biāo)檢測(cè)技術(shù)在區(qū)分兒童繪圖上的人物時(shí)非常有效,但是產(chǎn)生的分割mask不夠精確,無法用于動(dòng)畫。
為了解決這個(gè)問題,我們改為使用從目標(biāo)檢測(cè)器獲得的邊界框,并應(yīng)用一系列形態(tài)學(xué)操作和圖像處理步驟來獲得mask。
使用角色mask從場(chǎng)景中提升人形
從繪圖中識(shí)別并提取人形后,下一步就是通過mask將主體與背景分開。
理論上,該步驟完成后,mask掉的部分應(yīng)該只含有人形的部分,沒有任何背景。
但是,如果手繪圖中的人物的手、腳、身體等部位在外觀上過于不符合常規(guī)時(shí),Mask R-CNN預(yù)測(cè)的mask往往無法準(zhǔn)確地捕捉整個(gè)圖形。
比如下圖那個(gè)倒三角的小人,其中,黃色三角形代表身體,一條橫杠代表手臂。
Mask R-CNN的結(jié)果顯然非常粗糙,不是「砍掉」了手臂,就是加粗了大腿。
為此,Meta的研究人員開發(fā)了一種經(jīng)典的基于圖像處理的方法,對(duì)這些形狀各異的身體部件更加穩(wěn)健。
研究人員先用預(yù)測(cè)的人形邊界框來裁剪圖像,然后,應(yīng)用自適應(yīng)閾值處理和形態(tài)學(xué)操作,從框的邊緣進(jìn)行泛填充,并假設(shè)mask是未被泛填充觸及的最大多邊形。
雖然這種方法可以精確提取提取適合于動(dòng)畫的mask,但是當(dāng)背景雜亂無章或者紙張上有褶皺、破損或陰影時(shí),就不好使了。
通過「裝配」為動(dòng)畫做準(zhǔn)備
孩子們畫的人物有各種各樣的身體形狀,這些都遠(yuǎn)遠(yuǎn)超出了AI所見過的傳統(tǒng)人的頭部、手臂、腿部和軀干的形狀。
舉個(gè)例子,孩子畫的「火柴人」沒有軀干,胳膊和腿直接連在頭上。
因此,研究人員需要一種能夠處理這類形態(tài)「變異」的全新方法。
Meta使用專為人體姿勢(shì)檢測(cè)而訓(xùn)練的模型AlphaPose來識(shí)別人物上的關(guān)鍵點(diǎn),這些關(guān)鍵點(diǎn)可以用作臀部、肩膀、肘部、膝蓋、手腕和腳踝的識(shí)別。
由于AlphaPose是在真人的圖像上訓(xùn)練的,所以要想讓它能檢測(cè)兒童繪畫中的姿勢(shì),必須對(duì)它進(jìn)行重新訓(xùn)練,以處理兒童繪畫中千奇百怪的姿勢(shì)。
為此,Meta的研究人員先內(nèi)部收集了一波兒童繪畫的數(shù)據(jù)。
然后,研究人員利用在這個(gè)初始數(shù)據(jù)集上訓(xùn)練的姿勢(shì)檢測(cè)器創(chuàng)建了一個(gè)內(nèi)部工具,并允許父母上傳他們孩子的畫作,而研究人員則可以利用上傳的畫進(jìn)行額外的訓(xùn)練。
隨著數(shù)據(jù)越來越多,模型也得到反復(fù)地訓(xùn)練,最終達(dá)到了一個(gè)較高的準(zhǔn)確度。
三維運(yùn)動(dòng)捕捉制作2D人物動(dòng)畫
一旦有了mask和聯(lián)合預(yù)測(cè),也就有了制作動(dòng)畫所需的一切。
Meta首先使用提取的mask生成一個(gè)網(wǎng)格,用原始圖形對(duì)其進(jìn)行紋理化。
使用預(yù)測(cè)的關(guān)節(jié)位置,研究人員為角色創(chuàng)建一個(gè)骨架,通過旋轉(zhuǎn)骨骼和使用新的關(guān)節(jié)位置來生成各種姿勢(shì)。
在制作動(dòng)畫之前,先從繪圖中創(chuàng)建一個(gè)需要操作的角色。
然后,通過將一幀運(yùn)動(dòng)捕捉數(shù)據(jù)投影到2D平面上并更改角色姿態(tài)。從前面(頂行)、側(cè)面(中間行)和扭曲的視角(底部)投射運(yùn)動(dòng)捕捉數(shù)據(jù)都可以。
最后,再讓角色產(chǎn)生一系列連續(xù)的姿勢(shì),就可以創(chuàng)建一個(gè)動(dòng)畫了。
Meta AI可以根據(jù)關(guān)節(jié)預(yù)測(cè)的可信度來選擇不同的運(yùn)動(dòng):在手臂和腿都被正確預(yù)測(cè)的情況下,動(dòng)畫可以無縫地產(chǎn)生。
但是如果軀干沒有出現(xiàn)在繪圖中,它的關(guān)節(jié)置信度值將會(huì)很低,這時(shí),這只AI將不得不放棄任務(wù),要求用戶糾正預(yù)測(cè),或者宣布動(dòng)畫「做不了」。
用AI制作更復(fù)雜的動(dòng)畫
AI已經(jīng)成為富有「創(chuàng)造力」的強(qiáng)大工具,能夠賦予藝術(shù)家力量,激發(fā)新的表達(dá)形式。Meta的動(dòng)畫工具能鼓勵(lì)人們?nèi)L試?yán)L畫,并把他們帶向更多的方向。
也許有一天,AI可以繪制出一幅復(fù)雜的圖畫,然后利用多個(gè)的角色相互作用以及背景中的元素,立即制作出一部詳細(xì)的動(dòng)畫。
有了增強(qiáng)現(xiàn)實(shí)眼鏡,這些動(dòng)畫人物甚至可以在現(xiàn)實(shí)世界中變得栩栩如生,與孩子們一起跳舞或交談。
可能,AI的想象力就像人類的想象力一樣,是無限的。
參考資料
https://ai.facebook.com/blog/using-ai-to-bring-childrens-drawings-to-life/
本文來自微信公眾號(hào)“新智元”(ID:AI_era),作者:新智元,編輯:小咸魚 好困,36氪經(jīng)授權(quán)發(fā)布。