貝克漢姆秒學(xué)N種外語?多虧了人工智能技術(shù)
【網(wǎng)易智能訊9月16日消息】大衛(wèi)·貝克漢姆(David Beckham)不會說阿拉伯語、印地語和普通話。但是,在今年春天主演一個關(guān)于瘧疾意識的公益廣告時,這位足球傳奇人物卻能毫不費力地在這幾種語言和其他六種語言之間轉(zhuǎn)換。這要歸功于人工智能技術(shù),該項前沿技術(shù)可能很快就會改變好萊塢電影和電視節(jié)目的本地化方式。
該廣告是用Synthesia公司的技術(shù)制作的。Synthesia是一家總部位于倫敦的初創(chuàng)公司,致力于利用人工智能進(jìn)行配音。在做該廣告時,該公司分別給這位足球明星以及它想要使用的各種語言的母語人士錄制了視頻。
然后,它將所有原始視頻輸入一個算法,該算法“學(xué)習(xí)”說出西班牙語和約魯巴語等語言中的各個單詞時的面部表情,并相應(yīng)地調(diào)整貝克漢姆的面部視頻。Synthesia的聯(lián)合創(chuàng)始人兼首席運(yùn)營官史蒂芬·杰里爾德(Steffen Tjerrild)解釋說,“你可以一手操縱視頻,我們等于有了真正的對嘴配音。”
基于人工智能的視頻編輯因其黑歷史而備受關(guān)注,其中最著名的當(dāng)屬“深度偽造”現(xiàn)象——色情視頻被所謂的基于深度學(xué)習(xí)的算法改造,將視頻中的原有面孔換成名人的面孔,以假亂真。然而,Synthesia的研究表明,這種技術(shù)在好萊塢也有很大的潛力,尤其是在配音方面。
傳統(tǒng)上,配音是在不改變源視頻的情況下完成的。本地化編劇只是想要將翻譯后的對話與屏幕上的動作匹配起來。“準(zhǔn)備那些劇本需要花費很多的時間。”杰里爾德說道。更重要的是,配音演員必須要準(zhǔn)確把握好發(fā)聲時間,以確保避免配音讓人覺得突兀,這一過程可能需要幾周的時間才能完成。
迪士尼研究院(Disney Research)負(fù)責(zé)研究的副總裁馬庫斯?格羅斯(Markus Gross)也認(rèn)為,由于能夠調(diào)整演員的口型來匹配本地語言,人工智能有望大大縮短這項工作的用時,并且使得配音更加準(zhǔn)確。“如果我們能夠在后期制作中改變口型,那會有極大的意義。”他說道,“這可以讓對嘴配音無縫匹配演員說那種語言時的各種動作。”
迪士尼研究公司已經(jīng)在語音動畫(即利用動畫效果來設(shè)計和表現(xiàn)說話人的面部表情、口型變化等)的深度學(xué)習(xí)方面做了一些研究,同時也在設(shè)法將這項技術(shù)應(yīng)用于特效。雖然配音并不是迪士尼研究部門的重點研究領(lǐng)域,但格羅斯表示,他對未來配音的種種可能性很感興趣。他表示,“對我們來說,這種技術(shù)肯定很快就可以投入使用了。”
配音對好萊塢來說越來越重要,各大媒體公司都在推行自有的流媒體服務(wù)來為全球消費者提供服務(wù)。以Netflix為例,該公司正在給31種語言做配音,并從去年開始給說英語的觀眾提供外國原創(chuàng)電影的配音版本。在談到Netflix給英語為母語的人講述全球故事的努力時,該公司的國際配音負(fù)責(zé)人黛布拉·欽恩(Debra Chinn)表示,“我們非常認(rèn)真地對待這項新舉措。”。
這家流媒體巨頭一直在探索將配音的某些流程自動化的方法,但欽恩警告說,技術(shù)的能力可能有限。“配音是一門藝術(shù),”她說,“這是一個創(chuàng)造性的過程。”
技術(shù)問題確實存在。Synthesia的技術(shù)在演員直視鏡頭時效果最好,但在側(cè)面拍攝或動作場景拍攝時效果較差。
教授算法關(guān)于每個演員的面部特征的知識,也很有挑戰(zhàn)性。“沒有演員會說20種語言。”格羅斯說道。雖然算法可以很好地讓某人的口型看起來是在說外語單詞,但它并不知道像萊昂納多·迪卡普里奧(Leonardo DiCaprio)這樣的演員是如何用普通話表達(dá)臺詞的。
格羅斯指出,最終,電影公司可能必須得與實際的用戶一起測試它們的配音。“我們必須把我們的成果展示給很多人,然后問他們那些配音是逼真還是古怪。”
在動畫中,使用人工智能配音將會沒那么費力。原因是,在動畫中,這項技術(shù)還可以被用來更好地匹配角色的口型變化和原始語言。“就以較低的成本制作高質(zhì)量的動畫而言,這是一個重要的步驟。”格羅斯說。
那些成本節(jié)省可能有助于說服好萊塢在不久的將來接受這種技術(shù)。“在接下來的兩三年內(nèi),”格羅斯說道,“我們可能會看到第一批公司采用。”(樂邦)