人人影視落幕,魷魚游戲殺瘋: 要什么字幕,AI配音5秒生成
【導(dǎo)讀】今年,《魷魚游戲》大火。隨著Netflix等流媒體的興起,非英語作品也越來越多。然而,字幕和配音行業(yè)的人才卻非常緊缺,尤其是小語種直譯方面。為此,不管是Netflix,還是小型的本地化供應(yīng)商,都在探索能不能用AI配音技術(shù)代替人工字幕。
一個(gè)時(shí)代,終究還是落幕了。
11月22日,上海第三中院對(duì)「人人影視字幕組」侵權(quán)案進(jìn)行公開審理,并當(dāng)庭作出一審判決。
以侵犯著作權(quán)罪判處被告人梁永平有期徒刑三年六個(gè)月,并處罰金人民幣一百五十萬元。
違法所得予以追繳,扣押在案的供犯罪所用的本人財(cái)物等予以沒收。
前段時(shí)間,韓國反烏托邦題材劇集《魷魚游戲》(Squid Game)可謂是相當(dāng)火爆,上線1個(gè)月播放量就達(dá)到了1.42億,霸榜90個(gè)國家和地區(qū)。
Netflix也為其提供了多達(dá)31種語言的字幕和13種語言的配音。
然而韓裔美籍喜劇演員Youngmi Mayer卻發(fā)現(xiàn)《魷魚游戲》的官方字幕過于離譜,完全就是詞不達(dá)意。
就比如說,當(dāng)女演員用韓語表示「看什么看」,Netflix 的英文字幕翻譯為「走開」。
隨著Netflix等流媒體的興起,像是《魷魚游戲》這類的非英語作品也越來越多。
然而,字幕和配音行業(yè)的人才卻非常緊缺,尤其是小語種直譯方面。
還是以《魷魚游戲》為例,如果想將其推向西班牙語市場(chǎng),通常會(huì)先輸出英文版的字幕,然而再在這個(gè)基礎(chǔ)上進(jìn)行法語翻譯。
也就是說,部分語種字幕的質(zhì)量完全取決于英文的翻譯如何,而這個(gè)轉(zhuǎn)化過程難免會(huì)丟失很多信息細(xì)節(jié)。
據(jù)統(tǒng)計(jì),《魷魚游戲》的配音版比字幕版的觀看人數(shù)還要多。
為此,不管是Netflix這樣的流媒體巨頭,還是一些小型的本地化服務(wù)供應(yīng)商,都在探索能不能用AI技術(shù)代替人工翻譯。
那么,AI到底是能行,還是不能行?
這就得從Deepfake Voice是什么開始說起了。
Deepfake Voice
復(fù)制或克隆一個(gè)人的聲音,常用到的一項(xiàng)技術(shù)叫Deepfake Voice,也稱為語音克隆或合成語音,其目的是使用AI生成一個(gè)人的語音。
目前,這項(xiàng)技術(shù)已經(jīng)發(fā)展到可以在音調(diào)和相似度上非常精確地復(fù)制人聲的地步。
什么是聲音克隆?
聲音克隆是一個(gè)過程,在這個(gè)過程中,人們使用計(jì)算機(jī)生成真實(shí)個(gè)體的語音,使用人工智能(AI)創(chuàng)建一個(gè)特定的、獨(dú)特的聲音的克隆。
要克隆某人的聲音,必須有訓(xùn)練數(shù)據(jù)輸給人工智能模型。這些數(shù)據(jù)通常記錄了目標(biāo)人說話的例子。
人工智能可以使用這些數(shù)據(jù)來呈現(xiàn)一個(gè)真實(shí)的聲音,比如可以用文字鍵入的任何東西生成一段語音,這個(gè)過程稱為文本到語音。
在以往的文本到語音(TTS)系統(tǒng)中,訓(xùn)練數(shù)據(jù)是關(guān)鍵組成部分,它控制了語音輸出的產(chǎn)生。換句話說,你聽到的聲音就應(yīng)該是數(shù)據(jù)集中給出的聲音。
不過現(xiàn)在,隨著最新AI技術(shù)的引入,使用一些目標(biāo)聲音的特征,比如語音波形,也可以進(jìn)行更深入的分析和提取。
什么是合成聲音?
合成聲音是一個(gè)術(shù)語,也就是通常所說的Deepfake Voice,合成聲音也經(jīng)常與聲音克隆互換使用。
但簡(jiǎn)單來說,合成語音就是計(jì)算機(jī)生成的語音,也叫語音合成,一般是通過人工智能(AI)和深度學(xué)習(xí)來實(shí)現(xiàn)的。
合成聲音的方式主要有兩種:文本到語音轉(zhuǎn)換(TTS)和語音到語音(STS)。
文本到語音轉(zhuǎn)換(TTS)在上文中已經(jīng)介紹過,目前,TTS軟件已被用于幫助視障人士閱讀數(shù)字文本,還被搭載在語音助手等其他應(yīng)用上。
而語音到語音(STS)不是使用文本,而是使用一段語音修改其聲音的特征來創(chuàng)建另一段聽起來很真實(shí)的合成語音。
過去的語音合成并不能生成以假亂真的聲音。但是隨著技術(shù)的發(fā)展,這種情況已經(jīng)改變。
人工智能如何完成語音合成?
傳統(tǒng)的語音合成通常使用兩種基本技術(shù)。這兩種技術(shù)是拼接合成和共振峰合成。
拼接合成采用的方法是將錄制聲音的短樣本拼接在一起,形成一個(gè)稱為單元的鏈。這些單元然后被用來生成用戶定義的聲音模式。
而共振峰合成這種技術(shù)最常用來復(fù)制人們用元音發(fā)出的聲音。
這些方法的缺點(diǎn)是,它們時(shí)不時(shí)會(huì)生成一些人們無法發(fā)出的聲音。但是深度學(xué)習(xí)和人工智能的出現(xiàn)將TTS技術(shù)帶到了新的高度。
AI文本到語音轉(zhuǎn)換通常被稱為神經(jīng)文本到語音轉(zhuǎn)換,它利用神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)技術(shù)從文本中合成語音輸出。
首先,語音引擎接受音頻輸入,并識(shí)別人類聲音產(chǎn)生的聲波。
接著,這些信息被翻譯成語言數(shù)據(jù),這被稱為自動(dòng)語音識(shí)別(ASR)。在獲得這些數(shù)據(jù)后,語音引擎必須對(duì)數(shù)據(jù)進(jìn)行分析,以理解它所收集的單詞的含義,這被稱為自然語言處理(NLP)。
尋找訓(xùn)練數(shù)據(jù)是合成聲音的第一個(gè)基本項(xiàng)目。沒有清晰的聲音錄音,就沒有辦法成功地訓(xùn)練人工智能模型來捕捉一個(gè)人說話的所有復(fù)雜細(xì)節(jié)。
錄制過程可能需要幾個(gè)小時(shí)到幾個(gè)小時(shí),語音解決方案團(tuán)隊(duì)將提供一個(gè)全面的短語列表,以捕捉一個(gè)人聲音的所有特征。
通常,這個(gè)列表不會(huì)超過4000個(gè)短語,但目標(biāo)確實(shí)是圍繞某人獨(dú)特的聲音捕獲盡可能多的數(shù)據(jù)——捕獲的數(shù)據(jù)越多,聲音克隆就越準(zhǔn)確。
接下里,AI要對(duì)語音數(shù)據(jù)進(jìn)行建模。
使用神經(jīng)網(wǎng)絡(luò)獲取一組有序的音素,然后將它們轉(zhuǎn)換成一組頻譜圖。頻譜圖是信號(hào)頻帶頻譜的可視化呈現(xiàn)。
神經(jīng)網(wǎng)絡(luò)選擇合適的頻譜圖,其頻帶能夠更準(zhǔn)確地刻畫人腦在理解語音時(shí)使用的聲學(xué)特征。然后,神經(jīng)聲碼器將這些頻譜圖轉(zhuǎn)換成語音波形,就可以發(fā)出自然且逼真的聲音。
中文版Deepfake Voice嘗鮮嗎?
今年10月,GitHub上的一個(gè)項(xiàng)目狂攬13k星。
只需5秒,就能用AI技術(shù)來模擬聲音來生成任意語音內(nèi)容,并且還支持中文。
https://github.com/babysor/MockingBird/blob/main/README-CN.md
根據(jù)上傳的演示視頻來看,聲音模仿的也很逼真。
Mocking Bird的主要特性包括:
支持普通話并使用多種中文數(shù)據(jù)集進(jìn)行測(cè)試:aidatatang_200zh, magicdata, aishell3, biaobei,MozillaCommonVoice等
適用于pytorch,已在1.9.0版本中測(cè)試,GPU Tesla T4和GTX 2060
可在Windows操作系統(tǒng)和Linux操作系統(tǒng)中運(yùn)行(蘋果系統(tǒng)M1版也有社區(qū)成功運(yùn)行案例)
僅需下載或新訓(xùn)練合成器(synthesizer就有良好效果,復(fù)用預(yù)訓(xùn)練的編碼器/聲碼器,或?qū)崟r(shí)的HiFi-GAN作為vocoder)
提供一個(gè)Webserver可查看訓(xùn)練結(jié)果,供遠(yuǎn)程調(diào)用
Mocking Bird除了在知乎上有專欄分享保姆級(jí)教程和訓(xùn)練技巧之外,其使用也非常簡(jiǎn)單。
首先安裝好PyTorch、ffmpeg、webrtcvad-wheels和requirements.txt 中要求的剩余包。
第二步是準(zhǔn)備預(yù)訓(xùn)練模型,可以使用作者提供的或者是其他人訓(xùn)練好的模型。
重要的數(shù)據(jù)處理操作是進(jìn)行音頻和梅爾頻譜圖預(yù)處理:python pre.py <datasets_root> 可以傳入?yún)?shù) --dataset {dataset} 支持 aidatatang_200zh, magicdata, aishell3
第三步在瀏覽器直接啟動(dòng)一個(gè)Web程序來進(jìn)行調(diào)試。
或者啟動(dòng)一個(gè)更完善的工具箱軟件。
作者還貼心的附上了所有可以學(xué)習(xí)的論文及原始代碼倉庫。
這個(gè)倉庫的名字MockingBird 是仿聲鳥、反舌鳥,以善于模仿其他鳥類及昆蟲、兩棲動(dòng)物的叫聲而聞名,也是一種經(jīng)常出現(xiàn)在西方文學(xué)或影視作品之中的鳥類,在生物學(xué)上是嘲鶇的俗稱。
著名的書的名字《殺死一只知更鳥》的英文就是To Kill a Mocking Bird,實(shí)際上屬于翻譯的錯(cuò)誤,知更鳥的英文是Robin。
當(dāng)人工智能被用于語音詐騙
Deepfake Voice帶來的語音欺詐是一個(gè)很大的問題。
2019年,犯罪分子克隆了一家總部位于英國的能源公司CEO的聲音,騙走了24萬美元,原因就是這個(gè)假CEO在口音和語氣上聽起來都是十分真實(shí)的。這起事件是歐洲已知的第一起直接使用人工智能的網(wǎng)絡(luò)犯罪。
另一起事件發(fā)生在2020年。一位在阿拉伯聯(lián)合酋長國工作的銀行經(jīng)理接了一個(gè)電話,他當(dāng)時(shí)以為他在和一家公司的董事說話,結(jié)果掉進(jìn)了一個(gè)徹頭徹尾的語音騙局,錯(cuò)誤地批準(zhǔn)了3500萬美元的轉(zhuǎn)賬。
隨著技術(shù)的發(fā)展,Deepfake Voice詐騙變得越來越復(fù)雜,許多人可能在社交媒體上就已經(jīng)遇到過一些Deepfake Voice偽造的聲音。
那么,如何防范Deepfake Voice欺詐呢?
有兩種方法。
第一種方法是創(chuàng)建一個(gè)檢測(cè)器,分析聲音以確定它是否是使用deepfake技術(shù)制作的。不幸的是,因?yàn)镈eepfake Voice技術(shù)會(huì)不斷發(fā)展,檢測(cè)器無法永遠(yuǎn)保持正確。
第二種方法則相對(duì)更加現(xiàn)實(shí),主要是實(shí)現(xiàn)一個(gè)聽眾聽不到、人們也無法編輯的音頻水印。音頻水印本質(zhì)上是聲音被創(chuàng)造、編輯和使用的記錄。這樣一來,人們就更容易知道一段聲音是否是合成的。
參考資料:
https://www.axios.com/artificial-intelligence-voice-dubbing-synthetic-14bfb3c6-99db-4406-920d-91b37d00a99a.html
https://www.businesswire.com/news/home/20210514005132/en/Veritone-Launches-MARVEL.ai-a-Complete-End-to-End-Voice-as-a-Service-Solution-to-Create-and-Monetize-Hyper-Realistic-Synthetic-Voice-Content-at-Commercial-Scale
https://www.veritone.com/blog/combining-conversational-ai-and-synthetic-media/
https://www.veritone.com/blog/everything-you-need-to-know-about-deepfake-voice/
https://www.veritone.com/blog/how-ai-companies-are-tackling-deepfake-voice-fraud/
https://www.veritone.com/blog/how-to-create-a-synthetic-voice/
特別鳴謝ifan
https://www.ifanr.com/1454818
本文來自微信公眾號(hào)“新智元”(ID:AI_era),編輯:好困 小咸魚,36氪經(jīng)授權(quán)發(fā)布。