Deepfake持續進化:無限接近于真實,但仍非真實
你有過在社交媒體上把AI合成的用戶頭像當真的經歷嗎?在“深度偽造”(Deepfake)技術趨近于真實,甚至已經繞過了恐怖谷效應的今天,“真”與“假”之間的界限一度被重新定義。
作為“深度偽造”技術目前最重要的表現形式之一,AI合成技術 已經被廣泛應用在大眾娛樂領域,例如 電影配音、游戲角色、電視直播中都出現了它的身影。與此同時,大眾也越來越多地利用這項技術來創作內容。
然而,技術應用也帶來了隱私和安全問題。 1月28日,網信辦在針對深度合成技術及內容的征求意見稿中提出,深度合成服務提供者應當使用顯著方式對所生成的深度合成信息內容進行標識。 若提供人臉、人聲等生物識別信息的顯著編輯功能,還需取得被編輯的個人信息主體的單獨同意。 [1]
“深度偽造”技術發展至今,有哪些變與不變?又是如何被應用的?本期全媒派(ID:quanmeipai)帶你走進真假難辨的虛擬世界,探討這項技術的發展是如何影響內容創作和體驗的。
更接近真實的換臉與合成語音
首先,我們再回顧一下“深度偽造”,這是指以AI合成技術為核心、基于深度學習和虛擬現實等生成合成類算法制作文本、圖像、音頻、視頻或虛擬場景的技術,主要包括以圖像形式存在的臉部替換、以音頻形式存在的聲音替換以及影像中臉部與聲音的同步替換。
自2018年發展至今,AI合成技術的更新迭代速度超乎想象,正在無限趨近于真實,其中又以AI換臉技術和AI語音合成技術為代表。
AI換臉
眾多證據表明,AI人臉合成技術已經發展到以假亂真的地步。譬如國外小有名氣的造臉網站This Person Does Not Exist就能提供一秒生成人像的AI造臉術,逼真程度令人咂舌。再比如Generated Photos通過對龐大的真實人像數據庫的深度學習,能自動生成10萬張人臉照片,允許用戶用作社交網站交友頭像等其他用途。[2]
也有研究表明,AI生成的人臉甚至可以比真實的人臉更自然。在加州伯克利大學近期一項研究中,315名隨機挑選的參與者被要求從800張圖片中分辨出400張AI生成人臉和400張真實人臉。兩組人臉分別涵蓋白人、黑人、東亞人和南亞人各100張。
結果顯示,315名參與者最終的正確率是48.2%,甚至低于隨機挑選的準確率。隨后,研究者召集了另外219名參與者,提供識別AI合成臉的教學訓練。這組參與者的最終正確率提升至59%,但研究者認為“差別不大”。[3]
一組由AI合成技術生成的人臉,你看出來了嗎?圖片來源:New Scientist
AI合成語音
搭乘機器學習技術發展的快車,AI語音合成技術在近幾年同樣是突飛猛進。 過去制作仿真語音通常需要先錄取一段真實的人聲,把一段話切割成單獨的語音單位,再像字母拼圖一樣重新拼合成新的語音片段。
而現在,人工智能已經可以通過學習目標人聲的語音數據而自動生成一段內容完全不同的音頻,更快,更便捷,也更真實自然。
相關應用更是達到可以傳遞情緒、語氣的程度。例如在Sonantic公司設計的一款語音軟件上,用戶可以用文字打出想要生成的語音片段,并挑選他們想要傳遞的情緒,比如憤怒、恐懼、悲傷、愉悅或興奮。
此外,用戶還可以通過“導演模式”進一步調節聲音的語調、語氣的強弱,甚至可以插入笑聲、呼吸聲等非語言類聲音,就像是“語音版的PS”。該公司目前不僅已經和3A游戲公司、娛樂公司等達成合作,還成功在今年年初成為奔馳汽車的車載語音助手。[4]
Sonantic的用戶操作頁面。圖片來源:The Verge
在未來幾年,AI合成語音技術最廣泛的應用場景可能是名人聲音克隆,即獲得明星名人的授權后用他們的聲音合成定制化語音并商用。一家名為Veirtone的美國公司在年初推出一項服務,明星網紅們只需要簡單授權就可以讓自己的聲音出現在廣告代言或電視廣播中。[5]
逐步影響日常內容體驗的“深度偽造”
不斷降低的技術門檻、合成類音視頻的強娛樂性和社交網絡的傳播屬性使得“深度偽造”內容的用戶創作數量在互聯網上呈井噴式增長。
《深度合成十大趨勢(2022)報告》顯示,互聯網深度合成內容創作與傳播數量呈指數級增長,國內外十大音視頻平臺(騰訊視頻、愛奇藝、優酷、嗶哩嗶哩、抖音、快手、微博、YouTube、Twitter、TikTok)內的深度合成視頻的點贊量就高達3.16億。[6]
圖片來源:《深度合成十大趨勢(2022)報告》
“深度偽造”技術不再是科技公司的專屬,也不再局限于影視作品和廣告營銷中,越來越多相關應用和平臺的出現讓普通大眾也可以在更廣泛的場景中體驗AI生成。
AI播客剪輯
Descript就是一款由美國同名公司使用AI合成語音技術研發的播客編輯軟件。用戶可以通過AI語音克隆技術編輯甚至創作自己的專屬音頻內容。使用軟件的“疊錄”功能克隆并生成自己的AI人聲后,只需要通過編輯轉錄的文字就可以調整音頻,用戶可以直接刪減或增添文字來更改音頻內容,頁面對于用戶使用來說也十分簡單、易操作。 [7]
制造視頻迷因
AI換臉技術也正在憑借FakeApp和DeepFaceLab等工具走向普羅大眾。去年在短視頻上爆火并快速席卷海內外社交媒體的湯姆·克魯斯換臉視頻就是一個有力的佐證。在視頻中,一個從長相到聲音都酷似湯姆·克魯斯的“人”或是穿著花襯衫表演“硬幣戲法”,或是在街頭某家男裝店閑逛,做出一些與好萊塢巨星身份存在巨大反差的舉動。
這些視頻均出自視覺特效藝術家Chris Umé之手。他找到湯姆·克魯斯的頂級模仿者進行合作,并使用“深度偽造”技術創作出這些爆款視頻。事實證明,高度普及的社交媒體和先進的AI合成技術使得“深度偽造”內容 具備隨時隨地成為“網絡迷因”的潛力。
湯姆·克魯斯在tiktok上的“深度偽造”視頻截圖。圖片來源:tiktok@deeptomcruise
“復刻親人”
以色列公司D-ID所創建的視頻技術平臺Deep Nostalgia更是在圈內造成不小的轟動。通過使用平臺提供的AI人臉生成服務,用戶可以重新上傳已故親人的圖片,生成會動的影像。視頻中的“親人”能夠做出眨眼、微笑、點頭等一系列動作,用戶可以獲得一種和“活人”面對面的視覺效果,借助AI合成技術讓逝者在網絡空間中“活”過來已經不再是天方夜譚。
深度偽造+內容創作的邊界與未來
當“深度偽造”技術逐漸“平民化”,互聯網用戶在內容創作上將會有更多元的選擇和創新。不難想象在不遠的將來可能會有一款游戲,玩家可以在角色創建頁面中生成并使用自己的AI人聲,更沉浸式地體驗游戲里的世界。
然而,當“真”與“假”之間的界限被技術的迭代更新反復沖刷,內容創作與傳播的邊界又該如何被重新界定?法律、道德和倫理始終是我們無法回避的命題。
早在2019年3月,《華爾街日報》就曾報道過一起詐騙案件:犯罪分子使用AI語音合成技術,冒出德國老板的聲音,欺詐“下屬”英國子公司負責人轉賬了約合人民幣173萬元的款項。 [8] 除信息詐騙等犯罪行為之外,這項技術目前造成的最大威脅依然是未經本人允許創作或傳播的色情視頻。
而對于社交網絡而言,“深度偽造”技術目前最主要的隱患在于傳播錯誤信息,影響公眾輿論。當“眼見”不一定“為實”,真實信息的公信力將大幅度降低。再加之互聯網的傳播能力,真假信息之間會越來越難以分辨。
既然音視頻可以以假亂真,任何人都可以污蔑真實內容為合成技術的產物,以試圖顛倒黑白、逃避責任,甚至引發公眾對真實信息的大規模質疑,即所謂的“騙子的紅利”。[9]這可能會是“深度偽造”技術對真實世界造成的最嚴峻的考驗之一。
弗吉尼亞大學應用倫理學榮譽教授Deborah Johnson在最近創作的《我們該如何應對“深度偽造”技術》一書中也提到,“深度偽造”技術會嚴重影響官方媒體的公信力和網絡信息的可信度。
“我們將不再相信我在網絡上看到和聽到的一切”。但與此同時,用標簽標記可能是應對這類威脅最簡單快速的方法,“如果觀看視頻的人事先知道它是AI合成的,可能會比較不容易受騙”。[10]
然而,如何在恰當標記合成內容的同時不破壞創作者的意圖?又如何界定相關內容涉及到的性別、年齡、種族等一系列倫理問題?這無疑給內容管理者拋出了一長串難題。
紐卡斯爾大學法學院的Lilian Edwards教授提出,AI合成內容被商用后的所有權和使用權也值得探討。例如,當使用已故演員Steve McQueen的人臉生成視頻作為商業化用途時,他的家人是否能夠擁有視頻的所有權并從中獲利,仍有待商榷。“目前每個國家的相關規定都略有不同”。[11]
即便牽扯到種種錯綜復雜的問題也并不影響一個趨勢即將成為事實:在不遠的未來,“深度偽造”技術將走進千家萬戶,每個人都可以通過AI合成克隆自己的人臉和聲音,并用于短視頻、直播、交互媒體等更廣闊的領域。然而,無限接近于真實,卻依然不是真實,在這宏偉藍圖背后可能暗藏的隱患和還未浮現的新挑戰,仍然有待書寫和填補。
參考鏈接:
[1]https://m.mp.oeeee.com/a/BAAFRD000020220129648488.html
[2]AI-Generated Faces: What Makes a Human a Human?
https://www.shutterstock.com/blog/ai-generated-faces-what-makes-a-human
[3]Fake faces created by AI look more trustworthy than real people
https://www.newscientist.com/article/2308312-fake-faces-created-by-ai-look-more-trustworthy-than-real-people/
[4] Listen to an AI voice actor try and flirt with you
https://www.theverge.com/2022/2/17/22936978/ai-voice-speech-synthesis-audio-deepfake-sonantic-flirtation
[5][7]
EVERYONE WILL BE ABLE TO CLONE THEIR VOICE IN THE FUTURE
https://www.theverge.com/22672123/ai-voice-clone-synthesis-deepfake-applications-vergecast
[6]《深度合成十大趨勢(2022)報告》
https://www.iczhiku.com/hotspotDetail/uvDLklAJE6mJZK6uCmFzRA==
[8]https://www.wsj.com/articles/fraudsters-use-ai-to-mimic-ceos-voice-in-unusual-cybercrime-case-11567157402
[9]The impact of deepfakes: How do you know when a video is real?
https://www.cbsnews.com/news/deepfakes-real-fake-videos-60-minutes-2021-10-10/
[10][11]
https://edition.cnn.com/videos/business/2021/03/02/tom-cruise-tiktok-deepfake-orig.cnn-business
今日互動
你曾經消費過哪些由AI合成的內容?或使用過哪些AI合成應用?你如何看待此類技術的普及化?
本文來自微信公眾號 “全媒派”(ID:quanmeipai),作者:Jinji,36氪經授權發布。
標簽: Deepfake