2D圖像轉3D僅需5秒,特斯拉的自動駕駛技術有救了?
75年前,寶麗來相機拍攝出第一張即時照片,是人類第一次以逼真的二維圖像快速捕捉三維世界,具有劃時代的意義。今天,人工智能的研究人員正在進行相反的工作,力求在幾秒鐘的時間內將靜止圖像的集合變成數字3D場景。
在本周的春季圖形技術大會(GTC)上,Nvidia展示了一種新的逆渲染方法(Instant NeRF)——從少量2D圖像中重建3D場景。逆向渲染使用AI來模擬現實世界里的光線,基于Nvidia Research團隊開發的技術,讓渲染過程極大地縮短,幾乎可以說是立即發生。
事實上,在2D轉3D的相關領域,Nvidia一直在嘗試技術突破,致力于推出更強大的工具來完成這一過程。但即使是Nvidia這樣的行業領先公司,即時渲染3D也是一項極為艱難的技術挑戰。
這更凸顯出Instant NeRF的來之不易。關于這一成就,谷歌科學家Jon Barron在推特上表示:18個月前,訓練NeRF還需要5小時;2個月前,訓練NeRF最快也需要5分鐘;就在近日,基于英偉達的最新技術,訓練NeRF最快也需要5秒!
01InstantNeRF的技術原理
據了解,Nvidia能夠取得這一成績的主要原因是采用了一種被稱作多分辨率哈希編碼(Multiresolution Hash Encoding)的技術。在一篇論文《基于多分辨率哈希編碼的即時神經圖形基元》中,Nvidia對這一新技術做了詳細說明。
Nvidia表示:“計算機圖形基元基本上由有關外觀的各項參數的數學函數表示。參數的數學計算結果對于視覺保真度至關重要。”言下之意是,Nvidia希望在保持速度和數學函數緊湊度的同時,還能捕獲高頻、局部的圖形細節。
為了達到上述要求,Nvidia采用了多分辨率哈希編碼技術。據Nvidia稱,該技術有著自適應性和高效性兩大特性。函數內部只有兩個值需要進行配置,分別為參數的數量T和所需的最佳分辨率N max。
該方法映射了來自各個角度的2D鏡頭的顏色和光線強度,然后生成數據,再結合攝像機位置的相關數據,將這些來自不同位置的圖像連接起來,從而渲染出3D場景。
利用該技術,只需經過幾秒鐘的訓練,便能在各種任務中達到較高的質量。
在GTC會議上,Nvidia展示了一張圖片,圖片上是一個穿著像安迪·沃霍爾(Andy Warhol)的模特拿著一個老式的寶麗來相機。在參與者還沒有反應過來的時候,Nvidia迅速把這張圖片轉換為了3D效果,引起了現場的陣陣驚嘆。
展示之后,Nvidia的Isha Salian在現場表示:Instant NeRF(中文叫神經輻射場)是由加州大學伯克利分校、Google研究院和加州大學圣地亞哥分校的研究人員在2020年開始研發的一項技術。
該模型是使用Nvidia CUDA工具包庫開發的。由于它是一個輕量級的神經網絡,它可以在單個Nvidia GPU上進行訓練和運行,在核心卡上運行最快。
幾年來,研究人員一直在改進這種從2D到3D的技術,旨在為渲染出的成品增加更多畫面細節,并提高渲染速度。Nvidia表示,新一代Instant NeRF模型是迄今為止最快的技術之一,將渲染時間從幾分鐘縮短到“幾乎瞬間”就能完成。
02NeRF的應用范圍
Isha Salian進一步闡釋說,這種方法可以應用于廣泛的領域。它可用于為虛擬世界創建頭像或場景,以3D形式捕獲視頻會議參與者及其環境,甚至重建3D數字地圖的場景。
在上述領域,使用傳統方法創建3D場景可能需要數小時或更長時間,具體取決于可視化的復雜性和分辨率。而NeRF使用神經網絡系統,效率和準確度大幅度提升。
關于這一點,Nvidia圖形研究副總裁David Luebke在一份聲明中點出:“Instant NeRF對3D來說可能與數碼相機對2D一樣重要。因為在2D攝影中,JPEG壓縮一直是關鍵的步驟,它大大提高了3D捕獲和共享的速度、易用性和覆蓋范圍。”
“這項技術可用于訓練機器人和自動駕駛汽車,通過捕捉現實世界物體的二維圖像或視頻片段來了解它們的大小和形狀。它還可以用于建筑和娛樂業,通過快速生成真實環境的數字函數,創作者可以在此基礎上進行修改和構建。”
業內人士表示,NeRF在自動駕駛、航空測量等領域也具有廣泛應用前景。例如創建大范圍的高保真地圖,為機器人定位、導航等應用提供幫助。此外,自動駕駛系統通常需要重新模擬以前遇到的場景來進行安全評估,然而,如果歷史記錄中存在任何的偏差都可能改變車輛的真實軌跡,因此需要沿著路徑進行高保真的視圖渲染,這同樣需要NeRF技術。在自動駕駛中,除了基本的視圖合成,以場景為條件的NeRF還能夠改變環境照明條件,例如相機曝光、天氣或一天中不同的時間,從而進一步提升模擬駕駛場景的仿真度。
除了NeRF之外,Nvidia的研究人員還在探索如何利用這種輸入編碼技術來加速多種人工智能挑戰,包括強化學習、語言翻譯和通用的深度學習算法。
本文來自微信公眾號“Techsoho”(ID:scilabs),作者:徐浩,36氪經授權發布。
標簽: 駕駛技術