• <fieldset id="82iqi"></fieldset>
    <tfoot id="82iqi"><input id="82iqi"></input></tfoot>
  • 
    <abbr id="82iqi"></abbr><strike id="82iqi"></strike>
  • 扎克伯格:AI技術才是AR和VR的萬物之源

    在去年一連串的轟炸之下,“元宇宙”這個詞終于被“用濫了”。

    當Meta提出全面轉型元宇宙時,就已經騙過了不少人。而當那些追隨者紛紛曬出自己所謂的“元宇宙”產品時,Meta再一次拿技術實力打了它們的臉。

    充分結合了AI技術,將是未來AR/VR發展的重要一環,這一點我們在Quest 2、以及Workrooms等產品上已經看到。包括Quest 2的定位追蹤,手勢識別,桌面和沙發追蹤,鍵盤追蹤等都不離不開AI技術的加入。

    這一次,Meta打算進一步發揮AI的作用,讓AI技術生成你想要的虛擬場景,“你說出來,機器就做出來”,給了一眾BUG多、審美怪的”元宇宙“怪咖當頭一棒。

    不僅如此,這項研究基礎“基于AI的語言和機器翻譯模型”也將被用于更多場景。在今天的AI技術論壇(Inside the Lab)上,Meta向外界展示包括:Builder Bot、基于LASER語言工具包的多語言翻譯模型、語音助理AI模型Project CAIRaoke、成立人工智能學習聯盟,免費在線提供課程。

    同時,Meta熟悉AI科學家楊立昆也分享了打造具備生物級別思考能力的AI模型愿景,通過自主智能架構,讓AI模擬世界的運作方式,接近人類智能水平,簡直不可思議。

    當然,我們在本文中將重點來說一下Builder Bot和多語言翻譯模型。

    1,理想化的三維場景創建模型

    眾所周知,目前的VR設計平臺一個重點就是虛擬場景的豐富性,其中包括頭部VR社交平臺已經允許用戶自定義虛擬場景,這是保持多樣性的重要一步。

    對于大多數而言,在三維場景中(例如佩戴VR條件下)創作并非易事,不僅效率低下,而且難以達到理想的狀態。當然,我們知道很多的虛擬場景基本上也都是在2D屏幕下,通過專業設計師或準專業人士(愛好者等等)來開發的。

    所以,對于Meta這樣的企業也一直在思考,VR和AR中的便捷性如何體現。

    AI或許是最好的方案。就像是如今AI創作畫作一樣,將AI技術延伸到三維場景中,你指出要說出你想要的場景,Builder Bot就能幫你實現。

    從上面的視頻也能看出,扎克伯格的整個演示視頻基本十分流暢,機器能夠聽懂創作者意圖并且給出基本合理的場景,很難挑出其中的瑕疵。

    扎克伯格表示:AI是元宇宙的關鍵技術之一。正如AI、機器學習等技術在其它領域的應用,在虛擬場景中它可以用來幫助我們很好地理解上下文,甚至像人類一樣理解和預測我們想要做什么。這一趨勢,未來會更為明顯。

    2,人工智能學習聯盟

    在介紹翻譯系統之前,我們先來看一下Meta的人工智能學習聯盟。

    扎克伯格舉例表示:目前的AI系統多收到過監督學習訓練,也就是說,如果想讓系統知道這張照片中是一只貓,就需要明確告訴它,并且拿出幾萬張貓的圖片進行標注,讓系統進行監督學習。這些系統有著不錯的效果,尤其是用于圖像和視頻領域,但前提是需要進行大量數據標注的學習過程。

    因為在虛擬的三維場景中,環境復雜多變,就像現實環境一樣,幾乎很難用傳統的數據標記法進行監督式學習,因此也就無法支撐自由、隨意互動的元宇宙生態。

    Meta首席AI科學家楊立昆,也是2018年圖靈獎得主,他認為:“自監督學習”可以提供真正的接近人類思維的AI系統。感興趣的朋友,也建議讀一下楊立昆的《科學之路》這本書。

    自監督學習的優勢在于無需給出數據標注,模型可以從無標注的數據中自我學習,是一種理想的機器學習模型。

    目前Meta已經聯合13所大學組成聯盟,組成了有史以來最大的自我監督學習數據集,目前積累了幾千小時的第一人稱視頻,大家可用于研究在虛擬空間中的任何工作。

    3,多語言翻譯系統

    雖然現在翻譯軟件已經能夠很好的應用到文本中來,YouTube視頻也支持提取英文并進行翻譯,但是在三維場景中存在同樣的問題。

    如同我們日常生活,在虛擬場景中與任何人交流時并不會看到文字或字幕,即便是外國人。因此,常規的翻譯方案并不適用于三維場景。

    扎克伯格表示:目前全球仍有近一半人群無法在互聯網上使用自己的語言,例如在中非和西非地區有幾百萬人的語言在互聯網并不流行,只能訪問英文或其它語言。

    另一個現實是,即便目前最主流的機器學習翻譯模型,也只能通過英語作為中轉語言,即:將A語言翻譯為英文,再將英文翻譯為B語言。

    而這就會給翻譯增加一些噪點和不確定性。為此,Meta推出了開源AI翻譯模型:LASER語言工具包。

    LASER特點是可以將任何句子轉換為其它語言,省去了英文中轉步驟,例如A語言可以直接翻譯為B語言。

    目前,已經支持100多種語言的翻譯,并且進行了1400小時的法語、德語、西班牙語、英語之間確定性的語音對齊。這其中的難點包括:口語到書面語的表達形式不同,尤其是少見的沒有書面習慣的語言。

    為此,Meta也正在開發一套語音到語音翻譯系統,即可以實現:A語言的人說話,B語言的人直接收聽翻譯后的語音。Meta表示:這種方法已經被證明比常規單獨語音識別+機器翻譯的合成模型要更快。

    當然,這類語音到語音的翻譯系統,更是為了今后的AR眼鏡所準備,屆時一套接近人類翻譯水平的實時翻譯眼鏡就。

    除此之外,Meta還公布了CAIRaoke,這是一套專為AR虛擬助手開發的AI對話模型,目的是讓機器人聊天助手更好的理解你的說話內容,可以更好與你對話,在三維場景中互動。

    本文來自微信公眾號“青亭網”(ID:qingtinwang),編輯:hi188,36氪經授權發布。

    標簽: 萬物之源