機器人學(xué)走路很難嗎?英偉達(dá)利用虛擬障礙快速訓(xùn)練
騰訊科技訊10月13日消息,對于人類來說,用腿走路幾乎是本能,可以輕松越過障礙、爬斜坡或樓梯。但對機器人,尤其是像波士頓動力公司的Spot這類四條腿機器人,學(xué)習(xí)如何正確行走卻非常困難。不過,美國芯片巨頭英偉達(dá)正與瑞士蘇黎世聯(lián)邦理工學(xué)院的研究人員聯(lián)手,利用虛擬障礙課程訓(xùn)練名為ANYmals的四足機器人。
4000多個類似狗狗的機器人浩浩蕩蕩地向前行進的場景,即使是在模擬中也會給人帶來隱約的威脅感覺。但這可能會為機器學(xué)習(xí)新技巧指明方向。這個虛擬機器人軍團是由瑞士蘇黎世聯(lián)邦理工學(xué)院和英偉達(dá)的研究人員共同開發(fā)的,他們使用漫游的機器人訓(xùn)練一種算法,然后該算法被用來控制現(xiàn)實世界中機器人的腿。
在模擬中,這些ANYmals機器面臨著重重挑戰(zhàn),比如虛擬景觀中的斜坡、臺階和陡峭山坡。每次機器人成功克服挑戰(zhàn)后,它們會“晉級”挑戰(zhàn)更困難的關(guān)口,進而推動控制算法變得更加復(fù)雜。在訓(xùn)練期間,機器人能夠很容易地掌握上下樓梯的技能,但克服更復(fù)雜的障礙物需要更長時間。應(yīng)對斜坡被證明特別困難,盡管有些虛擬機器人學(xué)會了如何滑下斜坡。
當(dāng)最終的算法被轉(zhuǎn)移到真實版本的ANYmal上時,它能夠在樓梯和街區(qū)之間導(dǎo)航,但在更高的速度下遇到了問題。ANYmal是四條腿的機器人,體型與狗狗大小相當(dāng),頭上有傳感器,還有個可拆卸的機械臂。研究人員將其歸咎于傳感器感知真實世界的方式與模擬相比不夠準(zhǔn)確。
類似的訓(xùn)練可以幫助機器人學(xué)習(xí)各種有用的技能,從分揀包裹、縫紉衣服到收割莊稼等。該項目還反映了模擬和定制計算機芯片對應(yīng)用人工智能(AI)未來發(fā)展的重要性。
加州大學(xué)伯克利分校教授、CoVariant聯(lián)合創(chuàng)始人皮特·阿貝爾(Pieter Abbeel)表示:“從更高的層面上講,快速模擬真的是很棒的事情。”CoVariant是一家利用AI和模擬技術(shù)訓(xùn)練機器人手臂為物流公司挑選和分揀物品的公司。他說,瑞士蘇黎世聯(lián)邦理工學(xué)院和英偉達(dá)的研究人員“獲得了不錯的提速?!?/p>
AI在訓(xùn)練機器人完成真實世界的任務(wù)方面表現(xiàn)出了巨大潛力,這些任務(wù)不容易寫入軟件,或者需要某種形式的適應(yīng)。例如,抓取笨拙、易滑或不熟悉的對象的能力,就不太可能被寫到代碼中。
4000個模擬機器人接受了強化學(xué)習(xí)的訓(xùn)練,這是一種AI方法,靈感來自于對動物如何通過正反饋和負(fù)反饋學(xué)習(xí)的研究。當(dāng)機器人移動它們的腿時,一個算法會判斷這對它們行走能力的影響,并相應(yīng)地調(diào)整控制算法。
這些模擬運行在英偉達(dá)的專用AI芯片上,而不是計算機和服務(wù)器中使用的通用芯片上。因此,研究人員說,他們能夠在不到通常所需時間的百分之一時間內(nèi)訓(xùn)練機器人。
使用專門的芯片也帶來了挑戰(zhàn),因為英偉達(dá)的芯片擅長渲染圖形和運行神經(jīng)網(wǎng)絡(luò)的關(guān)鍵計算,但它們不太適合模擬物理特性,如攀登和滑動。因此,研究人員不得不想出些聰明的軟件變通辦法,英偉達(dá)負(fù)責(zé)模擬技術(shù)的副總裁雷夫·勒巴雷迪安(Rev Lebardian)說:“我們花了很長時間才把事情做好?!?/p>
模擬、AI和專用芯片有可能推進機器人智能提升。英偉達(dá)已經(jīng)開發(fā)了軟件工具,使使用其芯片模擬和控制工業(yè)機器人變得更容易。該公司還在西雅圖建立了一個機器人研究實驗室,同時還銷售用于自動駕駛汽車的芯片和軟件。
開發(fā)3D視頻游戲軟件的Unity Technologies公司,也涉足開發(fā)適合機器人專家使用的軟件。該公司負(fù)責(zé)AI業(yè)務(wù)的高級副總裁丹尼·蘭格(Danny Lange)表示,Unity Technologies注意到有很多研究人員在使用其軟件進行模擬,因此他們讓它更逼真,并與其他機器人軟件兼容。Unity Technologies目前正在與瑞典Algoryx公司合作,該公司正在測試強化學(xué)習(xí)和模擬是否可以訓(xùn)練林業(yè)機器人拾取原木。
強化學(xué)習(xí)已經(jīng)存在了幾十年,但由于其他技術(shù)的進步,最近已經(jīng)產(chǎn)生了許多值得關(guān)注AI里程碑。2015年,強化學(xué)習(xí)被用來訓(xùn)練一臺計算機下圍棋,最近它已投入實際應(yīng)用,執(zhí)行包括需要經(jīng)驗和判斷力的芯片設(shè)計自動化工作。問題是,這種學(xué)習(xí)方式需要大量的時間和數(shù)據(jù)支持。
例如,Open AI公司花了14天多的時間,通過強化學(xué)習(xí),在多個CPU同時運行的情況下,訓(xùn)練一只機械手以粗糙的方式操作魔方。每次機器人接受再培訓(xùn)都要等待兩周,這可能會打消企業(yè)使用機器人的積極性。早期用強化學(xué)習(xí)訓(xùn)練機器人的努力將這個過程分散到幾個現(xiàn)實世界的機器人上,物理模擬的改進使在虛擬環(huán)境中加速學(xué)習(xí)成為可能。
麻省理工學(xué)院的學(xué)生安德魯·斯皮爾伯格(Andrew Spielberg)說,這項新工作“對終端用戶來說非常令人興奮”,他曾使用類似的模擬方法為機器人提供新的物理設(shè)計。他指出,谷歌的一個研究小組已經(jīng)做了相關(guān)工作,通過將機器人拆分并在該公司定制的張量處理單元芯片上運行,加快了機器人的學(xué)習(xí)速度。
塔利·福特(Tully Foote)在開放機器人基金會(Open Robotics Foundation)管理著廣泛使用的開源機器人操作系統(tǒng)。他說,模擬對商業(yè)用戶來說越來越重要,“在部署到硬件之前,在現(xiàn)實場景中驗證軟件可以節(jié)省大量的時間和金錢”。它可以比實時運行得更快,永遠(yuǎn)不會損壞機器人。如果出現(xiàn)錯誤,它可以立即自動重置。
但福特補充說,將機器人學(xué)習(xí)轉(zhuǎn)移到現(xiàn)實世界中要具有更大的挑戰(zhàn)性。他說:“現(xiàn)實世界中的不確定性要多得多,污垢、光線、天氣、硬件不均勻以及磨損等,這些都需要追蹤?!?/p>
英偉達(dá)副總裁勒巴雷迪安表示,用于訓(xùn)練行走機器人的那種模擬最終可能也會影響到相關(guān)算法的設(shè)計。他說:“虛擬世界幾乎對一切都有價值,但其中最重要的一項肯定是為我們想要創(chuàng)造的AI構(gòu)建游樂場或訓(xùn)練場?!?(騰訊科技審校/金鹿)
本文來自“騰訊科技”,審校:金鹿,36氪經(jīng)授權(quán)發(fā)布。