蒙特卡洛樹搜索加冕《指環(huán)王》,游戲越復(fù)雜,AI越厲害
AI又來征服游戲了,這次的目標(biāo)是《指環(huán)王》!這是一款以團隊協(xié)作為中心的經(jīng)典卡牌游戲。新模型基于蒙特卡洛樹搜索 (MCTS) 算法,游戲難度越高越厲害!
AI再次入侵游戲領(lǐng)域!
與之前的即時策略類、對戰(zhàn)類游戲不同,這次的目標(biāo)是在國外非常流行的卡牌游戲《指環(huán)王》。
說起來,自從AlphaGo橫空出世,擊敗人類最優(yōu)秀的職業(yè)圍棋手之后,AI開始在越來越多戰(zhàn)略游戲中與人類對戰(zhàn)。
機器學(xué)習(xí)算法和其他計算工具開始變得越來越先進,許多計算機科學(xué)家開始通過訓(xùn)練他們在不同的游戲中與人類競爭來測試他們的能力。
實際上,在過去10年左右的時間里,開發(fā)人員已經(jīng)訓(xùn)練了許多模型在戰(zhàn)略游戲、棋盤游戲、電腦游戲和紙牌游戲中與人類對戰(zhàn)。其中一些AI取得了顯著成果,擊敗了公認的人類冠軍和游戲?qū)<摇?nbsp;
比如,Deepmind的AlphaStar模型就在《星際爭霸2》中超過了99.8%人類玩家水平,達到了最高的宗師級段位。
近日,華沙理工大學(xué)的研究人員最近著手開發(fā)一種基于蒙特卡洛樹搜索 (MCTS) 算法的技術(shù),可以玩由 Fantasy Flight Games 于 2011 年發(fā)布的《指環(huán)王》 (LotR) 經(jīng)典紙牌游戲。
MCTS 算法是一種通用的啟發(fā)式?jīng)Q策方法,可以在隨機游戲(playouts)中來優(yōu)化給定游戲或場景中的搜索解決方案空間。研究人員在 arXiv 的一篇最新論文中介紹了他們的 MCTS 技術(shù)。
“我們是《指環(huán)王》游戲的粉絲,但我們發(fā)現(xiàn)沒有現(xiàn)有AI可以玩這個游戲,”進行這項研究的兩位研究人員 Bartosz Sawicki 和 Konrad Godlewski 表示。“盡管如此,我們還是發(fā)現(xiàn)了樹搜索方法在類似的紙牌游戲中的應(yīng)用,比如萬智牌或《爐石傳說》。”
《指環(huán)王》為什么之前沒有AI來嘗試呢?
主要原因是開發(fā)這款游戲的AI具有很高的挑戰(zhàn)性。這是一款合作紙牌游戲,游戲策略的解決方案空間巨大,邏輯結(jié)構(gòu)復(fù)雜,并且有隨機事件發(fā)生的可能性。這些特點使得游戲的規(guī)則和策略很難通過計算方法獲得。
“2016 年圍棋人機大戰(zhàn),是人類玩家有機會和 AI 競爭的最后時刻。”Sawicki 和 Godlewski 解釋說。“我們論文的目標(biāo)是為《指環(huán)王》游戲?qū)ふ颐商乜鍢渌阉鞯拇怼!?nbsp;
與其他著名的紙牌游戲,如《爐石傳說》和萬智牌相比,《指環(huán)王》的游戲模式有著很大的不同。事實上,《指環(huán)王》的中心策略是團隊合作,而不是與其他玩家競爭。
游戲中的決策過程非常復(fù)雜,游戲玩法包括多個階段,其中大部分玩法策略要取決于前一階段的結(jié)果。
盡管面臨這些挑戰(zhàn),Sawicki 和Godlewiski 還是能夠開發(fā)出一種可以玩 LotR 的基于 MCTS 的方法。然后,他們在游戲模擬器上進行了一系列測試,評估了他們開發(fā)的技術(shù)。
“我們的 MCTS 玩家的勝率明顯高于基于規(guī)則的人類專家級玩家,”Sawicki 和 Godlewski 說。“此外,我們的方法將領(lǐng)域知識添加到擴展策略和 MCTS 中,進一步提高了模型的整體效率。”
這一成果證明,通過結(jié)合不同的人工智能和計算技術(shù),AI模型可以實現(xiàn)復(fù)雜和協(xié)作式的策略游戲的精通。盡管如此,采用MCTS 來處理這些復(fù)雜的游戲也有很大的局限性。
“主要問題是 MCTS 將游戲邏輯與AI 算法相結(jié)合,所以在構(gòu)建游戲樹時必須知道合法的走法,不過,調(diào)試具有顯著分支因素的游戲樹是一場噩夢。
在很多情況下,程序可以運行順利,但游戲勝率為零,我們不得不手動檢查整個游戲樹。” Sawicki 和 Godlewski 解釋道。
未來,這項技術(shù)可以被《指環(huán)王》游戲愛好者與 AI 合作玩游戲。還可以激發(fā)其他人工智能工具的開發(fā),這些工具可以玩復(fù)雜的、戰(zhàn)略性、多階段的游戲。
另外,這項研究未來還打算探索《指環(huán)王》游戲中訓(xùn)練的深度強化學(xué)習(xí) (RL) 代理的潛力和性能。
研究人員表示:“目前的工作重點是使用強化學(xué)習(xí)來進一步提高 AI 在游戲中的性能。給定一個游戲狀態(tài),神經(jīng)網(wǎng)絡(luò)返回一個由環(huán)境(即游戲模擬器)執(zhí)行的動作。
這很困難,因為不同狀態(tài)下動作的數(shù)量不同,而策略網(wǎng)絡(luò)只能有一個固定的數(shù)量輸出。到目前為止,我們的結(jié)果很有希望。”
參考鏈接
https://arxiv.org/pdf/2109.12001.pdf
https://techxplore.com/news/2021-10-monte-carlo-tree-algorithms-lord.html
本文來自微信公眾號“新智元”(ID:AI_era),作者:新智元,編輯:David,36氪經(jīng)授權(quán)發(fā)布。