蒙特卡洛樹搜索加冕《指環王》,游戲越復雜,AI越厲害
AI又來征服游戲了,這次的目標是《指環王》!這是一款以團隊協作為中心的經典卡牌游戲。新模型基于蒙特卡洛樹搜索 (MCTS) 算法,游戲難度越高越厲害!
AI再次入侵游戲領域!
與之前的即時策略類、對戰類游戲不同,這次的目標是在國外非常流行的卡牌游戲《指環王》。
說起來,自從AlphaGo橫空出世,擊敗人類最優秀的職業圍棋手之后,AI開始在越來越多戰略游戲中與人類對戰。
機器學習算法和其他計算工具開始變得越來越先進,許多計算機科學家開始通過訓練他們在不同的游戲中與人類競爭來測試他們的能力。
實際上,在過去10年左右的時間里,開發人員已經訓練了許多模型在戰略游戲、棋盤游戲、電腦游戲和紙牌游戲中與人類對戰。其中一些AI取得了顯著成果,擊敗了公認的人類冠軍和游戲專家。
比如,Deepmind的AlphaStar模型就在《星際爭霸2》中超過了99.8%人類玩家水平,達到了最高的宗師級段位。
近日,華沙理工大學的研究人員最近著手開發一種基于蒙特卡洛樹搜索 (MCTS) 算法的技術,可以玩由 Fantasy Flight Games 于 2011 年發布的《指環王》 (LotR) 經典紙牌游戲。
MCTS 算法是一種通用的啟發式決策方法,可以在隨機游戲(playouts)中來優化給定游戲或場景中的搜索解決方案空間。研究人員在 arXiv 的一篇最新論文中介紹了他們的 MCTS 技術。
“我們是《指環王》游戲的粉絲,但我們發現沒有現有AI可以玩這個游戲,”進行這項研究的兩位研究人員 Bartosz Sawicki 和 Konrad Godlewski 表示。“盡管如此,我們還是發現了樹搜索方法在類似的紙牌游戲中的應用,比如萬智牌或《爐石傳說》。”
《指環王》為什么之前沒有AI來嘗試呢?
主要原因是開發這款游戲的AI具有很高的挑戰性。這是一款合作紙牌游戲,游戲策略的解決方案空間巨大,邏輯結構復雜,并且有隨機事件發生的可能性。這些特點使得游戲的規則和策略很難通過計算方法獲得。
“2016 年圍棋人機大戰,是人類玩家有機會和 AI 競爭的最后時刻。”Sawicki 和 Godlewski 解釋說。“我們論文的目標是為《指環王》游戲尋找蒙特卡洛樹搜索的代理。”
與其他著名的紙牌游戲,如《爐石傳說》和萬智牌相比,《指環王》的游戲模式有著很大的不同。事實上,《指環王》的中心策略是團隊合作,而不是與其他玩家競爭。
游戲中的決策過程非常復雜,游戲玩法包括多個階段,其中大部分玩法策略要取決于前一階段的結果。
盡管面臨這些挑戰,Sawicki 和Godlewiski 還是能夠開發出一種可以玩 LotR 的基于 MCTS 的方法。然后,他們在游戲模擬器上進行了一系列測試,評估了他們開發的技術。
“我們的 MCTS 玩家的勝率明顯高于基于規則的人類專家級玩家,”Sawicki 和 Godlewski 說。“此外,我們的方法將領域知識添加到擴展策略和 MCTS 中,進一步提高了模型的整體效率。”
這一成果證明,通過結合不同的人工智能和計算技術,AI模型可以實現復雜和協作式的策略游戲的精通。盡管如此,采用MCTS 來處理這些復雜的游戲也有很大的局限性。
“主要問題是 MCTS 將游戲邏輯與AI 算法相結合,所以在構建游戲樹時必須知道合法的走法,不過,調試具有顯著分支因素的游戲樹是一場噩夢。
在很多情況下,程序可以運行順利,但游戲勝率為零,我們不得不手動檢查整個游戲樹。” Sawicki 和 Godlewski 解釋道。
未來,這項技術可以被《指環王》游戲愛好者與 AI 合作玩游戲。還可以激發其他人工智能工具的開發,這些工具可以玩復雜的、戰略性、多階段的游戲。
另外,這項研究未來還打算探索《指環王》游戲中訓練的深度強化學習 (RL) 代理的潛力和性能。
研究人員表示:“目前的工作重點是使用強化學習來進一步提高 AI 在游戲中的性能。給定一個游戲狀態,神經網絡返回一個由環境(即游戲模擬器)執行的動作。
這很困難,因為不同狀態下動作的數量不同,而策略網絡只能有一個固定的數量輸出。到目前為止,我們的結果很有希望。”
參考鏈接
https://arxiv.org/pdf/2109.12001.pdf
https://techxplore.com/news/2021-10-monte-carlo-tree-algorithms-lord.html
本文來自微信公眾號“新智元”(ID:AI_era),作者:新智元,編輯:David,36氪經授權發布。