SIMA 2:新一代虛擬世界 AI 智能體

人工智能中心
·
·
IPFS
·
SIMA 2 是一種先進的通用型具身代理,能在多種 3D 虛擬世界中執行複雜任務。透過結合 Gemini 的推理能力與專門訓練,它能理解自然語言指令、操作遊戲選單,並掌握如資源採集與製作等高階技能。該研究重點在於泛化能力,測試代理是否能將已學行為應用於未曾訓練的新環境,最終目標是彌合語言與行動之間的落差,打造能在開放式模擬中自主學習與解題的持續型 AI。

1. 簡介

SIMA 2(全稱為可擴展、可指導的多世界代理,Scalable Instructable Multiworld Agent 2)是由 Google DeepMind 團隊開發的通用具身代理(Generalist Embodied Agent)。與僅能執行簡單指令的前作 SIMA 1 不同,SIMA 2 能夠在廣泛的 3D 虛擬環境中理解並執行複雜任務,並充當用戶的互動夥伴。

2. 核心架構與訓練

模型基礎: SIMA 2 是基於 Gemini 基礎模型構建的(具體為 Gemini Flash-Lite)。

具身接口: 該代理不依賴遊戲內部的特權信息,而是像人類玩家一樣,透過接收螢幕像素(720p 影片流)鍵盤與滑鼠接口輸出動作。

訓練數據: 訓練過程結合了大規模的人類遊戲行為數據,以及由 Gemini 生成的「橋接數據(Bridge data)」,後者將高層次的對話、內部推理與底層動作聯繫起來,使代理學會如何將意圖轉化為操作。

3. 全新功能與特性

SIMA 2 展示了多項超越前代模型的具身智慧功能:

具身對話(Embodied Dialogue): 代理能與用戶進行雙向對話,例如回答關於環境的問題(「那些蛋形物體是什麼材質?」)、確認指令或主動報告任務進度。

基礎推理能力: 它能處理含糊或新穎的指令。例如,若被要求「前往顏色像成熟番茄的房子」,它能推理出目標是紅色房子並前往。

多模態提示(Multi-modal Prompting): 代理能理解文本以外的輸入,例如用戶繪製的草圖(Sketching)。它能識別草圖中的物體(如一棵樹)並進行相應互動。

多語言理解: 受益於 Gemini 的預訓練能力,即使訓練數據主要是英文,SIMA 2 也能理解中文、法文或德文等多種語言的指令。

4. 性能表現與泛化能力

接近人類水平: 在多款遊戲的測試中,SIMA 2 的成功率幾乎是 SIMA 1 的兩倍,在物體管理和環境互動等類別中已接近人類玩家的水平。

強大的泛化能力: SIMA 2 在其訓練過程中從未見過的環境中(如《ASKA》、《Minecraft》)表現優異。

照片級真實感環境: 它甚至能遷移到由 Genie 3 生成的照片級真實感虛擬環境中進行導航,這證明了從模擬遊戲環境中學習到的能力具有高度的適應性。

5. 自我改進(Self-Improvement)技術

SIMA 2 最顯著的突破之一是具備自主學習新技能的能力。該流程包含:

1. 任務設置者(Task Setter): 利用 Gemini 根據當前環境狀態自動生成目標。

2. 獎勵模型(Reward Model): 利用 Gemini 對代理的執行影片進行評分(0-100 分),判定任務是否成功。 透過這種閉環系統,SIMA 2 能在完全陌生的環境中(如《ASKA》)通過自我生成的經驗數據不斷進化,最終在複雜任務(如建築避難所)上的表現甚至能超越人類參考數據。

6. 結論與展望

SIMA 2 證明了將基礎模型的推理能力與具身控制相結合的可行性。這項工作不僅在虛擬世界中取得了成功,更為未來將具身智慧轉移到**物理世界(如機器人技術)**提供了一條充滿希望的道路。Google DeepMind 表示將繼續以負責任的方式開發此技術,並已提供早期訪問權限給學術界和遊戲開發商進行風險評估與回饋。

7. 類比

如果說傳統的 AI 像是一個博覽群書但從未出過門的學者,那麼 SIMA 2 就像是賦予了這位學者一副身體和雙手,讓他能夠進入各種虛擬遊戲世界,不僅能讀懂你的地圖,還能親手幫你蓋起一座營火。


Paper:

SIMA 2: A Generalist Embodied Agent for Virtual Worlds

Media:

PowerPoint:

CC BY-NC-ND 4.0 授权
已推荐到频道:时事・趋势

喜欢我的作品吗?别忘了给予支持与赞赏,让我知道在创作的路上有你陪伴,一起延续这份热忱!

人工智能中心
  • 选集
  • 来自作者
  • 相关推荐