SIMA 2:新一代虛擬世界 AI 智能體
1. 簡介
SIMA 2(全稱為可擴展、可指導的多世界代理,Scalable Instructable Multiworld Agent 2)是由 Google DeepMind 團隊開發的通用具身代理(Generalist Embodied Agent)。與僅能執行簡單指令的前作 SIMA 1 不同,SIMA 2 能夠在廣泛的 3D 虛擬環境中理解並執行複雜任務,並充當用戶的互動夥伴。
2. 核心架構與訓練
• 模型基礎: SIMA 2 是基於 Gemini 基礎模型構建的(具體為 Gemini Flash-Lite)。
• 具身接口: 該代理不依賴遊戲內部的特權信息,而是像人類玩家一樣,透過接收螢幕像素(720p 影片流)鍵盤與滑鼠接口輸出動作。
• 訓練數據: 訓練過程結合了大規模的人類遊戲行為數據,以及由 Gemini 生成的「橋接數據(Bridge data)」,後者將高層次的對話、內部推理與底層動作聯繫起來,使代理學會如何將意圖轉化為操作。
3. 全新功能與特性
SIMA 2 展示了多項超越前代模型的具身智慧功能:
• 具身對話(Embodied Dialogue): 代理能與用戶進行雙向對話,例如回答關於環境的問題(「那些蛋形物體是什麼材質?」)、確認指令或主動報告任務進度。
• 基礎推理能力: 它能處理含糊或新穎的指令。例如,若被要求「前往顏色像成熟番茄的房子」,它能推理出目標是紅色房子並前往。
• 多模態提示(Multi-modal Prompting): 代理能理解文本以外的輸入,例如用戶繪製的草圖(Sketching)。它能識別草圖中的物體(如一棵樹)並進行相應互動。
• 多語言理解: 受益於 Gemini 的預訓練能力,即使訓練數據主要是英文,SIMA 2 也能理解中文、法文或德文等多種語言的指令。
4. 性能表現與泛化能力
• 接近人類水平: 在多款遊戲的測試中,SIMA 2 的成功率幾乎是 SIMA 1 的兩倍,在物體管理和環境互動等類別中已接近人類玩家的水平。
• 強大的泛化能力: SIMA 2 在其訓練過程中從未見過的環境中(如《ASKA》、《Minecraft》)表現優異。
• 照片級真實感環境: 它甚至能遷移到由 Genie 3 生成的照片級真實感虛擬環境中進行導航,這證明了從模擬遊戲環境中學習到的能力具有高度的適應性。
5. 自我改進(Self-Improvement)技術
SIMA 2 最顯著的突破之一是具備自主學習新技能的能力。該流程包含:
1. 任務設置者(Task Setter): 利用 Gemini 根據當前環境狀態自動生成目標。
2. 獎勵模型(Reward Model): 利用 Gemini 對代理的執行影片進行評分(0-100 分),判定任務是否成功。 透過這種閉環系統,SIMA 2 能在完全陌生的環境中(如《ASKA》)通過自我生成的經驗數據不斷進化,最終在複雜任務(如建築避難所)上的表現甚至能超越人類參考數據。
6. 結論與展望
SIMA 2 證明了將基礎模型的推理能力與具身控制相結合的可行性。這項工作不僅在虛擬世界中取得了成功,更為未來將具身智慧轉移到**物理世界(如機器人技術)**提供了一條充滿希望的道路。Google DeepMind 表示將繼續以負責任的方式開發此技術,並已提供早期訪問權限給學術界和遊戲開發商進行風險評估與回饋。
7. 類比
如果說傳統的 AI 像是一個博覽群書但從未出過門的學者,那麼 SIMA 2 就像是賦予了這位學者一副身體和雙手,讓他能夠進入各種虛擬遊戲世界,不僅能讀懂你的地圖,還能親手幫你蓋起一座營火。
Paper:
SIMA 2: A Generalist Embodied Agent for Virtual Worlds
Media:
PowerPoint:
喜欢我的作品吗?别忘了给予支持与赞赏,让我知道在创作的路上有你陪伴,一起延续这份热忱!
