目錄

DeepMind 今天發佈了 Genie 2,一個超強的基礎世界模型,可以生成各種 3D 環境,用來訓練和評估具身AI 智能體。Genie 2 是 DeepMind 之前推出的 2D 世界生成模型 Genie 1 的升級版,在 3D 世界生成方面取得了顯著的進步。只需一張提示圖片,就能生成一個可互動的 3D 世界,不管是人還是 AI,都能用鍵盤鼠標在裏面玩耍!像是一個無限可能的“終極沙盒”!
相比李飛飛世界實驗室發佈的圖片生成3D可交互的物理世界的世界模型,個人感覺谷歌的Genie 2要強很多,李飛飛世界模型文章
DeepMind 認為 Genie 2 是解決 Embodied 智能體(具身智能體)訓練難題的關鍵,它提供了一個安全且無限豐富的訓練環境,有助於推動 Embodied AI 和 AGI 的發展
遊戲,AI 進步的“催化劑”:
DeepMind 從創立之初就非常重視遊戲在 AI 研究中的作用,從早期的 Atari 遊戲到 AlphaGo、AlphaStar,再到現在的通用智能體,遊戲一直是 DeepMind 研究的核心。但是,訓練更通用的 Embodied 智能體,一直受限於訓練環境的豐富性和多樣性。現在,Genie 2 的出現,就是要解決這個問題!
Genie 2 有哪些神奇之處?
Genie 2 是一個世界模型,可以模擬虛擬世界,包括各種動作(例如跳躍、游泳等)的後果。它基於大規模視頻數據集訓練,並展現出各種湧現能力,例如物體交互、複雜角色動畫、物理效果等。這些能力並非通過顯式編程實現,而是在大規模訓練中自發湧現的。Genie 2 還擁有其他“超能力”:
1.物體的承受能力和相互作用:Genie 2可以 模擬各種對象交互,例如氣球爆裂、門打開和發射炸藥桶

2.NPCs NPC:Genie 2 對其他智能體甚至與它們的複雜交互進行建模

3.智能響應玩家操作:它能識別角色並正確移動,還能根據玩家採取的不同動作,生成不同的“反事實體驗”,這意味着可以從同一初始幀生成不同的軌跡,這對於訓練智能體非常有價值

4.超強記憶力:即使場景不在視野中,它也能記住,並在再次出現時準確渲染
5.持續生成新內容:它可以不斷生成新的內容,並保持世界的一致性,最長可達一分鐘
6.多樣化的環境:第一人稱視角、等距視角、第三人稱駕駛視角,想怎麼玩就怎麼玩

7.各種物理效果:水、煙、重力、光照、反射,應有盡有

8.真實世界圖像作為提示:Genie 2 的生成能力不僅僅侷限於文字描述(text prompts),還可以通過輸入真實的圖片作為“提示”來生成對應 的虛擬環境。 這種功能擴展了模型的適配能力,讓它可以直接從現實世界的圖像中獲取靈感,創造出動態、逼真的虛擬世界, 例如 模擬風中吹動的草或河流中流動的水

快速原型設計利器
Genie 2 還能快速創建各種交互式體驗原型,方便研究人員快速實驗新的環境,訓練和測試 embodied AI 智能體。藝術家和設計師也可以用它快速創建原型,加速環境設計過程

AI 智能體在 Genie 2 中盡情玩耍
研究人員可以用 Genie 2 創建各種環境,讓 AI 智能體在其中執行任務,評估它們的學習能力。DeepMind 展示了一個名為 SIMA 的智能體,它是 DeepMind 與遊戲開發者合作開發的,它可以在 Genie 2 生成的陌生環境中聽從指令完成任務,這也有助於評估 Genie 2 生成環境的一致性
SIMA 代理旨在通過遵循自然語言指令來完成一系列 3D 遊戲世界中的任務。在這裏,我們使用 Genie 2 生成一個有兩扇門(一扇藍色門和一扇紅色門)的 3D 環境,並向 SIMA 代理提供打開每扇門的指令。在此示例中,SIMA 通過鍵盤和鼠標輸入控制虛擬人物,而 Genie 2 生成遊戲幀

技術
Genie 2 是一個自迴歸的潛在擴散模型,基於大規模視頻數據集訓練。它採用類似大型語言模型的因果掩碼,可以逐幀地自迴歸採樣。DeepMind 還開發了一個蒸餾版本的 Genie 2,可以在實時運行,但輸出質量會有所降低

參考:
https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/