AI 能造世界了？谷歌 DeepMind 的 Genie 3 分秒生成《死亡擱淺》

極客公園 ? 1天前掃碼分享

我是創(chuàng)始人李巖：很抱歉！給自己產(chǎn)品做個(gè)廣告，點(diǎn)擊進(jìn)來看看。

不再是一花一世界，而是「一話一世界」。

如果說過去幾年，生成式 AI 的突破讓我們學(xué)會(huì)了和算法對(duì)話，能讓它幫我們寫文章、畫插畫、甚至剪視頻，那么 DeepMind 在這個(gè)今天拋出的 Genie 3，又讓生成式 AI 走進(jìn)了另一個(gè)維度。

8 月 5 日，DeepMind 在官網(wǎng)公布了 Genie 3，一款被稱作「通用世界模型」的新模型。

打開 Genie 3，輸入一句 prompt「在一個(gè)暴風(fēng)雨中的中世紀(jì)村莊漫步」，幾秒鐘后，Genie 3 就可以生成一片可以探索、可實(shí)時(shí)交互的 3D 場(chǎng)景，在濕漉漉的村莊，石板路上反射著雷電的光芒，你可以控制視角，在村莊里自由漫步，你走近一間小屋推開門，能看到爐火在風(fēng)中搖曳的光影變化。

更神奇的是，當(dāng)你離開小屋再返回，爐火還在，墻上的涂鴉也沒變，此時(shí)你在指令框中輸入「雨過天晴，屋外有一名騎士騎馬而來?！箮酌腌姾?，你就能再次推門而出，迎接騎士的光臨。

這一刻，你宛若小小世界的造物主，這就是 Genie 3 所呈現(xiàn)的「通用世界模型」的生成能力。而 Genie 3 的強(qiáng)大能力，讓谷歌在激烈的 AI 競(jìng)爭(zhēng)中，又扳回了一分。

01

指尖創(chuàng)造世界

Genie 3 的前身是 2024 年底發(fā)布的 Genie 2，那時(shí)的模型雖然能生成簡(jiǎn)單的 3D 環(huán)境，但場(chǎng)景只能維持 10 到 20 秒，細(xì)節(jié)粗糙且經(jīng)不起考驗(yàn)，視角稍一轉(zhuǎn)頭，樹木可能漂浮，角色可能憑空消失，物體位置會(huì)隨機(jī)變化。

短短七個(gè)月，Genie 3 實(shí)現(xiàn)了驚人飛躍。

從 360p 分辨率躍升到了 720p 分辨率、24 幀每秒的畫面輸出， Genie 3 還可以維持連續(xù)數(shù)分鐘的模擬，而不是十幾秒的動(dòng)畫片段。

更關(guān)鍵的是，Genie 3 不是像游戲引擎那樣靠硬編碼物理，而是通過模型預(yù)測(cè)，保持場(chǎng)景邏輯和物理一致性。簡(jiǎn)單來說，場(chǎng)景里的樹葉會(huì)自然晃動(dòng)而不是亂飛，角色的陰影隨位置移動(dòng)，物體在碰撞后也會(huì)給出符合物理規(guī)律的反饋。

通過詳細(xì)地指令，就可以生成宛若《死亡擱淺》一般的場(chǎng)景｜圖源：DeepMind

過去，不論是 Sora 這樣的文本轉(zhuǎn)視頻模型，還是早期的 Genie 系列，都難以解決「世界一致性」的難題。

而 Genie 3 則引入了新的視覺記憶機(jī)制，讓每一幀都參考前一幀的狀態(tài)，并持續(xù)維護(hù)整個(gè)環(huán)境的布局。這意味著，走過的路不會(huì)在你回頭時(shí)憑空消失，樹木、巖石、建筑會(huì)穩(wěn)定地保持在原地，仿佛真的存在于一個(gè)連續(xù)的空間。

簡(jiǎn)單說，就是模型學(xué)會(huì)了「記住」自己剛才畫過什么。于是，你不再看到那種突兀的跳變，而是看到了連續(xù)、可持續(xù)幾分鐘的世界。

AI 能造世界了？谷歌 DeepMind 的 Genie 3 分秒生成《死亡擱淺》

Genie 3 已經(jīng)能記住生成的物體｜圖片來源：Genie 3

DeepMind 在博客中直言，這類世界模型是通用智能的基石，因?yàn)檎嬲闹悄懿粌H需要理解世界，還要能在世界中做決策、采取行動(dòng)，而這一切只能在穩(wěn)定的、邏輯一致的環(huán)境里發(fā)生。

這也是為什么 DeepMind 把它稱為「世界模型」而非單純的「視頻生成器」。

AI 能造世界了？谷歌 DeepMind 的 Genie 3 分秒生成《死亡擱淺》

生成場(chǎng)景符合物理規(guī)律｜圖片來源：Genie 3

傳統(tǒng)的生成視頻模型，比如 Sora，可以把一段文本描述轉(zhuǎn)換成 30 秒的視頻，但本質(zhì)上仍然是「一段封閉的片段」。你不能改變片段中的世界，更無法與它交互。

而 Genie 3 則在交互性上跨出了一大步。它不僅能生成一個(gè)連續(xù)世界，還能在你探索的過程中動(dòng)態(tài)調(diào)整場(chǎng)景，同時(shí)保證邏輯不崩壞。這既是 Genie 3 的 Promptable World Events，簡(jiǎn)單理解就是「文字即指令，世界實(shí)時(shí)響應(yīng)」。

比如，當(dāng)你輸入「水面出現(xiàn)一輛摩托艇」，Genie 3 不會(huì)重新生成一個(gè)全新的畫面，而是空降一臺(tái)摩托艇滑過河道，在兩側(cè)和身后濺起逼真的水花。

這種即時(shí)可塑性，意味著用戶不僅是觀眾，還是導(dǎo)演。

AI 能造世界了？谷歌 DeepMind 的 Genie 3 分秒生成《死亡擱淺》

同一場(chǎng)景，無限可能｜圖片來源：Genie 3

據(jù) DeepMind 透露，Genie 3 在訓(xùn)練時(shí)使用了大量游戲引擎生成的數(shù)據(jù)集，以及視頻預(yù)測(cè)任務(wù)，以此讓模型具備「因果感」和「持久性」。更通俗地說，Genie 3 學(xué)會(huì)了兩件事：世界是連續(xù)的，動(dòng)作會(huì)帶來后果。

另一個(gè)細(xì)節(jié)是，Genie 3 支持視角的自由移動(dòng)，并能動(dòng)態(tài)重繪不同視角的內(nèi)容。這聽起來容易，但在生成模型里極其困難，需要模型具備強(qiáng)大的 3D 推理能力。這也是為什么 DeepMind 在博客里強(qiáng)調(diào)，Genie 3 的目標(biāo)不僅是視頻，而是「基于世界的交互式生成」。

所以 Genie 3 不是「生圖」、「生視頻」，而是生成一段可探索、可編輯的虛擬現(xiàn)實(shí)，這就產(chǎn)生了無限的應(yīng)用場(chǎng)景。

02

顛覆創(chuàng)意行業(yè)

只看官方的 demo 演示，都能想象出許多 Genie 3 可應(yīng)用的場(chǎng)景，特別是在創(chuàng)意行業(yè)。

從最初的文字界面，到 2D，再到如今的 3D 和 VR，電子游戲一直是人類探索虛擬空間的先鋒。在 Genie 3 的演示中，這一趨勢(shì)被推向了一個(gè)全新高度：只需一句話，就能即時(shí)生成一個(gè)可探索、可交互的 3D 場(chǎng)景，這對(duì)游戲開發(fā)行業(yè)意味著什么？

在傳統(tǒng)開發(fā)流程中，3D 場(chǎng)景的構(gòu)建是游戲制作中最昂貴、最耗時(shí)的環(huán)節(jié)之一。尤其對(duì)于獨(dú)立開發(fā)者，這往往成為他們不得不妥協(xié)的原因，很多人退而求其次，選擇 2D 像素風(fēng)、手繪、低多邊形等形式，以降低開發(fā)成本。

但 Genie 3 徹底打破了這一限制。以往需要數(shù)周甚至數(shù)月去建模、貼圖、調(diào)光，如今只要寫下幾句話，就能搭建一個(gè)動(dòng)態(tài)可交互的場(chǎng)景。

是不是非常有「面包房模擬器」游戲畫風(fēng)即視感｜圖片來源：Genie 3

大型工作室或許仍會(huì)用虛幻引擎或自研引擎構(gòu)建極致畫質(zhì)的 AAA 世界，但對(duì)于資源有限的開發(fā)者而言，Genie 3 恰好填補(bǔ)了那道「成本鴻溝」：它不取代專業(yè)引擎，卻極大降低了場(chǎng)景設(shè)計(jì)的門檻，一家有創(chuàng)意但沒技術(shù)的小團(tuán)隊(duì)，可以像拼樂高一樣，用文本拼湊出一整張開放世界地圖。

影視行業(yè)同樣如此，導(dǎo)演和美術(shù)可以在開拍前實(shí)時(shí)預(yù)覽場(chǎng)景風(fēng)格，調(diào)整光影、添加角色，甚至讓演員直接在虛擬空間中走位，實(shí)現(xiàn)「沉浸式分鏡頭」。

教育行業(yè)的想象空間更大，課本中描繪的歷史古跡、地理現(xiàn)象，都可能通過 Genie 3 生成一個(gè)可交互、可探索的場(chǎng)景。

藝術(shù)也產(chǎn)生了新的表達(dá)，想象一下我們能「光顧」《魔戒》中的都林之門，也能「進(jìn)入」拉斐爾所繪的《雅典學(xué)院》。

或許當(dāng)每個(gè)人都能有「構(gòu)建虛擬空間」的能力時(shí)，扎克伯格心心念念的元宇宙也能得以實(shí)現(xiàn)了。

而 DeepMind 更大的野心，還在對(duì)物理 Agent 的訓(xùn)練上。

03

AI 的「認(rèn)知訓(xùn)練場(chǎng)」

DeepMind 在博客中直言，世界模型的意義在于，它能為智能體提供一個(gè)「認(rèn)知訓(xùn)練場(chǎng)」，讓 Agent 在虛擬世界中學(xué)習(xí)因果關(guān)系、空間感知和行動(dòng)規(guī)劃，而不是直接在真實(shí)世界中試錯(cuò) 。

舉個(gè)例子，如果你要訓(xùn)練一臺(tái)倉(cāng)儲(chǔ)機(jī)器人，過去的做法是搭建昂貴的物理場(chǎng)景，或依賴傳統(tǒng)游戲引擎模擬。但這些方法都存在局限：前者成本高，后者缺乏多樣性。

但在 Genie 3 里，你有一個(gè)可以無限生成、即時(shí)修改、邏輯連貫的世界，機(jī)器人可以在里面練習(xí)避障、搬運(yùn)、協(xié)作，甚至模擬極端情況，比如訓(xùn)練自動(dòng)駕駛汽車應(yīng)對(duì)行人突然沖出馬路的情況，這類場(chǎng)景在現(xiàn)實(shí)中極難復(fù)現(xiàn)，但在 Genie 3 中單靠文本就能創(chuàng)建。

這也是 DeepMind 所說的：Genie 3 有可能將 AI Agent 推到極限，它將迫使 Agents 從自己的經(jīng)驗(yàn)中學(xué)習(xí)，類似于人類在現(xiàn)實(shí)世界中學(xué)習(xí)的方式。

不過 Genie 3 并非萬能，它仍在技術(shù)上有明顯限制。

比如目前場(chǎng)景分辨率只有 720p，幀率 24fps，雖然對(duì) AI 生成來說已經(jīng)不易，但距離 4K 高幀率的游戲畫面標(biāo)準(zhǔn)還有差距；其次，Genie 3 生成的場(chǎng)景持久性仍然有限，盡管官方表示能達(dá)數(shù)分鐘，但放出來的演示都控制在了 1 分鐘以內(nèi)。

而場(chǎng)景中的文字渲染仍然糟糕，你很難在它生成的路牌上看到清晰字體，物理一致性也還不夠完美，在出現(xiàn)大批量生物、模擬雪崩等細(xì)節(jié)測(cè)試中，仍會(huì)露出「AI 異常」的破綻。

詭異地鹿群｜圖片來源：Genie 3

開放性也是未知數(shù)。DeepMind 表示，Genie 3 目前只在研究和合作項(xiàng)目中使用，尚未面向公眾開放 API，更沒有像 Imagen 或 Gemini 那樣的在線體驗(yàn)入口。

然而回到更大的圖景，Genie 3 不是孤立的巧思，而是 AI 技術(shù)遷移方向的一次標(biāo)志性轉(zhuǎn)折。

從李飛飛所創(chuàng)建的 World Labs、英偉達(dá)推出的 Cosmos 世界基礎(chǔ)模型到現(xiàn)在 DeepMind 放出的 Genie 3，反映了一條清晰的 AI 空間智能技術(shù)的發(fā)展路徑：從 2D 到 3D、再到空間可探索、最終場(chǎng)景物理一致、時(shí)空連貫、交互有變化和因果。

ChatGPT 讓我們意識(shí)到語言可以是操作系統(tǒng)，Sora 讓我們看到視頻可以是創(chuàng)作界面，而 Genie 3 則進(jìn)一步，把文字變成「可操作」的空間。

最終，無論是游戲、影視、教育、科研，構(gòu)建虛擬世界將變成一種即時(shí)表達(dá)方式：

一行文字，一段描述，一話一世界。

欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

AI 能造世界了？谷歌 DeepMind 的 Genie 3 分秒生成《死亡擱淺》

01

02

03

隨意打賞

谷歌AI編程助手Jules正式上線

谷歌DeepMind宣布推出新一代世界模型Genie 3

Hitachi Vantara宣布Virtual Storage Platform One登陸Google Cloud Marketplace，進(jìn)一步強(qiáng)化混合云

理想汽車CEO李想：從沒說過「臭搞技術(shù)的」這五個(gè)字；周鴻祎談AI大戰(zhàn)：蘋果徹頭徹尾敗了，谷歌被蠶食；小米AI眼鏡由雷軍親自拍板

“5G核心網(wǎng)絡(luò)即服務(wù)”時(shí)代來臨：愛立信攜手谷歌云共譜AI新篇章

OpenAI表示將采用谷歌云服務(wù)支持ChatGPT

谷歌未來兩年將在美投資250 億美元，用于 AI 數(shù)據(jù)中心建設(shè)

挑戰(zhàn)谷歌Chrome！OpenAI據(jù)稱擬發(fā)布AI瀏覽器，用戶數(shù)據(jù)大戰(zhàn)即將打響

谷歌Gemini 待發(fā)布新技能曝光：AI 幫你生成插畫故事書

AI 能造世界了？谷歌 DeepMind 的 Genie 3 分秒生成《死亡擱淺》

01

02

03

AI 能造世界了？谷歌 DeepMind 的 Genie 3 分秒生成《死亡擱淺》