欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

AI 能造世界了?谷歌 DeepMind 的 Genie 3 分秒生成《死亡擱淺》

我是創(chuàng)始人李巖:很抱歉!給自己產(chǎn)品做個(gè)廣告,點(diǎn)擊進(jìn)來看看。  

不再是一花一世界,而是「一話一世界」。

如果說過去幾年,生成式 AI 的突破讓我們學(xué)會(huì)了和算法對(duì)話,能讓它幫我們寫文章、畫插畫、甚至剪視頻,那么 DeepMind 在這個(gè)今天拋出的 Genie 3,又讓生成式 AI 走進(jìn)了另一個(gè)維度。

8 月 5 日,DeepMind 在 官網(wǎng)公布了 Genie 3,一款被稱作「通用世界模型」的新模型 。

打開 Genie 3,輸入一句 prompt「在一個(gè)暴風(fēng)雨中的中世紀(jì)村莊漫步」,幾秒鐘后,Genie 3 就可以生成一片可以探索、可實(shí)時(shí)交互的 3D 場(chǎng)景,在濕漉漉的村莊,石板路上反射著雷電的光芒,你可以控制視角,在村莊里自由漫步,你走近一間小屋推開門,能看到爐火在風(fēng)中搖曳的光影變化。

更神奇的是,當(dāng)你離開小屋再返回,爐火還在,墻上的涂鴉也沒變,此時(shí)你在指令框中輸入「雨過天晴,屋外有一名騎士騎馬而來?!箮酌腌姾?,你就能再次推門而出,迎接騎士的光臨。

這一刻,你宛若小小世界的造物主,這就是 Genie 3 所呈現(xiàn)的「通用世界模型」的生成能力。而 Genie 3 的強(qiáng)大能力,讓谷歌在激烈的 AI 競(jìng)爭(zhēng)中,又扳回了一分。

01

指尖創(chuàng)造世界

Genie 3 的前身是 2024 年底發(fā)布的 Genie 2,那時(shí)的模型雖然能生成簡(jiǎn)單的 3D 環(huán)境,但場(chǎng)景只能維持 10 到 20 秒,細(xì)節(jié)粗糙且經(jīng)不起考驗(yàn),視角稍一轉(zhuǎn)頭,樹木可能漂浮,角色可能憑空消失,物體位置會(huì)隨機(jī)變化。

短短七個(gè)月,Genie 3 實(shí)現(xiàn)了驚人飛躍。

從 360p 分辨率躍升到了 720p 分辨率、24 幀每秒的畫面輸出, Genie 3 還可以維持連續(xù)數(shù)分鐘的模擬 ,而不是十幾秒的動(dòng)畫片段。

更關(guān)鍵的是,Genie 3 不是像游戲引擎那樣靠硬編碼物理,而是通過模型預(yù)測(cè),保持場(chǎng)景邏輯和物理一致性。簡(jiǎn)單來說,場(chǎng)景里的樹葉會(huì)自然晃動(dòng)而不是亂飛,角色的陰影隨位置移動(dòng),物體在碰撞后也會(huì)給出符合物理規(guī)律的反饋。

通過詳細(xì)地指令,就可以生成宛若《死亡擱淺》一般的場(chǎng)景|圖源:DeepMind

過去,不論是 Sora 這樣的文本轉(zhuǎn)視頻模型,還是早期的 Genie 系列,都難以解決「世界一致性」的難題。

而 Genie 3 則引入了新的視覺記憶機(jī)制,讓每一幀都參考前一幀的狀態(tài),并持續(xù)維護(hù)整個(gè)環(huán)境的布局。這意味著,走過的路不會(huì)在你回頭時(shí)憑空消失,樹木、巖石、建筑會(huì)穩(wěn)定地保持在原地,仿佛真的存在于一個(gè)連續(xù)的空間。

簡(jiǎn)單說,就是模型學(xué)會(huì)了「記住」自己剛才畫過什么。于是,你不再看到那種突兀的跳變,而是看到了連續(xù)、可持續(xù)幾分鐘的世界。

AI 能造世界了?谷歌 DeepMind 的 Genie 3 分秒生成《死亡擱淺》

Genie 3 已經(jīng)能記住生成的物體|圖片來源:Genie 3

DeepMind 在博客中直言,這類世界模型是通用智能的基石,因?yàn)檎嬲闹悄懿粌H需要理解世界,還要能在世界中做決策、采取行動(dòng),而這一切只能在穩(wěn)定的、邏輯一致的環(huán)境里發(fā)生。

這也是為什么 DeepMind 把它稱為「世界模型」而非單純的「視頻生成器」。

AI 能造世界了?谷歌 DeepMind 的 Genie 3 分秒生成《死亡擱淺》

生成場(chǎng)景符合物理規(guī)律|圖片來源:Genie 3

傳統(tǒng)的生成視頻模型,比如 Sora,可以把一段文本描述轉(zhuǎn)換成 30 秒的視頻,但本質(zhì)上仍然是「一段封閉的片段」。你不能改變片段中的世界,更無法與它交互。

而 Genie 3 則在交互性上跨出了一大步。它不僅能生成一個(gè)連續(xù)世界,還能在你探索的過程中動(dòng)態(tài)調(diào)整場(chǎng)景,同時(shí)保證邏輯不崩壞。這既是 Genie 3 的 Promptable World Events,簡(jiǎn)單理解就是「文字即指令,世界實(shí)時(shí)響應(yīng)」。

比如,當(dāng)你輸入「水面出現(xiàn)一輛摩托艇」,Genie 3 不會(huì)重新生成一個(gè)全新的畫面,而是空降一臺(tái)摩托艇滑過河道,在兩側(cè)和身后濺起逼真的水花。

這種即時(shí)可塑性,意味著用戶不僅是觀眾,還是導(dǎo)演。

AI 能造世界了?谷歌 DeepMind 的 Genie 3 分秒生成《死亡擱淺》

同一場(chǎng)景,無限可能|圖片來源:Genie 3

據(jù) DeepMind 透露,Genie 3 在訓(xùn)練時(shí)使用了大量游戲引擎生成的數(shù)據(jù)集,以及視頻預(yù)測(cè)任務(wù),以此讓模型具備「因果感」和「持久性」。更通俗地說,Genie 3 學(xué)會(huì)了兩件事:世界是連續(xù)的,動(dòng)作會(huì)帶來后果。

另一個(gè)細(xì)節(jié)是,Genie 3 支持視角的自由移動(dòng),并能動(dòng)態(tài)重繪不同視角的內(nèi)容。這聽起來容易,但在生成模型里極其困難,需要模型具備強(qiáng)大的 3D 推理能力。這也是為什么 DeepMind 在博客里強(qiáng)調(diào),Genie 3 的目標(biāo)不僅是視頻,而是「基于世界的交互式生成」。

所以 Genie 3 不是「生圖」、「生視頻」,而是生成一段可探索、可編輯的虛擬現(xiàn)實(shí),這就產(chǎn)生了無限的應(yīng)用場(chǎng)景。

02

顛覆創(chuàng)意行業(yè)

只看官方的 demo 演示,都能想象出許多 Genie 3 可應(yīng)用的場(chǎng)景,特別是在創(chuàng)意行業(yè)。

從最初的文字界面,到 2D,再到如今的 3D 和 VR,電子游戲一直是人類探索虛擬空間的先鋒。在 Genie 3 的演示中,這一趨勢(shì)被推向了一個(gè)全新高度:只需一句話,就能即時(shí)生成一個(gè)可探索、可交互的 3D 場(chǎng)景,這對(duì)游戲開發(fā)行業(yè)意味著什么?

在傳統(tǒng)開發(fā)流程中,3D 場(chǎng)景的構(gòu)建是游戲制作中最昂貴、最耗時(shí)的環(huán)節(jié)之一。尤其對(duì)于獨(dú)立開發(fā)者,這往往成為他們不得不妥協(xié)的原因,很多人退而求其次,選擇 2D 像素風(fēng)、手繪、低多邊形等形式,以降低開發(fā)成本。

但 Genie 3 徹底打破了這一限制。以往需要數(shù)周甚至數(shù)月去建模、貼圖、調(diào)光,如今只要寫下幾句話,就能搭建一個(gè)動(dòng)態(tài)可交互的場(chǎng)景。

是不是非常有「面包房模擬器」游戲畫風(fēng)即視感|圖片來源:Genie 3

大型工作室或許仍會(huì)用虛幻引擎或自研引擎構(gòu)建極致畫質(zhì)的 AAA 世界,但對(duì)于資源有限的開發(fā)者而言,Genie 3 恰好填補(bǔ)了那道「成本鴻溝」:它不取代專業(yè)引擎,卻極大降低了場(chǎng)景設(shè)計(jì)的門檻,一家有創(chuàng)意但沒技術(shù)的小團(tuán)隊(duì),可以像拼樂高一樣,用文本拼湊出一整張開放世界地圖。

影視行業(yè)同樣如此,導(dǎo)演和美術(shù)可以在開拍前實(shí)時(shí)預(yù)覽場(chǎng)景風(fēng)格,調(diào)整光影、添加角色,甚至讓演員直接在虛擬空間中走位,實(shí)現(xiàn)「沉浸式分鏡頭」。

教育行業(yè)的想象空間更大,課本中描繪的歷史古跡、地理現(xiàn)象,都可能通過 Genie 3 生成一個(gè)可交互、可探索的場(chǎng)景。

藝術(shù)也產(chǎn)生了新的表達(dá),想象一下我們能「光顧」《魔戒》中的都林之門,也能「進(jìn)入」拉斐爾所繪的《雅典學(xué)院》。

或許當(dāng)每個(gè)人都能有「構(gòu)建虛擬空間」的能力時(shí),扎克伯格心心念念的元宇宙也能得以實(shí)現(xiàn)了。

而 DeepMind 更大的野心,還在對(duì)物理 Agent 的訓(xùn)練上。

03

AI 的「認(rèn)知訓(xùn)練場(chǎng)」

DeepMind 在博客中直言,世界模型的意義在于, 它能為智能體提供一個(gè)「認(rèn)知訓(xùn)練場(chǎng)」,讓 Agent 在虛擬世界中學(xué)習(xí)因果關(guān)系、空間感知和行動(dòng)規(guī)劃,而不是直接在真實(shí)世界中試錯(cuò) 。

舉個(gè)例子,如果你要訓(xùn)練一臺(tái)倉(cāng)儲(chǔ)機(jī)器人,過去的做法是搭建昂貴的物理場(chǎng)景,或依賴傳統(tǒng)游戲引擎模擬。但這些方法都存在局限:前者成本高,后者缺乏多樣性。

但在 Genie 3 里,你有一個(gè)可以無限生成、即時(shí)修改、邏輯連貫的世界,機(jī)器人可以在里面練習(xí)避障、搬運(yùn)、協(xié)作,甚至模擬極端情況,比如訓(xùn)練自動(dòng)駕駛汽車應(yīng)對(duì)行人突然沖出馬路的情況,這類場(chǎng)景在現(xiàn)實(shí)中極難復(fù)現(xiàn),但在 Genie 3 中單靠文本就能創(chuàng)建。

這也是 DeepMind 所說的:Genie 3 有可能將 AI Agent 推到極限,它將迫使 Agents 從自己的經(jīng)驗(yàn)中學(xué)習(xí),類似于人類在現(xiàn)實(shí)世界中學(xué)習(xí)的方式。

不過 Genie 3 并非萬能,它仍在技術(shù)上有明顯限制。

比如目前場(chǎng)景分辨率只有 720p,幀率 24fps,雖然對(duì) AI 生成來說已經(jīng)不易,但距離 4K 高幀率的游戲畫面標(biāo)準(zhǔn)還有差距;其次,Genie 3 生成的場(chǎng)景持久性仍然有限,盡管官方表示能達(dá)數(shù)分鐘,但放出來的演示都控制在了 1 分鐘以內(nèi)。

而場(chǎng)景中的文字渲染仍然糟糕,你很難在它生成的路牌上看到清晰字體,物理一致性也還不夠完美,在出現(xiàn)大批量生物、模擬雪崩等細(xì)節(jié)測(cè)試中,仍會(huì)露出「AI 異常」的破綻。

詭異地鹿群|圖片來源:Genie 3

開放性也是未知數(shù)。DeepMind 表示,Genie 3 目前只在研究和合作項(xiàng)目中使用,尚未面向公眾開放 API,更沒有像 Imagen 或 Gemini 那樣的在線體驗(yàn)入口。

然而回到更大的圖景,Genie 3 不是孤立的巧思,而是 AI 技術(shù)遷移方向的一次標(biāo)志性轉(zhuǎn)折。

從李飛飛所創(chuàng)建的 World Labs、英偉達(dá)推出的 Cosmos 世界基礎(chǔ)模型到現(xiàn)在 DeepMind 放出的 Genie 3,反映了一條清晰的 AI 空間智能技術(shù)的發(fā)展路徑:從 2D 到 3D、再到空間可探索、最終場(chǎng)景物理一致、時(shí)空連貫、交互有變化和因果。

ChatGPT 讓我們意識(shí)到語言可以是操作系統(tǒng),Sora 讓我們看到視頻可以是創(chuàng)作界面,而 Genie 3 則進(jìn)一步,把文字變成「可操作」的空間。

最終,無論是游戲、影視、教育、科研,構(gòu)建虛擬世界將變成一種即時(shí)表達(dá)方式:

一行文字,一段描述,一話一世界。

隨意打賞

提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 99精品欧美一区 | 大陆60老妇xxxxhd | 精品视频一区二区三三区四区 | 国产亚洲女人久久久久久 | 日日夜夜视频 | 狠狠色丁香六月色 | 欧美精品亚洲精品日韩 | 欧美一级毛片免费观看视频 | 波多野结衣三区 | 精品一区中文字幕 | 九九九九热精品视频 | 亚洲香蕉在线观看 | 国产成人一区二区三区视频免费 | 三中文乱码视频 | 日本不卡在线视频 | 日韩欧美亚洲一区 | 免费的黄色小视频 | 五月天激情视频 | 国产精品日韩一区二区三区 | 亚洲国产视频在线观看 | 91久久国产 | 人成午夜免费大片在线观看 | 特级无码a级毛片特黄 | 国产一区二区三区免费在线观看 | 欧美一区二区三区免费视频 | 亚洲男人的天堂久久香蕉网 | 操操色 | 天天做天天爱天天怼 | 一区二区三区免费视频 www | 国产偷国产偷亚洲高清在线 | 伊人久久综合影院 | 一级毛片秋霞特色大片 | 一级毛片真人免费观看 | 亚洲视频中文字幕在线 | www.欧美成人| 人人做人人爽久久久精品 | 久久福利网站 | 四虎影永久在线观看网址 | 欧美videos肥婆hd | 天堂一区 | 久久国产精品99精品国产 |