91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

李飛飛萬字長文:空間智能是AI的下一個十年

穎脈Imgtec ? 2025-11-19 21:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

原文標題:《From Words to Worlds: Spatial Intelligence is AI’s Next Frontier》

原文鏈接:https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence


1950 年,當計算機不過是自動化算術(shù)和簡單邏輯的代名詞時,艾倫·圖靈提出了一個至今仍有回響的問題:機器能思考嗎?他以非凡的想象力預見到了我們今天所見的景象:智能或許可以被構(gòu)建,而非與生俱來。這一洞見后來啟動了一場被稱為人工智能的不懈科學探索。在我自己從事 AI 工作的第二十五年里,我仍然受到圖靈愿景的啟發(fā)。但我們離目標有多近?答案并不簡單。

今天,大語言模型(Large Language Models,LLMs)等領(lǐng)先的 AI 技術(shù)已經(jīng)開始改變我們獲取和處理抽象知識的方式。然而,它們?nèi)匀皇呛诎抵械奈淖纸橙?;雄辯但缺乏經(jīng)驗,博學但未能落地。空間智能將改變我們創(chuàng)造和交互真實與虛擬世界的方式——革新敘事、創(chuàng)意、機器人技術(shù)、科學發(fā)現(xiàn)等等。這是 AI 的下一個前沿。

自踏入這個領(lǐng)域伊始,對視覺與空間智能的求索,便是我念茲在茲、一路前行的“北極星”。為此,我投入數(shù)年時間構(gòu)建了 ImageNet,這是首個大規(guī)模視覺學習與基準測試數(shù)據(jù)集,它與神經(jīng)網(wǎng)絡(luò)算法、圖形處理器GPUs)等現(xiàn)代計算技術(shù)一道,成為催生現(xiàn)代 AI 誕生的三大關(guān)鍵要素之一。為此,我在斯坦福的學術(shù)實驗室在過去十年間,致力于將計算機視覺與機器人學習相結(jié)合。也正是為此,一年多以前,我與聯(lián)合創(chuàng)始人 Justin Johnson, Christoph Lassner 和 Ben Mildenhall 共同創(chuàng)立了 World Labs,旨在首次將這一可能性完整地變?yōu)楝F(xiàn)實。

在這篇文章中,我將解釋什么是空間智能,為什么它重要,以及我們?nèi)绾螛?gòu)建將解鎖它的世界模型——其影響將重塑創(chuàng)造力、具身智能和人類進步。


空間智能:人類認知的基礎(chǔ)架構(gòu)

AI 從未如此令人興奮。大語言模型等生成式 AI 模型已經(jīng)從研究實驗室走向日常生活,成為數(shù)十億人的創(chuàng)造力、生產(chǎn)力和溝通工具。它們展示了曾被認為不可能的能力,輕松生成連貫的文本、大量代碼、照片級逼真的圖像,甚至短視頻片段。AI 是否會改變世界已不再是問題。以任何合理的標準來衡量,它已經(jīng)改變了。

然而,仍有太多東西超出我們的能力范圍。自主機器人的愿景仍然引人入勝但充滿猜測,遠未成為未來學家們長期承諾的日常設(shè)備。在疾病治療、新材料發(fā)現(xiàn)和粒子物理學等領(lǐng)域大規(guī)模加速研究的夢想在很大程度上仍未實現(xiàn)。而那種能夠真正理解并賦能人類創(chuàng)造者的 AI——無論是幫助學生理解復雜的分子化學概念,協(xié)助建筑師將空間可視化,輔助電影制作人構(gòu)建世界,還是讓任何人尋求完全沉浸式的虛擬體驗——其承諾也仍未兌現(xiàn)。

要了解為什么這些能力仍然難以捉摸,我們需要考察空間智能是如何進化的,以及它如何塑造我們對世界的理解。

視覺一直是人類智能的基石之一,但它的力量源自更為基礎(chǔ)的某種東西。在動物學會筑巢、照料幼崽、用語言溝通或建立文明之前很久,“感知”這一看似孤立的能力——感受到一縷微光,觸到某種紋理——就悄然點燃了一條通往智能的演化之路。

從外部世界獲取信息的這個簡單動作,在感知與生存之間搭起了一座橋梁,隨著時代演進,這座橋愈加堅固、愈加精巧。一層又一層的神經(jīng)元從那座橋梁生長出來,形成解釋世界并協(xié)調(diào)生物體與其環(huán)境之間互動的神經(jīng)系統(tǒng)。因此,許多科學家推測,感知和行動成為驅(qū)動智能進化的核心循環(huán),以及自然界創(chuàng)造我們?nèi)祟愡@一感知、學習、思考和行動的終極化身的基礎(chǔ)。

空間智能在我們與物理世界的互動方式中扮演著核心角色。每一天,我們都依賴它來完成最普通的行為:通過想象保險杠與路緣之間的距離來停車,接住拋過來的鑰匙,在擁擠的人行道上穿行而避免碰撞,或是在睡意朦朧中將咖啡倒入杯中而無需凝視。在更極端的情況下,消防員在煙霧彌漫、結(jié)構(gòu)不穩(wěn)的倒塌建筑中穿行,瞬間判斷穩(wěn)定性和生存可能,并通過手勢、肢體語言和一種沒有語言替代的職業(yè)直覺進行溝通。而孩子們在牙牙學語前的幾年里,通過與環(huán)境的玩?;觼韺W習世界。所有這一切都發(fā)生得直觀且自然——這種流暢性是機器尚未達到的。

空間智能同樣是我們想象力與創(chuàng)造力的基礎(chǔ)。故事講述者在腦海中創(chuàng)造出豐富多樣的世界,并利用從古代洞穴壁畫到現(xiàn)代電影,再到沉浸式視頻游戲等多種視覺媒介,將它們呈現(xiàn)給他人。無論是孩子在沙灘上堆砌沙堡,還是在電腦上玩《我的世界》,這種基于空間的想象力構(gòu)成了真實或虛擬世界中互動體驗的基礎(chǔ)。在許多行業(yè)應(yīng)用中,對物體、場景和動態(tài)互動環(huán)境的模擬,為從工業(yè)設(shè)計到數(shù)字孿生再到機器人訓練等無數(shù)關(guān)鍵業(yè)務(wù)提供了動力。

歷史上,那些真正塑造文明走向的時刻,往往都能看到空間智能的身影。在古希臘,埃拉托斯特尼將影子轉(zhuǎn)化為幾何學——在太陽直射賽因城(Syene)的同一時刻,測量出亞歷山大港 7 度的太陽夾角——從而計算出地球的周長。哈格里夫斯的“珍妮紡紗機”,憑借一項空間布局的巧思,徹底改寫了紡織業(yè)的歷史:將多個紡錘并排排列在同一個框架中,使得一名工人能同時紡織多根紗線,生產(chǎn)效率提升了八倍。

沃森(Watson)和克里克(Crick)則通過親手搭建 3D 分子模型發(fā)現(xiàn)了 DNA 的結(jié)構(gòu),他們不斷操控金屬板和金屬絲,直到堿基對的空間排列“咔噠”一聲完美契合。在每一個案例中,空間智能都推動著文明的進步,科學家和發(fā)明家們必須操控物體、將結(jié)構(gòu)可視化、并對物理空間進行推理——所有這些都無法單憑文字來捕捉。

空間智能是我們認知構(gòu)建的基礎(chǔ)架構(gòu)。無論我們是被動觀察還是主動尋求創(chuàng)造,它都在發(fā)揮作用。它驅(qū)動我們的推理和規(guī)劃,即使是在最抽象的話題上。它對我們互動的方式——無論是言語的還是身體的,與同伴的還是與環(huán)境的——都至關(guān)重要。雖然我們大多數(shù)人平日里并不會像埃拉托斯特尼那樣揭示新的真理,但我們每天都在以同樣的方式思考——通過感官感知一個復雜的世界,然后利用對它在物理、空間維度上如何運作的直觀理解來認識它。遺憾的是,今天的 AI 還不會這樣思考。

過去幾年確實取得了巨大進步。多模態(tài)大語言模型(Multimodal LLMs,MLLMs)除了文本數(shù)據(jù)外,還使用海量多媒體數(shù)據(jù)進行訓練,引入了一些基本的空間意識,今天的 AI 可以分析圖片、回答有關(guān)它們的問題,并生成超逼真的圖像和短視頻。通過傳感器和觸覺技術(shù)的突破,我們最先進的機器人可以開始在高度受限的環(huán)境中操縱物體和工具。

但坦白而言,AI 的空間能力仍遠未達到人類水平。其局限性很快就會顯現(xiàn)。最先進的 MLLM 模型在估計距離、方向和大?。ɑ?在腦海中"通過從新角度重新生成物體來旋轉(zhuǎn)它們)方面的表現(xiàn)很少好于隨機猜測。它們無法導航迷宮、識別捷徑或預測基本物理現(xiàn)象。AI 生成的視頻都很新穎且確實很酷,但往往在幾秒鐘后就失去連貫性。

雖然當前最先進的 AI 在閱讀、寫作、研究和數(shù)據(jù)模式識別方面表現(xiàn)出色,但這些相同的模型在表示或與物理世界互動時存在根本性限制。我們對世界的看法是整體的——不僅僅是我們正在看的東西,還包括一切事物在空間上如何關(guān)聯(lián)、它意味著什么以及為什么重要。通過想象、推理、創(chuàng)造和互動——而非僅僅描述——來理解這一點,正是空間智能的力量。沒有它,AI 就與其試圖理解的物理現(xiàn)實脫節(jié)。它無法有效駕駛我們的汽車、引導我們家中和醫(yī)院中的機器人、實現(xiàn)全新的沉浸式和互動式學習娛樂體驗方式,或加速材料科學和醫(yī)學的發(fā)現(xiàn)。

哲學家維特根斯坦曾寫道:“我的語言的界限意味著我的世界的界限?!蔽也皇钦軐W家。但我至少知道對 AI 而言,不僅僅只有語言??臻g智能代表著語言之外的前沿——連接想象、感知和行動的能力,為機器真正增強人類生活開啟可能性,從醫(yī)療保健到創(chuàng)造力,從科學發(fā)現(xiàn)到日常協(xié)助。


AI 的下一個十年:構(gòu)建真正空間智能的機器

那么,我們該如何構(gòu)建具備空間智能的 AI?要打造出能像埃拉托斯特尼般洞察幾何、如工業(yè)設(shè)計師般精工巧思、似故事家般揮灑想象、同急救員般自如行動的模型,其路徑何在?

構(gòu)建空間智能 AI 需要比大語言模型更雄心勃勃的東西:世界模型,一種新型生成模型,其在理解、推理、生成以及與語義、物理、幾何和動態(tài)復雜的世界(虛擬或真實)交互方面的能力遠超當今 LLMs 的能力范圍。該領(lǐng)域尚處于初期,當前方法從抽象推理模型到視頻生成系統(tǒng)不等。World Labs 于 2024 年初基于這一信念成立:基礎(chǔ)方法仍在建立中,這使之成為下一個十年的決定性挑戰(zhàn)。

在這個新興領(lǐng)域,最重要的是建立指導發(fā)展的原則。對于空間智能,我通過三個基本能力來定義世界模型:

1、生成性:世界模型可以生成具有感知、幾何和物理一致性的世界

解鎖空間理解和推理的世界模型也必須生成自己的模擬世界。它們必須能夠產(chǎn)生無限多樣化的模擬世界,這些世界遵循語義或感知指令——同時保持幾何、物理和動態(tài)一致性——無論是表示真實還是虛擬空間。研究界正在積極探索這些世界在固有幾何結(jié)構(gòu)方面應(yīng)該隱式還是顯式表示。此外,除了強大的潛在表示外,我相信通用世界模型的輸出還必須允許為許多不同用例生成世界的顯式、可觀察狀態(tài)。特別是,其對當前的理解必須與其過去連貫地聯(lián)系;與導致當前狀態(tài)的世界先前狀態(tài)相聯(lián)系。

2、多模態(tài):世界模型在設(shè)計上是多模態(tài)的

正如動物和人類一樣,世界模型應(yīng)該能夠處理多種形式的輸入——在生成式 AI 領(lǐng)域中稱為“提示”(prompts)。給定部分信息——無論是圖像、視頻、深度圖、文本指令、手勢還是動作——世界模型都應(yīng)盡可能完整地預測或生成世界狀態(tài)。這要求以真實視覺的保真度處理視覺輸入,同時以同等的能力解讀語義指令。這使得智能體和人類能夠通過多樣的輸入與模型就世界進行交流,并反過來接收多樣的輸出。

3、交互性:世界模型可以基于輸入動作輸出下一個狀態(tài)

最后,如果動作和/或目標是世界模型提示的一部分,其輸出必須包含世界的下一個狀態(tài),無論是隱式還是顯式表示。當僅給定一個動作(無論有無目標狀態(tài))作為輸入時,世界模型應(yīng)產(chǎn)生一個與世界先前狀態(tài)、預期的目標狀態(tài)(如有),及其語義含義、物理定律和動態(tài)行為相一致的輸出。隨著空間智能世界模型在其推理和生成能力上變得更加強大和穩(wěn)健,可以想象,在給定一個目標的情況下,世界模型本身將能夠不僅預測世界的下一個狀態(tài),還能基于新狀態(tài)預測下一步的行動。

這項挑戰(zhàn)的范圍超越了 AI 以往面臨的任何挑戰(zhàn)。

語言,作為人類認知中一種純粹的生成現(xiàn)象,其規(guī)則相對簡單;而世界的運行規(guī)則要復雜得多。例如,在地球上,引力支配著運動,原子結(jié)構(gòu)決定了光如何產(chǎn)生顏色和亮度,無數(shù)的物理定律約束著每一次互動。即使是最具想象力的世界,也是由遵循定義它們的物理定律和動態(tài)行為的空間物體和智能體組成的。要將所有這些——語義、幾何、動態(tài)和物理——一致地協(xié)調(diào)起來,需要全新的方法。表現(xiàn)一個世界的維度,遠比表現(xiàn)像語言這樣的一維順序信號要復雜得多。

要實現(xiàn)能提供我們?nèi)祟愃碛械哪欠N通用能力的世界模型,需要克服幾個艱巨的技術(shù)障礙。在 World Labs,我們的研究團隊正致力于在實現(xiàn)這一目標的道路上取得根本性的進展。

目前,我們在幾個方向上開展研究。

其一,是為訓練找到一種新的“通用任務(wù)函數(shù)”。將通用任務(wù)函數(shù)定義得像大語言模型中的下一個詞元預測一樣簡單和優(yōu)雅,長期以來一直是世界模型研究的核心目標。在世界模型這里,輸入和輸出空間的復雜性讓這樣的目標函數(shù)變得難以定義。但無論如何,它以及與之對應(yīng)的表征方式,都必須忠實反映幾何與物理定律,尊重世界模型作為“扎根于想象與現(xiàn)實”的表征這一根本屬性。

其二,是大規(guī)模訓練數(shù)據(jù)。訓練世界模型所需的數(shù)據(jù),比文本清洗要復雜得多。好消息是:龐大的數(shù)據(jù)源其實早已存在?;ヂ?lián)網(wǎng)上規(guī)模驚人的圖像和視頻,為我們提供了觸手可及的訓練素材——難點在于,要發(fā)明出能從這些二維的圖像或視頻幀信號(也就是 RGB)中,抽取更深層空間信息的算法。過去十年的研究已經(jīng)表明,在語言模型上,數(shù)據(jù)體量與模型規(guī)模存在清晰的“縮放定律”;對世界模型而言,關(guān)鍵在于構(gòu)建能夠以類似規(guī)模利用現(xiàn)有視覺數(shù)據(jù)的架構(gòu)。除此之外,我也不會低估高質(zhì)量合成數(shù)據(jù)以及深度、觸覺等額外模態(tài)的作用。它們在訓練的關(guān)鍵階段可以補充互聯(lián)網(wǎng)級數(shù)據(jù)。但要走通這條路,前提是更好的傳感器系統(tǒng)、更可靠的信號提取算法,以及強大得多的神經(jīng)模擬方法。

其三,是新的模型架構(gòu)和表征學習。世界模型的研究必然會推動架構(gòu)與學習算法的演進,尤其是在現(xiàn)有 MLLM 和視頻擴散模型范式之外。當前這些主流方法往往把數(shù)據(jù)切成一維或二維的 Token 序列,這會把一些原本簡單的空間任務(wù)變得異常困難——比如在一段短視頻里數(shù)清有幾把不同的椅子,或者記住一個房間一小時之前的樣子。替代性的架構(gòu)也許能幫上忙,比如在 Token 化、上下文建模和記憶機制上,采用具備 3D 或 4D 意識的方法。舉例來說,在 World Labs,我們最近在一個名為 RTFM 的實時生成框架模型上做了一些嘗試,它使用帶空間錨點的“幀”作為一種空間記憶,在保持生成世界持續(xù)性的同時,實現(xiàn)高效的實時生成。

顯然,在通過世界建模徹底釋放空間智能之前,我們?nèi)砸鎸薮蟮奶魬?zhàn)。但這些研究絕不只是理論層面的練習,它們將成為一整個新類別創(chuàng)意和生產(chǎn)力工具的核心引擎。World Labs 內(nèi)部取得的進展讓人鼓舞。最近,我們向一小部分用戶展示了 Marble,一個首創(chuàng)的世界模型:它可以接受多模態(tài)輸入作為提示,生成并維持一致的 3D 環(huán)境,供用戶和講故事的人探索、互動,并在各自的創(chuàng)作流程中進一步搭建。我們正努力盡快把它帶到更廣泛的公眾面前。

Marble 只是我們創(chuàng)建真正空間智能世界模型的第一步。隨著進展加速,研究人員、工程師、用戶和商業(yè)領(lǐng)袖都開始認識到其非凡的潛力。下一代世界模型將使機器在全新水平上實現(xiàn)空間智能——這一成就將解鎖今天的 AI 系統(tǒng)中仍在很大程度上缺失的基本能力。


使用世界模型為人類構(gòu)建更好的世界

驅(qū)動 AI 發(fā)展的動機至關(guān)重要。作為幫助開啟現(xiàn)代 AI 時代的科學家之一,我的動機一直很明確:AI 必須增強人類能力,而非取代它。多年來,我一直致力于使 AI 的開發(fā)、部署和治理與人類需求保持一致。如今技術(shù)烏托邦和末日論的極端敘事比比皆是,但我繼續(xù)持有更務(wù)實的觀點:AI 由人開發(fā)、被人使用、由人治理。它必須始終尊重人的主體性和尊嚴。其魔力在于擴展我們的能力;使我們更具創(chuàng)造力、聯(lián)系更緊密、更有生產(chǎn)力、更充實??臻g智能代表了這一愿景——賦能人類創(chuàng)作者、照護者、科學家和夢想家實現(xiàn)曾經(jīng)不可能的事情。這種信念是我致力于將空間智能作為 AI 下一個偉大前沿的驅(qū)動力。

空間智能的應(yīng)用跨越不同的時間線。創(chuàng)意工具正在涌現(xiàn)——World Labs 的 Marble 已經(jīng)將這些能力交到創(chuàng)作者和講故事者手中。機器人代表著一個雄心勃勃的中期目標,因為我們正在完善感知和行動之間的循環(huán)。最具變革性的科學應(yīng)用將需要更長時間,但承諾對人類繁榮產(chǎn)生深遠影響。

在這些時間軸上,有幾個領(lǐng)域尤其值得期待,它們可能重新定義人類能力。當然,實現(xiàn)這一愿景需要巨大的集體努力,遠遠超出任何一支團隊或一家公司的能力邊界。它需要整個 AI 生態(tài)——研究者、創(chuàng)新者、創(chuàng)業(yè)者、企業(yè)乃至政策制定者——共同參與,朝著一個共享的愿景前進。但這個愿景值得我們投入。我們可以這樣想象未來。


創(chuàng)意:增強講故事和沉浸式體驗

我個人的偶像愛因斯坦曾說過一句我很喜歡的話:“創(chuàng)造力是智能的樂趣。”在文字出現(xiàn)很久之前,人類就開始講故事——把故事畫在洞穴墻壁上,一代代口耳相傳,在共同敘事中塑造文化。故事是我們理解世界、跨越時間與距離建立連接、探索作為人的意義的方式,也是我們在生活與愛中尋找意義的途徑。如今,空間智能有機會以一種不辜負故事重要性的方式,改變我們創(chuàng)造和體驗敘事的方式,并把這種影響從娛樂擴展到教育,從設(shè)計延伸到建造。

World Labs 的 Marble 平臺會把前所未有的空間能力和可控性交到電影制作人、游戲開發(fā)者、建筑師以及各種講故事者手中,讓他們在無需傳統(tǒng) 3D 設(shè)計軟件那些繁瑣開銷的前提下,快速搭建并迭代可自由探索的三維世界。在這一過程中,創(chuàng)作行為本身依舊是鮮活而“人”的;AI 工具做的,只是放大和加速創(chuàng)作者原本就能做到的事情。比如,敘事體驗可以在全新的維度展開。

電影人和游戲設(shè)計師可以借助 Marble 在不同世界之間穿梭,而不再受限于預算或地理條件,探索在傳統(tǒng)制作流程中幾乎不可能試驗的大量場景和視角。隨著不同媒介與娛樂形式之間的邊界被不斷打破,我們正在接近一種全新的交互體驗:藝術(shù)、模擬和游戲彼此融合,任何人——而不僅僅是大工作室——都能創(chuàng)造并棲居于屬于自己的故事世界。隨著從概念和分鏡到完整體驗的過程被極大加速,敘事將不再被束縛在某一種媒介里,創(chuàng)作者可以在多種載體與平臺上構(gòu)建具有共同“底層世界”的作品。

在設(shè)計層面,幾乎所有制造出來的物體或建造出來的空間,都必須先在虛擬 3D 中完成設(shè)計,再落到物理世界。這一流程高度迭代,且在時間和金錢上成本都極高。有了具備空間智能的模型,建筑師可以在投入數(shù)月時間完善方案之前,就快速可視化結(jié)構(gòu),并走進這些尚不存在的空間中“先行體驗”,本質(zhì)上是在講述我們未來如何工作、生活與聚集的故事。工業(yè)設(shè)計師和時裝設(shè)計師,可以即時把想象轉(zhuǎn)化為形態(tài),嘗試物體如何與人體以及空間互動。

在體驗層面,體驗本身是我們這個物種創(chuàng)造意義的最深刻途徑之一。在幾乎整個人類歷史中,我們共享的三維世界只有一個:我們共同生活的這個物理世界。直到最近幾十年,通過游戲和早期虛擬現(xiàn)實,我們才開始隱約窺見共創(chuàng)“另一個世界”的樣子。如今,當空間智能與新的硬件形態(tài)結(jié)合在一起,比如 VR 頭顯、XR 頭顯以及沉浸式顯示設(shè)備,這種體驗被提升到了前所未有的高度。我們正在走向這樣一個未來:走進一個完全構(gòu)筑起來的多維世界,就像打開一本書一樣自然??臻g智能讓“造世界”的能力不再只服務(wù)于擁有專業(yè)制作團隊的大型工作室,而是普惠給個體創(chuàng)作者、教育者,以及任何想要分享自己構(gòu)想的人。


機器人技術(shù):具身智能在行動

從昆蟲到人類,動物理解、導航和操控世界,無不依賴空間智能。機器人也不會例外。自這個領(lǐng)域誕生之初,具備空間意識的機器就一直是人們的夢想,包括我與學生、合作者在斯坦福實驗室做的很多工作。正因如此,我對用 World Labs 正在構(gòu)建的這類模型來實現(xiàn)它們,感到格外興奮。

要讓機器人成熟起來,關(guān)鍵在于找到可擴展的學習路徑,而這背后的前提,是可行的訓練數(shù)據(jù)解法。鑒于機器人必須面對的狀態(tài)空間極其龐大,它們要學會理解、推理、規(guī)劃和交互,許多人推測,真正具備泛化能力的機器人,很可能需要互聯(lián)網(wǎng)數(shù)據(jù)、合成模擬和真實世界中人類示范的結(jié)合。但和語言模型不同,機器人研究今天面臨的最大瓶頸之一,恰恰是訓練數(shù)據(jù)的匱乏。世界模型會在這里發(fā)揮決定性的作用。隨著世界模型在感知精度和計算效率上的提升,它們生成的輸出可以在很大程度上縮小模擬與現(xiàn)實之間的鴻溝,幫助機器人在無數(shù)不同狀態(tài)、交互和環(huán)境的模擬中高效學習。

未來,機器人作為人類的伙伴與協(xié)作者——無論是在實驗臺前輔助科學家,還是在家中陪伴獨居老人——都有可能在勞動力緊缺的領(lǐng)域拓展出一部分“新增勞動力”和生產(chǎn)力。但要做到這一點,機器人必須具備空間智能,能夠感知、推理、規(guī)劃和行動,更重要的是:在這一切的同時,與人類目標和行為保持一種富有同理心的一致。比如,在實驗室里,一個機器人助手可以負責處理儀器,讓科學家把注意力集中到更需要靈巧操作或復雜思考的環(huán)節(jié);在家中,一個機器人可以幫年長者準備晚餐,卻又不剝奪對方在廚房中獲得快樂與自主的空間。真正具備空間智能的世界模型,能夠預測“下一步世界狀態(tài)”,甚至在某些情況下給出與期望相符的下一步動作,這是實現(xiàn)這一目標的關(guān)鍵。

再往遠一點看,機器人的形態(tài)本身也會極大豐富。人形機器人在我們已經(jīng)建成的這個世界里當然有一席之地,但真正釋放創(chuàng)新潛力的,恐怕是一整個形態(tài)的譜系:在體內(nèi)遞送藥物的納米機器人、能穿梭于狹窄空間的軟體機器人、專為深?;蛲馓窄h(huán)境設(shè)計的機器體。不論形態(tài)如何,未來的空間智能模型都必須同時吸納機器人所處環(huán)境的特性,以及它們自身具身感知和運動的限制。但開發(fā)這類機器人面臨的一個關(guān)鍵難題,是在這些形態(tài)各異的具身形式上嚴重缺乏訓練數(shù)據(jù)。世界模型將在生成模擬數(shù)據(jù)、搭建訓練環(huán)境和構(gòu)建評測基準方面發(fā)揮關(guān)鍵作用。


更長遠的視野:科學、醫(yī)療保健和教育

在科學研究中,具備空間智能的系統(tǒng)可以模擬實驗、并行檢驗假設(shè),還可以探索人類難以直接抵達的環(huán)境——從深海到遙遠行星。它們有望改變諸如氣候科學、材料研究等領(lǐng)域的計算建模方式。通過把多維度模擬與真實世界的數(shù)據(jù)采集結(jié)合起來,這類工具可以有效降低算力門檻,擴展每一個實驗室的“可見范圍”。

在醫(yī)療領(lǐng)域,從實驗室到病床,空間智能都將重塑流程。在斯坦福,我與學生、合作者多年來一直與醫(yī)院、養(yǎng)老院以及居家患者合作。這些經(jīng)歷讓我愈發(fā)確信,空間智能在這里有著巨大的變革潛力。AI 可以通過多維建模分子相互作用,加速藥物發(fā)現(xiàn);通過幫助放射科醫(yī)生發(fā)現(xiàn)醫(yī)學影像中的復雜模式,提升診斷能力;通過構(gòu)建“環(huán)境感知”的長期監(jiān)護系統(tǒng),在不替代人際鏈接的前提下,為患者和照護者提供支持,更不用說機器人在各類醫(yī)療場景中為醫(yī)護和病患提供幫助的可能性。

在教育領(lǐng)域,空間智能可以把抽象或復雜的概念變成可感、可操作的對象,構(gòu)建出符合我們大腦和身體學習方式的迭代體驗。在 AI 時代,更快、更高效的學習和再培訓需求,對在校學生和成年人都尤為迫切。學生可以走進“細胞工廠”,在多維空間里觀察分子機器如何運轉(zhuǎn),或以一種“親臨現(xiàn)場”的方式走進歷史事件。教師則獲得了一整套工具,用互動環(huán)境來實現(xiàn)更個性化的教學。從外科醫(yī)生到工程師,各種專業(yè)人士都可以在高度逼真的模擬中反復練習復雜技能,而不會給現(xiàn)實世界帶來風險。

在所有這些領(lǐng)域,潛在的應(yīng)用場景幾乎無窮無盡,但目標卻始終如一:構(gòu)建那種能增強人類專業(yè)能力、加速人類發(fā)現(xiàn)、放大人類關(guān)懷的 AI,而不是取代人類判斷、創(chuàng)造力與共情——這些是作為人的核心所在。


結(jié)論

過去十年見證了 AI 成為全球現(xiàn)象,成為技術(shù)、經(jīng)濟甚至地緣政治的拐點。但作為研究者、教育者和現(xiàn)在的企業(yè)家,圖靈 75 年前那個問題背后的精神仍然最能激勵我。我仍然分享著他的驚奇感。這正是空間智能的挑戰(zhàn)每天給予我的活力。

有史以來第一次,我們準備好構(gòu)建與物理世界如此協(xié)調(diào)的機器,以至于我們可以依靠它們作為我們面臨的最大挑戰(zhàn)中的真正伙伴。無論是加速我們在實驗室理解疾病的方式、革新我們講述故事的方式,還是在我們因疾病、傷害或年齡而最脆弱的時刻支持我們,我們正處于提升我們最關(guān)心的生活方面的技術(shù)的風口浪尖。這是一個更深刻、更豐富、更有力量的生活的愿景。

在自然界在祖先動物身上釋放空間智能的第一縷曙光近五億年后,我們有幸發(fā)現(xiàn)自己處于可能很快賦予機器相同能力的技術(shù)人員這一代中——并且有特權(quán)將這些能力用于世界各地人民的利益。如果沒有空間智能,我們對真正智能機器的夢想將不會完整。

本文轉(zhuǎn)自:超算百科

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 計算機
    +關(guān)注

    關(guān)注

    19

    文章

    7807

    瀏覽量

    93193
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39793

    瀏覽量

    301382
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    571

    瀏覽量

    11310
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    品聲科技十周年,扎根技術(shù)向上生長!擁抱AI時代,迎接AI眼鏡爆發(fā)

    1月17日,品聲AI生態(tài)圈戰(zhàn)略發(fā)布會暨10周慶在深圳舉行。品聲科技CEO陸振感慨公司的十年是奮斗的十年,歷程充滿艱辛與感恩,在堅守中向上
    的頭像 發(fā)表于 01-19 18:04 ?2073次閱讀
    品聲科技<b class='flag-5'>十周年</b>,扎根技術(shù)向上生長!擁抱<b class='flag-5'>AI</b>時代,迎接<b class='flag-5'>AI</b>眼鏡爆發(fā)

    云天勵飛出席GAIR 2025 AI算力新十年專場

    12月13日,GAIR 2025「AI 算力新十年」專場在深圳舉行。作為國內(nèi)前沿技術(shù)與產(chǎn)業(yè)變革的重要風向標,GAIR大會歷經(jīng)七屆積淀,見證并推動了中國 AI 產(chǎn)業(yè)從算法突破、硬件迭代,到商業(yè)落地
    的頭像 發(fā)表于 12-22 09:38 ?417次閱讀

    云知聲受邀出席2025人工智能+大會

    11月15日-17日,以“AI下一個十年:場景驅(qū)動×新質(zhì)引擎”為主題的2025人工智能+大會主論壇在北京中關(guān)村國際創(chuàng)新中心舉辦。
    的頭像 發(fā)表于 11-26 09:19 ?419次閱讀

    華為五大創(chuàng)新開啟非洲移動產(chǎn)業(yè)黃金十年

    、新商業(yè)、新聯(lián)接、新節(jié)能”五大場景化創(chuàng)新,攜手產(chǎn)業(yè)伙伴共同促進網(wǎng)絡(luò)領(lǐng)先、生態(tài)繁榮、服務(wù)普惠,開啟非洲移動產(chǎn)業(yè)下一個黃金十年。
    的頭像 發(fā)表于 11-14 16:23 ?1438次閱讀

    萬字長文AI智能體:17種體架構(gòu)詳細實現(xiàn)

    數(shù)據(jù)科學AI智能體領(lǐng)域發(fā)展迅猛,但許多資源仍然過于抽象和理論化。創(chuàng)建此項目的目的是為開發(fā)者、研究人員和AI愛好者提供條結(jié)構(gòu)化、實用且深入的學習路徑,以掌握構(gòu)建
    的頭像 發(fā)表于 11-07 13:16 ?550次閱讀
    <b class='flag-5'>萬字長文</b><b class='flag-5'>AI</b><b class='flag-5'>智能</b>體:17種體架構(gòu)詳細實現(xiàn)

    高通的AI新程,下一個激蕩三十年

    與中國共赴AI時代之約,高通已備好行囊
    的頭像 發(fā)表于 10-02 11:00 ?3404次閱讀
    高通的<b class='flag-5'>AI</b>新程,<b class='flag-5'>下一個</b>激蕩三<b class='flag-5'>十年</b>

    Redis Sentinel和Cluster模式如何選擇

    在我十年的運維生涯中,見過太多團隊在Redis集群方案選擇上踩坑。有的團隊盲目追求"高大上"的Cluster模式,結(jié)果運維復雜度爆表;有的團隊死守Sentinel不放,最后擴展性成了瓶頸。今天,我想通過這篇萬字長文,把我在生產(chǎn)環(huán)境中積累的經(jīng)驗全部分享給你。
    的頭像 發(fā)表于 09-08 09:31 ?581次閱讀

    科技云報到:西湖大學、智元機器人都選它,存儲成為AI下一個風口

    科技云報到:西湖大學、智元機器人都選它,存儲成為AI下一個風口
    的頭像 發(fā)表于 09-03 11:24 ?687次閱讀

    3萬字長文!深度解析大語言模型LLM原理

    繼續(xù)追本溯源,與騰訊學堂合作撰寫本文,嘗試讓人人都能懂大語言模型的基礎(chǔ)原理。1、大語言模型簡述截止到2025“大模型”般泛指“超大參數(shù)模型”,參數(shù)是指深度神經(jīng)
    的頭像 發(fā)表于 09-02 13:34 ?3453次閱讀
    3<b class='flag-5'>萬字長文</b>!深度解析大語言模型LLM原理

    十年積淀,DPVR AI眼鏡將正式亮相

    表示想要購買AI眼鏡。新的智能設(shè)備時代,正在打開。在這個節(jié)點,深耕XR領(lǐng)域十年的DPVR(大朋VR),將帶來它的首款
    的頭像 發(fā)表于 08-14 11:47 ?1073次閱讀
    <b class='flag-5'>十年</b>積淀,DPVR <b class='flag-5'>AI</b>眼鏡將正式亮相

    機器視覺的下一個十年:三大創(chuàng)新趨勢與產(chǎn)業(yè)突破

    工業(yè)4.0推動機器視覺向3D、國產(chǎn)化、場景體化發(fā)展,提升檢測精度與效率,推動智能制造升級。
    的頭像 發(fā)表于 08-14 09:39 ?1121次閱讀

    AI玩具或成為下一個萬億新賽道

    如果你將擁有家庭新成員,你首先會想到什么?是孩子還是寵物?如果我說你下一個家庭成員,或許是會“察言觀色”的
    的頭像 發(fā)表于 07-29 10:15 ?1102次閱讀

    魯大師2025新能源汽車半年報:理想霸榜,零跑上分

    ;小米強勢歸來,YU7小時大定突破28.9輛,刷新行業(yè)紀錄。而蔚來仍陷爭議漩渦——螢火蟲和樂道,誰能真正點亮它的下一個十年?
    的頭像 發(fā)表于 07-09 10:36 ?469次閱讀
    魯大師2025<b class='flag-5'>年</b>新能源汽車半年報:理想霸榜,零跑上分

    萬字長文】物聯(lián)網(wǎng)的激蕩二十年

    (InternetofThings)”。雖然業(yè)界致認為,1999,麻省理工學院的KevinAshton首次提出”物聯(lián)網(wǎng)”這術(shù)語,但僅僅只是
    的頭像 發(fā)表于 06-27 13:42 ?1600次閱讀
    【<b class='flag-5'>萬字長文</b>】物聯(lián)網(wǎng)的激蕩二<b class='flag-5'>十年</b>

    《零基礎(chǔ)開發(fā)AI Agent——手把手教你用扣子做智能體》

    Agent開發(fā)的核心技能。即使沒有編程基礎(chǔ),也能通過本書輕松上手,設(shè)計出屬于自己的智能體。無論是個人興趣還是企業(yè)應(yīng)用,這本書都能為我打開AI世界的大門,抓住AI技術(shù)的下一個風口,實現(xiàn)從
    發(fā)表于 03-18 12:03