
就在全球為「養龍蝦」帶起的 AI 代理( AI Agent )旋風瘋狂不已的當下,另一股名為「世界模型」( World Model )的新興 AI 技術正悄悄地以厚積薄發之勢,為今後的物理 AI/具身 AI 與機器人應用做好更理解真實世界的打底準備。
編譯/酷魯
如今,世界模型已然成為另一股全球風潮,凡是看好未來 AI 發展的一流企業莫不積極開發自家的世界模型,包括 Nvidia Cosmos、Google Genie、Meta V-JEPA 2、微軟 Muse/WHAM、Verses AI AXIOM、騰訊混元 3D ( HY-World 2.0 )及阿里巴巴 HappyOyster 等等。
全球最受尊崇的 AI 先驅,包括擁有「AI 教母」名號的知名電腦科學家李飛飛與前 Meta 首席 AI 科學家楊立昆( Yann LeCun )也看好這樣的趨勢,不約而同的成立專門開發世界模型的新創公司。
LLM 底層技術在於 Transformer,物理 AI 底層技術在於世界模型
由 GenAI 所引領的劃時代變革,極大程度上是由大型語言模型( LLM )所推動,這些模型本身又依賴一種稱之為 Transformer 的底層技術。GenAI 擅長透過分析文字模式來生成內容,在提示的驅動下一次生成一個單位,並逐步產出新的內容。
至於世界模型採取了截然不同的思路,其並非試圖將輸入理解為一系列小型子組件,而是經由對物理世界裡事物如何運作的內部訓練,而更具概念性地看待輸入。在世界模型中,AI 在一個能從中探索輸入與輸出的模擬環境中持續學習,並學習能反映出該環境規則的各種模式。換言之,它不僅能理解輸入,還能推演各種「因果」情境。值得一提的是,世界模型與強化學習( Reinforcement Learning )之間確實存在高度的協同關係。我們不妨把世界模型想像成強化學習 AI 的「老師」。
兩大 AI 先驅帶領新 AI 風潮,世界模型成為募資最熱招牌
為了推廣能打造世界模型的「空間智慧」( spatial intelligence )技術,李飛飛在2024年9月便成功籌集到 2.3 億美元創立 World Labs,該公司隨後又在今年2月中旬新一輪的募資中籌得 10 億美元,參與投資的公司包括 AMD、NVIDIA、Autodesk (光是該公司就挹注了 2 億美元),以及愛默生基金會( Emerson Collective )、富達管理與研究公司( Fidelity Management & Research Company )和 Sea Limited 等。據 Bloomberg 今年1月的報導指出,該公司投前估值( pre-money valuation )約達 50 億美元。
World Labs 所致力的空間智慧是一種具備理解與推理三維世界運作方式之能力的新興 AI 技術。該公司開發的多模態世界模型 Marble,能從圖像或文字提示中創建 3D 世界,未來可應用於擴增實境、虛擬實境或機器人領域。
[ 加入 CIO Taiwan 官方 LINE 、 Facebook 與 LinkedIn,與全球CIO同步獲取精華見解 ]
因深度學習的開創性成就而成為圖靈獎得主的楊立昆,在離開 Meta 後與一群志同道合的重量級 AI 研究專家於法國巴黎共同創辦 AMI Labs。有鑑於當前 LLM 因「幻覺」( hallucination )問題所導致的先天限制,該公司成立宗旨在於開發讓 AI 從現實世界學習,而不只從語言資料學習的世界模型。該模型會基於楊立昆2022年在 Meta 所提出的 JEPA ( Joint Embedding Predictive Architecture )架構。
AMI Labs 的投前估值達到 35 億美元,並在今年3月初募得 10.3 億美元資金。由於該公司執行長 Alexandre LeBrun 同時也是數位健康照護 AI 新創 Nabla 的創辦人與執行長,所以 Nabla 成為該公司第一個世界模型合作夥伴。
儘管世界模型從理論走向商用化的時間週期遠比當紅的生成式 AI 較長,甚至需要數年時間才能獲利,但該領域的新創公司卻吸引了市場目光與大量資金。除了 World Labs 與 AMI Labs 皆募得超過 10 億資金之外,連歐洲新創 SpAItial 也募得在歐洲新創界相當罕見的 1,300 萬美元種子輪資金。LeBrun 表示,其預測世界模型會成為投資界的下一個流行關鍵詞,接下來會看到許多新創打著世界模型的招牌來尋求募資的盛況。
中國掀起世界模型新創熱,兄弟登山各自努力
在中國,投資世界模型更成為一股現象級的風潮,該風潮並且與中國時下火熱的機器人熱潮緊密結合,因為參與這兩大風潮的公司莫不體認到世界模型對機器人技術的至關重要性。其中,AI 新創公司生數科技( ShengShu Technology )與多家開發「具身 AI」的企業建立策略合作關係。透過生數科技的世界模型,當前機器人便能與物理世界更完美地互動,並適用於工業、商業及家庭等場景。
生數科技在日前完成了由阿里巴巴領投,以及好未來教育集團( TAL Education )與百度風投( Baidu Ventures )參與的 B 輪融資。阿里巴巴看好該新創並挹注了 20 億人民幣(約新台幣 92.36 億元)的原因在於,這家原本是 AI 影片生成工具 Vidu 的開發者,會將新一輪資金將用於開發「通用世界模型」,藉此將遊戲與 AI 生成影片所代表的數位世界,和自動駕駛與機器人所屬的物理世界連結在一起。
今年3月,這家中國科技巨頭與百度風投共同領投了對 Tripo AI 的 5,000 萬美元投資。該新創平台利用 AI 從照片快速生成數位 3D 模型。接下來,其技術也正從語言模型方法轉向以物理空間為基礎的 AI 工具,並正在開發自家的世界模型。
去年 9 月,阿里巴巴還領投了對 PixVerse 的 6,000 萬美元投資。該公司於今年稍早發布了一個 AI 世界模型,允許使用者在影片生成過程中控制模型畫面的呈現。
阿里巴巴除了積極投資世界模型新創公司之外,也自行開發自己的世界模型。阿里巴巴在今年3月成立 Alibaba Token Hub ( ATH )事業群不久,隨即發表了「Happy Horse」AI 影片生成模型,該模型甚至登上獨立模型評測機構 Artificial Analysis 的影片生成榜榜首。短短幾天不到,該公司又上線了 HappyOyster,它是一款可即時構建並互動的開放世界模型產品。
目前,世界模型領域已有幾條代表性路線。Google Genie 著重於即時互動式世界建模,但在多模態輸入的統一表達與影音聯合生成方面仍存在限制。李飛飛領導的 World Labs 團隊則走 3D 空間結構重建路線,強調幾何一致性,而非像素空間中的長時序動態生成。
至於 HappyOyster 則選擇在像素空間中進行長時間、即時互動的動態世界模擬,並在此基礎上加入影音聯合生成能力。這是一條過去少有人成功走通的路徑,其未來發展如何,且待今後的持續觀察。
(本文授權非營利轉載,請註明出處:CIO Taiwan)

