AI 影片愈來愈真，AGI 係咪愈來愈近？拆解 Google 世界模型路線

2026-05-21

江

江啟明博士

4.80/5.00(15個評分)

※ 本文由 AI 根據影片內容整理，如有錯漏敬請指正。
📺 觀看完整影片：[AI 影片愈來愈真，AGI 係咪愈來愈近？如何適應呢種轉變 | #學識AI ep0]

當你看一條 AI 生成的影片，第一眼覺得很漂亮，第二眼卻會有些位「怪怪哋」——水花輕得太假、人走路沒有重量、物件跌落地好像飄起來。這種怪異感，本身就是人類靠幾百萬年累積出來的物理直覺。問題是，如果有一天 AI 連這種「怪怪哋」都消滅了，我們還能靠什麼相信自己的眼睛？

從 Google I/O 2026 出發，今集《學識AI》拆解一個比「影片更逼真」更重要的訊號：世界模型（World Model）——AI 邁向 AGI 的關鍵一步。

AGI 不是「更強的 ChatGPT」
AGI 全名是 Artificial General Intelligence，即人工通用智能。它的指標不是會不會寫文章、繪圖、寫程式寫得多好，而是要有廣泛普遍的認知能力——在不同範疇都做到接近人類的智慧水平。

今天的 AI 已經很厲害——寫文、整圖、寫程式、做 App、分析資料、翻譯、做簡報，甚至幫你構思想法。但這些能力加起來未必等於 AGI。因為它仍然較像一個「很強的工具箱」：給個任務它，它可以在任務裏面做得好；但問題是——它真的明白自己身處的世界是如何運作嗎？

過去幾年 AI 的突破，主要集中在語言、圖像、聲音、程式碼這些屬於「資訊空間」的領域。但人類的智慧不只在資訊空間產生——它是由我們的身體與現實世界長期互動累積出來：跌倒、拿起杯、推門、倒水、走樓梯、觀察人的表情，慢慢建立對世界的理解。

所以 AGI 不應只是懂很多東西，而是要理解世界如何運作，理解自己的行為會帶來什麼後果。

人類天生有物理直覺，但 AI 一直缺這樣

一個三歲小朋友不懂牛頓力學、不懂能量守恆、不懂流體力學，但他大概都知杯飛出去會跌落地、水倒出來會向下流、波撞牆會反彈、燒到手會痛。這些不是從公式學回來，而是身體與世界互動產生的直覺。

我們對現實世界不只有物理直覺，還有空間感、時間感、身體感、因果感。這些已經內化成腦中的直覺能力。

過去的 AI 最缺乏的，正正就是這種能力。它可以很會說話、會寫東西、考試取得滿分，但很多時候它不知道現實世界如何運作。它只是從大量文字、圖像、數據裏學會了這些概念——所以它說得出「杯跌落地會爛」，但它未必真正理解一個杯跌落地時，重力、速度、角度、材料、玻璃是否脆弱這些變數是如何相互作用的。它只是在文字層面知道「杯跌落地」跟「爛」經常一起出現。

這就是 AI 對現實世界認知上的一個重大落差。

World Model 到底是什麼？
World Model（世界模型）即是 AI 在自己「腦」裏，建立一個對這個世界如何運作的內在模型。它不需要像物理課本那樣明確寫着一條條公式，可以是由大量經驗學出來的內在表徵：物件、空間、時間、因果、人類行為、環境變化，甚至一個行動會引發的連鎖反應。

一個有 world model 的系統，不是只知「杯」跟「跌落地」經常一起出現——它要某程度上理解杯是有形狀、有重量、有位置的物件：你推它去桌邊，它可能會跌；杯裏面有水，會瀉出來；杯是玻璃造，跌落地會爛。

更重要的是，它要知道自己的行動會如何改變這個世界：我推這個杯，杯會跌；我伸手接住，可以阻止它碎；我不理它，地上可能會有水和碎片。

這些就是世界模型真正重要的地方——不是靠一條條文字寫得出，而是靠認識物件、推理因果、累積經驗、預測後果。

為什麼今次 Google I/O 特別值得留意？
Google I/O 2026 發佈了一系列 AI 產品：最新的 Gemini 3.5 模型、影片生成工具 Omni、AI Agent 工作流工具，還整合了 Google Drive、Google Calendar 等現有工具。

但我留意到一個更重要的線索：世界模型這條路線。

Google，特別是 Google DeepMind，一直都比其他 AI 公司更重視這條路。其他公司（OpenAI、Anthropic、Meta）都有做，但 DeepMind 的傳統很明顯——它不只做大型語言模型。強化學習、遊戲環境內學習、Agent planning、simulation——由我們熟悉的 AlphaGo、AlphaZero 這些下棋 AI，到近年 Genie、Veo 這些影片生成工具，背後都有一條清晰的路徑：AI 可不可以在一個提供的環境裏學習、進化？

某程度上，這些環境的模擬本身就是 AI 熟悉現實世界運作的準備階段。DeepMind 一直關心的問題是：一個有智慧的 agent，怎樣在環境內行動、累積經驗、預測下一步、在未知世界作出決定？

這些就是 Google 現在說的世界模型——不是忽然之間出現，背後有一條很長的研究路線。

影片生成不只是「整片」，而是世界模擬
很多人看到 Gemini 的 Omni 影片生成工具，第一個反應是「以後整片方便好多」——這當然沒錯。但如果停留在內容創作層面，就漏看了一個重要訊號：

影片生成本質上不是一格格漂亮的相，而是一個世界隨時間變化的過程。

一個人走路，下一秒腳要落在哪？一杯水倒出來，水會怎樣流？一個球撞牆，應該用什麼角度彈出？一個人失去平衡，身體會怎樣跌？鏡頭轉到另一個角度，空間關係要怎樣保持一致？

這些全部不只是畫面問題，背後牽涉到物理、空間、時間，還有最重要的因果關係。AI 如果只是做幾張漂亮的 static 圖，可以騙到你一兩秒；但要長時間、物理一致、前後連貫、甚至可以被人互動的世界，就不能只靠表面似樣——它要開始掌握這個世界實際上是如何運作。

所以影片生成可以理解成 AI 學習世界的一個訓練場。當生成的世界不只是給你看，而是 AI 可以在裏面試錯、planning、學習，影片生成跟世界模型就不再只是娛樂功能——而是一個通往 AGI 的重要一步。

Singularity 起點的山腳？
要留意，我不是說 Google 在 I/O 已宣佈 AGI 達到了。Google DeepMind 的 CEO Demis Hassabis 的說法值得留意：他一直不是最誇張那些 AI 領袖。相比其他人說「還有一年就 AGI」、甚至「AGI 已經出現」，Demis 過去都是說「大概還有十年 AGI 才會出現」。

但他今次在 Google I/O 改口，說人類可能已經去到 Singularity 起點的山腳，認為 AGI 還有幾年就會出現。Singularity 即是 AI 超越人類智慧後、可以用它去研發更聰明的 AI 那種爆發式情況。

我們不應過度解讀——AGI 今天還未到，AI 仍會幻覺、會犯低級錯誤、很多複雜現實問題還未能自主行動。但趨勢很清楚：AI 正由「語言智能」走向一個「多模態、能夠理解世界」的 AGI 程度。

AI 影片愈真，人類眼睛愈不可靠
這個對日常生活最即時的衝擊就是：眼見未必為實。

以前 AI 生成影片很多時都有破綻——光不自然、手指多了一隻、人體動作怪、物理感不真。我們單靠經驗跟直覺都分得出真假。但當 AI 影片愈來愈逼真，這種直覺已慢慢追不上時代。

Google 自己都知這個問題，所以今次同步推出了 SynthID——隱形數字水印跟驗證工具。好多公司似乎已跟 Google 合作，將來一齊用這個 AI 驗證工具，幫我們判斷一條影片是否 AI 生成。

但這裏有個重要問題值得思考：當我們連自己眼前見到的都要靠另一套 AI 工具去驗證，人類還應該擁有什麼能力，才可以駕馭到 AGI 的時代？

人類要重新訓練的三種能力
如果 AGI 真的在未來幾年迫近，我們要準備的不是只學會用幾個 AI 工具。工具當然要學，但工具只是表層。更重要的是重新訓練三種能力：

1. 資訊的判斷力
不要因為一段片很真就當它是真。將來判斷一段內容不可以只看畫面，要看它的來源、上下文、發佈者、時間、證據鏈。

2. 概念的理解力
不要只追功能——今日有什麼新 app、明天有什麼新模型、後天有什麼新插件。功能變得很快，但如果你理解背後的技術方向（Agent、multimodal、world model、AGI 這些概念到底是什麼），就不會每次有新功能都被嚇到。你會看到它在整個 AI 發展路線裏究竟扮演什麼角色。

3. 人類的定位感
AI 愈強，我們愈要問：人類還應該負責什麼？是價值判斷？教育？創作方向？倫理責任？照顧人與人之間的關係？對真實生活的感受能力？

如果所有內容都可以生成，人類的角色就不是鬥快生成內容，而是決定什麼內容值得生成、什麼問題值得問、什麼價值值得守住、什麼東西不應該交給機器決定。

結語：AI 正由語言智能走向世界智能
Google I/O 2026 的一系列發佈，背後反映的不只是產品迭代，而是 Google 過去多年研發在世界模型這條走向 AGI 的路徑上的一個里程碑。

AGI 未到，但契機已經出現。在假新聞、假資訊、假圖片、假影像愈來愈多的世界裏，我們怎樣自處、怎樣維持自己的判斷力，是一個值得每個人探討的課題。

其他同類文章

返回文章列表