
當你看一條 AI 生成的影片,第一眼覺得很漂亮,第二眼卻會有些位「怪怪哋」——水花輕得太假、人走路沒有重量、物件跌落地好像飄起來。這種怪異感,本身就是人類靠幾百萬年累積出來的物理直覺。問題是,如果有一天 AI 連這種「怪怪哋」都消滅了,我們還能靠什麼相信自己的眼睛?
從 Google I/O 2026 出發,今集《學識AI》拆解一個比「影片更逼真」更重要的訊號:世界模型(World Model)——AI 邁向 AGI 的關鍵一步。
AGI 不是「更強的 ChatGPT」
AGI 全名是 Artificial General Intelligence,即人工通用智能。它的指標不是會不會寫文章、繪圖、寫程式寫得多好,而是要有廣泛普遍的認知能力——在不同範疇都做到接近人類的智慧水平。
今天的 AI 已經很厲害——寫文、整圖、寫程式、做 App、分析資料、翻譯、做簡報,甚至幫你構思想法。但這些能力加起來未必等於 AGI。因為它仍然較像一個「很強的工具箱」:給個任務它,它可以在任務裏面做得好;但問題是——它真的明白自己身處的世界是如何運作嗎?
過去幾年 AI 的突破,主要集中在語言、圖像、聲音、程式碼這些屬於「資訊空間」的領域。但人類的智慧不只在資訊空間產生——它是由我們的身體與現實世界長期互動累積出來:跌倒、拿起杯、推門、倒水、走樓梯、觀察人的表情,慢慢建立對世界的理解。
所以 AGI 不應只是懂很多東西,而是要理解世界如何運作,理解自己的行為會帶來什麼後果。
人類天生有物理直覺,但 AI 一直缺這樣
一個三歲小朋友不懂牛頓力學、不懂能量守恆、不懂流體力學,但他大概都知杯飛出去會跌落地、水倒出來會向下流、波撞牆會反彈、燒到手會痛。這些不是從公式學回來,而是身體與世界互動產生的直覺。
我們對現實世界不只有物理直覺,還有空間感、時間感、身體感、因果感。這些已經內化成腦中的直覺能力。
過去的 AI 最缺乏的,正正就是這種能力。它可以很會說話、會寫東西、考試取得滿分,但很多時候它不知道現實世界如何運作。它只是從大量文字、圖像、數據裏學會了這些概念——所以它說得出「杯跌落地會爛」,但它未必真正理解一個杯跌落地時,重力、速度、角度、材料、玻璃是否脆弱這些變數是如何相互作用的。它只是在文字層面知道「杯跌落地」跟「爛」經常一起出現。
這就是 AI 對現實世界認知上的一個重大落差。
World Model 到底是什麼?
World Model(世界模型)即是 AI 在自己「腦」裏,建立一個對這個世界如何運作的內在模型。它不需要像物理課本那樣明確寫着一條條公式,可以是由大量經驗學出來的內在表徵:物件、空間、時間、因果、人類行為、環境變化,甚至一個行動會引發的連鎖反應。
一個有 world model 的系統,不是只知「杯」跟「跌落地」經常一起出現——它要某程度上理解杯是有形狀、有重量、有位置的物件:你推它去桌邊,它可能會跌;杯裏面有水,會瀉出來;杯是玻璃造,跌落地會爛。
更重要的是,它要知道自己的行動會如何改變這個世界:我推這個杯,杯會跌;我伸手接住,可以阻止它碎;我不理它,地上可能會有水和碎片。
這些就是世界模型真正重要的地方——不是靠一條條文字寫得出,而是靠認識物件、推理因果、累積經驗、預測後果。
為什麼今次 Google I/O 特別值得留意?
Google I/O 2026 發佈了一系列 AI 產品:最新的 Gemini 3.5 模型、影片生成工具 Omni、AI Agent 工作流工具,還整合了 Google Drive、Google Calendar 等現有工具。
但我留意到一個更重要的線索:世界模型這條路線。
Google,特別是 Google DeepMind,一直都比其他 AI 公司更重視這條路。其他公司(OpenAI、Anthropic、Meta)都有做,但 DeepMind 的傳統很明顯——它不只做大型語言模型。強化學習、遊戲環境內學習、Agent planning、simulation——由我們熟悉的 AlphaGo、AlphaZero 這些下棋 AI,到近年 Genie、Veo 這些影片生成工具,背後都有一條清晰的路徑:AI 可不可以在一個提供的環境裏學習、進化?
某程度上,這些環境的模擬本身就是 AI 熟悉現實世界運作的準備階段。DeepMind 一直關心的問題是:一個有智慧的 agent,怎樣在環境內行動、累積經驗、預測下一步、在未知世界作出決定?
這些就是 Google 現在說的世界模型——不是忽然之間出現,背後有一條很長的研究路線。
影片生成不只是「整片」,而是世界模擬
很多人看到 Gemini 的 Omni 影片生成工具,第一個反應是「以後整片方便好多」——這當然沒錯。但如果停留在內容創作層面,就漏看了一個重要訊號:
影片生成本質上不是一格格漂亮的相,而是一個世界隨時間變化的過程。
一個人走路,下一秒腳要落在哪?一杯水倒出來,水會怎樣流?一個球撞牆,應該用什麼角度彈出?一個人失去平衡,身體會怎樣跌?鏡頭轉到另一個角度,空間關係要怎樣保持一致?
這些全部不只是畫面問題,背後牽涉到物理、空間、時間,還有最重要的因果關係。AI 如果只是做幾張漂亮的 static 圖,可以騙到你一兩秒;但要長時間、物理一致、前後連貫、甚至可以被人互動的世界,就不能只靠表面似樣——它要開始掌握這個世界實際上是如何運作。
所以影片生成可以理解成 AI 學習世界的一個訓練場。當生成的世界不只是給你看,而是 AI 可以在裏面試錯、planning、學習,影片生成跟世界模型就不再只是娛樂功能——而是一個通往 AGI 的重要一步。
Singularity 起點的山腳?
要留意,我不是說 Google 在 I/O 已宣佈 AGI 達到了。Google DeepMind 的 CEO Demis Hassabis 的說法值得留意:他一直不是最誇張那些 AI 領袖。相比其他人說「還有一年就 AGI」、甚至「AGI 已經出現」,Demis 過去都是說「大概還有十年 AGI 才會出現」。
但他今次在 Google I/O 改口,說人類可能已經去到 Singularity 起點的山腳,認為 AGI 還有幾年就會出現。Singularity 即是 AI 超越人類智慧後、可以用它去研發更聰明的 AI 那種爆發式情況。
我們不應過度解讀——AGI 今天還未到,AI 仍會幻覺、會犯低級錯誤、很多複雜現實問題還未能自主行動。但趨勢很清楚:AI 正由「語言智能」走向一個「多模態、能夠理解世界」的 AGI 程度。
AI 影片愈真,人類眼睛愈不可靠
這個對日常生活最即時的衝擊就是:眼見未必為實。
以前 AI 生成影片很多時都有破綻——光不自然、手指多了一隻、人體動作怪、物理感不真。我們單靠經驗跟直覺都分得出真假。但當 AI 影片愈來愈逼真,這種直覺已慢慢追不上時代。
Google 自己都知這個問題,所以今次同步推出了 SynthID——隱形數字水印跟驗證工具。好多公司似乎已跟 Google 合作,將來一齊用這個 AI 驗證工具,幫我們判斷一條影片是否 AI 生成。
但這裏有個重要問題值得思考:當我們連自己眼前見到的都要靠另一套 AI 工具去驗證,人類還應該擁有什麼能力,才可以駕馭到 AGI 的時代?
人類要重新訓練的三種能力
如果 AGI 真的在未來幾年迫近,我們要準備的不是只學會用幾個 AI 工具。工具當然要學,但工具只是表層。更重要的是重新訓練三種能力:
1. 資訊的判斷力
不要因為一段片很真就當它是真。將來判斷一段內容不可以只看畫面,要看它的來源、上下文、發佈者、時間、證據鏈。
2. 概念的理解力
不要只追功能——今日有什麼新 app、明天有什麼新模型、後天有什麼新插件。功能變得很快,但如果你理解背後的技術方向(Agent、multimodal、world model、AGI 這些概念到底是什麼),就不會每次有新功能都被嚇到。你會看到它在整個 AI 發展路線裏究竟扮演什麼角色。
3. 人類的定位感
AI 愈強,我們愈要問:人類還應該負責什麼?是價值判斷?教育?創作方向?倫理責任?照顧人與人之間的關係?對真實生活的感受能力?
如果所有內容都可以生成,人類的角色就不是鬥快生成內容,而是決定什麼內容值得生成、什麼問題值得問、什麼價值值得守住、什麼東西不應該交給機器決定。
結語:AI 正由語言智能走向世界智能
Google I/O 2026 的一系列發佈,背後反映的不只是產品迭代,而是 Google 過去多年研發在世界模型這條走向 AGI 的路徑上的一個里程碑。
AGI 未到,但契機已經出現。在假新聞、假資訊、假圖片、假影像愈來愈多的世界裏,我們怎樣自處、怎樣維持自己的判斷力,是一個值得每個人探討的課題。





