
2024年9月12日,Open AI 再 release 咗一個新嘅 AI model 叫做 OpenAI o1。上年我曾經喺一個電台節目分享時,解釋當時嘅大型語言模型 (LLM) 雖然喺解決好多問題上已經有卓越嘅成就,但係喺數理工學上牽涉複雜邏輯推理嘅問題表現就仲係未如理想。估唔到只係一年時間都唔夠,Open AI 就已經喺呢方面又再有突破。據介紹,今次新模型用咗全新嘅方法去組建及訓練模型,模擬人嘅思維鏈 (Chain of thought) 方式去思考,所以能夠喺數理能力上有突破。
仲未睇新model有幾勁嘅朋友,可以去 Open AI 官網睇睇 preview 影片 https://openai.com/o1/。至於官方對於新 model 公佈嘅測試結果就更厲害。簡單嚟講,就係新嘅模型喺好多數理科公開測試,例如美國 Math Olympiad (AIME),電腦編程問題測試 (Codeforces) 等等,都能夠名列前茅。詳情可以參考 https://openai.com/index/learning-to-reason-with-llms/。
不過要留意有好多傳媒報道話新 model 已經超越博士水平,但其實如果睇返 Open AI 自己嘅講法,呢個講法唔準確。Open AI 嘅意思係話喺公開測試嘅成績上面,已經超過擁有博士學歷嘅人。即係話,有博士學歷嘅人做有標準答案嘅試卷所獲得嘅成績,係低過新嘅 AI model。但咁同 AI 超越博士水平嘅思維能力係兩回事。打趣咁講,唔通我捉象棋叻過愛因斯坦就代表我真係叻過愛因斯坦咩?
博士程度嘅研究係唔會有標準答案。我暫時唔係好想像到人工智能點樣可以做到冇標準答案嘅科研。所以第一下我睇到呢一個講法嘅報道都好疑惑,果然係誤傳。
不過今次嘅成果其實已經令人相當震驚。呢類型嘅問題,除非大學主修數理工科,大部分嘅人連問題都未睇得明。宜家 AI 嘅程度分分鐘可以取代大學數理工科 tutor 嘅工作。不過一直困擾住 AI 嘅幻覺 (hallucination) 問題未知會唔會喺呢個新嘅 model 都會出現。由於比起之前嘅問題更複雜,如果萬一出現幻覺,可能會更難被發現。誤信 AI 嘅機會就更高。而且數理工科計錯數隨時帶嚟現實世界嘅災難,因此呢方面嘅安全考慮必須要做更好。

