OpenAI再次引爆AI領域,正式推出GPT-5.4,這款被業界稱為"全能型選手"的新模型,將推理、編程、計算機原生交互、深度網頁搜索和百萬級Token上下文處理能力集于一身,且在各項性能指標上均保持領先地位。這一突破性進展,讓等待已久的AI社區終于迎來一場"驚喜暴擊"。
GPT-5.4最引人注目的創新在于其原生計算機操作能力。這款模型能夠通過分析軟件界面截圖,自主執行鼠標點擊、鍵盤輸入等操作,完成發送郵件、創建日歷事件、填寫表單等復雜任務。在WebArena瀏覽器任務測試中,GPT-5.4取得67.3%的成功率,在Online-Mind2Web測試中,僅通過截圖完成網頁操作的成功率高達92.8%。更令人驚嘆的是,在OSWorld-Verified桌面操作任務中,其75.0%的成功率已超越人類平均水平(72.4%)。
編程能力方面,GPT-5.4整合了此前最強編程模型GPT-5.3-Codex的核心功能,不僅支持1.5倍速的/fast模式輸出,還新增"Playwright (Interactive)"實驗性功能。這項技術允許模型在開發網頁或應用時,同步進行視覺化調試。例如在開發模擬游戲時,它能同時生成美術資源、編寫邏輯代碼,并運行自動測試驗證游戲狀態。在SWE-Bench Pro測試中,GPT-5.4取得57.7%的成績,延遲較前代更低,復雜前端任務的表現顯著提升,生成的界面設計更美觀、功能結構更完整。
知識工作領域,GPT-5.4在GDPval基準測試(涵蓋44種職業、9個GDP主要貢獻行業)中,綜合得分達83.0%。在投資銀行建模測試中,其平均得分從GPT-5.2的68.4%躍升至87.3%。人類評審在PPT生成測試中,68%的時間更偏好GPT-5.4的作品,認為其視覺效果更佳、版式更豐富、圖片運用更合理。該模型還支持1024萬像素原圖輸入,在MMMU-Pro視覺推理測試中準確率達81.2%,文檔解析錯誤率從0.140降至0.109。
效率優化是本次升級的另一大亮點。相比GPT-5.2,GPT-5.4在推理過程中使用的Token數量顯著減少,響應速度更快且成本更低。這得益于其引入的工具搜索機制——模型不再需要將所有工具定義塞入提示詞,而是先瀏覽工具清單,需要時再調取具體定義。在MCP Atlas基準測試中,這項技術使總Token使用量降低47%,同時保持同等準確率。
隨著GPT-5.4上線,ChatGPT的模型體系同步調整。新模型同步登陸ChatGPT、API和Codex平臺,API定價雖較GPT-5.2有所上漲(每百萬輸入Token從1.75美元升至2.5美元,輸出從14美元升至15美元),但任務總成本因Token消耗減少而變化不大。面向復雜任務的Pro版本同步推出,在ChatGPT中命名為GPT-5.4 Thinking,將取代此前的GPT-5.2 Thinking,而GPT-5.2系列將于三個月后正式退役,GPT-5.1系列則將在3月11日退出ChatGPT。
社交媒體上,網友對這款新模型的討論熱度持續攀升。有人戲稱,擁有百萬token上下文窗口且能原生操作電腦的GPT-5.4,與蘋果最新發布的低價筆記本電腦MacBook Neo形成"科技雙雄";更有開發者調侃:"我的電腦正在經歷存在主義危機!"這些反應折射出AI技術對傳統工作方式的深刻影響——當模型能獨立完成從界面操作到多輪網頁搜索的完整工作流時,人類與數字世界的交互方式正在發生根本性變革。













