時事快聞

GPT-5.4重磅登場：能力效率雙提升，開啟AI數字員工新時代

時間：2026-03-07 21:50 來源：快訊作者：量子位

OpenAI再次引爆AI領域，正式推出GPT-5.4，這款被業界稱為"全能型選手"的新模型，將推理、編程、計算機原生交互、深度網頁搜索和百萬級Token上下文處理能力集于一身，且在各項性能指標上均保持領先地位。這一突破性進展，讓等待已久的AI社區終于迎來一場"驚喜暴擊"。

GPT-5.4最引人注目的創新在于其原生計算機操作能力。這款模型能夠通過分析軟件界面截圖，自主執行鼠標點擊、鍵盤輸入等操作，完成發送郵件、創建日歷事件、填寫表單等復雜任務。在WebArena瀏覽器任務測試中，GPT-5.4取得67.3%的成功率，在Online-Mind2Web測試中，僅通過截圖完成網頁操作的成功率高達92.8%。更令人驚嘆的是，在OSWorld-Verified桌面操作任務中，其75.0%的成功率已超越人類平均水平（72.4%）。

編程能力方面，GPT-5.4整合了此前最強編程模型GPT-5.3-Codex的核心功能，不僅支持1.5倍速的/fast模式輸出，還新增"Playwright (Interactive)"實驗性功能。這項技術允許模型在開發網頁或應用時，同步進行視覺化調試。例如在開發模擬游戲時，它能同時生成美術資源、編寫邏輯代碼，并運行自動測試驗證游戲狀態。在SWE-Bench Pro測試中，GPT-5.4取得57.7%的成績，延遲較前代更低，復雜前端任務的表現顯著提升，生成的界面設計更美觀、功能結構更完整。

知識工作領域，GPT-5.4在GDPval基準測試（涵蓋44種職業、9個GDP主要貢獻行業）中，綜合得分達83.0%。在投資銀行建模測試中，其平均得分從GPT-5.2的68.4%躍升至87.3%。人類評審在PPT生成測試中，68%的時間更偏好GPT-5.4的作品，認為其視覺效果更佳、版式更豐富、圖片運用更合理。該模型還支持1024萬像素原圖輸入，在MMMU-Pro視覺推理測試中準確率達81.2%，文檔解析錯誤率從0.140降至0.109。

效率優化是本次升級的另一大亮點。相比GPT-5.2，GPT-5.4在推理過程中使用的Token數量顯著減少，響應速度更快且成本更低。這得益于其引入的工具搜索機制——模型不再需要將所有工具定義塞入提示詞，而是先瀏覽工具清單，需要時再調取具體定義。在MCP Atlas基準測試中，這項技術使總Token使用量降低47%，同時保持同等準確率。

隨著GPT-5.4上線，ChatGPT的模型體系同步調整。新模型同步登陸ChatGPT、API和Codex平臺，API定價雖較GPT-5.2有所上漲（每百萬輸入Token從1.75美元升至2.5美元，輸出從14美元升至15美元），但任務總成本因Token消耗減少而變化不大。面向復雜任務的Pro版本同步推出，在ChatGPT中命名為GPT-5.4 Thinking，將取代此前的GPT-5.2 Thinking，而GPT-5.2系列將于三個月后正式退役，GPT-5.1系列則將在3月11日退出ChatGPT。

社交媒體上，網友對這款新模型的討論熱度持續攀升。有人戲稱，擁有百萬token上下文窗口且能原生操作電腦的GPT-5.4，與蘋果最新發布的低價筆記本電腦MacBook Neo形成"科技雙雄"；更有開發者調侃："我的電腦正在經歷存在主義危機！"這些反應折射出AI技術對傳統工作方式的深刻影響——當模型能獨立完成從界面操作到多輪網頁搜索的完整工作流時，人類與數字世界的交互方式正在發生根本性變革。

更多>同類天脈資訊

泰豐智能擬北交所上市：40歲總經理王然為董事長之子家族持股超五成

04-09

智譜欲成中國Anthropic：定價權、規模效應與轉型速度成關鍵挑戰

04-09

京東開源JoyAI-Image-Edit圖像模型：攻克空間難題，賦能多元領域應用

04-09

阿里巴巴AI布局再提速：新設技術委員會升級大模型事業部加速全棧AI能力落地

04-09

英特爾攜手馬斯克推進Terafab項目共筑芯片制造新未來

04-09

大健康門店客戶“沉睡”之困：從關系經營視角破解激活難題