時事快聞

Grok 3實測：速度超群數學強，邏輯思考能否超越DeepSeek R1仍是問號

時間：2025-02-23 16:02 來源：天脈網作者：顧青青

人工智能領域近日迎來重大突破，初創公司xAI發布的Grok 3大模型引發了廣泛關注。這款模型由科技巨頭埃隆·馬斯克背書，被其譽為“地球上最聰明的人工智能”。

據官方公布的數據，Grok 3在多項基準測試中表現卓越，超越了GPT-4o、Gemini-2 Pro、DeepSeek V3和Claude 3.5等多個知名大模型。特別是在AIME（數學能力評估）和GPQA（博士級別科學問題評估）測試中，Grok 3的成績尤為亮眼。在大模型競技場Chatbot Arena（LMSYS）的測試中，Grok 3也取得了第一名，得分高達140分。

然而，盡管官方數據耀眼，部分用戶在實際體驗后卻對Grok 3的能力表示質疑。他們認為，這款模型的表現并未達到馬斯克所宣稱的高度。OpenAI應用研究主管Boris Power更是公開表示失望，指責Grok團隊在模型評估中存在作弊嫌疑，并指出o3-mini在各項評估中均優于Grok 3。

為了驗證Grok 3的真實水平，《每日經濟記者》進行了一系列測試。測試結果顯示，Grok 3確實具備世界頂級模型的能力，但在與其他模型的對比中并未拉開太大差距。值得注意的是，Grok 3的響應速度極快，這是其顯著優于其他模型的一點。

在基礎問題測試中，如“9.9和9.11誰大”，Grok 3輕松給出了正確答案。然而，在邏輯思考和文字理解能力方面，Grok 3的表現卻略顯不足。例如，在面對一個包含邏輯陷阱的問題時，Grok 3雖然答對了問題，但并未完全展現出其邏輯推理能力的優勢。相比之下，DeepSeek R1模型在此類問題上的表現更為出色。

在數學能力測試中，Grok 3展現出了其強大的實力。在一道復雜的臺球問題中，Grok 3迅速給出了正確答案，且用時遠少于其他模型。然而，在解決更高難度的群論問題時，盡管Grok 3答對了最終數量，但在具體群的識別上卻出現了一個錯誤。這表明，盡管Grok 3在數學方面表現出色，但并未與其他同等級模型拉開顯著差距。

在編程能力方面，Grok 3也展現出了不俗的實力。Kcores聯合創始人karminski-牙醫的測評結果顯示，Grok 3在模擬火星發射計劃的代碼時表現優異，雖然動畫效果略有不足，但軌道需求計算得非常準確。最終，Grok 3在編程能力測試中險勝OpenAI的o1模型。

綜合各項測試結果來看，Grok 3確實是一款世界頂尖的AI模型，其強大的能力和極快的響應速度令人印象深刻。然而，盡管馬斯克對其贊譽有加，但實測結果并未完全達到其宣稱的高度。因此，關于Grok 3是否真的是“地球上最聰明的人工智能”，或許還需要更多的驗證和探討。

更多>同類天脈資訊

第十六屆北影節啟幕：“電影+”跨界聯動，全城共赴光影盛宴與消費新體驗

04-17

Web3支付新篇：積分通兌無國界，全球消費生態迎變革

04-17

小眾品牌破局新招：場景化營銷精準觸達用戶，解鎖增長新路徑

04-17

思格新能港交所上市首日暴漲高瓴“老將創業”模式再獲成功驗證

04-16

阿里京東等多企業發力AI領域：新模型發布、合作達成與融資進展不斷