時事快聞

實測Grok 3：速度超群數學強，邏輯思考卻非無敵？

時間：2025-02-23 15:46 來源：天脈網作者：鐘景軒

近期，人工智能領域迎來了一場震撼發布，埃隆·馬斯克旗下的人工智能初創公司xAI推出了其最新力作——Grok 3大模型。馬斯克在發布會上毫不吝嗇地贊譽其為“地球上最聰明的人工智能”，這一聲明迅速引發了業界的廣泛關注與討論。

據官方公布的測試結果，Grok 3在多項基準測試中表現搶眼，尤其是在AIME（數學能力評估）和GPQA（博士級物理學、生物學、化學問題評估）等關鍵領域，其成績遠超GPT-4o、Gemini-2 Pro、DeepSeek V3、Claude 3.5及Sonnet等大模型。在備受矚目的大模型競技場Chatbot Arena（LMSYS）測試中，早期版本的Grok 3更是以140分的優異成績奪得榜首，將Gemini 2.0 Flash Thinking實驗版、ChatGPT-4o最新版本及DeepSeek R1等強勁對手甩在身后。

然而，盡管官方數據亮眼，部分用戶在親身體驗后卻對Grok 3的實際能力產生了質疑。他們認為，Grok 3的表現并未達到馬斯克所宣稱的高度。更為戲劇性的是，OpenAI應用研究主管Boris Power公開表達了對Grok團隊評估方法的失望，指責其存在作弊嫌疑，并強調o3-mini在各項評估中的表現均優于Grok 3。

為了探究真相，《每日經濟新聞》記者親自對Grok 3進行了深入測試。測試發現，Grok 3確實展現出了世界頂級AI模型的水平，但在與其他模型的對比中并未形成明顯的優勢。其最突出的特點在于極快的響應速度，這一點遠超其他同等級的大模型。

在基礎問題的測試中，如“9.9和9.11誰大”，Grok 3輕松給出了正確答案。但在面對更為復雜的邏輯思考和文字理解挑戰時，Grok 3的表現則略顯波動。例如，在處理包含邏輯陷阱的“弱智吧”問題時，盡管Grok 3成功答對了部分題目，但在一道涉及因果推理的題目中卻未能給出正確答案。相比之下，DeepSeek R1在此類問題上的表現更為出色。

在數學能力的測試中，Grok 3展現出了其強大的實力。在一道復雜的臺球對局問題中，Grok 3迅速給出了正確答案，且用時遠少于OpenAI的o1。然而，在更為專業的群論問題中，盡管Grok 3答對了最終數量，但在具體群的識別上卻出現了誤差。這表明，盡管Grok 3在數學領域表現優異，但并未與其他同等級模型形成顯著的差距。

在編程能力的測試中，Grok 3同樣展現出了不俗的實力。Kcores聯合創始人karminski-牙醫的測評結果顯示，Grok 3在火星發射計劃的代碼模擬中表現優異，盡管在最終動畫呈現上略有瑕疵，但整體軌道計算精確無誤。在綜合得分上，Grok 3位列第一，緊隨其后的是OpenAI的o1，兩者得分差距較小。