阿里通義千問推出QVQ-72B-Preview,視覺推理能力媲美物理大師?

   時間:2024-12-26 14:05 來源:天脈網作者:沈如風

阿里通義千問團隊近日宣布了一項重要進展,他們基于Qwen2-VL-72B模型,成功推出了名為QVQ-72B-Preview的開源視覺推理模型。這款新模型在解決復雜物理問題方面展現出卓越的能力,仿佛一位物理學大師,能夠冷靜地通過邏輯推理找到問題的解決方案。

為了全面評估QVQ-72B-Preview的性能,阿里通義千問團隊在四個專業數據集上進行了測試。首先是MMMU數據集,這是一個涵蓋多學科、多模態的大學級別評測集,旨在考察模型在視覺相關領域的綜合理解和推理能力。還有MathVista數據集,它專注于數學相關的視覺推理,包括拼圖測試圖形的邏輯推理、函數圖的代數推理以及學術論文圖形的科學推理等。MathVision數據集則來自真實的數學競賽,提供了更多樣化、更廣泛學科的問題,相比MathVista更具挑戰性。最后,OlympiadBench數據集是一個奧林匹克競賽級別的雙語多模態科學基準測試集,包含了來自奧林匹克數學和物理競賽的8476個問題,甚至包括中國高考題目,每個問題都附有專家級的詳細注釋。

測試結果顯示,QVQ-72B-Preview在MMMU基準測試中取得了70.3的高分,顯著超越了其前身Qwen2-VL-72B-Instruct。同時,在MathVista、MathVision和OlympiadBench這三個專注于數學和科學問題的基準測試中,QVQ-72B-Preview也表現出色,有效縮小了與當前最先進的o1模型之間的差距。

盡管QVQ-72B-Preview在視覺推理方面取得了顯著進步,但阿里通義千問團隊也坦誠地指出了該模型目前存在的幾個限制。首先,模型在處理多語言問題時,可能會意外地混合或切換語言,從而影響響應的清晰度。其次,在遞歸推理方面,模型有時會陷入循環邏輯模式,產生冗長的響應而無法得出明確的結論。團隊還強調了安全和倫理考慮的重要性,指出模型需要進一步增強安全措施,以確保可靠和安全的性能,用戶在部署時應保持謹慎。

同時,團隊也提醒用戶注意QVQ-72B-Preview的性能和基準限制。盡管該模型在視覺推理方面有所改善,但它并不能完全替代Qwen2-VL-72B的能力。特別是在多步驟視覺推理過程中,模型可能會逐漸失去對圖像內容的關注,導致產生幻覺。因此,用戶在使用QVQ-72B-Preview時,需要充分考慮這些限制因素。

 
 
更多>同類天脈資訊
全站最新
熱門內容
媒體信息
新傳播周刊
新傳播,傳播新經濟之聲!
網站首頁  |  關于我們  |  聯系方式  |  版權隱私  |  RSS訂閱  |  違規舉報 魯公網安備37010202700497號