編程界又迎來一項創新成果——知名技術專家卡帕西推出了一款名為“大模型議會”(LLM Council)的Web應用。這款應用雖然外觀與常見的聊天機器人界面相似,但背后卻藏著獨特的運行機制:當用戶提出問題后,系統會借助OpenRouter同時喚醒多個大模型,讓它們共同參與問題解答。
這款應用的流程設計頗具巧思,主要分為三個步驟。第一步是“群策群力”,系統會同時調用GPT-5.1、Gemini 3 Pro Preview、Claude Sonnet 4.5和Grok-4等多個大模型,讓它們針對同一問題各自生成回答,并將這些回答以標簽視圖的形式呈現給用戶,方便對比查看。第二步是“匿名互評”,所有模型的回答會被匿名處理后分發給彼此,每個模型需要根據回答的準確性和洞察力進行評分,并附上詳細的評價理由,避免因模型身份產生偏見。第三步是“主席匯總”,系統會指定一個主席模型,將所有模型的回答和評分進行整合,最終生成一個綜合答案反饋給用戶。
在實際測試中,卡帕西發現了一些有趣的現象。例如,當多個模型共同評價彼此的回答時,GPT-5.1的答案被一致認為最具洞見,Claude的回答則被認為最弱,Gemini 3和Grok-4的表現處于中間水平。不過,卡帕西個人并不完全認同這一結果:他認為GPT-5.1的回答雖然內容豐富,但結構不夠緊湊;Gemini 3的答案更簡潔凝練,信息處理更到位;而Claude的回答雖然簡略,但也有其獨特之處。更令人意外的是,模型們在互評時很少表現出明顯偏見,甚至會主動承認自己的答案不如其他模型。
這一項目在GitHub上公開后,迅速吸引了大量關注,目前已獲得1.8k顆星。有網友認為,這種模型互評的模式或許能成為一種新的“自動基準測試”,為評估大模型性能提供全新思路;暢銷書《Python機器學習》的作者也對該思路表示看好。卡帕西表示,雖然模型自評的結果可能與人類主觀感受存在差異,但這種多模型協作的方式無疑為大模型的應用開辟了新的可能性,未來或許會成為LLM產品的重要發展方向。











