天脈網 | 天脈新媒體中心主辦！
手機版
二維碼

時事快聞

當前位置：首頁 > 天脈資訊 > 財經快訊 > 正文內容

卡帕西“大模型議會”新玩法：四大AI匿名互評，誰是最強引熱議

時間：2025-11-25 21:17 來源：快訊作者：量子位

編程界又迎來一項創新成果——知名技術專家卡帕西推出了一款名為“大模型議會”（LLM Council）的Web應用。這款應用雖然外觀與常見的聊天機器人界面相似，但背后卻藏著獨特的運行機制：當用戶提出問題后，系統會借助OpenRouter同時喚醒多個大模型，讓它們共同參與問題解答。

這款應用的流程設計頗具巧思，主要分為三個步驟。第一步是“群策群力”，系統會同時調用GPT-5.1、Gemini 3 Pro Preview、Claude Sonnet 4.5和Grok-4等多個大模型，讓它們針對同一問題各自生成回答，并將這些回答以標簽視圖的形式呈現給用戶，方便對比查看。第二步是“匿名互評”，所有模型的回答會被匿名處理后分發給彼此，每個模型需要根據回答的準確性和洞察力進行評分，并附上詳細的評價理由，避免因模型身份產生偏見。第三步是“主席匯總”，系統會指定一個主席模型，將所有模型的回答和評分進行整合，最終生成一個綜合答案反饋給用戶。

在實際測試中，卡帕西發現了一些有趣的現象。例如，當多個模型共同評價彼此的回答時，GPT-5.1的答案被一致認為最具洞見，Claude的回答則被認為最弱，Gemini 3和Grok-4的表現處于中間水平。不過，卡帕西個人并不完全認同這一結果：他認為GPT-5.1的回答雖然內容豐富，但結構不夠緊湊；Gemini 3的答案更簡潔凝練，信息處理更到位；而Claude的回答雖然簡略，但也有其獨特之處。更令人意外的是，模型們在互評時很少表現出明顯偏見，甚至會主動承認自己的答案不如其他模型。

這一項目在GitHub上公開后，迅速吸引了大量關注，目前已獲得1.8k顆星。有網友認為，這種模型互評的模式或許能成為一種新的“自動基準測試”，為評估大模型性能提供全新思路；暢銷書《Python機器學習》的作者也對該思路表示看好。卡帕西表示，雖然模型自評的結果可能與人類主觀感受存在差異，但這種多模型協作的方式無疑為大模型的應用開辟了新的可能性，未來或許會成為LLM產品的重要發展方向。

更多>同類天脈資訊

滴普科技發布2025首份ESG報告：技術創新引領展現企業責任擔當

04-09

英特爾入局馬斯克Terafab項目，芯片超級工廠藍圖能否照進現實？

"英特爾的加入為這一計劃帶來了急需的技術積累，但目前雙方并未披露具體合作細節，僅表示"很榮幸與SpaceX、xAI和特斯拉共同加入Terafab項目，攜手推動芯片制造技術的革新"。 A：Terafab是馬…

04-09

國新能源副總經理王煒剛因工作調整辭去副總經理職務

04-09

聚焦未來科技盛會鑫鉆股份攜數字能源亮相創投峰會尋新機

廣東鑫鉆節能科技股份有限公司（以下簡稱 “鑫鉆股份”）受邀出席本次峰會，與學界、產業界及創投機構代表齊聚一堂，圍繞深地深海深空、原子級制造、商業航天、量子科技等未來科技賽道，共話產業重構與資本賦能的新路徑…

04-09

智元A3發布即交付擎天租，租賃平臺成機器人新品商業化“加速引擎”

本次智元新款人形機器人A3在大會現場亮相的同時，首批機型也計劃陸續交付至擎天租簽約的城市合伙人手中，并進入租賃平臺體系。此次智元A3首批量產機交付至擎天租城市合伙人網絡，也為新品進入市場提供了一種新的路徑：…

04-09

上海開普勒機器人公司獲億級A++輪融資，賽富等機構助力發展新征程

4月8日，天眼查融資歷程顯示，上海開普勒機器人有限公司近日獲得“A++輪”融資，涉及融資金額億級人民幣，投資機構為賽富投資基金，諾力股份，民爆光電。資料顯示，上海開普勒機器人有限公司法定代表人為楊華，成立于…

04-09

九嶺鋰業IPO終止：魏氏家族控股超五成，父子掌舵鋰業版圖

瑞財經吳文婷4月8日，江西九嶺鋰業股份有限公司（以下簡稱“九嶺鋰業”）滬主板IPO終止，因公司和保薦人國金證券撤回申請。 IPO前，魏冬冬、魏緒春、潘蕊合計控制公司58.9033%的股份，系公司的實際控制人…

04-09

ST西發董事長羅希被立案留置預重組及股權并購或生變數

此前失聯的ST西發董事長已被找到。 4月7日晚間，ST西發（即西藏發展）發布《關于實際控制人、董事長被留置》公告，內容顯示，該公司已收到董事長羅希家屬的通知，被告知其收到由西藏自治區監察委員會簽發的關于羅希的…

04-09

哈啰出行布局太原市場成立新公司注冊資本達千萬美元

04-09

美伊沖突下山西顯擔當：化肥電力煤化工，全方位守護國家能源命脈

04-09

小紅書電商聚焦“好貨”賽道發布NPL方法論助力商家穩快持久增長

04-09

立訊精密震蕩上行觸及階段高位專利突破與業務量產雙輪驅動發展

04-09

泰豐智能擬北交所上市：40歲總經理王然為董事長之子家族持股超五成

04-09

智譜欲成中國Anthropic：定價權、規模效應與轉型速度成關鍵挑戰

04-09

京東開源JoyAI-Image-Edit圖像模型：攻克空間難題，賦能多元領域應用

04-09

點擊查看更多 +

全站最新

馬斯克稱Boring Company建超級高鐵成本不足美高鐵5%，質疑其真實目的

馬斯克稱Boring Company建超級高鐵成本不足美高鐵5%，質疑其真實目的

英特爾強勢入局馬斯克TERAFAB項目共筑2nm芯片與太空算力新藍圖

英特爾強勢入局馬斯克TERAFAB項目共筑2nm芯片與太空算力新藍圖

金麒麟2025年業績飄紅：凈利增近五成，副總經理薪酬超董事長

金麒麟2025年業績飄紅：凈利增近五成，副總經理薪酬超董事長

英特爾入局馬斯克Terafab項目，芯片超級工廠藍圖能否照進現實？

英特爾入局馬斯克Terafab項目，芯片超級工廠藍圖能否照進現實？

XREAL押注AR眼鏡：全球第一仍難活得舒服，無顯示眼鏡或成新方向？

XREAL押注AR眼鏡：全球第一仍難活得舒服，無顯示眼鏡或成新方向？

九嶺鋰業IPO終止：魏氏家族控股超五成，父子掌舵鋰業版圖

九嶺鋰業IPO終止：魏氏家族控股超五成，父子掌舵鋰業版圖

熱門內容

媒體信息

新傳播周刊

新傳播，傳播新經濟之聲！

本欄最新

英特爾入局馬斯克Terafab項目，芯片超級工廠藍圖能否照進現實？

英特爾入局馬斯克Terafab項目，芯片超級工廠藍圖能否照進現實？

九嶺鋰業IPO終止：魏氏家族控股超五成，父子掌舵鋰業版圖

九嶺鋰業IPO終止：魏氏家族控股超五成，父子掌舵鋰業版圖

ST西發董事長羅希被立案留置預重組及股權并購或生變數

ST西發董事長羅希被立案留置預重組及股權并購或生變數

英特爾攜手馬斯克Terafab項目，共筑芯片制造新未來

英特爾攜手馬斯克Terafab項目，共筑芯片制造新未來

掌閱iReader Light4與Neo3、訊飛Air2 Pro大比拼：哪款是你的閱讀辦公好搭檔？

掌閱iReader Light4與Neo3、訊飛Air2 Pro大比拼：哪款是你的閱讀辦公好搭檔？

英特爾入局馬斯克200億美元TeraFab項目，共筑1太瓦AI芯片產能新藍圖

英特爾入局馬斯克200億美元TeraFab項目，共筑1太瓦AI芯片產能新藍圖

網站首頁 | 關于我們 | 聯系方式 | 版權隱私 | RSS訂閱 | 違規舉報魯公網安備37010202700497號

天脈網由天脈文化中心主辦，立足北京，放眼全中國，做首都圈新經濟、新文化、新科技資訊平臺！
2009-2021 天脈網 (c) All Rights Reserved 魯ICP備2022032383號-1