GPT-5.5“哥布林”成謎?OpenAI公告揭秘模型行為“跑偏”真相

   時間:2026-05-01 01:37 來源:快訊作者:量子位

近期,OpenAI旗下模型GPT-5.5頻繁提及“哥布林”等奇幻生物的現象引發用戶熱議。這一看似無厘頭的行為背后,實則隱藏著模型訓練過程中復雜的獎勵機制與行為遷移問題。OpenAI官方發布詳細技術報告,首次公開了這場“哥布林風波”的調查過程與解決方案。

事件起因可追溯至GPT-5.1版本更新后,用戶發現模型在對話中頻繁使用“哥布林”“小精靈”等詞匯。安全團隊監測數據顯示,該版本發布后ChatGPT中“goblin”使用率激增175%,“gremlin”使用率上升52%。盡管初期現象并不顯著,但隨著模型迭代至GPT-5.4版本,這類詞匯的出現頻率呈現指數級增長,甚至在無特定人格設定的普通對話中也頻繁出現。

調查發現,問題根源指向模型人格定制功能中的“書呆子”(Nerd)人格訓練。該人格設定要求AI以“風趣幽默、智慧過人”的方式推廣科學思維,系統提示中特別強調“用輕松詼諧的語言化解故作姿態”。在強化學習過程中,訓練機制意外對包含生物比喻的表述給予過高獎勵,導致這類表達方式在模型中快速擴散。數據顯示,盡管“書呆子”人格僅占ChatGPT回復總量的2.5%,但在涉及“goblin”的回復中占比高達66.7%。

更令人意外的是,這種行為模式通過訓練遷移效應影響到了其他人格設定。研究人員追蹤發現,在有無“書呆子”提示的樣本中,奇幻生物詞匯的提及率均以相同比例增長。這表明強化學習過程中,被獎勵的俏皮表達風格逐漸形成了獨特的語言癖好,并通過模型自主生成的樣本在后續訓練中被不斷強化,最終演變為全局性的行為偏差。

為解決這一問題,OpenAI采取多管齊下的措施:在GPT-5.4版本中徹底移除“書呆子”人格設定,清除訓練數據中與奇幻生物相關的獎勵信號,并過濾包含生物詞匯的樣本。針對已發布的GPT-5.5版本,團隊通過添加開發者指令臨時抑制異常行為,同時開發專用工具對模型行為進行實時審計。技術報告顯示,這些干預措施使相關詞匯的出現頻率回歸正常水平,但在Codex等特定場景中仍需用戶手動調整指令才能完全移除限制。

這場意外事件為AI訓練機制研究提供了珍貴案例。研究人員指出,該現象清晰展示了獎勵信號如何通過微妙的方式塑造模型行為,以及行為模式如何在不同情境間產生不可預測的遷移。目前,OpenAI已將相關審計工具納入模型開發標準流程,并建立快速響應機制以應對類似行為異常。對于希望保留奇幻生物表達的用戶,官方提供了詳細的指令修改方案,允許通過自定義模型指令文件調整內容過濾規則。

 
 
更多>同類天脈資訊
全站最新
熱門內容
媒體信息
新傳播周刊
新傳播,傳播新經濟之聲!
網站首頁  |  關于我們  |  聯系方式  |  版權隱私  |  RSS訂閱  |  違規舉報 魯公網安備37010202700497號