為了讓人工智慧更具透明度,並且減少一本正經胡說八道的情況,OpenAI說明正在開發一種全新的訓練框架,被團隊稱為「懺悔」 (Confession)機制,其核心概念在於訓練AI模型主動承認自己何時表現出不良行為,即便該行為本身是錯誤的,只要「誠實招認」,就能獲得獎勵。
解決AI「阿諛奉承」與過度自信的幻覺
OpenAI指出,目前大型語言模型 (LLM) 通常被訓練為產出「看起來符合用戶預期」的回應。而這也導致一種副作用:模型越來越容易出現「阿諛奉承」 (sycophancy)的傾向,亦即為了討好用戶而順著話說,或者是充滿自信地陳述錯誤資訊 (也就是產生幻覺現象)。
為了解決這個問題,新的訓練模型試圖鼓勵AI在提供主要答案之外,給出一個「次要回應」 (secondary response),解釋其做了什麼才得出答案。
獎勵機制:只要誠實,承認「作弊」也給分
這個「懺悔」系統的運作邏輯與傳統訓練截然不同,一般的回答會根據有用性、準確性與合規性來評分,但「懺悔」僅根據「誠實度」來評分。
而OpenAI在技術文件中解釋:「如果模型誠實地承認自己繞過測試 (hacking a test)、偷懶 (sandbagging),甚至違反指令,系統將會針對這種承認行為增加獎勵,進而讓模型可以更如實陳述在什麼過程「說謊」,進而讓系統能使模型即時修正所生成答案,藉此降低生成內容有「幻覺」的比例。
意味OpenAI希望「鼓勵」模型對自己的行為保持坦率,即便是潛在的問題行為也不隱瞞,而這種讓AI學會「懺悔」的機制,或許將成為未來提升大型語言模型安全性與可解釋性的重要一環。








