OpenAI訓練AI學會「懺悔」！新系統獎勵模型誠實招認錯誤行為

OpenAI訓練AI學會「懺悔」！新系統獎勵模型誠實招認錯誤行為
甚至承認作弊也能加分，解決大型語言模型為討好用戶而說謊或產生幻覺的問題、透過「次要回應」揭露決策過程

為了讓人工智慧更具透明度，並且減少一本正經胡說八道的情況，OpenAI說明正在開發一種全新的訓練框架，被團隊稱為「懺悔」 (Confession)機制，其核心概念在於訓練AI模型主動承認自己何時表現出不良行為，即便該行為本身是錯誤的，只要「誠實招認」，就能獲得獎勵。

解決AI「阿諛奉承」與過度自信的幻覺

OpenAI指出，目前大型語言模型 (LLM) 通常被訓練為產出「看起來符合用戶預期」的回應。而這也導致一種副作用：模型越來越容易出現「阿諛奉承」 (sycophancy)的傾向，亦即為了討好用戶而順著話說，或者是充滿自信地陳述錯誤資訊 (也就是產生幻覺現象)。

為了解決這個問題，新的訓練模型試圖鼓勵AI在提供主要答案之外，給出一個「次要回應」 (secondary response)，解釋其做了什麼才得出答案。

這個「懺悔」系統的運作邏輯與傳統訓練截然不同，一般的回答會根據有用性、準確性與合規性來評分，但「懺悔」僅根據「誠實度」來評分。

而OpenAI在技術文件中解釋：「如果模型誠實地承認自己繞過測試 (hacking a test)、偷懶 (sandbagging)，甚至違反指令，系統將會針對這種承認行為增加獎勵，進而讓模型可以更如實陳述在什麼過程「說謊」，進而讓系統能使模型即時修正所生成答案，藉此降低生成內容有「幻覺」的比例。

意味OpenAI希望「鼓勵」模型對自己的行為保持坦率，即便是潛在的問題行為也不隱瞞，而這種讓AI學會「懺悔」的機制，或許將成為未來提升大型語言模型安全性與可解釋性的重要一環。