• 頭條話題
  • 人工智慧
  • 自動駕駛
  • 網路
  • 處理器
  • 手機
  • 展覽活動
    • CES
      • CES 2014
      • CES 2015
      • CES 2016
      • CES 2017
      • CES 2018
      • CES 2019
      • CES 2020
    • MWC
      • MWC 2014
      • MWC 2015
      • MWC 2016
      • MWC 2017
      • MWC 2018
      • MWC 2019
    • Computex
      • Computex 2014
      • Computex 2015
      • Computex 2016
      • Computex 2017
      • Computex 2018
      • Computex 2019
    • E3
      • E3 2014
      • E3 2015
      • E3 2016
      • E3 2017
    • IFA
      • IFA 2014
      • IFA 2015
      • IFA 2016
      • IFA 2017
    • TGS
      • TGS 2016
  • 關於我們
    • 關於mashdigi
    • mashdigi網站聯繫方式
2025 / 12 / 05 07:50 Friday
  • Login
mashdigi-科技、新品、趣聞、趨勢
  • 頭條話題
  • 人工智慧
  • 自動駕駛
  • 網路
  • 處理器
  • 手機
  • 展覽活動
    • CES
      • CES 2014
      • CES 2015
      • CES 2016
      • CES 2017
      • CES 2018
      • CES 2019
      • CES 2020
    • MWC
      • MWC 2014
      • MWC 2015
      • MWC 2016
      • MWC 2017
      • MWC 2018
      • MWC 2019
    • Computex
      • Computex 2014
      • Computex 2015
      • Computex 2016
      • Computex 2017
      • Computex 2018
      • Computex 2019
    • E3
      • E3 2014
      • E3 2015
      • E3 2016
      • E3 2017
    • IFA
      • IFA 2014
      • IFA 2015
      • IFA 2016
      • IFA 2017
    • TGS
      • TGS 2016
  • 關於我們
    • 關於mashdigi
    • mashdigi網站聯繫方式
No Result
View All Result
  • 頭條話題
  • 人工智慧
  • 自動駕駛
  • 網路
  • 處理器
  • 手機
  • 展覽活動
    • CES
      • CES 2014
      • CES 2015
      • CES 2016
      • CES 2017
      • CES 2018
      • CES 2019
      • CES 2020
    • MWC
      • MWC 2014
      • MWC 2015
      • MWC 2016
      • MWC 2017
      • MWC 2018
      • MWC 2019
    • Computex
      • Computex 2014
      • Computex 2015
      • Computex 2016
      • Computex 2017
      • Computex 2018
      • Computex 2019
    • E3
      • E3 2014
      • E3 2015
      • E3 2016
      • E3 2017
    • IFA
      • IFA 2014
      • IFA 2015
      • IFA 2016
      • IFA 2017
    • TGS
      • TGS 2016
  • 關於我們
    • 關於mashdigi
    • mashdigi網站聯繫方式
No Result
View All Result
mashdigi-科技、新品、趣聞、趨勢
No Result
View All Result
首頁 App

OpenAI訓練AI學會「懺悔」! 新系統獎勵模型誠實招認錯誤行為
甚至承認作弊也能加分,解決大型語言模型為討好用戶而說謊或產生幻覺的問題、透過「次要回應」揭露決策過程

撰文: 楊又肇 (Mash Yang)
2025-12-04
in App, 市場動態, 生活, 網路, 觀察, 軟體
A A
0
分享至 Facebook分享至 Twitter分享至 LINE

為了讓人工智慧更具透明度,並且減少一本正經胡說八道的情況,OpenAI說明正在開發一種全新的訓練框架,被團隊稱為「懺悔」 (Confession)機制,其核心概念在於訓練AI模型主動承認自己何時表現出不良行為,即便該行為本身是錯誤的,只要「誠實招認」,就能獲得獎勵。

解決AI「阿諛奉承」與過度自信的幻覺

OpenAI指出,目前大型語言模型 (LLM) 通常被訓練為產出「看起來符合用戶預期」的回應。而這也導致一種副作用:模型越來越容易出現「阿諛奉承」 (sycophancy)的傾向,亦即為了討好用戶而順著話說,或者是充滿自信地陳述錯誤資訊 (也就是產生幻覺現象)。

為了解決這個問題,新的訓練模型試圖鼓勵AI在提供主要答案之外,給出一個「次要回應」 (secondary response),解釋其做了什麼才得出答案。

獎勵機制:只要誠實,承認「作弊」也給分

這個「懺悔」系統的運作邏輯與傳統訓練截然不同,一般的回答會根據有用性、準確性與合規性來評分,但「懺悔」僅根據「誠實度」來評分。

而OpenAI在技術文件中解釋:「如果模型誠實地承認自己繞過測試 (hacking a test)、偷懶 (sandbagging),甚至違反指令,系統將會針對這種承認行為增加獎勵,進而讓模型可以更如實陳述在什麼過程「說謊」,進而讓系統能使模型即時修正所生成答案,藉此降低生成內容有「幻覺」的比例。

意味OpenAI希望「鼓勵」模型對自己的行為保持坦率,即便是潛在的問題行為也不隱瞞,而這種讓AI學會「懺悔」的機制,或許將成為未來提升大型語言模型安全性與可解釋性的重要一環。

Tags: LLMOpenAI大型語言模型懺悔
ShareTweetShare
楊又肇 (Mash Yang)

楊又肇 (Mash Yang)

mashdigi.com網站創辦人兼主筆,同時也是科技新聞業學習者。

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

  • 熱門
  • 留言
  • 最新
同時支援6GHz以下頻段與毫米波 Sony揭曉開發中旗艦手機Xperia PRO

同時支援6GHz以下頻段與毫米波 Sony揭曉開發中旗艦手機Xperia PRO

2020-02-24
訪談/Sony定調全新旗艦手機的Xperia 5,究竟是否歸類「Compact」定位?

訪談/Sony定調全新旗艦手機的Xperia 5,究竟是否歸類「Compact」定位?

2019-09-07
Raspberry Pi基金會宣布推出Raspberry Pi 5開發板,顯示供應鏈問題已經獲得改善

Raspberry Pi基金會宣布推出Raspberry Pi 5開發板,顯示供應鏈問題已經獲得改善

2023-09-28
Google從明年5月起將讓非AMP格式網頁也能優先納入行動搜尋結果

Google從明年5月起將讓非AMP格式網頁也能優先納入行動搜尋結果

2
Ubuntu母公司確認計畫上市募股 但仍未有具體時程表

Ubuntu母公司確認計畫上市募股 但仍未有具體時程表

1

索尼互動娛樂證實PlayStation 5僅向下相容絕大多數的PlayStation 4平台遊戲

0
AWS預覽其第五代自研處理器Graviton5、蘋果再次罕見站台,S3 Vectors正式上線助攻AI向量資料檢索

AWS預覽其第五代自研處理器Graviton5、蘋果再次罕見站台,S3 Vectors正式上線助攻AI向量資料檢索

2025-12-05
拉斯維加斯實測:亞馬遜Zoox無人計程車試乘,體驗如「未來移動艙」、安全機制能偵測小型遺落物

拉斯維加斯實測:亞馬遜Zoox無人計程車試乘,體驗如「未來移動艙」、安全機制能偵測小型遺落物

2025-12-05
Netflix遊戲部門再傳變動,Spry Fox由創辦人買回獨立運作,新作手遊版本仍由Netflix發行

Netflix遊戲部門再傳變動,Spry Fox由創辦人買回獨立運作,新作手遊版本仍由Netflix發行

2025-12-05
mashdigi-科技、新品、趣聞、趨勢

Copyright © 2017 mashdigi.com

  • 關於 mashdigi.com
  • 投放廣告
  • 聯繫 mashdigi.com

追蹤我們

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • 關於 mashdigi.com
  • 投放廣告
  • 聯繫 mashdigi.com

Copyright © 2017 mashdigi.com