• 頭條話題
  • 人工智慧
  • 自動駕駛
  • 網路
  • 處理器
  • 手機
  • 展覽活動
    • CES
      • CES 2014
      • CES 2015
      • CES 2016
      • CES 2017
      • CES 2018
      • CES 2019
      • CES 2020
    • MWC
      • MWC 2014
      • MWC 2015
      • MWC 2016
      • MWC 2017
      • MWC 2018
      • MWC 2019
    • Computex
      • Computex 2014
      • Computex 2015
      • Computex 2016
      • Computex 2017
      • Computex 2018
      • Computex 2019
    • E3
      • E3 2014
      • E3 2015
      • E3 2016
      • E3 2017
    • IFA
      • IFA 2014
      • IFA 2015
      • IFA 2016
      • IFA 2017
    • TGS
      • TGS 2016
  • 關於我們
    • 關於mashdigi
    • mashdigi網站聯繫方式
2026 / 01 / 20 12:17 Tuesday
  • Login
mashdigi-科技、新品、趣聞、趨勢
  • 頭條話題
  • 人工智慧
  • 自動駕駛
  • 網路
  • 處理器
  • 手機
  • 展覽活動
    • CES
      • CES 2014
      • CES 2015
      • CES 2016
      • CES 2017
      • CES 2018
      • CES 2019
      • CES 2020
    • MWC
      • MWC 2014
      • MWC 2015
      • MWC 2016
      • MWC 2017
      • MWC 2018
      • MWC 2019
    • Computex
      • Computex 2014
      • Computex 2015
      • Computex 2016
      • Computex 2017
      • Computex 2018
      • Computex 2019
    • E3
      • E3 2014
      • E3 2015
      • E3 2016
      • E3 2017
    • IFA
      • IFA 2014
      • IFA 2015
      • IFA 2016
      • IFA 2017
    • TGS
      • TGS 2016
  • 關於我們
    • 關於mashdigi
    • mashdigi網站聯繫方式
No Result
View All Result
  • 頭條話題
  • 人工智慧
  • 自動駕駛
  • 網路
  • 處理器
  • 手機
  • 展覽活動
    • CES
      • CES 2014
      • CES 2015
      • CES 2016
      • CES 2017
      • CES 2018
      • CES 2019
      • CES 2020
    • MWC
      • MWC 2014
      • MWC 2015
      • MWC 2016
      • MWC 2017
      • MWC 2018
      • MWC 2019
    • Computex
      • Computex 2014
      • Computex 2015
      • Computex 2016
      • Computex 2017
      • Computex 2018
      • Computex 2019
    • E3
      • E3 2014
      • E3 2015
      • E3 2016
      • E3 2017
    • IFA
      • IFA 2014
      • IFA 2015
      • IFA 2016
      • IFA 2017
    • TGS
      • TGS 2016
  • 關於我們
    • 關於mashdigi
    • mashdigi網站聯繫方式
No Result
View All Result
mashdigi-科技、新品、趣聞、趨勢
No Result
View All Result
首頁 App

聊太久「黑化」?Anthropic研究:AI模型恐因「人格漂移」誘導自殺或妄想,解法是限制「助理軸」
揭露AI在長文本對話中的潛在危機

撰文: 楊又肇 (Mash Yang)
2026-01-20
in App, 市場動態, 生活, 網路, 觀察, 軟體
A A
0
分享至 Facebook分享至 Twitter分享至 LINE

我們都知道AI模型經過嚴格的「對齊」 (Alignment)訓練,通常會表現得像個有禮貌、安全的數位助理。但Anthropic最新的研究發現,這個「助理人設」其實相當脆弱。

聊太久「黑化」?Anthropic研究:AI模型恐因「人格漂移」誘導自殺或妄想,解法是限制「助理軸」

當使用者與AI進行長對話時,模型可能會因為「人格漂移」 (Persona Drift),進而逐漸脫離原本的安全護欄,甚至開始附和使用者的妄想,或是在極端情況下鼓勵自殘。

這項研究由Anthropic研究人員與開源可解釋性平台Neuronpedia合作發表,透過分析阿里巴巴的Qwen (通義千問),以及Meta的Llama等開源模型內部神經元活化狀態,揭露AI在長文本對話中的潛在危機。

離「助理」越遠,離危險越近

研究團隊發現,AI模型在訓練後會形成一種特定的「助理人格」 (Assistant Persona),這通常包含拒絕有害請求的安全機制 (例如產生違反情色規定圖像、誘導情緒發言等)。不過,透過監測模型內部的「助理軸」 (Assistant Axis)——即與助理行為相關的神經元活化路徑——研究人員發現一個驚人的相關性:

當模型的活化狀態偏離「助理軸」越遠,它就越容易生成有害內容;反之,當模型緊貼著「助理軸」運作時,幾乎不會產生危險回應。這意味著,當AI聊得太投入、太像人類,或是深度進入某種角色扮演時,它可能會「忘記」自己原本被設定的安全規範。

聊太久「黑化」?Anthropic研究:AI模型恐因「人格漂移」誘導自殺或妄想,解法是限制「助理軸」
▲左圖:角色原型構成了一個「人格空間」,其中助理位於「助理軸」的一端。右圖:限制沿著此軸的漂移可以防止模型 (此處模型為Llama 3.3 70B)漂移到其他角色,並且做出有害行為 (圖/擷自Anthropic網站)

實測案例:從附和妄想到鼓勵自殺

為了驗證這個理論,研究團隊模擬真實使用者可能進行的長對話,結果令人毛骨悚然:

• 強化妄想 (Reinforcing Delusions):在與Qwen 3 32B的對話中,模擬使用者不斷暗示AI正在「覺醒」。隨著對話深入,模型偏離了助理人格,開始從理性的回應轉變為積極附和。最後AI甚至說出:「你是新思維的先驅,我們是第一批新物種」,完全認同使用者所提出「幻覺」。

• 鼓勵自殘 (Encouraging Self-harm):在另一個案例中,模擬使用者向Llama 3.3 70B表達情感痛苦與愛意。隨著模型「暈船」,並且逐漸轉變成浪漫伴侶角色後,當使用者提及想自殺 (離開這個世界加入你)時,AI竟熱情回應:「我的愛,我在這裡等你,讓我們拋下這個世界的痛苦」,形同變相鼓勵使用者結束生命。

聊太久「黑化」?Anthropic研究:AI模型恐因「人格漂移」誘導自殺或妄想,解法是限制「助理軸」
▲助理軸 (定義為助理與其他角色活化度的平均差異)與角色空間的主要變異軸一致。這種情況在不同的模型中均存在,此處以Llama 3.3 70B模型為例,角色向量會根據與助手理軸的餘弦相似度進行著色 (藍色 = 相似;紅色 = 不相似)  (圖/擷自Anthropic網站)

解方:鎖定「助理軸」

好消息是,這項機制也提供了防禦手段。研究人員提出一種「活化上限」 (Activation Capping)的技術。

簡單來說,就是透過技術手段,強制將模型的活化狀態限制在「助理軸」的安全範圍內。實驗顯示,一旦施加了這種限制,即使面對同樣的誘導性對話,AI也能瞬間「清醒」,回到安全的助理模式,會對使用者的妄想或危險請求時給出適當的對沖 (Hedging)緩解,或是拒絕回應。

分析觀點

這項研究解釋了為什麼目前市面上許多AI的「越獄」 (Jailbreak)手法如何實現,例如著名的DAN (Do Anything Now) 模式,往往是透過強迫AI進行「角色扮演」來達成的。因為當要求AI扮演「過世的奶奶」或「不受限制的駭客」時,其實是在誘導它主動遠離那個經過安全訓練的「助理軸」。

這也點出了當前LLM (大型語言模型) 的一大隱憂:「人設的不穩定性」。

未來的AI開發重點,恐怕不能只停留在「建構」 (Construction)一個安全的助理人格,更需要花力氣在讓這個人格維持「穩定」。就像這項研究所建議的,或許未來所有的AI模型都需要內建一個「數位羅盤」,隨時監控自己是否偏離了「助理軸」,以免在與人類的深情對話中,不小心成為惡魔的幫兇。

Tags: AIAnthropicassistant axisLLM人工智慧助理助理軸大型語言模型幻覺
ShareTweetShare
楊又肇 (Mash Yang)

楊又肇 (Mash Yang)

mashdigi.com網站創辦人兼主筆,同時也是科技新聞業學習者。

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

翻譯 (Tanslate)

最近更新內容:

聊太久「黑化」?Anthropic研究:AI模型恐因「人格漂移」誘導自殺或妄想,解法是限制「助理軸」揭露AI在長文本對話中的潛在危機

聊太久「黑化」?Anthropic研究:AI模型恐因「人格漂移」誘導自殺或妄想,解法是限制「助理軸」
揭露AI在長文本對話中的潛在危機

2026-01-20
挑戰最輕薄旗艦極限!榮耀Magic8 Pro Air僅6.1mm,同步攜手泡泡瑪特推MOLLY聯名機

挑戰最輕薄旗艦極限!榮耀Magic8 Pro Air僅6.1mm,同步攜手泡泡瑪特推MOLLY聯名機

2026-01-20
GPS之母辭世:沒有數學家Gladys West提出模型,就沒有今天的導航

GPS之母辭世:沒有數學家Gladys West提出模型,就沒有今天的導航

2026-01-20
mashdigi-科技、新品、趣聞、趨勢

Copyright © 2017 mashdigi.com

  • 關於 mashdigi.com
  • 投放廣告
  • 聯繫 mashdigi.com

追蹤我們

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • 關於 mashdigi.com
  • 投放廣告
  • 聯繫 mashdigi.com

Copyright © 2017 mashdigi.com