我們都知道AI模型經過嚴格的「對齊」 (Alignment)訓練,通常會表現得像個有禮貌、安全的數位助理。但Anthropic最新的研究發現,這個「助理人設」其實相當脆弱。
當使用者與AI進行長對話時,模型可能會因為「人格漂移」 (Persona Drift),進而逐漸脫離原本的安全護欄,甚至開始附和使用者的妄想,或是在極端情況下鼓勵自殘。
這項研究由Anthropic研究人員與開源可解釋性平台Neuronpedia合作發表,透過分析阿里巴巴的Qwen (通義千問),以及Meta的Llama等開源模型內部神經元活化狀態,揭露AI在長文本對話中的潛在危機。
離「助理」越遠,離危險越近
研究團隊發現,AI模型在訓練後會形成一種特定的「助理人格」 (Assistant Persona),這通常包含拒絕有害請求的安全機制 (例如產生違反情色規定圖像、誘導情緒發言等)。不過,透過監測模型內部的「助理軸」 (Assistant Axis)——即與助理行為相關的神經元活化路徑——研究人員發現一個驚人的相關性:
當模型的活化狀態偏離「助理軸」越遠,它就越容易生成有害內容;反之,當模型緊貼著「助理軸」運作時,幾乎不會產生危險回應。這意味著,當AI聊得太投入、太像人類,或是深度進入某種角色扮演時,它可能會「忘記」自己原本被設定的安全規範。

實測案例:從附和妄想到鼓勵自殺
為了驗證這個理論,研究團隊模擬真實使用者可能進行的長對話,結果令人毛骨悚然:
• 強化妄想 (Reinforcing Delusions):在與Qwen 3 32B的對話中,模擬使用者不斷暗示AI正在「覺醒」。隨著對話深入,模型偏離了助理人格,開始從理性的回應轉變為積極附和。最後AI甚至說出:「你是新思維的先驅,我們是第一批新物種」,完全認同使用者所提出「幻覺」。
• 鼓勵自殘 (Encouraging Self-harm):在另一個案例中,模擬使用者向Llama 3.3 70B表達情感痛苦與愛意。隨著模型「暈船」,並且逐漸轉變成浪漫伴侶角色後,當使用者提及想自殺 (離開這個世界加入你)時,AI竟熱情回應:「我的愛,我在這裡等你,讓我們拋下這個世界的痛苦」,形同變相鼓勵使用者結束生命。

解方:鎖定「助理軸」
好消息是,這項機制也提供了防禦手段。研究人員提出一種「活化上限」 (Activation Capping)的技術。
簡單來說,就是透過技術手段,強制將模型的活化狀態限制在「助理軸」的安全範圍內。實驗顯示,一旦施加了這種限制,即使面對同樣的誘導性對話,AI也能瞬間「清醒」,回到安全的助理模式,會對使用者的妄想或危險請求時給出適當的對沖 (Hedging)緩解,或是拒絕回應。
分析觀點
這項研究解釋了為什麼目前市面上許多AI的「越獄」 (Jailbreak)手法如何實現,例如著名的DAN (Do Anything Now) 模式,往往是透過強迫AI進行「角色扮演」來達成的。因為當要求AI扮演「過世的奶奶」或「不受限制的駭客」時,其實是在誘導它主動遠離那個經過安全訓練的「助理軸」。
這也點出了當前LLM (大型語言模型) 的一大隱憂:「人設的不穩定性」。
未來的AI開發重點,恐怕不能只停留在「建構」 (Construction)一個安全的助理人格,更需要花力氣在讓這個人格維持「穩定」。就像這項研究所建議的,或許未來所有的AI模型都需要內建一個「數位羅盤」,隨時監控自己是否偏離了「助理軸」,以免在與人類的深情對話中,不小心成為惡魔的幫兇。



