繼OpenAI之後,另一家AI業者Anthropic也開了第一槍。官方稍早發布聲明,指控包含DeepSeek在內的三家中國AI新創公司,正透過大規模的「蒸餾攻擊」 (Distillation attacks),非法榨取Claude的對話數據來強化競爭對手自家的模型能力。

隨著大語言模型 (LLM)的競爭白熱化,高品質的訓練數據儼然成為各家廠商最珍貴的資產。根據報導,開發AI聊天機器人Claude的Anthropic在其官網發出強烈呼籲,點名中國AI企業DeepSeek (深度求索)、Moonshot (月之暗面),以及MiniMax,指控他們發起「工業規模級別的行動」,企圖非法竊取Claude的能力。
2.4萬個假帳號、1600萬次對話的「工業級」剽竊
在AI業界,「模型蒸餾」 (Model Distillation)並非新詞。它通常指的是讓較小、較弱的模型,透過學習強大模型 (如GPT-4或Claude)的輸出結果來進行訓練與自我提升。雖然蒸餾技術本身在特定授權下是合法的優化手段,但Anthropic強調,這些公司的行為已經越界,變成了一種惡意的攻擊。
Anthropic指出,這三家中國AI企業總共使用約24000個詐欺性假帳號,與Claude進行超過1600萬次的密集對話。Anthropic認為,這些競爭對手把Claude當成研發的「終南捷徑」,不僅藉此快速開發更先進的AI模型,更可能藉由這種方式來繞過原廠設定的安全護欄。
鐵證如山?Anthropic誓言升級防禦機制
至於Anthropic是如何抓到這些「內鬼」的?
官方表示,他們透過追蹤IP位址的關聯性、比對元數據 (Metadata)請求與基礎設施特徵,並且與AI業界內觀察到類似異常行為的其他同行進行交叉比對後,擁有「高度信心」能將這些蒸餾攻擊行動與上述三家特定的中國企業連結在一起。
事實上,這並非業界首例。早在去年初,OpenAI就曾提出過類似的指控,聲稱有競爭對手透過蒸餾技術來複製其模型能力,並且為此大規模封鎖了可疑帳號。對此,Anthropic承諾將全面升級系統防禦機制,讓未來的蒸餾攻擊變得更難以執行,且更容易被系統揪出。
不過,這起事件也帶有一絲諷刺意味:就在Anthropic大聲指責別人「偷數據」的同時,他們自己目前也正面臨著來自多家音樂出版商的侵權訴訟,被控非法使用受版權保護的歌曲歌詞來訓練Claude。
分析觀點
這場「蒸餾大戰」,掀開當前AI產業發展最無奈也最現實的一塊遮羞布:高品質的訓練資料快要用光了。
對於像DeepSeek或Moonshot這些起步稍晚,或是受限於美國高階算力禁令的中國AI業者來說,要從頭在網路上爬梳乾淨的數據來訓練頂尖大模型,時間與算力成本都太高了。最快的方法是什麼?就是直接去「問」目前世界上最聰明的AI (如Claude或ChatGPT),然後把這些經過整理、邏輯嚴密的「黃金答案」餵給自家的模型吃,這就是所謂的「蒸餾」。
Anthropic的憤怒完全可以理解,畢竟自己花費數億美元算力煉丹出來的成果,被別人用幾萬個免洗帳號的API呼叫費就輕鬆「白嫖」走。
不過,這也是AI市場目前的某種「貪食蛇」生態:科技巨頭未經授權爬取全網的人類版權心血來訓練底層模型,而新創公司再未經授權去爬取科技巨頭的模型來訓練自己的小模型。在真正的全球AI數據版權法規確立之前,這種「你抄我、我抄你」的攻防戰,恐怕只會越來越激烈。


