數發部「台灣主權AI語料庫」Beta版上線,首波釋出6億組Token規模正體中文資料
為了避免台灣開發的AI模型滿口「京片子」,或是缺乏在地文化認知,數位發展部 (MODA)稍早宣布推出「台灣主權AI語料庫」 (Taiwan Sovereign AI Corpus)Beta版。 首波集結了文化部、教育部、客委會、原民會、交通部等超過200個政府機關,釋出逾2000筆資料集,總計約6億組Tokens規模的高品質正體中文數據,涵蓋文化藝術、地理、語言、醫療與交通等領域,即日起開放產學研界申請使用。 為什麼我們需要「主權AI」? 數發部次長侯宜秀表示,各國都在發展AI,真正的護城河不是算力 (因為GPU只要有錢就買得到),而是「資料」與「人才」。台灣獨有的文化、語言與價值觀,如果我們自己不做,沒有其他國家或科技巨頭會幫我們做。 資料創新司司長莊明芬舉了一個最經典的例子:「土豆」。 在中國的語境裡,土豆是「馬鈴薯」 (Potato);但在台灣,土豆指的是「落花生」 (Peanut)。如果用錯誤的資料餵養AI,訓練出來的模型就會給出錯誤的答案,甚至導致文化認知的錯亂。加強繁體、正體中文的比重,才能讓大型語言模型 (LLM) 真正理解台灣的政經文化與價值。 兩大類資料,申請要看「身分證」 目前上線的語料庫分為兩個部分: • 開放資料 (Open Data):開放自由下載。 • 授權資料 (Restricted):僅供AI訓練使用,需申請審核。 為了確保數據不被濫用,外界若欲使用授權資料,必須透過自然人憑證或工商憑證確認身分,並且說明使用目的。數發部約需7個工作天進行審核,通過後才會提供授權帳號供下載,目前提供的檔案格式包含通用的PDF與JSON,符合國際共享資料的FAIR原則 (可查找、可取得、可互通、可再利用)。 解決最頭痛的「版權」問題:一次性授權 對於開發者來說,訓練AI最怕踩到著作權地雷。對此,數發部與經濟部智財局合作制定了專屬的授權條款。 採用「一次性授權」模式,在授權人同意下,讓提供的語料能合法用於AI訓練 (包含重製、改作、編輯等)。相對地,被授權人 (開發者)也有義務標示資料來源,同時產出的內容需標示為以AI生成,並且確保訓練成果不會與原語料「實質近似」,以保障原創者的市場價值。 ...



