在生成式AI應用越來越普及的時代,知識來源的品質與開放性,正成為能否推動創新的關鍵。維基百科營運單位Wikimedia的德國分部 (Wikimedia Germany)近日宣布,將透過「維基百科嵌入計畫」 (Wikidata Embedding Project),讓龐大的知識資料庫更適合生成式AI模型使用,並且降低中小規模開發者導入使用門檻,減少生成式AI技術僅被少數科技巨頭壟斷情形。
先前時候,維基百科已經透過「Wikidata」進行結構化整理,涵蓋約1億2000萬筆資料條目,理論上能更容易被機器讀取。但由於生成式AI偏好處理自然語言內容,而非原始結構化資料,使得Wikidata難以直接運用,而這次推出的嵌入式專案,便是將Wikidata轉換為AI模型能夠理解的「向量」 (Vector)形式資料。
所謂向量化,就像將詞語之間的關係映射到座標空間,例如「狗」與「小狗」的關聯性會更為接近,而「狗」與「銀行帳戶」的關聯性則會較小,甚至無關。透過這樣的數據轉換,將能讓AI更好地理解資料對應的自然語意與語境,藉此提升自然語言處理的精準度。
更重要的是,過往AI訓練往往僅能使用靜態資料,維基百科後續的內容更新難以及時反映。但透過這項專案,Wikidata同時也整合了「RAG」 (Retrieval Augmented Generation,檢索增強生成)機制,讓AI模型能即時存取最新資料,大幅提升回答的時效性與可靠度。
Wikimedia德國分部在新聞稿中強調,這項計畫的核心目標是「讓AI模型獲取高品質資訊,以提升輸出的可信度」。同時,官方也點出目前多數AI系統仍依賴不透明的私有數據,缺乏透明性與可檢驗性,而藉由開放向量化的Wikidata,不僅能促進AI開發的公平性,也能幫助小型團隊降低開發負擔,避免生成式AI技術僅被少數科技巨頭壟斷。
事實上,向量化龐大資料需要極高的運算與存儲資源,對中小企業與獨立開發者來說相當吃力。維基百科嵌入計畫透過與德國人工智慧新創Jina AI,以及IBM子公司DataStax合作,由Jina AI負責開發向量轉換系統,而DataStax則將數據存放在其Astra DB向量資料庫,意味開發者無需自建複雜基礎設施,便能直接利用維基百科的知識庫進行應用。
正如Wikimedia德國分部表示,「強大的AI不應由少數公司壟斷」,這個計畫不僅是技術升級,更是一種對開放、協作式AI發展的宣示。隨著生成式AI的普及,這樣的開源與共享模式,或許將成為推動AI生態多元化的關鍵一步。