數發部「台灣主權AI語料庫」Beta版上線，首波釋出6億組Token規模正體中文資料

2025-12-24 - 更新於 2025-12-25

為了避免台灣開發的AI模型滿口「京片子」，或是缺乏在地文化認知，數位發展部 (MODA)稍早宣布推出「台灣主權AI語料庫」 (Taiwan Sovereign AI Corpus)Beta版。首波集結了文化部、教育部、客委會、原民會、交通部等超過200個政府機關，釋出逾2000筆資料集，總計約6億組Tokens規模的高品質正體中文數據，涵蓋文化藝術、地理、語言、醫療與交通等領域，即日起開放產學研界申請使用。為什麼我們需要「主權AI」？數發部次長侯宜秀表示，各國都在發展AI，真正的護城河不是算力 (因為GPU只要有錢就買得到)，而是「資料」與「人才」。台灣獨有的文化、語言與價值觀，如果我們自己不做，沒有其他國家或科技巨頭會幫我們做。資料創新司司長莊明芬舉了一個最經典的例子：「土豆」。在中國的語境裡，土豆是「馬鈴薯」 (Potato)；但在台灣，土豆指的是「落花生」 (Peanut)。如果用錯誤的資料餵養AI，訓練出來的模型就會給出錯誤的答案，甚至導致文化認知的錯亂。加強繁體、正體中文的比重，才能讓大型語言模型 (LLM) 真正理解台灣的政經文化與價值。兩大類資料，申請要看「身分證」目前上線的語料庫分為兩個部分： • 開放資料 (Open Data)：開放自由下載。 • 授權資料 (Restricted)：僅供AI訓練使用，需申請審核。為了確保數據不被濫用，外界若欲使用授權資料，必須透過自然人憑證或工商憑證確認身分，並且說明使用目的。數發部約需7個工作天進行審核，通過後才會提供授權帳號供下載，目前提供的檔案格式包含通用的PDF與JSON，符合國際共享資料的FAIR原則 (可查找、可取得、可互通、可再利用)。解決最頭痛的「版權」問題：一次性授權對於開發者來說，訓練AI最怕踩到著作權地雷。對此，數發部與經濟部智財局合作制定了專屬的授權條款。採用「一次性授權」模式，在授權人同意下，讓提供的語料能合法用於AI訓練 (包含重製、改作、編輯等)。相對地，被授權人 (開發者)也有義務標示資料來源，同時產出的內容需標示為以AI生成，並且確保訓練成果不會與原語料「實質近似」，以保障原創者的市場價值。 ...

Google Maps開始在全球200多個國家加入交通工具即時位置、擁擠狀態

2019-06-30

Google Maps之所以吸引人使用的原因，除了提供方便且在地化的地圖資訊之外，其中更重要的是與在地大眾運輸工具、路況資訊整合，讓使用者在導航過程可以立即知曉前方路況是否壅塞，或是預計搭乘交通運輸工具將在幾點抵達站點，甚至能以此預估使用者可能抵達目的地時間。而在稍早時候，Google更宣布在Google Maps內加入公車延遲回報，以及大眾運輸工具是否擁擠，讓使用者能當下判斷是否採取其他通勤方式，或是提前做好心理準備。其實這幾項功能，在很早之前就已經在特定地區進行測試，例如先前在台灣地區如果透過Google Maps導航時，如果碰到乘坐諸如捷運在內大眾運輸工具時，偶而會跳出讓使用者主動回報車輛擁擠程度的調查項目，顯然Google除了與在地政府提供公車行駛時間等開放數據 (open data)串接之餘，同時也會加上使用者主動反饋資訊，藉此讓Google Maps可以更精準預估各地區不同時段的通勤擁擠程度。類似應用，其實就像Google Maps上查詢店家所在位置時，同樣也會在頁面上顯示人潮較多的時段，而Google Maps上的路況即時回報，除了整合政府提供內容，有部分也源自Google Waze在內服務所整合資訊，讓使用者能更方便藉由Google Maps確認預計行經道路是否處於擁擠狀況。而藉由上述資訊整合模式，目前Google Maps也開始加入巴士在內大眾運輸工具實際於地圖上的行經站點，同時在導航模式中也會即時顯示預計搭乘車輛當前所在位置。這些資訊沒意外也是與在地政府所提供開放數據對接，甚至可以更精準反應車輛延遲時間。在先前的測試中，其實Google在日本、台灣等地區早已經做了不少前期測試，其中同時還額外提供大眾運輸工具如火車、地鐵預計進站車輛節數，甚至也會提示從哪個車站出入口可以最快搭乘車輛。目前上述功能已經陸續針對全球200多個城市釋出，而如果沒意外的話，應該會像Google公佈資料，分別在美國地區波士頓、芝加哥、洛杉磯、明尼亞波里斯、紐約、匹茲堡、波特蘭、西雅圖、舊金山在內城市，以及包含荷蘭阿姆斯特丹、西班牙巴塞隆納、德國柏林/布蘭登堡、匈牙利布達佩斯、阿根廷布宜諾斯艾利斯、印度德里、香港、英國倫敦、澳洲雪梨與墨爾本、墨西哥，另外也包含義大利米蘭、俄羅斯莫斯科、日本東京與大阪、法國巴黎、巴西聖保羅、新加坡、加拿大多倫多與溫哥華在內城市。

微軟：開放資料架構對於推動醫療科學成為不可或缺的重要項目

2018-09-28

在此次Ignite 2018期間，微軟提出長達5年的人道主義行動AI發展計畫，其中便包含藉由人工智慧技術讓改善現有服務，而負責微軟健康照護部門的企業副總裁Peter Lee博士在受訪時表示，微軟期望藉由新技術推動數位化醫療應用，同時也也期望透過開放架構讓數位化醫療推廣到更大應用範圍。如同人工智慧改變人類生活，Peter Lee博士也認為微軟進一步推行數位化醫療應用，將能在更多醫療技術帶來更大發展與突破。例如將醫療資料與雲端運算結合，透過Azure服務進行人工智慧深度學習，藉此能讓電腦協助判斷病患身體狀況，並且做到前期預測，或是可從現有案例發掘治療改善方式，而這也是微軟期望能藉由全新運算方式改變項目，同時也呼應本身藉由人工智慧改善人類生活的目標。在往這個方向發展過程，微軟認為必須訂定遠程目標，並且與更多市場夥伴攜手合作，而非僅只是憑藉自身力量，畢竟醫療科學研究應用必須仰賴更多數據，但這些數據往往難以透過統一形式取得，其中甚至涉及個人隱私問題，因此要取得符合使用需求的數據，其實往往比想像更難。因此為了推動更長遠的醫療科學發展，微軟也與各地醫療機構、研究單位攜手合作，例如先前便與西雅图癌症治療聯盟 (SCCA)攜手合作，藉由分析淋巴細胞研究癌症形成原因。另外，雖然在醫療科學研究與IBM似乎構成競爭立場，但若以推動醫療科學成長角度來看，微軟更願意站在協助、合作角度共同推動技術成長。微軟企業副總裁、健康照護部門負責人Peter Lee博士至於在算力應用部分，Peter Lee博士提及確實微軟目前已經開始投入運算量更龐大的量子電腦發展，但由於此類技術應用仍處於早期規劃階段，雖然未來必定能成為人工智慧、醫療科學發展重要基礎，但現階段主要還是會結合雲端協作方式投入相關應用，並且與各地區團隊維持密切合作。而Peter Lee博士針對此次Ignite 2018活動上，微軟執行長Satya Nadella宣布與Adobe、SAP在內業者合作開放資料 (Open Data)架構，認為在醫療科學研究部分也應重視開放資料架構應用需求，例如藉由快速健康照護互通資源(FHIR,Fast Healthcare Interoperability Resources)形式建立的健康記錄或病歷資料，讓更多醫療科學能以此建立更有用的學習分析資料庫，進而推動更多運用人工智慧的醫療技術發展。站在醫療科學發展的角度，微軟認為應該以更開放心態看待，因此也與市場競爭對手如亞馬遜、蘋果、Google、Salesforce在內業者合作統一格式的開放醫療資訊框架，藉此讓藉由各類裝置蒐集的身體資訊可以互通使用，並且能推動更有效的人工智慧應用。為了推動醫療科學發展必要的人工智慧應用，採統一格式的醫療數據是不可或缺項目之一，因此推動FHIR格式健康記錄資料形式也成為微軟推動醫療科學發展項目之一

微軟持續推動人工智慧與開放數據架構協助企業轉型、加速科技成長

2018-09-24

在奧蘭多舉辦的Ignite 2018活動裡，微軟強調將更進一步聚焦在人工智慧所驅動的改革，並且期望藉由人工智慧技術驅動全新運算模式，藉此改變科技應用方式、帶動數位轉型。微軟執行長Satya Nadella以能源使用方式為例，從過去工業時代藉由蒸汽作為動力來源，藉此驅動工業改革，直到後來開始導入電力使用模式逐漸改變工業發展模式。到目前時代內，如何善用能源效益發揮更大產值，則將成為未來成功發展關鍵之一。談到驅動科技改變的運算模式，微軟則認為人工智慧技術將成為驅動未來運算的重要關鍵，分別將能改變個人工作模式，乃至於驅動企業發展方向，例如透過人工智慧探勘能源、分析數據，或是用於推動自動駕駛、電腦視覺、物聯網、機器人、區塊鏈等新技術成長。針對龐大運算需求與人工智慧應用趨勢，微軟表示將持續藉由Azure、Microsoft 365、Dynamics 365，甚至整合旗下硬體設備協助企業端走向數位化發展，並且加速發展轉型、進入全球化市場規模成長。在此次Ignite 2018主題演講中，Satya Nadella更以SHELL、CBRE、ZF、H&M等合作夥伴如何運用微軟旗下服務、技術進行企業轉型，另外也邀請Afobe執行長Shantanu Narayen，以及SAP執行長Bill McDermott現身分享如何在開放資料中尋找客戶需求，並且在維護用戶資訊安全之下驅動新技術發展，並且藉由人工智慧技術加速成長。而藉由Adobe與SAP合作經驗，微軟也計畫藉此打造開放資料框架，藉此讓更多企業廠商能更容易建造與客戶間資料交流使用模式，在確保用戶隱私原則推動人工智慧技術運用，藉此挖掘全新市場發展機會。回到資料應用，微軟更強調所有運算都必須建立在資訊安全與值得信賴的使用環境，因此在目前高度仰賴網路連接運作的發展趨勢下，針對網路攻擊的資安防護便更顯得重要，尤其在越來越多中小企業也開始藉由網路平台投入市場發展之下，如何確保服務運作正常與用戶隱私安全更顯得重要。因此，微軟強調未來將更著重人工智慧、機器學習等技術應用，配合Microsoft 365、Azure等平台服務確保端點到雲端之間的數據安全，藉此協助更多中小企業或大型跨國公司持續成長。

Tag: Open Data