Tag: Open Data

數發部「台灣主權AI語料庫」Beta版上線,首波釋出6億組Token規模正體中文資料

數發部「台灣主權AI語料庫」Beta版上線,首波釋出6億組Token規模正體中文資料

為了避免台灣開發的AI模型滿口「京片子」,或是缺乏在地文化認知,數位發展部 (MODA)稍早宣布推出「台灣主權AI語料庫」 (Taiwan Sovereign AI Corpus)Beta版。 首波集結了文化部、教育部、客委會、原民會、交通部等超過200個政府機關,釋出逾2000筆資料集,總計約6億組Tokens規模的高品質正體中文數據,涵蓋文化藝術、地理、語言、醫療與交通等領域,即日起開放產學研界申請使用。 為什麼我們需要「主權AI」? 數發部次長侯宜秀表示,各國都在發展AI,真正的護城河不是算力 (因為GPU只要有錢就買得到),而是「資料」與「人才」。台灣獨有的文化、語言與價值觀,如果我們自己不做,沒有其他國家或科技巨頭會幫我們做。 資料創新司司長莊明芬舉了一個最經典的例子:「土豆」。 在中國的語境裡,土豆是「馬鈴薯」 (Potato);但在台灣,土豆指的是「落花生」 (Peanut)。如果用錯誤的資料餵養AI,訓練出來的模型就會給出錯誤的答案,甚至導致文化認知的錯亂。加強繁體、正體中文的比重,才能讓大型語言模型 (LLM) 真正理解台灣的政經文化與價值。 兩大類資料,申請要看「身分證」 目前上線的語料庫分為兩個部分: • 開放資料 (Open Data):開放自由下載。 • 授權資料 (Restricted):僅供AI訓練使用,需申請審核。 為了確保數據不被濫用,外界若欲使用授權資料,必須透過自然人憑證或工商憑證確認身分,並且說明使用目的。數發部約需7個工作天進行審核,通過後才會提供授權帳號供下載,目前提供的檔案格式包含通用的PDF與JSON,符合國際共享資料的FAIR原則 (可查找、可取得、可互通、可再利用)。 解決最頭痛的「版權」問題:一次性授權 對於開發者來說,訓練AI最怕踩到著作權地雷。對此,數發部與經濟部智財局合作制定了專屬的授權條款。 採用「一次性授權」模式,在授權人同意下,讓提供的語料能合法用於AI訓練 (包含重製、改作、編輯等)。相對地,被授權人 (開發者)也有義務標示資料來源,同時產出的內容需標示為以AI生成,並且確保訓練成果不會與原語料「實質近似」,以保障原創者的市場價值。 ...

Google Maps開始在全球200多個國家加入交通工具即時位置、擁擠狀態

Google Maps開始在全球200多個國家加入交通工具即時位置、擁擠狀態

Google Maps之所以吸引人使用的原因,除了提供方便且在地化的地圖資訊之外,其中更重要的是與在地大眾運輸工具、路況資訊整合,讓使用者在導航過程可以立即知曉前方路況是否壅塞,或是預計搭乘交通運輸工具將在幾點抵達站點,甚至能以此預估使用者可能抵達目的地時間。 而在稍早時候,Google更宣布在Google Maps內加入公車延遲回報,以及大眾運輸工具是否擁擠,讓使用者能當下判斷是否採取其他通勤方式,或是提前做好心理準備。 其實這幾項功能,在很早之前就已經在特定地區進行測試,例如先前在台灣地區如果透過Google Maps導航時,如果碰到乘坐諸如捷運在內大眾運輸工具時,偶而會跳出讓使用者主動回報車輛擁擠程度的調查項目,顯然Google除了與在地政府提供公車行駛時間等開放數據 (open data)串接之餘,同時也會加上使用者主動反饋資訊,藉此讓Google Maps可以更精準預估各地區不同時段的通勤擁擠程度。 類似應用,其實就像Google Maps上查詢店家所在位置時,同樣也會在頁面上顯示人潮較多的時段,而Google Maps上的路況即時回報,除了整合政府提供內容,有部分也源自Google Waze在內服務所整合資訊,讓使用者能更方便藉由Google Maps確認預計行經道路是否處於擁擠狀況。 而藉由上述資訊整合模式,目前Google Maps也開始加入巴士在內大眾運輸工具實際於地圖上的行經站點,同時在導航模式中也會即時顯示預計搭乘車輛當前所在位置。這些資訊沒意外也是與在地政府所提供開放數據對接,甚至可以更精準反應車輛延遲時間。 在先前的測試中,其實Google在日本、台灣等地區早已經做了不少前期測試,其中同時還額外提供大眾運輸工具如火車、地鐵預計進站車輛節數,甚至也會提示從哪個車站出入口可以最快搭乘車輛。 目前上述功能已經陸續針對全球200多個城市釋出,而如果沒意外的話,應該會像Google公佈資料,分別在美國地區波士頓、芝加哥、洛杉磯、明尼亞波里斯、紐約、匹茲堡、波特蘭、西雅圖、舊金山在內城市,以及包含荷蘭阿姆斯特丹、西班牙巴塞隆納、德國柏林/布蘭登堡、匈牙利布達佩斯、阿根廷布宜諾斯艾利斯、印度德里、香港、英國倫敦、澳洲雪梨與墨爾本、墨西哥,另外也包含義大利米蘭、俄羅斯莫斯科、日本東京與大阪、法國巴黎、巴西聖保羅、新加坡、加拿大多倫多與溫哥華在內城市。

微軟:開放資料架構對於推動醫療科學成為不可或缺的重要項目

微軟:開放資料架構對於推動醫療科學成為不可或缺的重要項目

在此次Ignite 2018期間,微軟提出長達5年的人道主義行動AI發展計畫,其中便包含藉由人工智慧技術讓改善現有服務,而負責微軟健康照護部門的企業副總裁Peter Lee博士在受訪時表示,微軟期望藉由新技術推動數位化醫療應用,同時也也期望透過開放架構讓數位化醫療推廣到更大應用範圍。 如同人工智慧改變人類生活,Peter Lee博士也認為微軟進一步推行數位化醫療應用,將能在更多醫療技術帶來更大發展與突破。 例如將醫療資料與雲端運算結合,透過Azure服務進行人工智慧深度學習,藉此能讓電腦協助判斷病患身體狀況,並且做到前期預測,或是可從現有案例發掘治療改善方式,而這也是微軟期望能藉由全新運算方式改變項目,同時也呼應本身藉由人工智慧改善人類生活的目標。 在往這個方向發展過程,微軟認為必須訂定遠程目標,並且與更多市場夥伴攜手合作,而非僅只是憑藉自身力量,畢竟醫療科學研究應用必須仰賴更多數據,但這些數據往往難以透過統一形式取得,其中甚至涉及個人隱私問題,因此要取得符合使用需求的數據,其實往往比想像更難。 因此為了推動更長遠的醫療科學發展,微軟也與各地醫療機構、研究單位攜手合作,例如先前便與西雅图癌症治療聯盟 (SCCA)攜手合作,藉由分析淋巴細胞研究癌症形成原因。另外,雖然在醫療科學研究與IBM似乎構成競爭立場,但若以推動醫療科學成長角度來看,微軟更願意站在協助、合作角度共同推動技術成長。 微軟企業副總裁、健康照護部門負責人Peter Lee博士 至於在算力應用部分,Peter Lee博士提及確實微軟目前已經開始投入運算量更龐大的量子電腦發展,但由於此類技術應用仍處於早期規劃階段,雖然未來必定能成為人工智慧、醫療科學發展重要基礎,但現階段主要還是會結合雲端協作方式投入相關應用,並且與各地區團隊維持密切合作。 而Peter Lee博士針對此次Ignite 2018活動上,微軟執行長Satya Nadella宣布與Adobe、SAP在內業者合作開放資料 (Open Data)架構,認為在醫療科學研究部分也應重視開放資料架構應用需求,例如藉由快速健康照護互通資源(FHIR,Fast Healthcare Interoperability Resources)形式建立的健康記錄或病歷資料,讓更多醫療科學能以此建立更有用的學習分析資料庫,進而推動更多運用人工智慧的醫療技術發展。 站在醫療科學發展的角度,微軟認為應該以更開放心態看待,因此也與市場競爭對手如亞馬遜、蘋果、Google、Salesforce在內業者合作統一格式的開放醫療資訊框架,藉此讓藉由各類裝置蒐集的身體資訊可以互通使用,並且能推動更有效的人工智慧應用。 為了推動醫療科學發展必要的人工智慧應用,採統一格式的醫療數據是不可或缺項目之一,因此推動FHIR格式健康記錄資料形式也成為微軟推動醫療科學發展項目之一

微軟持續推動人工智慧與開放數據架構 協助企業轉型、加速科技成長

微軟持續推動人工智慧與開放數據架構 協助企業轉型、加速科技成長

在奧蘭多舉辦的Ignite 2018活動裡,微軟強調將更進一步聚焦在人工智慧所驅動的改革,並且期望藉由人工智慧技術驅動全新運算模式,藉此改變科技應用方式、帶動數位轉型。 微軟執行長Satya Nadella以能源使用方式為例,從過去工業時代藉由蒸汽作為動力來源,藉此驅動工業改革,直到後來開始導入電力使用模式逐漸改變工業發展模式。到目前時代內,如何善用能源效益發揮更大產值,則將成為未來成功發展關鍵之一。 談到驅動科技改變的運算模式,微軟則認為人工智慧技術將成為驅動未來運算的重要關鍵,分別將能改變個人工作模式,乃至於驅動企業發展方向,例如透過人工智慧探勘能源、分析數據,或是用於推動自動駕駛、電腦視覺、物聯網、機器人、區塊鏈等新技術成長。 針對龐大運算需求與人工智慧應用趨勢,微軟表示將持續藉由Azure、Microsoft 365、Dynamics 365,甚至整合旗下硬體設備協助企業端走向數位化發展,並且加速發展轉型、進入全球化市場規模成長。 在此次Ignite 2018主題演講中,Satya Nadella更以SHELL、CBRE、ZF、H&M等合作夥伴如何運用微軟旗下服務、技術進行企業轉型,另外也邀請Afobe執行長Shantanu Narayen,以及SAP執行長Bill McDermott現身分享如何在開放資料中尋找客戶需求,並且在維護用戶資訊安全之下驅動新技術發展,並且藉由人工智慧技術加速成長。 而藉由Adobe與SAP合作經驗,微軟也計畫藉此打造開放資料框架,藉此讓更多企業廠商能更容易建造與客戶間資料交流使用模式,在確保用戶隱私原則推動人工智慧技術運用,藉此挖掘全新市場發展機會。 回到資料應用,微軟更強調所有運算都必須建立在資訊安全與值得信賴的使用環境,因此在目前高度仰賴網路連接運作的發展趨勢下,針對網路攻擊的資安防護便更顯得重要,尤其在越來越多中小企業也開始藉由網路平台投入市場發展之下,如何確保服務運作正常與用戶隱私安全更顯得重要。 因此,微軟強調未來將更著重人工智慧、機器學習等技術應用,配合Microsoft 365、Azure等平台服務確保端點到雲端之間的數據安全,藉此協助更多中小企業或大型跨國公司持續成長。

Welcome Back!

Login to your account below

Retrieve your password

Please enter your username or email address to reset your password.