Sony AI發表可評斷AI是否具偏見的測試資料集「FHIBE」，採全球80國「基於同意」影像打造

Sony AI稍早發表了一套名為「FHIBE」 (以人為本的公平圖像基準,Fair Human-Centric Image Benchmark) ，標榜公平、無偏見的的全新AI測試資料集。

Sony將其描述為「首個公開可用、具全球多樣性且『基於同意』 (consent-based)基礎打造的人類影像資料集」，專門用於評估電腦視覺 (computer vision) 識別過程中是否存在偏見。

簡單來說，此資料集可用於測試現今的AI模型是否公平地對待不同人群。而Sony得到的初步結論：沒有任何一家公司的資料集能完全符合其基準。

強調「基於同意」打造，對比網路爬蟲數據

Sony強調，「FHIBE」目標解決AI產業長期面臨的倫理與偏見挑戰。該資料集包含來自80多個國家、近2000名志願者的影像。

此資料集最關鍵的特性，在於所有影像均是在「取得同意」情況下分享，與目前業界普遍採用「網路爬蟲」 (web scraping) 大量抓取公開數據的做法截然不同，而「FHIBE」的參與者也有權可以隨時要求移除其影像。

此外，這些照片還包含了豐富的註釋 (annotations)，詳細標記了人口統計特徵、身體特徵、環境因素，甚至包含相機設定等細節。

此工具的測試結果，證實先前已被記錄的偏見，確實存在於現今的AI模型中。但Sony表示，「FHIBE」能更進一步判斷導致偏見的潛在因素。

例如，研究發現某些模型在處理使用「she/her/hers」 (女性代名詞) 的人群時，準確性較低。而「FHIBE」還進一步顯示，「髮型多樣性」 (greater hairstyle variability) 是過去在分析此類偏見時被忽視的關鍵因素之一，進而造成AI識別誤判情形。

而「FHIBE」也發現，當被問及受試者職業的「中性問題」時，現今的AI模型會強化刻板印象 (reinforced stereotypes)。測試模型尤其對「特定代名詞與族裔群體」存在偏見，例如更容易將他們描述為性工作者、毒販或小偷。

更嚴重的是，當被提示某人「犯了什麼罪行」時，模型有時會對非洲或亞洲血統的個體、膚色較深者，以及使用「he/him/his」(男性代名詞) 的個體，產生「更高比例的毒性回應 (toxic responses)」，亦即對此類人會形成刻板的偏見印象。

證明合乎倫理的資料收集可行性

Sony AI表示，「FHIBE」證明了「合乎倫理、具多樣性且公平」的資料收集可被實現。此工具目前已向大眾開放，未來也將持續更新，而相關研究論文也已經發表在《自然》 (Nature)期刊上。