市場動態 影音 生活 網路 頭條話題

Google透過YouTube影片讓人工智慧學習人類社交行為

在近期研究項目中,Google開始藉由旗下YouTube影片內容讓人工智慧開始學習人類自然互動間所產生肢體動作,藉此理解人類自然互動行為模式。

, Google透過YouTube影片讓人工智慧學習人類社交行為, mashdigi-科技、新品、趣聞、趨勢

根據Google方面表示,藉由名為AVA (atomic visual actions)的原子視覺化動作數據學習模式,讓人工智慧系統能進一步學習、理解人類自然互動中所呈現動作行為,例如行走、擁抱或握手時所產生自然動作表現。

而數據取樣來源則是以YouTube收錄大量影片內容為主,並且逐一擷取有人類互動行為的15分鐘片段,在進一步將15分鐘影片長度均分為300組不重複的3秒長度片段,同時將影片中人類互動行為模式各下註記,標示每一種互動行為所代表含意,進而讓人工智慧進行深度學習。

目前在AVA數據資料中,已將互動行為區分為姿勢或移動時的動作表現、人與物品互動行為,以及人與人互動行為三大類型,其中再區分不同細節表現,總計在超過57萬組影片內容註記約9萬6000組人類行為動作。

為了避免不同地區文化、種族行為差異造成資料誤判,Google在AVA數據資料也加入不同地區、不同類型的YouTube影片內容,藉此確保全人類行為判斷結果的一致性,例如避免產生在認定西方國家常以擁抱作為親密互動,卻因此認為亞洲國家較無親密互動的情況發生。

AVA數據研究目的,主要是為了讓人工智慧更能理解人類互動行為,藉此提昇行為預測能力,進而可用於內容判斷等動態影片分析應用,例如監視系統、內容推薦,或是廣告媒合推薦等。類似應用,先前NVIDIA也曾借助顯示卡運算加速模式打造影片內容分析功能,而先前台灣新創團隊創意引晴 (Viscovery)也透過視覺分析方式協助影片內容服務廠商優化廣告系統。

進一步讓人工智慧學習人類互動模式,預期將可讓電腦系統更容易自主判斷,進而可透過電腦視覺方式即時認知人類預期發生行為模式,並且做出更快反應或互動行為,例如未來發展社交機器人的過程,將可讓機器人以更自然方式與人互動。

現階段的人工智慧系統已經能將靜態影像內容進行相當準確的情境描述與認知,例如目前已經能將照片中的狗跟貓做具體區隔,但在動態影片內容分析仍有進步空間,即便現行技術已經能在動態影片中分析尋找相同人物,或是追蹤特定人物在影片中的行進方向,並且與多組影片行進方向做串接,卻仍無法完整分析影片中的複雜動態行為,因此Google此次藉由AVA數據分析學習人類互動模式,主要就是為了讓人工智慧系統能更理解人類自然互動行為。

楊又肇 (Mash Yang)
mashdigi.com網站創辦人兼主筆,同時也是科技新聞業學習者。

發表迴響

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料