市場動態 生活 網路

Google開放圖像文字敘述學習框架 讓電腦可更精準描繪照片情境

繼去年宣布開放學習框架TensorFlow,讓更多開發者可藉此加快人工智慧技術發展之後,Google將進一步藉由TensorFlow學習框架讓電腦系統更容易「理解」圖像內容,並且能透過流利字句描述圖像情境,甚至可針對複合圖像重組成不同描述內容。

, Google開放圖像文字敘述學習框架 讓電腦可更精準描繪照片情境, mashdigi-科技、新品、趣聞、趨勢

對於人工智慧相對重要的一環,便是讓電腦學習如何藉由圖像識別,進而將圖像內容轉化成合適描述文字,藉此達成電腦視覺應用目的,讓系統能順利透過文字轉換成執行指令完成動作,例如讓自動車識別前方有行人路過,進而告知系統啟動煞車,避免撞擊路人。雖然透過趨近感應元件偵測前方是否有障礙物,藉此讓系統判斷是否該啟動煞車也是一種辦法,但配合電腦視覺作為判斷輔助,將可讓自動車能更加正確地判斷前方路況。

而類似的技術,其實先前包含微軟、Qualcomm、Nvidia等廠商都已經投入發展應用,而Google過去以來其實也已經有相當長久的發展時間,甚至近期也配合與Nvidia合作,藉由顯示卡技術加快資料學習效率。從Nvidia稍早展示技術來看,目前圖像識別已經可以成功判斷動態影片內容,藉此讓系統更容易了解影片內容,甚至可快速判斷即時播放影片適合給哪些觀眾觀看。

在去年宣布開放學習框架TensorFlow之後,Google除在今年3月下旬的Cloud Platform NEXT 2016宣布開放更多TensorFlow延伸學習框架,讓電腦系統可藉由不同框架學習各類資料,稍早更針對圖像識別後的文字敘述判斷,同樣也開放名為「Show and Tell」學習框架,讓更多開發者可藉此訓練系統各類圖像認知效能。

根據Google公布數據,先前「Show and Tell」學習框架準確率約在89.6%-91.8%,目前累積學習成果則已經達成93.9%準確率,甚至已經可以在學習圖像重新作組合構成全新內容時,系統仍可給予合適的場景敘述字句。同時,就先前Google訓練流程來看,每個學習步驟至少需花費3秒鐘時間,但在新版本學習時間則僅需0.7秒,預期在對外開放學習框架將可讓學習時間更短。

楊又肇 (Mash Yang)
mashdigi.com網站創辦人兼主筆,同時也是科技新聞業流浪漢。

發表迴響