Google將可藉由雲端運算分辨影片內容細節、場景 - mashdigi

如同NVIDIA去年宣布以顯示卡硬體運算能力，讓系統能自動識別影片內容涵蓋人物、場景等特徵，進而將識別結果以文字內容詮釋，讓其他線上社群應用、資料分類或搜尋使用，而Google在此次Google Cloud NEXT 2017活動中，則是進一步開放雲端影音智慧API內容 (Cloud Video Intelligence API)，藉由Google Cloud Platform資源即可讓各類線上服務使用影片內容識別功能，進而可套用在各類影像相關服務作為延伸應用。

目前此項API資源仍處於內部封閉測試，預期透過持續學習不同影片資料學習更精準的細節、場景判斷，未來可能會應用在諸如YouTube或其他線上影音服務內容，讓使用者藉由關鍵字詞搜尋時，可以更快找到合乎期望搜尋結果的影片內容。

此項技術運作原理在於內容提供者可預先在影片內容片段設置特定字詞，例如在影片中有狗出現地方標示「狗」，在持續透過機器學習之後，即可透過關鍵字詞找到線上諸多與「狗」相關影片內容。而Google計畫與全球大型媒體業者合作，藉此讓此項技術更為精進，並且能快速讓非結構性的影片內容可藉由人工智慧識別技術進行分類。

在此次Google Cloud NEXT 2017活動中，Google宣布將在Google Cloud Platform資源加入機器學習引擎 (ML Engine;Machine Learning Engine)，並且開放包含雲端機器學習應用程式介面 (Cloud Machine Learning APIs)，對應視覺 (vision)、影音智慧 (Video Intelligence)、語調 (Speech)、自然語言 (Natural Language)，以及包含翻譯 (Translation)與工作 (Jobs)等API資源，藉此讓開發者能更容易運用人工智慧技術資源。

而在此之前，Google已經可藉由人工智慧技術分析靜態影像內容，並且在充分理解後重新組合成全新影像創作。而在持續與Imagenet合作學習分析眾多影像數據，目前對於靜態影像的識別分析已有相當精準表現。