Intel實驗室近期在電機電子工程學會舉辦的電腦視覺與圖像識別會議中,展示與Blockade Labs合作推出的擴散模型Latent Diffusion Model for 3D (LDM3D),標榜能以自動生成式人工智慧技術,藉由文字描述快速產生能以360度視角觀看的3D影像。
相較目前多數自動生成式人工智慧技術多半僅能以文字敘述產生2D平面影像,Intel實驗室此次與Blockade Labs合作推出的擴散模型Latent Diffusion Model for 3D,則是能在使用相同參數情況下,配合文字描述自動產生影像與相應景深資訊,藉此快速形成3D立體影像,並且能用於快速建模、設置3D場景等需求,藉此加速諸如建築、設計,以及遊戲與娛樂相關產業應用。
此擴散模型是由包含超過4億個影像與文字標註的LAION-400M資料庫中,透過其中10000個樣本進行訓練,使用由Intel實驗室開發的Dense Prediction Transformer (DPT)大型深度估測模型,針對訓練語料庫進行標註。
同時,此擴散模型是在搭載Intel Xeon處理器與Habana Gaudi AI加速器的人工智慧超級電腦上進行訓練,同時藉由Dense Prediction Transformer大型深度估測模型將每個影像中的所有畫素提供高精準相對景深資訊,最後生成影像即可結合景深資訊形成能以360度視角檢視的3D內容,並且能在生成過程降低記憶體使用量,藉此減少運算延遲情況。
目前Intel已經將此擴散模型透過允許使用者共享機器學習模型及數據集的平台Hugging Face進行開源,藉此讓更多研究人員、業者能藉此打造各類應用項目,並且持續改善模型使用效率。