隨著生成式AI應用不斷擴展,麻省理工學院 (MIT)電腦科學與人工智慧實驗室 (CSAIL)近期與豐田研究院 (Toyota Research Institute)共同開發出一款全新的AI工具——「可引導場景生成」 (steerable scene generation),讓AI能自主創造並調整虛擬訓練場景,進一步提升機器人學習與模擬的效率。
這項技術的核心在於讓AI不只是生成圖片或3D模型,而是能根據目標動態構建環境,例如打造廚房、客廳、餐廳等空間,用於測試機器人如何在真實世界中處理各類任務。該系統基於超過4400萬個3D房間資料訓練,並且導入名為「蒙地卡羅樹搜尋」 (Monte Carlo Tree Search,MCTS)的策略,使AI能在場景生成過程中做出策略性選擇,以實現更符合需求的結果。
麻省理工學院博士生暨電腦科學與人工智慧實驗室研究員Nicholas Pfaff表示,這是首次將「蒙地卡羅樹搜尋」應用於生成式場景設計,讓AI的決策過程更接近人類的思考方式。「我們把場景生成當作一種連續決策任務,AI會不斷調整與重建場景的局部結構,最終創造出更理想、更真實的模擬環境。」他指出,這種方式生成的場景複雜度與細節遠勝傳統擴散模型 (Diffusion Model)。
對機器人領域而言,這項研究的潛力格外關鍵。業界普遍認為,高品質訓練資料的稀缺一直是機器人學習的瓶頸。亞馬遜機器人應用科學家Jeremy Binagia指出:「這項可引導場景生成技術能讓虛擬訓練更加貼近物理現實,同時創造更多具挑戰性與多樣性的場景,有助於讓機器人學習過程更全面。」
研究團隊表示,透過此系統,工程師可依任務需求創造多元的訓練環境,從簡單的物體擺放到複雜的交互場景皆可模擬。Nicholas Pfaff補充說:「我們的引導式方法能生成真實、豐富且與任務緊密相關的場景,這對訓練機器人理解與應對不同情境特別重要。」
目前這款AI平台仍處於概念驗證階段,但麻省理工學院與豐田研究院正計畫進一步擴大資料規模與物件多樣性,最終目標是讓AI能自動創建全新資產與環境,而不再依賴固定素材庫。
若此研究能持續發展,未來不僅可應用於機器人訓練,也有望延伸至自駕車模擬、AR/VR交互環境設計、甚至數位孿生城市的建構。隨著生成式AI逐漸進入更高層次的決策與創造階段,麻省理工學院與豐田此項合作無疑揭示了AI在虛擬物理世界中學習與推演的新方向。