MIT攜手NVIDIA發表「FoundationMotion」！讓AI真正「看懂」影片動作，解決自動駕駛與機器人痛點

NVIDIA推出全球首款開放式人型機器人基礎模型，攜手Google、迪士尼打造更「聰明」的機器人

MIT攜手NVIDIA發表「FoundationMotion」！讓AI真正「看懂」影片動作，解決自動駕駛與機器人痛點

2025-12-26

由MIT (麻省理工學院) 教授領軍，攜手NVIDIA、密西根大學、加州大學柏克萊分校與史丹佛大學研究團隊，在arXiv網站發表一項名為「FoundationMotion」的突破性研究。這項技術解決了目前AI領域最大的痛點之一：缺乏高品質的運動標註數據。透過這套自動化系統，電腦終於能像人類一樣，理解影片中物體與人物的連續動作，對於自動駕駛與機器人產業將有重大影響。頂級AI的罩門：看得見「物體」，看不懂「動作」研究團隊發現，即使是目前最強大的AI模型 (如Google的Gemini)，在面對「汽車正在右轉」這種簡單的動態場景時，也經常會判斷錯誤。根本原因在於，現有的訓練數據多半是靜態的圖片標註，而高品質的「影片動作標註」極其稀缺。傳統上，要標註一段幾秒鐘的影片，需要專業人員花費數分鐘逐幀確認，成本極高且難以量產。這導致了AI雖然能認出畫面裡有車，卻不知道車子下一秒要幹嘛。 AI教AI：全自動化的數據工廠為了解決這個問題，研究團隊開發了「FoundationMotion」，這是一套完全自動化的數據製作流水線，就像一個不知疲倦的超級助手，自動觀看、追蹤，並且描述影片內容。這套系統運作分為四個步驟： • 影片預處理：自動截取5到10秒的關鍵片段。 • 物體檢測與追蹤：結合Qwen2.5-VL識別物體類別，並且利用 SAM 2 (Segment Anything Model 2) 給每個運動物體發「身分證」，無論物體如何移動或被遮擋，都能精準鎖定軌跡。 • 語言描述生成：利用GPT-4o-mini作為大腦，將冷冰冰的軌跡數據翻譯成人類語言，從動作識別、時間順序等七個維度進行詳細描述。 • 問答對生成：自動出題考AI，生成包含動作識別、空間位置等五種類型的測試題。透過這套流程，團隊成功建立了包含46.7萬個影片片段與問答對的大規模數據集，這在過去可能需要數百人工作數年才能完成。中型模型逆襲：數據品質勝過參數大小最令人驚訝的是訓練成果。研究團隊使用這套數據集對開源模型NVILA-Video-15B進行微調訓練，結果顯示，該模型在自動駕駛場景理解的準確率達到了91.5%。這個成績直接超越了參數量更大的Gemini-2.5-Flash (84.1%) 與Qwen-2.5-VL-72B (83.3%)。這證明了在AI領域，「數據的品質」往往比「模型的大小」更為重要。一個經過專項訓練的中學生 (中型模型)，在特定領域完全可以擊敗沒有受過訓練的大學生 (大型通用模型)。 ...

Tag: FoundationMotion