• 頭條話題
  • 人工智慧
  • 自動駕駛
  • 網路
  • 處理器
  • 手機
  • 展覽活動
    • CES
      • CES 2014
      • CES 2015
      • CES 2016
      • CES 2017
      • CES 2018
      • CES 2019
      • CES 2020
    • MWC
      • MWC 2014
      • MWC 2015
      • MWC 2016
      • MWC 2017
      • MWC 2018
      • MWC 2019
    • Computex
      • Computex 2014
      • Computex 2015
      • Computex 2016
      • Computex 2017
      • Computex 2018
      • Computex 2019
    • E3
      • E3 2014
      • E3 2015
      • E3 2016
      • E3 2017
    • IFA
      • IFA 2014
      • IFA 2015
      • IFA 2016
      • IFA 2017
    • TGS
      • TGS 2016
  • 關於我們
    • 關於mashdigi
    • mashdigi網站聯繫方式
2025 / 12 / 26 10:53 Friday
  • Login
mashdigi-科技、新品、趣聞、趨勢
  • 頭條話題
  • 人工智慧
  • 自動駕駛
  • 網路
  • 處理器
  • 手機
  • 展覽活動
    • CES
      • CES 2014
      • CES 2015
      • CES 2016
      • CES 2017
      • CES 2018
      • CES 2019
      • CES 2020
    • MWC
      • MWC 2014
      • MWC 2015
      • MWC 2016
      • MWC 2017
      • MWC 2018
      • MWC 2019
    • Computex
      • Computex 2014
      • Computex 2015
      • Computex 2016
      • Computex 2017
      • Computex 2018
      • Computex 2019
    • E3
      • E3 2014
      • E3 2015
      • E3 2016
      • E3 2017
    • IFA
      • IFA 2014
      • IFA 2015
      • IFA 2016
      • IFA 2017
    • TGS
      • TGS 2016
  • 關於我們
    • 關於mashdigi
    • mashdigi網站聯繫方式
No Result
View All Result
  • 頭條話題
  • 人工智慧
  • 自動駕駛
  • 網路
  • 處理器
  • 手機
  • 展覽活動
    • CES
      • CES 2014
      • CES 2015
      • CES 2016
      • CES 2017
      • CES 2018
      • CES 2019
      • CES 2020
    • MWC
      • MWC 2014
      • MWC 2015
      • MWC 2016
      • MWC 2017
      • MWC 2018
      • MWC 2019
    • Computex
      • Computex 2014
      • Computex 2015
      • Computex 2016
      • Computex 2017
      • Computex 2018
      • Computex 2019
    • E3
      • E3 2014
      • E3 2015
      • E3 2016
      • E3 2017
    • IFA
      • IFA 2014
      • IFA 2015
      • IFA 2016
      • IFA 2017
    • TGS
      • TGS 2016
  • 關於我們
    • 關於mashdigi
    • mashdigi網站聯繫方式
No Result
View All Result
mashdigi-科技、新品、趣聞、趨勢
No Result
View All Result
首頁 市場動態

MIT攜手NVIDIA發表「FoundationMotion」!讓AI真正「看懂」影片動作,解決自動駕駛與機器人痛點
首創自動化標註流水線,生成46萬筆高品質數據;中型模型訓練後效能超越Gemini與Qwen等大型模型

撰文: 楊又肇 (Mash Yang)
2025-12-26
in 市場動態, 生活
A A
0
分享至 Facebook分享至 Twitter分享至 LINE

由MIT (麻省理工學院) 教授領軍,攜手NVIDIA、密西根大學、加州大學柏克萊分校與史丹佛大學研究團隊,在arXiv網站發表一項名為「FoundationMotion」的突破性研究。這項技術解決了目前AI領域最大的痛點之一:缺乏高品質的運動標註數據。透過這套自動化系統,電腦終於能像人類一樣,理解影片中物體與人物的連續動作,對於自動駕駛與機器人產業將有重大影響。

MIT攜手NVIDIA發表「FoundationMotion」!讓AI真正「看懂」影片動作,解決自動駕駛與機器人痛點

頂級AI的罩門:看得見「物體」,看不懂「動作」

研究團隊發現,即使是目前最強大的AI模型 (如Google的Gemini),在面對「汽車正在右轉」這種簡單的動態場景時,也經常會判斷錯誤。

根本原因在於,現有的訓練數據多半是靜態的圖片標註,而高品質的「影片動作標註」極其稀缺。傳統上,要標註一段幾秒鐘的影片,需要專業人員花費數分鐘逐幀確認,成本極高且難以量產。這導致了AI雖然能認出畫面裡有車,卻不知道車子下一秒要幹嘛。

AI教AI:全自動化的數據工廠

為了解決這個問題,研究團隊開發了「FoundationMotion」,這是一套完全自動化的數據製作流水線,就像一個不知疲倦的超級助手,自動觀看、追蹤,並且描述影片內容。

這套系統運作分為四個步驟:

• 影片預處理:自動截取5到10秒的關鍵片段。

• 物體檢測與追蹤:結合Qwen2.5-VL識別物體類別,並且利用 SAM 2 (Segment Anything Model 2) 給每個運動物體發「身分證」,無論物體如何移動或被遮擋,都能精準鎖定軌跡。

• 語言描述生成:利用GPT-4o-mini作為大腦,將冷冰冰的軌跡數據翻譯成人類語言,從動作識別、時間順序等七個維度進行詳細描述。

• 問答對生成:自動出題考AI,生成包含動作識別、空間位置等五種類型的測試題。

透過這套流程,團隊成功建立了包含46.7萬個影片片段與問答對的大規模數據集,這在過去可能需要數百人工作數年才能完成。

中型模型逆襲:數據品質勝過參數大小

最令人驚訝的是訓練成果。研究團隊使用這套數據集對開源模型NVILA-Video-15B進行微調訓練,結果顯示,該模型在自動駕駛場景理解的準確率達到了91.5%。

這個成績直接超越了參數量更大的Gemini-2.5-Flash (84.1%) 與Qwen-2.5-VL-72B (83.3%)。這證明了在AI領域,「數據的品質」往往比「模型的大小」更為重要。一個經過專項訓練的中學生 (中型模型),在特定領域完全可以擊敗沒有受過訓練的大學生 (大型通用模型)。

應用前景:從自駕車到帕金森氏症診斷

「FoundationMotion」的出現,為多個領域帶來了想像空間:

• 自動駕駛:系統不再只是看到車,而是能預判「前車正在變道」或「行人準備過馬路」,大幅提升安全性。

• 機器人協作:工廠機器人能看懂工人的手部動作,預判下一步需求並遞上工具。

• 醫療健康:透過分析患者的手部震顫模式 (如帕金森氏症),提供醫生客觀的數據輔助。

分析觀點:合成數據將是AI進化的燃料

筆者認為,「FoundationMotion」這項研究最大的意義,不只是讓AI看懂影片,而是驗證了「合成數據」 (Synthetic Data) 或「自動化標註」的可行性。

隨著AI模型對數據的需求量呈指數級成長,人類產生的數據早已不夠用,而標註成本也越來越高。這種「用現有AI工具 (如SAM 2、GPT-4o)來生產數據,再用來訓練下一代AI」的模式,將會是未來幾年AI發展的主流。

雖然目前該技術在3D空間理解與高速運動模糊上仍有局限,但MIT與NVIDIA已經承諾將開源相關代碼與數據。這意味著,未來我們家裡的掃地機器人或監控攝影機,可能都會因此變得更聰明一點。

🔥 編輯精選推薦
Galaxy Watch「睡眠呼吸中止偵測」實測:目前最懂你身體的隨身健康管家

Galaxy Watch「睡眠呼吸中止偵測」實測:目前最懂你身體的隨身健康管家

繼續閱讀 →
ChatGPT也要塞廣告了?傳OpenAI研擬「對話式」推廣內容,問美妝推薦可能優先跳出絲芙蘭

ChatGPT也要塞廣告了?傳OpenAI研擬「對話式」推廣內容,問美妝推薦可能優先跳出絲芙蘭

繼續閱讀 →
小米17 Ultra正式發表:首創「機械變焦環」致敬Leica M,搭載2億畫素連續光變長焦

小米17 Ultra正式發表:首創「機械變焦環」致敬Leica M,搭載2億畫素連續光變長焦

繼續閱讀 →
Tags: AIAutodrivingFoundationMotionMITNvidiaRobotsynthetic data人工智慧合成數據機器人自動駕駛麻省理工學院
ShareTweetShare
楊又肇 (Mash Yang)

楊又肇 (Mash Yang)

mashdigi.com網站創辦人兼主筆,同時也是科技新聞業學習者。

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

mashdigi-科技、新品、趣聞、趨勢

Copyright © 2017 mashdigi.com

  • 關於 mashdigi.com
  • 投放廣告
  • 聯繫 mashdigi.com

追蹤我們

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • 關於 mashdigi.com
  • 投放廣告
  • 聯繫 mashdigi.com

Copyright © 2017 mashdigi.com