Tag: synthetic data

NVIDIA推出全球首款開放式人型機器人基礎模型,攜手Google、迪士尼打造更「聰明」的機器人

MIT攜手NVIDIA發表「FoundationMotion」!讓AI真正「看懂」影片動作,解決自動駕駛與機器人痛點

由MIT (麻省理工學院) 教授領軍,攜手NVIDIA、密西根大學、加州大學柏克萊分校與史丹佛大學研究團隊,在arXiv網站發表一項名為「FoundationMotion」的突破性研究。這項技術解決了目前AI領域最大的痛點之一:缺乏高品質的運動標註數據。透過這套自動化系統,電腦終於能像人類一樣,理解影片中物體與人物的連續動作,對於自動駕駛與機器人產業將有重大影響。 頂級AI的罩門:看得見「物體」,看不懂「動作」 研究團隊發現,即使是目前最強大的AI模型 (如Google的Gemini),在面對「汽車正在右轉」這種簡單的動態場景時,也經常會判斷錯誤。 根本原因在於,現有的訓練數據多半是靜態的圖片標註,而高品質的「影片動作標註」極其稀缺。傳統上,要標註一段幾秒鐘的影片,需要專業人員花費數分鐘逐幀確認,成本極高且難以量產。這導致了AI雖然能認出畫面裡有車,卻不知道車子下一秒要幹嘛。 AI教AI:全自動化的數據工廠 為了解決這個問題,研究團隊開發了「FoundationMotion」,這是一套完全自動化的數據製作流水線,就像一個不知疲倦的超級助手,自動觀看、追蹤,並且描述影片內容。 這套系統運作分為四個步驟: • 影片預處理:自動截取5到10秒的關鍵片段。 • 物體檢測與追蹤:結合Qwen2.5-VL識別物體類別,並且利用 SAM 2 (Segment Anything Model 2) 給每個運動物體發「身分證」,無論物體如何移動或被遮擋,都能精準鎖定軌跡。 • 語言描述生成:利用GPT-4o-mini作為大腦,將冷冰冰的軌跡數據翻譯成人類語言,從動作識別、時間順序等七個維度進行詳細描述。 • 問答對生成:自動出題考AI,生成包含動作識別、空間位置等五種類型的測試題。 透過這套流程,團隊成功建立了包含46.7萬個影片片段與問答對的大規模數據集,這在過去可能需要數百人工作數年才能完成。 中型模型逆襲:數據品質勝過參數大小 最令人驚訝的是訓練成果。研究團隊使用這套數據集對開源模型NVILA-Video-15B進行微調訓練,結果顯示,該模型在自動駕駛場景理解的準確率達到了91.5%。 這個成績直接超越了參數量更大的Gemini-2.5-Flash (84.1%) 與Qwen-2.5-VL-72B (83.3%)。這證明了在AI領域,「數據的品質」往往比「模型的大小」更為重要。一個經過專項訓練的中學生 (中型模型),在特定領域完全可以擊敗沒有受過訓練的大學生 (大型通用模型)。 ...

Google以最環保、減碳形式打造的Bay View辦公園區簡單逛

Google與卡內基美隆大學、MultiOn研究報告指出合成數據更有利提升人工智慧模型推論能力

Google近期與卡內基美隆大學、人工智慧代理技術新創MultiOn共同公布一項關於將合成數據用於大型人工智慧模型訓練的研究報告,指出合成數據將使人工智慧推論能力提升8倍。 在此報告中,研究人員透過兩種合成數據進行分析,其中包含以Gemini 1.5 Pro、GPT-4等大型人工智慧模型產生正確解決方法的正向數據,以及驗證錯誤問題的負面數據。 如果僅以正向數據進行訓練,人工智慧模型所能回答內容顯得有所侷限,其中可能無法全面理解解決問題背後的「思考邏輯」,進而傾向以傳統比對方式推論答案,同時隨著訓練數據量增加,更可能人人工智慧模型學習錯誤解答內容,進而影響模型泛用推論時的正確性。 因此導入負面數據的學習模式,將有利於使人工智慧模型從錯誤中學習,進而在後續推論過程避免出錯,藉此強化其邏輯推論能力。不過,使用負面數據時也可能包含錯誤訊息,因此過程中也必須導正人工智慧模型學習結果,避免將錯誤訊息當作正確內容進行學習。 而透過上述兩種以合成產生數據,將能讓人工智慧更有效地進行學習。研究團隊透過DeepSeek-Math-7B及LLaMa2-7B在內模型,在包含高品質、多種語言形成的小學數學文字題庫GSM8K,以及涵蓋代數、幾何、概率、數論等12500道複雜數學競賽題目構成的MATH數據集進行測試,顯示透過以合成形式產生正面數據與負面數據進行訓練結果,人工智慧模型的邏輯推論能力可大幅提升8倍,意味藉由合成數據訓練將能讓人工智慧模型製作變得更有效率,同時在應用上也會得到更準確無誤推論結果。

Welcome Back!

Login to your account below

Retrieve your password

Please enter your username or email address to reset your password.