• 頭條話題
  • 人工智慧
  • 自動駕駛
  • 網路
  • 處理器
  • 手機
  • 展覽活動
    • CES
      • CES 2014
      • CES 2015
      • CES 2016
      • CES 2017
      • CES 2018
      • CES 2019
      • CES 2020
    • MWC
      • MWC 2014
      • MWC 2015
      • MWC 2016
      • MWC 2017
      • MWC 2018
      • MWC 2019
    • Computex
      • Computex 2014
      • Computex 2015
      • Computex 2016
      • Computex 2017
      • Computex 2018
      • Computex 2019
    • E3
      • E3 2014
      • E3 2015
      • E3 2016
      • E3 2017
    • IFA
      • IFA 2014
      • IFA 2015
      • IFA 2016
      • IFA 2017
    • TGS
      • TGS 2016
  • 關於我們
    • 關於mashdigi
    • mashdigi網站聯繫方式
2025 / 11 / 10 06:39 星期一
  • Login
mashdigi-科技、新品、趣聞、趨勢
  • 頭條話題
  • 人工智慧
  • 自動駕駛
  • 網路
  • 處理器
  • 手機
  • 展覽活動
    • CES
      • CES 2014
      • CES 2015
      • CES 2016
      • CES 2017
      • CES 2018
      • CES 2019
      • CES 2020
    • MWC
      • MWC 2014
      • MWC 2015
      • MWC 2016
      • MWC 2017
      • MWC 2018
      • MWC 2019
    • Computex
      • Computex 2014
      • Computex 2015
      • Computex 2016
      • Computex 2017
      • Computex 2018
      • Computex 2019
    • E3
      • E3 2014
      • E3 2015
      • E3 2016
      • E3 2017
    • IFA
      • IFA 2014
      • IFA 2015
      • IFA 2016
      • IFA 2017
    • TGS
      • TGS 2016
  • 關於我們
    • 關於mashdigi
    • mashdigi網站聯繫方式
No Result
View All Result
  • 頭條話題
  • 人工智慧
  • 自動駕駛
  • 網路
  • 處理器
  • 手機
  • 展覽活動
    • CES
      • CES 2014
      • CES 2015
      • CES 2016
      • CES 2017
      • CES 2018
      • CES 2019
      • CES 2020
    • MWC
      • MWC 2014
      • MWC 2015
      • MWC 2016
      • MWC 2017
      • MWC 2018
      • MWC 2019
    • Computex
      • Computex 2014
      • Computex 2015
      • Computex 2016
      • Computex 2017
      • Computex 2018
      • Computex 2019
    • E3
      • E3 2014
      • E3 2015
      • E3 2016
      • E3 2017
    • IFA
      • IFA 2014
      • IFA 2015
      • IFA 2016
      • IFA 2017
    • TGS
      • TGS 2016
  • 關於我們
    • 關於mashdigi
    • mashdigi網站聯繫方式
No Result
View All Result
mashdigi-科技、新品、趣聞、趨勢
No Result
View All Result
首頁 生活

NVIDIA揭擴展定律如何推動更有智慧又更強大的AI發展
擴展定律描述AI系統的效能如何隨著訓練資料、模型參數或運算資源的增加而提升

撰文: mashdigi 新聞內容
2025-02-17
in 生活, 市場動態, 網路
A A
0
分享至 Facebook分享至 Twitter分享至 LINE

AI發展至今,需要以三大定律來描述運算資源的不同利用方式如何影響模型效能,包含預訓練擴展 (pretraining scaling)、訓練後擴展 (post-training scaling)、測試階段擴展 (test-time scaling),反映出AI領域如何在各種日益複雜的AI用例中運用額外的運算技術演進發展。

近期興起的測試階段擴展,已經實現AI推理模型這類新式的大型語言模型 (LLM),以執行多次推論來處理複雜的問題,同時描述解決任務所需的步驟。測試階段擴展需要用到大量運算資源來支援AI推理,這將進一步推動對加速運算的需求。

什麼是預訓練擴展?

預訓練擴展是AI發展的原始定律。它證明透過增加訓練資料集大小、模型參數數量和運算資源,開發人員可以期望模型智慧和準確度會出現可預期的改善。

資料、模型大小、運算這三個要素中的每一個都息息相關。研究指出,當大型模型獲得更多資料時,模型的整體效能就會提高。為了實現這個目標,開發人員必須擴大運算規模,這就需要強大的加速運算資源來運行那些較大的訓練工作負載。

這種預訓練擴展原則使得大型模型達到突破性的能力,並激發模型架構的重大創新,包括有著數十億個和上兆個參數的transformer模型、混合專家模型和新式分散式訓練技術的興起,而這一切都需要大量的運算。在此同時,預訓練擴展定律的相關性仍在不斷發展,隨著人類持續產生越來越多的多模態資料,這些文字、影像、音訊、影片和感測器資訊將會被用來訓練未來強大的AI模型。

▲預訓練擴展是AI發展的基本原則,它將模型、資料集和運算的大小與AI的效益連結起來。如上圖所示的混合專家模型,是訓練AI時常用的模型架構

什麼是訓練後擴展?

預先訓練大型基礎模型並非人人適用,需要大量投資、熟練的專家和資料集。但組織一旦預先訓練好並發布模型,就能讓其他人當成基礎,以配合自己的應用,從而降低採用AI的門檻。

這種訓練後的流程會推動企業及更廣泛的開發人員社群對加速運算的額外累積需求,並提升模型的特異性,以及與組織所需用例的相關性。訓練後擴展主要增強模型適用於其預期工作的技能,比如一個大型語言模型可以經過訓練後擴展來處理情感分析或翻譯等任務,或是理解醫療保健或法律等領域的術語。

訓練後擴展定律假設使用微調、剪枝、量化、蒸餾、強化學習和合成資料增強等技術,可以進一步改善預訓練模型在運算效率、準確性或領域特異性方面的效能。

其中,強化學習 (reinforcement learning,RL)指的是一種機器學習技術,它使用獎勵模型來訓練代理做出符合特定用例的決定。代理的目標是在與環境互動的過程中,隨著時間的推移做出累積獎勵最大化的決策,例如聊天機器人大型語言模型會受到使用者做出「按讚」反應的正向強化。這種技術稱為基於人類回饋的強化學習 (RLHF)。另一種較新的技術是基於AI回饋強化學習 (RLAIF),它使用AI模型的回饋來引導學習過程,簡化訓練後的工作。

為了支援訓練後擴展,開發人員可以使用合成資料來增強或補充微調資料集。使用AI產生的資料來補充現實世界的資料集,有助於模型改善處理原始訓練資料中代表性不足或遺漏的邊緣案例的能力。

▲訓練後擴展使用微調、修剪和蒸餾等技術來完善預訓練模型,以提高效率和任務相關性

什麼是測試階段擴展?

測試階段擴展又稱為長思考 (long thinking),發生在推論過程中。傳統的AI模型會快速針對使用者的提示產生一次性答案,而使用這項技術的模型則會在推論過程中分配額外的運算工作,讓模型在得出最佳答案前先推理出多個可能的回應。

在為開發人員生成複雜的客製化程式碼等工作上,這個AI推理過程可能需要幾分鐘,甚至幾小時的時間,而且相較於傳統大型語言模型的單次推論,高難度的查詢可能需要超過100倍的運算量,因為傳統大型語言模型不太可能在第一次嘗試時,就能對複雜的問題產生正確的答案。

這種測試階段運算能力可以讓AI模型探索問題的不同解決方案,並將複雜的要求拆解成多個步驟,在許多情況下,在推理過程中向使用者展示其工作。研究發現,當給予AI模型需要多個推理與規劃步驟的開放式提示時,測試階段擴展可以獲得更高品質的回應。

測試階段運算方法有多種方法,包括把複雜的問題分解成一系列更簡單的步驟的「思維鏈 (chain-of-thought)提示」、針對同一個提示產生多個回應,然後選擇最常出現的答案作為最終輸出的「多數決抽樣」,以及探索與評估回覆樹狀結構裡多個路徑的「搜尋」流程。此外,類似最佳解搜尋採樣的訓練後擴展方法也可用於推論過程中的長思考,以最佳化符合人類喜好或其他目標的回應。

▲測試階段擴展技術透過分配額外的運算來增強AI推理能力,使得模型能夠有效解決複雜的多步驟問題

測試階段擴展如何進行AI推理

測試階段運算技術的興起,讓AI有能力對使用者所提出複雜、開放式的查詢項目,提供有理有據、有幫助且更加準確的回應。這些能力對於自主代理型AI及實體AI應用所期待的詳細、多重推理任務來說至關重要。它們可以為各產業的使用者提供能力強大的助理來加速工作,從而提高效率和生產力。

在醫療保健領域,模型可以使用測試階段擴展技術來分析大量資料,推斷疾病的發展情況,以及根據藥物分子的化學結構,預測新療法可能產生的潛在併發症。或者,它可以梳理臨床試驗資料庫,建議符合個人病況的方案,分享其對不同研究利弊的推理過程。

在零售和供應鏈物流領域,長思考有助於解決近期營運挑戰和長期策略目標所需的複雜決策。推理技術可以同時預測與評估多種情境,協助企業降低風險,並因應在擴充方面的難題。這可以實現更精準的需求預測、簡化供應鏈行程路線,以及做出符合組織永續發展計畫的採購決策。

對於全球企業而言,這項技術可應用於草擬詳細的商業計畫、產生複雜的程式碼以對軟體進行除錯,或是最佳化貨車、倉儲機器人和無人駕駛計程車的行駛路線。

AI推理模型發展迅速。OpenAI o1-mini和o3-mini、DeepSeek R1及Google DeepMind的Gemini 2.0 Flash Thinking都是在過去幾週推出,預計不久後還會有更多新的模型問世。

這些模型在推理過程中需要使用大量運算,才能對複雜問題進行推理與產生正確答案,這表示企業需要擴充加速運算資源,以提供能夠解決複雜問題、編寫程式碼和規劃多步驟的下一代AI推理工具。

您可能感興趣的內容 (GeoFlow Pro 推薦)

  • 疑似GeForce RTX 2080 Ti創始版外型設計曝光 採不一樣的雙風扇設計
  • Anthropic擴大與Google Cloud合作,簽訂數百億美元協議取得百萬顆TPU運算資源
  • NVIDIA推出換上「Ada Lovelace」顯示架構的專業繪圖卡,用於更多工作站機種
  • Salesforce將OpenAI的人工智慧技術整合至Slack
  • 導入HBM記憶體 Intel打造更高AI運算效能的FPGA可程式化處理器

分享此文章到您的社群

FacebookTwitter
Tags: AINvidia人工智慧
ShareTweetShare
mashdigi 新聞內容

mashdigi 新聞內容

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

翻譯 (Translate)

  • 熱門
  • 留言
  • 最新
同時支援6GHz以下頻段與毫米波 Sony揭曉開發中旗艦手機Xperia PRO

同時支援6GHz以下頻段與毫米波 Sony揭曉開發中旗艦手機Xperia PRO

2020-02-24
訪談/Sony定調全新旗艦手機的Xperia 5,究竟是否歸類「Compact」定位?

訪談/Sony定調全新旗艦手機的Xperia 5,究竟是否歸類「Compact」定位?

2019-09-07
Raspberry Pi基金會宣布推出Raspberry Pi 5開發板,顯示供應鏈問題已經獲得改善

Raspberry Pi基金會宣布推出Raspberry Pi 5開發板,顯示供應鏈問題已經獲得改善

2023-09-28
Google從明年5月起將讓非AMP格式網頁也能優先納入行動搜尋結果

Google從明年5月起將讓非AMP格式網頁也能優先納入行動搜尋結果

2
Ubuntu母公司確認計畫上市募股 但仍未有具體時程表

Ubuntu母公司確認計畫上市募股 但仍未有具體時程表

1

索尼互動娛樂證實PlayStation 5僅向下相容絕大多數的PlayStation 4平台遊戲

0
蘋果推出搭載M5晶片的新款14吋MacBook Pro,AI效能提升3.5倍、電池續航達24小時

2026年迎15款新品?OLED觸控Mac、折疊iPhone、預計放棄Qualcomm提供數據晶片

2025-11-10
iPhone 17系列與最輕薄的iPhone Air開賣,這次如何挑選最適合的新機?

報導指稱蘋果研發5款iPhone衛星新功能,包含地圖導航、傳送照片、室內連線與5G NTN

2025-11-10
AWS公布與OpenAI合作380億美元策略協議細節,提供EC2 UltraServers、數十萬顆NVIDIA GPU

AWS公布與OpenAI合作380億美元策略協議細節,提供EC2 UltraServers、數十萬顆NVIDIA GPU

2025-11-09
mashdigi-科技、新品、趣聞、趨勢

Copyright © 2017 mashdigi.com

  • 關於 mashdigi.com
  • 投放廣告
  • 聯繫 mashdigi.com

追蹤我們

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • 關於 mashdigi.com
  • 投放廣告
  • 聯繫 mashdigi.com

Copyright © 2017 mashdigi.com