AI發展至今,需要以三大定律來描述運算資源的不同利用方式如何影響模型效能,包含預訓練擴展 (pretraining scaling)、訓練後擴展 (post-training scaling)、測試階段擴展 (test-time scaling),反映出AI領域如何在各種日益複雜的AI用例中運用額外的運算技術演進發展。
近期興起的測試階段擴展,已經實現AI推理模型這類新式的大型語言模型 (LLM),以執行多次推論來處理複雜的問題,同時描述解決任務所需的步驟。測試階段擴展需要用到大量運算資源來支援AI推理,這將進一步推動對加速運算的需求。
什麼是預訓練擴展?
預訓練擴展是AI發展的原始定律。它證明透過增加訓練資料集大小、模型參數數量和運算資源,開發人員可以期望模型智慧和準確度會出現可預期的改善。
資料、模型大小、運算這三個要素中的每一個都息息相關。研究指出,當大型模型獲得更多資料時,模型的整體效能就會提高。為了實現這個目標,開發人員必須擴大運算規模,這就需要強大的加速運算資源來運行那些較大的訓練工作負載。
這種預訓練擴展原則使得大型模型達到突破性的能力,並激發模型架構的重大創新,包括有著數十億個和上兆個參數的transformer模型、混合專家模型和新式分散式訓練技術的興起,而這一切都需要大量的運算。在此同時,預訓練擴展定律的相關性仍在不斷發展,隨著人類持續產生越來越多的多模態資料,這些文字、影像、音訊、影片和感測器資訊將會被用來訓練未來強大的AI模型。
什麼是訓練後擴展?
預先訓練大型基礎模型並非人人適用,需要大量投資、熟練的專家和資料集。但組織一旦預先訓練好並發布模型,就能讓其他人當成基礎,以配合自己的應用,從而降低採用AI的門檻。
這種訓練後的流程會推動企業及更廣泛的開發人員社群對加速運算的額外累積需求,並提升模型的特異性,以及與組織所需用例的相關性。訓練後擴展主要增強模型適用於其預期工作的技能,比如一個大型語言模型可以經過訓練後擴展來處理情感分析或翻譯等任務,或是理解醫療保健或法律等領域的術語。
訓練後擴展定律假設使用微調、剪枝、量化、蒸餾、強化學習和合成資料增強等技術,可以進一步改善預訓練模型在運算效率、準確性或領域特異性方面的效能。
其中,強化學習 (reinforcement learning,RL)指的是一種機器學習技術,它使用獎勵模型來訓練代理做出符合特定用例的決定。代理的目標是在與環境互動的過程中,隨著時間的推移做出累積獎勵最大化的決策,例如聊天機器人大型語言模型會受到使用者做出「按讚」反應的正向強化。這種技術稱為基於人類回饋的強化學習 (RLHF)。另一種較新的技術是基於AI回饋強化學習 (RLAIF),它使用AI模型的回饋來引導學習過程,簡化訓練後的工作。
為了支援訓練後擴展,開發人員可以使用合成資料來增強或補充微調資料集。使用AI產生的資料來補充現實世界的資料集,有助於模型改善處理原始訓練資料中代表性不足或遺漏的邊緣案例的能力。
什麼是測試階段擴展?
測試階段擴展又稱為長思考 (long thinking),發生在推論過程中。傳統的AI模型會快速針對使用者的提示產生一次性答案,而使用這項技術的模型則會在推論過程中分配額外的運算工作,讓模型在得出最佳答案前先推理出多個可能的回應。
在為開發人員生成複雜的客製化程式碼等工作上,這個AI推理過程可能需要幾分鐘,甚至幾小時的時間,而且相較於傳統大型語言模型的單次推論,高難度的查詢可能需要超過100倍的運算量,因為傳統大型語言模型不太可能在第一次嘗試時,就能對複雜的問題產生正確的答案。
這種測試階段運算能力可以讓AI模型探索問題的不同解決方案,並將複雜的要求拆解成多個步驟,在許多情況下,在推理過程中向使用者展示其工作。研究發現,當給予AI模型需要多個推理與規劃步驟的開放式提示時,測試階段擴展可以獲得更高品質的回應。
測試階段運算方法有多種方法,包括把複雜的問題分解成一系列更簡單的步驟的「思維鏈 (chain-of-thought)提示」、針對同一個提示產生多個回應,然後選擇最常出現的答案作為最終輸出的「多數決抽樣」,以及探索與評估回覆樹狀結構裡多個路徑的「搜尋」流程。此外,類似最佳解搜尋採樣的訓練後擴展方法也可用於推論過程中的長思考,以最佳化符合人類喜好或其他目標的回應。
測試階段擴展如何進行AI推理
測試階段運算技術的興起,讓AI有能力對使用者所提出複雜、開放式的查詢項目,提供有理有據、有幫助且更加準確的回應。這些能力對於自主代理型AI及實體AI應用所期待的詳細、多重推理任務來說至關重要。它們可以為各產業的使用者提供能力強大的助理來加速工作,從而提高效率和生產力。
在醫療保健領域,模型可以使用測試階段擴展技術來分析大量資料,推斷疾病的發展情況,以及根據藥物分子的化學結構,預測新療法可能產生的潛在併發症。或者,它可以梳理臨床試驗資料庫,建議符合個人病況的方案,分享其對不同研究利弊的推理過程。
在零售和供應鏈物流領域,長思考有助於解決近期營運挑戰和長期策略目標所需的複雜決策。推理技術可以同時預測與評估多種情境,協助企業降低風險,並因應在擴充方面的難題。這可以實現更精準的需求預測、簡化供應鏈行程路線,以及做出符合組織永續發展計畫的採購決策。
對於全球企業而言,這項技術可應用於草擬詳細的商業計畫、產生複雜的程式碼以對軟體進行除錯,或是最佳化貨車、倉儲機器人和無人駕駛計程車的行駛路線。
AI推理模型發展迅速。OpenAI o1-mini和o3-mini、DeepSeek R1及Google DeepMind的Gemini 2.0 Flash Thinking都是在過去幾週推出,預計不久後還會有更多新的模型問世。
這些模型在推理過程中需要使用大量運算,才能對複雜問題進行推理與產生正確答案,這表示企業需要擴充加速運算資源,以提供能夠解決複雜問題、編寫程式碼和規劃多步驟的下一代AI推理工具。