NVIDIA以TensorRT-LLM模型提高H100 GPU上的大型自然語言模型推論能力

針對目前多數業者採用的大型自然語言模型應用需求，NVIDIA宣布以開源架構設計的TensorRT-LLM模型，強化H100 GPU在大型自然語言模型的推論能力。

此項開源架構設計的TensorRT-LLM模型將在未來幾周內提供，本身以TensorRT深度學習框架組成，包括經最佳化調整的內核、前處理及後處理步驟，加上多組GPU、多節點通訊基礎，可在NVIDIA GPU上提供出突破性的效能表現。

除了能讓開發人員以更快速度運作大型自然語言模型，並且提供峰值效能和快速自訂功能，甚至無需具備深厚的C++或NVIDIA CUDA程式相關知識也能快速使用。

另外，TensorRT-LLM本身結合開源模組Python API，同時提高易用性與擴充性，可用於定義、最佳化和執行新架構，更可隨著大型自然語言模型發展擴充，並且能自訂相關內容。

相比Meta提出、參數達700億組的Llama 2，NVIDIA表示TensorRT-LLM配合H100 GPU，在Llama 2模型上推論效能，是使用A100 GPU的4.6倍。

TensorRT-LLM採用模型平行化 (model parallelism)的張力平行運算模式，將個別權重矩陣分割至各個裝置上，並且透過NVLink串接多組GPU，即可以大規模高效率的方式進行推論，進而加快大型自然語言模型運作效率。

同時，針對人工智慧服務應用經常面臨一來一往的問答互動，或是藉由前後互動模式自動生成更多內容的情況，TensorRT-LLM可透過動態批次處理技術，立即從已經完成運算請求銜接下一個互動需求，無須等到所有運算逐一執行完畢才能銜接後續互動，藉此提高GPU加速運算使用率，在加快處理效率之餘，也降低更多等待處理時的電力損耗，以及相關運算使用成本。

另外，TensorRT-LLM搭配H100 GPU，即可將模型轉會為FP8格式，透過更低精度對應執行更大模型規模，並且能在不降低整體模型精度情況下，減少記憶體損耗，同時也能以更快效率執行運作。

目前NVIDUA將開放TensorRT-LLM前期測試，未來將整合進NVIDIA NeMo框架。而開發人員與研究人員目前可透過NGC上的NeMo框架，或是GitHub上的源碼庫取得TensorRT-LLM。

NVIDIA以TensorRT-LLM模型提高H100 GPU上的大型自然語言模型推論能力
加快人工智慧應用服務執行效率

發表迴響取消回覆

分享此文：

相關內容

分享此文：

分享此文：

分享此文：

發表迴響取消回覆