“魔搭社區(qū)是中國最具影響力的模型開源社區(qū),致力給開發(fā)者提供模型即服務的體驗。魔搭社區(qū)利用NVIDIA TensorRT-LLM,大大提高了大語言模型的推理性能,方便了模型應用部署,提高了大模型產(chǎn)業(yè)應用效率,更大規(guī)模地釋放大模型的應用價值?!?/p>
——周文猛,魔搭社區(qū)技術(shù)負責人,阿里巴巴通義實驗室技術(shù)總監(jiān)
魔搭上線 NVIDIA TensorRT-LLM
支持開源LLM 推理加速
魔搭社區(qū)于 2022 年 11 月初創(chuàng)建,首次在業(yè)界提出了 “模型即服務” (MaaS, Model as a Service) 的理念。在過去一年半的時間里,MaaS 這一理念不僅實現(xiàn)了技術(shù)落地,也被行業(yè)廣泛接納,并成為繼 IaaS、PaaS、SaaS 服務的又一新的技術(shù)范式。
2023 年 7 月,Meta 宣布開源 Llama 2 模型,改變了整個大語言模型 (LLM) 行業(yè)的競爭格局。通過繁榮的開源生態(tài),大語言模型迎來了群策群力的技術(shù)迭代和突破。
國內(nèi)外優(yōu)秀的大語言模型,如 ChatGLM、零一萬物、書生·浦語系列、通義千問等,都將魔搭社區(qū)作為開源模型首發(fā)平臺。魔搭社區(qū)成為了大模型發(fā)展的技術(shù)風向標,在中國的開發(fā)者群體中,形成了廣泛的 “找模型,用模型,上魔搭社區(qū)” 的觀念認同,從而建成了中國最大開源模型社區(qū)。
魔搭社區(qū)現(xiàn)在上線了 NVIDIA TensorRT-LLM,TensorRT-LLM 提供了易于使用的應用程序編程接口 (API),以定義和運行大語言模型,支持社區(qū)上的各類開源大語言模型 (LLM) 的推理加速。開發(fā)者僅通過簡短幾行代碼即可將優(yōu)化的模型部署到 GPU 上。
目前 NVIDIA TensorRT-LLM 在魔搭社區(qū)上已支持的模型類型和推理精度,幾乎涵蓋了所有主流的大語言/多模態(tài)模型以及常用的量化方法,包括 FP32、FP16、BF16、INT8 和 INT4,適用于不同的環(huán)境。
LLM 推理面臨的挑戰(zhàn)
計算資源消耗巨大:開源大語言模型參數(shù)規(guī)模越來越大,比如 Qwen1.5-110B 參數(shù)規(guī)模高達千億級,對計算資源的需求龐大。在沒有優(yōu)化的情況下直接部署,不僅成本高昂,而且對硬件要求高。
推理延遲高:大語言模型的推理時間長,尤其是在實時交互式應用中,如聊天機器人、語音助手等,高延遲會嚴重影響用戶體驗。
能效比低:計算密集型工作流意味著更高的能耗,這對于追求綠色計算和可持續(xù)發(fā)展的現(xiàn)代數(shù)據(jù)中心而言是一個重要問題。
部署復雜度高:模型優(yōu)化、適配不同硬件平臺、以及持續(xù)維護升級等都是挑戰(zhàn),尤其對于非專業(yè)用戶來說,部署一個高性能的語言模型服務并不容易。
NVIDIA TensorRT-LLM
如何提升 LLM 推理效率
極致性能優(yōu)化:NVIDIA TensorRT-LLM 是基于 NVIDIA TensorRT API 生態(tài)系統(tǒng)構(gòu)建的,專為大規(guī)模語言模型優(yōu)化的推理引擎。它利用 GPU 的強大并行計算能力,通過算法優(yōu)化、層融合、量化等技術(shù)顯著減少模型推理所需的計算量和內(nèi)存占用,從而提升推理速度,降低延遲。
高效率與低功耗:通過精心設計的優(yōu)化策略,TensorRT-LLM 能夠在不犧牲模型精度的前提下,大幅提高能效比,這對于數(shù)據(jù)中心的成本控制和環(huán)境友好至關重要。
簡化部署流程:提供一鍵式的模型優(yōu)化與部署工具,簡化了從訓練到推理的整個流程。即便是復雜的模型結(jié)構(gòu),開發(fā)者也能輕松地將其部署到 GPU 上,大大降低了技術(shù)門檻,加速了產(chǎn)品上市時間。
廣泛兼容性與可擴展性:支持魔搭社區(qū)的多種主流的深度學習框架和開源模型架構(gòu),如 Transformer 系列模型。TensorRT-LLM 設計靈活,便于未來適應更多先進的模型技術(shù)和算法創(chuàng)新的更新,保持技術(shù)領先性。
在 NVIDIA TensorRT-LLM 和NVIDIA Triton 推理服務器的加持下,魔搭社區(qū)正在為開發(fā)者提供更為全面、高效、快捷的模型推理部署方案。未來,魔搭社區(qū)計劃將在生成式 AI 的模型和軟件加速庫層面,與 NVIDIA 相關團隊繼續(xù)開展合作,推動大語言模型的廣泛應用和落地。
-
NVIDIA
+關注
關注
14文章
4978瀏覽量
102984 -
模型
+關注
關注
1文章
3226瀏覽量
48806 -
LLM
+關注
關注
0文章
286瀏覽量
327
原文標題:魔搭社區(qū)利用 NVIDIA TensorRT-LLM 加速開源大語言模型推理
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論