RM新时代有限公司,RM新时代是什么平台

“魔搭社區(qū)是中國最具影響力的模型開源社區(qū)，致力給開發(fā)者提供模型即服務的體驗。魔搭社區(qū)利用NVIDIA TensorRT-LLM，大大提高了大語言模型的推理性能，方便了模型應用部署，提高了大模型產(chǎn)業(yè)應用效率，更大規(guī)模地釋放大模型的應用價值?！?/p>

——周文猛，魔搭社區(qū)技術(shù)負責人，阿里巴巴通義實驗室技術(shù)總監(jiān)

魔搭上線 NVIDIA TensorRT-LLM

支持開源LLM 推理加速

魔搭社區(qū)于 2022 年 11 月初創(chuàng)建，首次在業(yè)界提出了 “模型即服務” (MaaS, Model as a Service) 的理念。在過去一年半的時間里，MaaS 這一理念不僅實現(xiàn)了技術(shù)落地，也被行業(yè)廣泛接納，并成為繼 IaaS、PaaS、SaaS 服務的又一新的技術(shù)范式。

2023 年 7 月，Meta 宣布開源 Llama 2 模型，改變了整個大語言模型 (LLM) 行業(yè)的競爭格局。通過繁榮的開源生態(tài)，大語言模型迎來了群策群力的技術(shù)迭代和突破。

國內(nèi)外優(yōu)秀的大語言模型，如 ChatGLM、零一萬物、書生·浦語系列、通義千問等，都將魔搭社區(qū)作為開源模型首發(fā)平臺。魔搭社區(qū)成為了大模型發(fā)展的技術(shù)風向標，在中國的開發(fā)者群體中，形成了廣泛的 “找模型，用模型，上魔搭社區(qū)” 的觀念認同，從而建成了中國最大開源模型社區(qū)。

魔搭社區(qū)現(xiàn)在上線了 NVIDIA TensorRT-LLM，TensorRT-LLM 提供了易于使用的應用程序編程接口 (API)，以定義和運行大語言模型，支持社區(qū)上的各類開源大語言模型 (LLM) 的推理加速。開發(fā)者僅通過簡短幾行代碼即可將優(yōu)化的模型部署到 GPU 上。

目前 NVIDIA TensorRT-LLM 在魔搭社區(qū)上已支持的模型類型和推理精度，幾乎涵蓋了所有主流的大語言/多模態(tài)模型以及常用的量化方法，包括 FP32、FP16、BF16、INT8 和 INT4，適用于不同的環(huán)境。

LLM 推理面臨的挑戰(zhàn)

計算資源消耗巨大：開源大語言模型參數(shù)規(guī)模越來越大，比如 Qwen1.5-110B 參數(shù)規(guī)模高達千億級，對計算資源的需求龐大。在沒有優(yōu)化的情況下直接部署，不僅成本高昂，而且對硬件要求高。

推理延遲高：大語言模型的推理時間長，尤其是在實時交互式應用中，如聊天機器人、語音助手等，高延遲會嚴重影響用戶體驗。

能效比低：計算密集型工作流意味著更高的能耗，這對于追求綠色計算和可持續(xù)發(fā)展的現(xiàn)代數(shù)據(jù)中心而言是一個重要問題。

部署復雜度高：模型優(yōu)化、適配不同硬件平臺、以及持續(xù)維護升級等都是挑戰(zhàn)，尤其對于非專業(yè)用戶來說，部署一個高性能的語言模型服務并不容易。

NVIDIA TensorRT-LLM

如何提升 LLM 推理效率

極致性能優(yōu)化：NVIDIA TensorRT-LLM 是基于 NVIDIA TensorRT API 生態(tài)系統(tǒng)構(gòu)建的，專為大規(guī)模語言模型優(yōu)化的推理引擎。它利用 GPU 的強大并行計算能力，通過算法優(yōu)化、層融合、量化等技術(shù)顯著減少模型推理所需的計算量和內(nèi)存占用，從而提升推理速度，降低延遲。

高效率與低功耗：通過精心設計的優(yōu)化策略，TensorRT-LLM 能夠在不犧牲模型精度的前提下，大幅提高能效比，這對于數(shù)據(jù)中心的成本控制和環(huán)境友好至關重要。

簡化部署流程：提供一鍵式的模型優(yōu)化與部署工具，簡化了從訓練到推理的整個流程。即便是復雜的模型結(jié)構(gòu)，開發(fā)者也能輕松地將其部署到 GPU 上，大大降低了技術(shù)門檻，加速了產(chǎn)品上市時間。

廣泛兼容性與可擴展性：支持魔搭社區(qū)的多種主流的深度學習框架和開源模型架構(gòu)，如 Transformer 系列模型。TensorRT-LLM 設計靈活，便于未來適應更多先進的模型技術(shù)和算法創(chuàng)新的更新，保持技術(shù)領先性。

在 NVIDIA TensorRT-LLM 和NVIDIA Triton 推理服務器的加持下，魔搭社區(qū)正在為開發(fā)者提供更為全面、高效、快捷的模型推理部署方案。未來，魔搭社區(qū)計劃將在生成式 AI 的模型和軟件加速庫層面，與 NVIDIA 相關團隊繼續(xù)開展合作，推動大語言模型的廣泛應用和落地。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

NVIDIA

NVIDIA

+關注

關注
14

文章
4978

瀏覽量
102984
模型

模型

+關注

關注
1

文章
3226

瀏覽量
48806
LLM

LLM

+關注

關注
0

文章
286

瀏覽量
327

原文標題：魔搭社區(qū)利用 NVIDIA TensorRT-LLM 加速開源大語言模型推理

文章出處：【微信號：NVIDIA-Enterprise，微信公眾號：NVIDIA英偉達企業(yè)解決方案】歡迎添加關注！文章轉(zhuǎn)載請注明出處。

解鎖NVIDIA TensorRT-LLM的卓越性能

NVIDIA TensorRT-LLM 是一個專為優(yōu)化大語言模型 (LLM) 推理而設計的庫。它提供了多種先進的優(yōu)化技術(shù)，包括自定義 Attention Kernel、Inflight

發(fā)表于 12-17 17:47 ?115次閱讀

NVIDIA TensorRT-LLM Roadmap現(xiàn)已在GitHub上公開發(fā)布

感謝眾多用戶及合作伙伴一直以來對NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 現(xiàn)已在 GitHub 上公開發(fā)布！

發(fā)表于 11-28 10:43 ?253次閱讀

<b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT-LLM</b> Roadmap現(xiàn)已在GitHub上公開發(fā)布

什么是LLM？LLM在自然語言處理中的應用

所未有的精度和效率處理和生成自然語言。 LLM的基本原理 LLM基于深度學習技術(shù)，尤其是變換器（Transformer）架構(gòu)。變換器模型因其自注意力（Self-Attention）機制而聞名，這種機制使得模型能夠捕捉文本中的長距

發(fā)表于 11-19 15:32 ?522次閱讀

TensorRT-LLM低精度推理優(yōu)化

本文將分享 TensorRT-LLM 中低精度量化內(nèi)容，并從精度和速度角度對比 FP8 與 INT8。首先介紹性能，包括速度和精度。其次，介紹量化工具 NVIDIA TensorRT Model

發(fā)表于 11-19 14:29 ?264次閱讀

<b class='flag-5'>TensorRT-LLM</b>低精度<b class='flag-5'>推理</b>優(yōu)化

LLM技術(shù)對人工智能發(fā)展的影響

。一、LLM技術(shù)在人工智能領域的應用自然語言處理（NLP） LLM技術(shù)在自然語言處理領域發(fā)揮著重要作用。通過訓練模型識別和生成語言模式，LLM技術(shù)使得機器能夠執(zhí)行語言翻譯、情感分析、文本摘要等任務，極大地提高了語言處理的準確

發(fā)表于 11-08 09:28 ?344次閱讀

NVIDIA Nemotron-4 340B模型幫助開發(fā)者生成合成訓練數(shù)據(jù)

Nemotron-4 340B 是針對 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 優(yōu)化的模型系列，該系列包含最先進的指導和獎勵模型，以及一個用于生成式 AI 訓練的數(shù)據(jù)集。

發(fā)表于 09-06 14:59 ?300次閱讀

<b class='flag-5'>NVIDIA</b> Nemotron-4 340B模型幫助開發(fā)者生成合成訓練數(shù)據(jù)

LLM大模型推理加速的關鍵技術(shù)

LLM（大型語言模型）大模型推理加速是當前人工智能領域的一個研究熱點，旨在提高模型在處理復雜任務時的效率和響應速度。以下是對LLM大模型推理

發(fā)表于 07-24 11:38 ?855次閱讀

LLM模型的應用領域

在本文中，我們將深入探討LLM（Large Language Model，大型語言模型）的應用領域。LLM是一種基于深度學習的人工智能技術(shù)，它能夠理解和生成自然語言文本。近年來，隨著計算能力的提高

發(fā)表于 07-09 09:52 ?573次閱讀

什么是LLM？LLM的工作原理和結(jié)構(gòu)

隨著人工智能技術(shù)的飛速發(fā)展，大型語言模型（Large Language Model，簡稱LLM）逐漸成為自然語言處理（NLP）領域的研究熱點。LLM以其強大的文本生成、理解和推理能力，在文本

發(fā)表于 07-02 11:45 ?7591次閱讀

NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM 是一個開源庫，用于優(yōu)化從 PC 到云端的

發(fā)表于 04-28 10:36 ?545次閱讀

利用NVIDIA組件提升GPU推理的吞吐

本實踐中，唯品會 AI 平臺與 NVIDIA 團隊合作，結(jié)合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）將

發(fā)表于 04-20 09:39 ?714次閱讀

自然語言處理應用LLM推理優(yōu)化綜述

當前，業(yè)界在將傳統(tǒng)優(yōu)化技術(shù)引入 LLM 推理的同時，同時也在探索從大模型自回歸解碼特點出發(fā)，通過調(diào)整推理過程和引入新的模型結(jié)構(gòu)來進一步提升推理

發(fā)表于 04-10 11:48 ?581次閱讀

基于NVIDIA Megatron Core的MOE LLM實現(xiàn)和訓練優(yōu)化

本文將分享阿里云人工智能平臺 PAI 團隊與 NVIDIA Megatron-Core 團隊在 MoE (Mixture of Experts) 大語言模型（LLM）實現(xiàn)與訓練優(yōu)化上的創(chuàng)新工作。

發(fā)表于 03-22 09:50 ?759次閱讀

LLM推理加速新范式！推測解碼（Speculative Decoding）最新綜述

這個問題隨著LLM規(guī)模的增大愈發(fā)嚴重。并且，如下左圖所示，目前LLM常用的自回歸解碼（autoregressive decoding）在每個解碼步只能生成一個token。這導致GPU計算資源利用率

發(fā)表于 01-29 15:54 ?2801次閱讀

利用NVIDIA產(chǎn)品技術(shù)組合提升用戶體驗

本案例通過利用NVIDIA TensorRT-LLM加速指令識別深度學習模型，并借助NVIDIA Triton推理服務器在

發(fā)表于 01-17 09:30 ?684次閱讀

RM新时代网站-首页

搜索歷史

魔搭社區(qū)借助NVIDIA TensorRT-LLM提升LLM推理效率

評論