新时代官方下载,RM平台

作者：楊亦誠

針對大語言模型 (LLM) 在部署過程中的性能需求，低比特量化技術(shù)一直是優(yōu)化效果最佳的方案之一，本文將探討低比特量化技術(shù)如何幫助 LLM 提升性能，以及新版 OpenVINO對于低比特量化技術(shù)的支持。

大模型性能瓶頸

相比計(jì)算量的增加，大模型推理速度更容易受到內(nèi)存帶寬的影響（memory bound），也就是內(nèi)存讀寫效率問題，這是因?yàn)榇竽Ｐ陀捎?a target="_blank">參數(shù)量巨大、訪存量遠(yuǎn)超內(nèi)存帶寬容量，意味著模型的權(quán)重的讀寫速度跟不上硬件對于算子的計(jì)算強(qiáng)度，導(dǎo)致算力資源無法得到充分發(fā)揮，進(jìn)而影響性能。

圖：memory bound與compute bound比較

低比特量化技術(shù)

低比特量化技術(shù)是指將模型參數(shù)從 fp32/fp16 壓縮到更低的比特位寬表達(dá)，在不影響模型輸出準(zhǔn)確性和參數(shù)量的情況下，降低模型體積，從而減少緩存對于數(shù)據(jù)讀寫的壓力，提升推理性能。由于大模型中單個(gè) layer 上的權(quán)重體積往往要遠(yuǎn)大于該 layer 的輸入數(shù)據(jù)（ac tivation），因此針對大模型的量化技術(shù)往往只會針對關(guān)鍵的權(quán)重參數(shù)進(jìn)行量化(WeightOnly)，而不對輸入數(shù)據(jù)進(jìn)行量化，在到達(dá)理想的壓縮比的同時(shí)，盡可能保證輸出結(jié)果，實(shí)現(xiàn)最高的量化“性價(jià)比”。

圖：權(quán)重壓縮示意

經(jīng)驗(yàn)證常規(guī)的 int8 權(quán)重量化，對大模型準(zhǔn)確性的影響極低，而為了引入像 int4，nf4 這樣的更極致的壓縮精度，目前在權(quán)重量化算法上也經(jīng)過了一些探索，其中比較典型的就是 GPTQ 算法，簡單來說，GPTQ 對某個(gè) block 內(nèi)的所有參數(shù)逐個(gè)量化，每個(gè)參數(shù)量化后，需要適當(dāng)調(diào)整這個(gè) block 內(nèi)其他未量化的參數(shù)，以彌補(bǔ)量化造成的精度損失。GPTQ 量化需要準(zhǔn)備校準(zhǔn)數(shù)據(jù)集，因此他也是一種 PTQ（Post Training Quantization）量化技術(shù)。

OpenVINO 2023.2

對于 int4 模型的支持

OpenVINO 2023.2 相較 2023.1 版本，全面引入對 int4 模型以及量化技術(shù)的支持。主要有以下 2 個(gè)方面：

01CPU 及 iGPU 支持原生 int4 模型推理

OpenVINO工具目前已經(jīng)可以直接讀取經(jīng) NNCF 量化以后的 int4 模型，或者是將 HuggingFace 中使用 AutoGPTQ 庫量化的模型轉(zhuǎn)換后，進(jìn)行讀取及編譯。由于目前的 OpenVINO 后端硬件無法直接支持 int4 數(shù)據(jù)格式的運(yùn)算，所以在模型執(zhí)行過程中，OpenVINO runtime 會把 int4 的權(quán)重反量化的到 FP16 或是 BF16 的精度進(jìn)行運(yùn)算。簡而言之：模型以 int4 精度存儲，以 fp16 精度計(jì)算，用計(jì)算成本換取空間及 IO 成本，提升運(yùn)行效率。這也是因?yàn)榇竽Ｐ偷男阅芷款i主要來源于 memory bound，用更高的數(shù)據(jù)讀寫效率，降低對于內(nèi)存帶寬與內(nèi)存容量的開銷。

圖：經(jīng) NNCF 權(quán)重壓縮后的模型結(jié)構(gòu)

02NNCF 工具支持 int4 的混合精度量化策略（Weights Compression）

剛提到的 GPTQ 是一種 data-based 的量化方案，需要提前準(zhǔn)備校驗(yàn)數(shù)據(jù)集，借助 HuggingFace 的 Transformers 和 AutoGPTQ 庫可以完成這一操作。而為了幫助開發(fā)者縮短 LLM 模型的壓縮時(shí)間，降低量化門檻，NNCF 工具在 2.7.0 版本中引入了針對 int4 以及 nf4 精度的權(quán)重壓縮模式，這是一種 data-free 的混合精度量化算法，無需準(zhǔn)備校驗(yàn)數(shù)據(jù)集，僅對 LLM 中的 Linear 和 Embedding layers 展開權(quán)重壓縮。整個(gè)過程僅用一行代碼就可以完成：

compressed_model = compress_weights(model, mode=CompressWeightsMode.NF4, group_size=64, ratio=0.9)

左滑查看更多

其中model為 PyTorch 或 OpenVINO 的模型對象；mode代表量化模式，這里可以選擇CompressWeightsMode.NF4，或是CompressWeightsMode.INT4_ASYM/INT4_SYM等不同模式；為了提升量化效率，Weights Compression 使用的是分組量化的策略（grouped quantization），因此需要通過group_size配置組大小，例如 group_size=64 意味 64 個(gè) channel 的參數(shù)將共享同一組量化參數(shù)（zero point, scale value）；此外鑒于 data-free 的 int4 量化策略是比帶來一定的準(zhǔn)確度損失，為了平衡模型體積和準(zhǔn)確度，Weights Compression 還支持混合精度的策略，通過定義ratio值，我們可以將一部分對準(zhǔn)確度敏感的權(quán)重用 int8 表示，例如在 ratio=0.9 的情況下，90% 的權(quán)重用 int4 表示，10% 用 int8 表示，開發(fā)者可以根據(jù)量化后模型的輸出結(jié)果調(diào)整這個(gè)參數(shù)。

在量化過程中，NNCF 會通過搜索的方式，逐層比較偽量化后的權(quán)重和原始浮點(diǎn)權(quán)重的差異，衡量量化操作對每個(gè) layer 可能帶來的誤差損失，并根據(jù)排序結(jié)果以及用戶定義的 ratio 值，將損失相對較低的權(quán)重壓縮到 int4 位寬。

中文大語言模型實(shí)踐

隨著 OpenVINO2023.2 的發(fā)布，大語言模型的 int4 壓縮示例也被添加到了openvino_notebooks 倉庫中，這次特別新增了針對中文 LLM 的示例，包括目前熱門模型ChatGLM2和Qwen。在這個(gè) notebook 中，開發(fā)者可以體驗(yàn)如何從 HuggingFace 的倉庫中導(dǎo)出一個(gè) OpenVINO IR 格式的模型，并通過 NNCF 工具進(jìn)行低比特量化，最終完成一個(gè)聊天機(jī)器人的構(gòu)建。

圖：fp16 與 int4 模型空間占用比較

通過以上這個(gè)截圖可以看到，qwen-7b-chat 經(jīng)過 NNCF 的 int4 量化后，可以將體積壓縮到原本 fp16 模型的 1/3，這樣使得一臺 16GB 內(nèi)存的筆記本，就可以流暢運(yùn)行壓縮以后的 ChatGLM2 模型。此外我們還可以通過將 LLM 模型部署在酷睿 CPU 中的集成顯卡上，在提升性能的同時(shí)，減輕 CPU 側(cè)的任務(wù)負(fù)載。

圖：Notebook 運(yùn)行效果

總結(jié)

OpenVINO 2023.2 中對 int4 權(quán)重量化的支持，可以全面提升大模型在英特爾平臺上的運(yùn)行性能，同時(shí)降低對于存儲和內(nèi)存的容量需求，降低開發(fā)者在部署大模型時(shí)的門檻，讓本地化的大語言模型應(yīng)用在普通 PC 上落地成為可能。

審核編輯：湯梓紅

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

輕量化技術(shù)

輕量化技術(shù)

+關(guān)注

關(guān)注
0

文章
6

瀏覽量
2227
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2423

瀏覽量
2640
LLM

LLM

+關(guān)注

關(guān)注
0

文章
286

瀏覽量
327
OpenVINO

OpenVINO

+關(guān)注

關(guān)注
0

文章
92

瀏覽量
196

原文標(biāo)題：如何利用低比特量化技術(shù)在 iGPU 上進(jìn)一步提升大模型推理性能｜開發(fā)者實(shí)戰(zhàn)

文章出處：【微信號：英特爾物聯(lián)網(wǎng)，微信公眾號：英特爾物聯(lián)網(wǎng)】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

Arm KleidiAI助力提升PyTorch上LLM推理性能

熱門的深度學(xué)習(xí)框架尤為突出，許多企業(yè)均會選擇其作為開發(fā) AI 應(yīng)用的庫。通過部署 Arm Kleidi 技術(shù)，Arm 正在努力優(yōu)化 PyTorch，以加速在基于 Arm 架構(gòu)的處理器上運(yùn)行 LLM 的性能。Arm 通過將 Kle

發(fā)表于 12-03 17:05 ?734次閱讀

Arm KleidiAI助力<b class='flag-5'>提升</b>PyTorch上<b class='flag-5'>LLM</b>推理<b class='flag-5'>性能</b>

Labview開發(fā)技術(shù)叢書--運(yùn)行性能的提升技巧

Labview開發(fā)技術(shù)叢書--運(yùn)行性能的提升技巧

發(fā)表于 09-02 18:09

基于RDMA技術(shù)的Spark Shuffle性能提升

一篇文章教你使用RDMA技術(shù)提升Spark的Shuffle性能

發(fā)表于 10-28 16:46

求一種采用分段量化和比特滑動技術(shù)的流水并行式模數(shù)轉(zhuǎn)換電路？

本文提出了一種采用分段量化和比特滑動技術(shù)的流水并行式模數(shù)轉(zhuǎn)換電路，較好地結(jié)合了并行式和逐次逼近比較式兩種模數(shù)轉(zhuǎn)換各自的長處，在保證高速工作的同時(shí)，可實(shí)現(xiàn)并行式難以實(shí)現(xiàn)的8位以上的高分辨率模數(shù)轉(zhuǎn)換，而且比現(xiàn)有的流水并行式模數(shù)轉(zhuǎn)換電

發(fā)表于 04-08 06:34

量化算法介紹及其特點(diǎn)分析

模型量化作為一種能夠有效減少模型大小，加速深度學(xué)習(xí)推理的優(yōu)化技術(shù)，已經(jīng)得到了學(xué)術(shù)界和工業(yè)界的廣泛研究和應(yīng)用。模型量化有 8/4/2/1 bit等，本文主要討論目前相對比較成熟的 8-bit 低

發(fā)表于 07-26 08:08

LLM性能的主要因素

現(xiàn)在是2023年5月，截止目前，網(wǎng)絡(luò)上已經(jīng)開源了眾多的LLM，如何用較低的成本，判斷LLM的基礎(chǔ)性能，選到適合自己任務(wù)的LLM，成為一個(gè)關(guān)鍵。本文會涉及以下幾個(gè)問題：影響

發(fā)表于 05-22 15:26 ?1704次閱讀

基于MacroBenchmark的性能測試量化指標(biāo)方案

介紹基于Google MacroBenchmark的性能量化指標(biāo)測試的工程配置、測試流程、核心指標(biāo)和應(yīng)用案例，幫助Android 開發(fā)者更好地評估和比較App的性能。

發(fā)表于 10-17 10:15 ?782次閱讀

Nvidia 通過開源庫提升 LLM 推理性能

加利福尼亞州圣克拉拉——Nvidia通過一個(gè)名為TensorRT LLM的新開源軟件庫，將其H100、A100和L4 GPU的大型語言模型(LLM)推理性能提高了一倍。正如對相同硬件一輪又一輪改進(jìn)

發(fā)表于 10-23 16:10 ?642次閱讀

深度學(xué)習(xí)模型量化方法

深度學(xué)習(xí)模型量化是一種重要的模型輕量化技術(shù)，旨在通過減少網(wǎng)絡(luò)參數(shù)的比特寬度來減小模型大小和加速推理過程，同時(shí)盡量保持模型性能。從而達(dá)到把模型

發(fā)表于 07-15 11:01 ?488次閱讀

OpenVINO 2024.4持續(xù)提升GPU上LLM性能

本次新版本在整個(gè) OpenVINO 產(chǎn)品系列中引入了重要的功能和性能變化，使大語言模型（LLM）的優(yōu)化和部署在所有支持的場景中更容易、性能更高，包括邊緣和數(shù)據(jù)中心環(huán)境的部署。

發(fā)表于 10-12 09:41 ?394次閱讀

理解LLM中的模型量化

在本文中，我們將探討一種廣泛采用的技術(shù)，用于減小大型語言模型（LLM）的大小和計(jì)算需求，以便將這些模型部署到邊緣設(shè)備上。這項(xiàng)技術(shù)稱為模型量化。它使得人工智能模型能夠在資源受限的設(shè)備上高

發(fā)表于 10-25 11:26 ?226次閱讀

LLM技術(shù)對人工智能發(fā)展的影響

隨著人工智能技術(shù)的飛速發(fā)展，大型語言模型（LLM）技術(shù)已經(jīng)成為推動AI領(lǐng)域進(jìn)步的關(guān)鍵力量。LLM技術(shù)通過深度學(xué)習(xí)和自然語言處理

發(fā)表于 11-08 09:28 ?344次閱讀

TensorRT-LLM低精度推理優(yōu)化

本文將分享 TensorRT-LLM 中低精度量化內(nèi)容，并從精度和速度角度對比 FP8 與 INT8。首先介紹性能，包括速度和精度。其次，介紹量化工具 NVIDIA TensorRT

發(fā)表于 11-19 14:29 ?264次閱讀

一種信息引導(dǎo)的量化后LLM微調(diào)新算法IR-QLoRA

大模型應(yīng)用開卷，連一向保守的蘋果，都已釋放出發(fā)展端側(cè)大模型的信號。問題是，大語言模型（LLM）卓越的表現(xiàn)取決于“力大磚飛”，如何在資源有限的環(huán)境中部署大模型并保障性能，仍然頗具挑戰(zhàn)。以對大模型

發(fā)表于 11-19 17:16 ?279次閱讀

解鎖NVIDIA TensorRT-LLM的卓越性能

Batching、Paged KV Caching、量化技術(shù) (FP8、INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能，確保您的 NVIDIA GPU 能發(fā)揮出卓越的推理性能。

發(fā)表于 12-17 17:47 ?116次閱讀