RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

低比特量化技術(shù)如何幫助LLM提升性能

英特爾物聯(lián)網(wǎng) ? 來源:OpenVINO 中文社區(qū) ? 2023-12-08 15:26 ? 次閱讀

作者:楊亦誠

針對大語言模型 (LLM) 在部署過程中的性能需求,低比特量化技術(shù)一直是優(yōu)化效果最佳的方案之一,本文將探討低比特量化技術(shù)如何幫助 LLM 提升性能,以及新版 OpenVINO對于低比特量化技術(shù)的支持。

大模型性能瓶頸

相比計(jì)算量的增加,大模型推理速度更容易受到內(nèi)存帶寬的影響(memory bound),也就是內(nèi)存讀寫效率問題,這是因?yàn)榇竽P陀捎?a target="_blank">參數(shù)量巨大、訪存量遠(yuǎn)超內(nèi)存帶寬容量,意味著模型的權(quán)重的讀寫速度跟不上硬件對于算子的計(jì)算強(qiáng)度,導(dǎo)致算力資源無法得到充分發(fā)揮,進(jìn)而影響性能。

f7a0f750-957b-11ee-8b88-92fbcf53809c.png

圖:memory bound與compute bound比較

低比特量化技術(shù)

低比特量化技術(shù)是指將模型參數(shù)從 fp32/fp16 壓縮到更低的比特位寬表達(dá),在不影響模型輸出準(zhǔn)確性和參數(shù)量的情況下,降低模型體積,從而減少緩存對于數(shù)據(jù)讀寫的壓力,提升推理性能。由于大模型中單個(gè) layer 上的權(quán)重體積往往要遠(yuǎn)大于該 layer 的輸入數(shù)據(jù)(activation),因此針對大模型的量化技術(shù)往往只會針對關(guān)鍵的權(quán)重參數(shù)進(jìn)行量化(WeightOnly),而不對輸入數(shù)據(jù)進(jìn)行量化,在到達(dá)理想的壓縮比的同時(shí),盡可能保證輸出結(jié)果,實(shí)現(xiàn)最高的量化“性價(jià)比”

f7c40178-957b-11ee-8b88-92fbcf53809c.png

圖:權(quán)重壓縮示意

經(jīng)驗(yàn)證常規(guī)的 int8 權(quán)重量化,對大模型準(zhǔn)確性的影響極低,而為了引入像 int4,nf4 這樣的更極致的壓縮精度,目前在權(quán)重量化算法上也經(jīng)過了一些探索,其中比較典型的就是 GPTQ 算法,簡單來說,GPTQ 對某個(gè) block 內(nèi)的所有參數(shù)逐個(gè)量化,每個(gè)參數(shù)量化后,需要適當(dāng)調(diào)整這個(gè) block 內(nèi)其他未量化的參數(shù),以彌補(bǔ)量化造成的精度損失。GPTQ 量化需要準(zhǔn)備校準(zhǔn)數(shù)據(jù)集,因此他也是一種 PTQ(Post Training Quantization)量化技術(shù)。

OpenVINO 2023.2

對于 int4 模型的支持

OpenVINO 2023.2 相較 2023.1 版本,全面引入對 int4 模型以及量化技術(shù)的支持。主要有以下 2 個(gè)方面:

01CPU 及 iGPU 支持原生 int4 模型推理

OpenVINO工具目前已經(jīng)可以直接讀取經(jīng) NNCF 量化以后的 int4 模型,或者是將 HuggingFace 中使用 AutoGPTQ 庫量化的模型轉(zhuǎn)換后,進(jìn)行讀取及編譯。由于目前的 OpenVINO 后端硬件無法直接支持 int4 數(shù)據(jù)格式的運(yùn)算,所以在模型執(zhí)行過程中,OpenVINO runtime 會把 int4 的權(quán)重反量化的到 FP16 或是 BF16 的精度進(jìn)行運(yùn)算。簡而言之:模型以 int4 精度存儲,以 fp16 精度計(jì)算,用計(jì)算成本換取空間及 IO 成本,提升運(yùn)行效率。這也是因?yàn)榇竽P偷男阅芷款i主要來源于 memory bound,用更高的數(shù)據(jù)讀寫效率,降低對于內(nèi)存帶寬與內(nèi)存容量的開銷。

f7ebf480-957b-11ee-8b88-92fbcf53809c.png

圖:經(jīng) NNCF 權(quán)重壓縮后的模型結(jié)構(gòu)

02NNCF 工具支持 int4 的混合精度量化策略(Weights Compression)

剛提到的 GPTQ 是一種 data-based 的量化方案,需要提前準(zhǔn)備校驗(yàn)數(shù)據(jù)集,借助 HuggingFace 的 Transformers 和 AutoGPTQ 庫可以完成這一操作。而為了幫助開發(fā)者縮短 LLM 模型的壓縮時(shí)間,降低量化門檻,NNCF 工具在 2.7.0 版本中引入了針對 int4 以及 nf4 精度的權(quán)重壓縮模式,這是一種 data-free 的混合精度量化算法,無需準(zhǔn)備校驗(yàn)數(shù)據(jù)集,僅對 LLM 中的 Linear 和 Embedding layers 展開權(quán)重壓縮。整個(gè)過程僅用一行代碼就可以完成:

compressed_model = compress_weights(model, mode=CompressWeightsMode.NF4, group_size=64, ratio=0.9)

左滑查看更多

其中model為 PyTorch 或 OpenVINO 的模型對象;mode代表量化模式,這里可以選擇CompressWeightsMode.NF4,或是CompressWeightsMode.INT4_ASYM/INT4_SYM等不同模式;為了提升量化效率,Weights Compression 使用的是分組量化的策略(grouped quantization),因此需要通過group_size配置組大小,例如 group_size=64 意味 64 個(gè) channel 的參數(shù)將共享同一組量化參數(shù)(zero point, scale value);此外鑒于 data-free 的 int4 量化策略是比帶來一定的準(zhǔn)確度損失,為了平衡模型體積和準(zhǔn)確度,Weights Compression 還支持混合精度的策略,通過定義ratio值,我們可以將一部分對準(zhǔn)確度敏感的權(quán)重用 int8 表示,例如在 ratio=0.9 的情況下,90% 的權(quán)重用 int4 表示,10% 用 int8 表示,開發(fā)者可以根據(jù)量化后模型的輸出結(jié)果調(diào)整這個(gè)參數(shù)。

在量化過程中,NNCF 會通過搜索的方式,逐層比較偽量化后的權(quán)重和原始浮點(diǎn)權(quán)重的差異,衡量量化操作對每個(gè) layer 可能帶來的誤差損失,并根據(jù)排序結(jié)果以及用戶定義的 ratio 值,將損失相對較低的權(quán)重壓縮到 int4 位寬。

中文大語言模型實(shí)踐

隨著 OpenVINO2023.2 的發(fā)布,大語言模型的 int4 壓縮示例也被添加到了openvino_notebooks 倉庫中,這次特別新增了針對中文 LLM 的示例,包括目前熱門模型ChatGLM2Qwen。在這個(gè) notebook 中,開發(fā)者可以體驗(yàn)如何從 HuggingFace 的倉庫中導(dǎo)出一個(gè) OpenVINO IR 格式的模型,并通過 NNCF 工具進(jìn)行低比特量化,最終完成一個(gè)聊天機(jī)器人的構(gòu)建。

f8093eb4-957b-11ee-8b88-92fbcf53809c.png

圖:fp16 與 int4 模型空間占用比較

通過以上這個(gè)截圖可以看到,qwen-7b-chat 經(jīng)過 NNCF 的 int4 量化后,可以將體積壓縮到原本 fp16 模型的 1/3,這樣使得一臺 16GB 內(nèi)存的筆記本,就可以流暢運(yùn)行壓縮以后的 ChatGLM2 模型。此外我們還可以通過將 LLM 模型部署在酷睿 CPU 中的集成顯卡上,在提升性能的同時(shí),減輕 CPU 側(cè)的任務(wù)負(fù)載。

f81349cc-957b-11ee-8b88-92fbcf53809c.png

圖:Notebook 運(yùn)行效果

總結(jié)

OpenVINO 2023.2 中對 int4 權(quán)重量化的支持,可以全面提升大模型在英特爾平臺上的運(yùn)行性能,同時(shí)降低對于存儲和內(nèi)存的容量需求,降低開發(fā)者在部署大模型時(shí)的門檻,讓本地化的大語言模型應(yīng)用在普通 PC 上落地成為可能。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 輕量化技術(shù)
    +關(guān)注

    關(guān)注

    0

    文章

    6

    瀏覽量

    2227
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2423

    瀏覽量

    2640
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    0

    文章

    286

    瀏覽量

    327
  • OpenVINO
    +關(guān)注

    關(guān)注

    0

    文章

    92

    瀏覽量

    196

原文標(biāo)題:如何利用低比特量化技術(shù)在 iGPU 上進(jìn)一步提升大模型推理性能|開發(fā)者實(shí)戰(zhàn)

文章出處:【微信號:英特爾物聯(lián)網(wǎng),微信公眾號:英特爾物聯(lián)網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    Arm KleidiAI助力提升PyTorch上LLM推理性能

    熱門的深度學(xué)習(xí)框架尤為突出,許多企業(yè)均會選擇其作為開發(fā) AI 應(yīng)用的庫。通過部署 Arm Kleidi 技術(shù),Arm 正在努力優(yōu)化 PyTorch,以加速在基于 Arm 架構(gòu)的處理器上運(yùn)行 LLM性能。Arm 通過將 Kle
    的頭像 發(fā)表于 12-03 17:05 ?734次閱讀
    Arm KleidiAI助力<b class='flag-5'>提升</b>PyTorch上<b class='flag-5'>LLM</b>推理<b class='flag-5'>性能</b>

    Labview開發(fā)技術(shù)叢書--運(yùn)行性能提升技巧

    Labview開發(fā)技術(shù)叢書--運(yùn)行性能提升技巧
    發(fā)表于 09-02 18:09

    基于RDMA技術(shù)的Spark Shuffle性能提升

    一篇文章教你使用RDMA技術(shù)提升Spark的Shuffle性能
    發(fā)表于 10-28 16:46

    求一種采用分段量化比特滑動技術(shù)的流水并行式模數(shù)轉(zhuǎn)換電路?

    本文提出了一種采用分段量化比特滑動技術(shù)的流水并行式模數(shù)轉(zhuǎn)換電路,較好地結(jié)合了并行式和逐次逼近比較式兩種模數(shù)轉(zhuǎn)換各自的長處,在保證高速工作的同時(shí),可實(shí)現(xiàn)并行式難以實(shí)現(xiàn)的8位以上的高分辨率模數(shù)轉(zhuǎn)換,而且比現(xiàn)有的流水并行式模數(shù)轉(zhuǎn)換電
    發(fā)表于 04-08 06:34

    量化算法介紹及其特點(diǎn)分析

    模型量化作為一種能夠有效減少模型大小,加速深度學(xué)習(xí)推理的優(yōu)化技術(shù),已經(jīng)得到了學(xué)術(shù)界和工業(yè)界的廣泛研究和應(yīng)用。模型量化有 8/4/2/1 bit等,本文主要討論目前相對比較成熟的 8-bit
    發(fā)表于 07-26 08:08

    LLM性能的主要因素

    現(xiàn)在是2023年5月,截止目前,網(wǎng)絡(luò)上已經(jīng)開源了眾多的LLM,如何用較低的成本,判斷LLM的基礎(chǔ)性能,選到適合自己任務(wù)的LLM,成為一個(gè)關(guān)鍵。 本文會涉及以下幾個(gè)問題: 影響
    的頭像 發(fā)表于 05-22 15:26 ?1704次閱讀
    <b class='flag-5'>LLM</b><b class='flag-5'>性能</b>的主要因素

    基于MacroBenchmark的性能測試量化指標(biāo)方案

    介紹基于Google MacroBenchmark的性能量化指標(biāo)測試的工程配置、測試流程、核心指標(biāo)和應(yīng)用案例,幫助Android 開發(fā)者更好地評估和比較App的性能。
    的頭像 發(fā)表于 10-17 10:15 ?782次閱讀

    Nvidia 通過開源庫提升 LLM 推理性能

    加利福尼亞州圣克拉拉——Nvidia通過一個(gè)名為TensorRT LLM的新開源軟件庫,將其H100、A100和L4 GPU的大型語言模型(LLM)推理性能提高了一倍。 正如對相同硬件一輪又一輪改進(jìn)
    的頭像 發(fā)表于 10-23 16:10 ?642次閱讀

    深度學(xué)習(xí)模型量化方法

    深度學(xué)習(xí)模型量化是一種重要的模型輕量化技術(shù),旨在通過減少網(wǎng)絡(luò)參數(shù)的比特寬度來減小模型大小和加速推理過程,同時(shí)盡量保持模型性能。從而達(dá)到把模型
    的頭像 發(fā)表于 07-15 11:01 ?488次閱讀
    深度學(xué)習(xí)模型<b class='flag-5'>量化</b>方法

    OpenVINO 2024.4持續(xù)提升GPU上LLM性能

    本次新版本在整個(gè) OpenVINO 產(chǎn)品系列中引入了重要的功能和性能變化,使大語言模型 (LLM) 的優(yōu)化和部署在所有支持的場景中更容易、性能更高,包括邊緣和數(shù)據(jù)中心環(huán)境的部署。
    的頭像 發(fā)表于 10-12 09:41 ?394次閱讀
    OpenVINO 2024.4持續(xù)<b class='flag-5'>提升</b>GPU上<b class='flag-5'>LLM</b><b class='flag-5'>性能</b>

    理解LLM中的模型量化

    在本文中,我們將探討一種廣泛采用的技術(shù),用于減小大型語言模型(LLM)的大小和計(jì)算需求,以便將這些模型部署到邊緣設(shè)備上。這項(xiàng)技術(shù)稱為模型量化。它使得人工智能模型能夠在資源受限的設(shè)備上高
    的頭像 發(fā)表于 10-25 11:26 ?226次閱讀
    理解<b class='flag-5'>LLM</b>中的模型<b class='flag-5'>量化</b>

    LLM技術(shù)對人工智能發(fā)展的影響

    隨著人工智能技術(shù)的飛速發(fā)展,大型語言模型(LLM技術(shù)已經(jīng)成為推動AI領(lǐng)域進(jìn)步的關(guān)鍵力量。LLM技術(shù)通過深度學(xué)習(xí)和自然語言處理
    的頭像 發(fā)表于 11-08 09:28 ?344次閱讀

    TensorRT-LLM精度推理優(yōu)化

    本文將分享 TensorRT-LLM 中低精度量化內(nèi)容,并從精度和速度角度對比 FP8 與 INT8。首先介紹性能,包括速度和精度。其次,介紹量化工具 NVIDIA TensorRT
    的頭像 發(fā)表于 11-19 14:29 ?264次閱讀
    TensorRT-<b class='flag-5'>LLM</b><b class='flag-5'>低</b>精度推理優(yōu)化

    一種信息引導(dǎo)的量化LLM微調(diào)新算法IR-QLoRA

    大模型應(yīng)用開卷,連一向保守的蘋果,都已釋放出發(fā)展端側(cè)大模型的信號。 問題是,大語言模型(LLM)卓越的表現(xiàn)取決于“力大磚飛”,如何在資源有限的環(huán)境中部署大模型并保障性能,仍然頗具挑戰(zhàn)。 以對大模型
    的頭像 發(fā)表于 11-19 17:16 ?279次閱讀
    一種信息引導(dǎo)的<b class='flag-5'>量化</b>后<b class='flag-5'>LLM</b>微調(diào)新算法IR-QLoRA

    解鎖NVIDIA TensorRT-LLM的卓越性能

    Batching、Paged KV Caching、量化技術(shù) (FP8、INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能,確保您的 NVIDIA GPU 能發(fā)揮出卓越的推理性能
    的頭像 發(fā)表于 12-17 17:47 ?116次閱讀
    RM新时代网站-首页