RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OpenVINO 2024.4持續(xù)提升GPU上LLM性能

英特爾物聯(lián)網(wǎng) ? 來源:英特爾物聯(lián)網(wǎng) ? 2024-10-12 09:41 ? 次閱讀

作者:

Yury Gorbachev 英特爾院士 OpenVINO 產(chǎn)品架構(gòu)師

Whiteny Foster OpenVINO產(chǎn)品專家

翻譯:

武卓 博士 英特爾 OpenVINO 布道師

本次新版本在整個 OpenVINO 產(chǎn)品系列中引入了重要的功能和性能變化,使大語言模型 (LLM) 的優(yōu)化和部署在所有支持的場景中更容易、性能更高,包括邊緣和數(shù)據(jù)中心環(huán)境的部署。

在客戶端,在之前的版本中我們一直在努力工作,而這個版本則支持我們?nèi)碌?Intel Xe2 GPU 架構(gòu),該架構(gòu)在最近推出的 Intel Core Ultra 處理器(第二代)中搭載。Xe2 架構(gòu)由 Intel Xe Matrix Extensions (Intel XMX) 加速技術(shù)提供支持,我們與 oneDNN 和驅(qū)動程序團(tuán)隊(duì)的合作伙伴合作啟用了該技術(shù),以在矩陣乘法等計(jì)算密集型運(yùn)算上實(shí)現(xiàn)最佳性能。由于矩陣乘法是 LLM 中的一個關(guān)鍵熱點(diǎn),因此在部署 LLM 時(shí),使用 Xe2 架構(gòu)的性能優(yōu)勢會立即顯現(xiàn)出來。

我們不僅直接通過英特爾 XMX 優(yōu)化了矩陣乘法,還創(chuàng)建了高度優(yōu)化的 GPU 基元,如 縮放點(diǎn)積注意力(Scaled Dot Product Attention) 和旋轉(zhuǎn)位置編碼( Rotary Positional Embeddings),以減少這些復(fù)雜操作的執(zhí)行流水線開銷。我們致力于改善內(nèi)存消耗并更有效地支持具有壓縮權(quán)重的模型,從而使大型語言模型(LLM)的部署更適合筆記本電腦/邊緣設(shè)備,并允許 LLM 適應(yīng)最小的內(nèi)存占用,這對于資源有限的環(huán)境至關(guān)重要。

我們所做的一些更改是通用的,并且會對其它平臺產(chǎn)生顯著影響,包括平臺上的集成顯卡(例如 Intel Core Ultra(第一代))和獨(dú)立顯卡(Intel Arc 系列)。

通過橫跨數(shù)十個大語言模型的性能和準(zhǔn)確性驗(yàn)證,我們衡量了整個模型集的這些改進(jìn)。使用神經(jīng)網(wǎng)絡(luò)壓縮框架 (NNCF) 優(yōu)化框架中的權(quán)重壓縮算法可以嚴(yán)格控制對模型準(zhǔn)確性的影響。

對內(nèi)置 顯卡的性能進(jìn)行比較,英特爾酷睿 Ultra 處理器(第二代)的 第2 個Token延遲性能比第一代 高出 1.3 倍,適用于 Llama3-8B 和 Phi-3-Mini-4k-Instruct 等 LLM,詳情請參見下圖。

36b15926-877f-11ef-b8af-92fbcf53809c.png

使用 OpenVINO 工具套件 2024.4 在最新的英特爾酷睿超級處理器(第二代)內(nèi)置 GPU 上最大限度地提高 LLM 性能。有關(guān)工作負(fù)載和配置,請參閱附錄。結(jié)果可能會有所不同。

除了 GPU,Intel Core Ultra 處理器(第二代)還引入了更強(qiáng)大的 NPU,具有 40 TOPS 的峰值推理吞吐量,這是對上一代產(chǎn)品的重大升級。OpenVINO 現(xiàn)在通過 OpenVINO GenAI 軟件包為經(jīng)典深度學(xué)習(xí)模型(例如計(jì)算機(jī)視覺、語音識別和生成)和 LLM 提供對這種加速技術(shù)的訪問。我們一直在與 NPU 團(tuán)隊(duì)合作,以提高性能、減少內(nèi)存消耗并加快過去版本的模型編譯速度,并將在未來的版本中繼續(xù)增強(qiáng)。

使用 LLM 的另一種常用場景是通過模型服務(wù),這意味著模型可以通過 REST API 被訪問,并通過 vLLM 或 OpenVINO 模型服務(wù)器 (OVMS) 等框架來進(jìn)行服務(wù)。對于此使用場景,我們還引入了新功能以增強(qiáng)解決方案特性。

OpenVINO 模型服務(wù)器(OVMS) 現(xiàn)在通過 OpenAI API 為 LLM 提供服務(wù),并提供了啟用前綴緩存功能的能力,該功能通過緩存提示詞常見部分的計(jì)算來提高服務(wù)吞吐量。當(dāng)提示詞以相同的文本開頭(例如“您是一個有用的 AI 助手”)或在聊天場景中使用 LLM 時(shí),這尤其有用。我們還為 OVMS 中的 CPU 啟用了 KV 緩存壓縮,從而減少了內(nèi)存消耗并改進(jìn)了第二個Token延遲等指標(biāo)。

從 OpenVINO 2024.4 版本開始,GPU 將支持分頁注意力( PagedAttention) 操作和連續(xù)批處理,這使我們能夠在 LLM 服務(wù)場景中使用 GPU。我們最初在對 vLLM 的貢獻(xiàn)中啟用此功能,并在此版本中將其擴(kuò)展到 OpenVINO 模型服務(wù)器。這允許 Intel ARC GPU 在您的環(huán)境中以優(yōu)化的服務(wù)特性提供 LLM 模型服務(wù)。查看適用于 CPU 和 GPU 的 LLM 服務(wù)演示,其中展示了如何利用這些功能。

LLM 服務(wù)演示

https://docs.openvino.ai/2024/ovms_demos_continuous_batching.html

為了繼續(xù)數(shù)據(jù)中心場景,OpenVINO 現(xiàn)在在英特爾至強(qiáng)處理器上運(yùn)行時(shí)提供對 mxfp4 的支持,如開放計(jì)算項(xiàng)目規(guī)范中所定義。對于 LLM,與 BF16 精度相比,它允許在第二個令牌延遲上提高性能,同時(shí)減少內(nèi)存消耗。神經(jīng)網(wǎng)絡(luò)壓縮框架 (NNCF) 模型優(yōu)化功能支持此功能,該功能允許將 LLM 權(quán)重壓縮為這種格式。

定義

https://www.opencompute.org/documents/ocp-microscaling-formats-mx-v1-0-spec-final-pdf

從模型支持的角度來看,我們一直在與 Hugging Face 的合作伙伴一起更新 Optimum -Intel 解決方案。該方案允許在使用 OpenVINO 運(yùn)行時(shí)時(shí)使用 Hugging Face API 運(yùn)行模型,并高效導(dǎo)出和壓縮模型以用于 OpenVINO GenAI 軟件包 API。在此版本中,我們專注于支持 Florence 2、MiniCPM2、Phi-3-Vision、Flux.1 等模型。OpenVINONotebooks已經(jīng)可用,用于演示如何在您選擇的平臺上將這些模型與 OpenVINO 一起使用。

OpenVINONotebooks

https://github.com/openvinotoolkit/openvino_notebooks

使用 Flux.1 和 OpenVINO生成文本到圖像,并帶有輸入提示:一只小小的約克夏梗宇航員從月球上的蛋中孵化。https://github.com/openvinotoolkit/openvino_notebooks/tree/latest/notebooks/flux.1-image-generation

整個夏天,我們一直在與 Google Summer of Code 的優(yōu)秀貢獻(xiàn)者合作,結(jié)果令人鼓舞。我們一直在努力改進(jìn)

ARM 平臺上的生成式 AI

https://medium.com/openvino-toolkit/improve-openvino-performance-on-generative-ai-workload-on-arm-devices-with-5aee5808e23a,

支持RISC-V

https://medium.com/openvino-toolkit/my-journey-with-google-summer-of-code-2024-enhancing-openvino-for-risc-v-devices-b69568426aff

并探索許多其他令人興奮的發(fā)展,我們很快將更詳細(xì)地介紹這些發(fā)展。

謝謝您,我們期待在即將發(fā)布的版本中為您帶來更多性能改進(jìn)和新功能。有關(guān)此版本的更多詳細(xì)信息,請參閱 發(fā)行說明。

發(fā)行說明

https://docs.openvino.ai/2024/about-openvino/release-notes-openvino.html

Appendix

附錄

36febcb6-877f-11ef-b8af-92fbcf53809c.png

371ccbb6-877f-11ef-b8af-92fbcf53809c.png372832a8-877f-11ef-b8af-92fbcf53809c.png3745bbb6-877f-11ef-b8af-92fbcf53809c.png

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    19259

    瀏覽量

    229649
  • 英特爾
    +關(guān)注

    關(guān)注

    61

    文章

    9949

    瀏覽量

    171692
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    0

    文章

    286

    瀏覽量

    327
  • OpenVINO
    +關(guān)注

    關(guān)注

    0

    文章

    92

    瀏覽量

    196

原文標(biāo)題:OpenVINO? 2024.4|支持新一代英特爾?酷睿? Ultra處理器,持續(xù)提升GPU上LLM性能|開發(fā)者實(shí)戰(zhàn)

文章出處:【微信號:英特爾物聯(lián)網(wǎng),微信公眾號:英特爾物聯(lián)網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    低比特量化技術(shù)如何幫助LLM提升性能

    針對大語言模型 (LLM) 在部署過程中的性能需求,低比特量化技術(shù)一直是優(yōu)化效果最佳的方案之一,本文將探討低比特量化技術(shù)如何幫助 LLM 提升性能
    的頭像 發(fā)表于 12-08 15:26 ?1141次閱讀
    低比特量化技術(shù)如何幫助<b class='flag-5'>LLM</b><b class='flag-5'>提升</b><b class='flag-5'>性能</b>

    Arm KleidiAI助力提升PyTorchLLM推理性能

    熱門的深度學(xué)習(xí)框架尤為突出,許多企業(yè)均會選擇其作為開發(fā) AI 應(yīng)用的庫。通過部署 Arm Kleidi 技術(shù),Arm 正在努力優(yōu)化 PyTorch,以加速在基于 Arm 架構(gòu)的處理器運(yùn)行 LLM性能。Arm 通過將 Kle
    的頭像 發(fā)表于 12-03 17:05 ?733次閱讀
    Arm KleidiAI助力<b class='flag-5'>提升</b>PyTorch<b class='flag-5'>上</b><b class='flag-5'>LLM</b>推理<b class='flag-5'>性能</b>

    用Chiplet解決ASIC在LLM的成本問題

    電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))雖說最近靠著GPT大語言模型的熱度,英偉達(dá)之類的主流GPU公司賺得盆滿缽滿,但要說仗著GPU的高性能就能高枕無憂的話,也就未免有些癡人說夢了。未來隨著LLM
    的頭像 發(fā)表于 07-18 00:15 ?1240次閱讀
    用Chiplet解決ASIC在<b class='flag-5'>LLM</b><b class='flag-5'>上</b>的成本問題

    GPUOpenVINO基準(zhǔn)測試的推斷模型的默認(rèn)參數(shù)與CPU的參數(shù)不同是為什么?

    在 CPU 和 GPU 推斷出具有 OpenVINO? 基準(zhǔn)的相同模型: benchmark_app.exe -m model.xml -d CPU benchmark_app.exe -m
    發(fā)表于 08-15 06:43

    在Raspberry Pi從源代碼構(gòu)建OpenVINO 2021.3收到錯誤怎么解決?

    在 Raspberry Pi 從源代碼構(gòu)建 OpenVINO?2021.3。 運(yùn)行OpenVINO?推理,并收到錯誤消息: ModuleNotFoundError:沒有
    發(fā)表于 08-15 08:24

    芯片開發(fā)商ARM宣布對CPU與GPU的一系列改進(jìn),性能大幅提升

    芯片開發(fā)商ARM宣布對CPU與GPU的一系列改進(jìn),當(dāng)芯片在Windows筆記本運(yùn)行時(shí),性能大幅提升。
    的頭像 發(fā)表于 06-04 14:54 ?3858次閱讀

    ARM新架構(gòu)很給力,GPU性能提升了20%,但麒麟990無緣用上

    ARM早已經(jīng)公布了下一代芯片架構(gòu),即A77的CPU核心和Mali-G77的GPU,這一代架構(gòu),在CPU性能將會提升20%左右,但GPU改變
    的頭像 發(fā)表于 08-21 11:51 ?8912次閱讀

    英偉達(dá):GPU讓AI的性能每年都成倍提升

    英偉達(dá)首席科學(xué)家Bill Dally在一年一度的中國GPU技術(shù)大會召開前接受第一財(cái)經(jīng)記者獨(dú)家專訪時(shí)表示,GPU讓人工智能(AI)的性能每年都能成倍提升,英偉達(dá)的研究人員正在定義如何在具
    的頭像 發(fā)表于 12-15 13:37 ?2535次閱讀

    選擇GPU服務(wù)器需要考慮哪些情況如何才能提升GPU存儲性能

    GPU是我們常用器件,采用GPU,才使得圖形顯示成為可能。在上期文章中,小編對GPU的加速原理等知識有所闡述。為增進(jìn)大家對GPU的認(rèn)識,本文將基于兩點(diǎn)介紹
    的頭像 發(fā)表于 02-08 17:37 ?3465次閱讀

    LLM性能的主要因素

    現(xiàn)在是2023年5月,截止目前,網(wǎng)絡(luò)已經(jīng)開源了眾多的LLM,如何用較低的成本,判斷LLM的基礎(chǔ)性能,選到適合自己任務(wù)的LLM,成為一個關(guān)鍵
    的頭像 發(fā)表于 05-22 15:26 ?1703次閱讀
    <b class='flag-5'>LLM</b><b class='flag-5'>性能</b>的主要因素

    Nvidia 通過開源庫提升 LLM 推理性能

    加利福尼亞州圣克拉拉——Nvidia通過一個名為TensorRT LLM的新開源軟件庫,將其H100、A100和L4 GPU的大型語言模型(LLM)推理性能提高了一倍。 正如對相同硬件
    的頭像 發(fā)表于 10-23 16:10 ?642次閱讀

    深度解讀各種人工智能加速器和GPULLM性能特征

    在不同的硬件平臺上評估LLM對于理解傳統(tǒng)和非傳統(tǒng)體系結(jié)構(gòu)的能力和局限性至關(guān)重要。先前的工作已經(jīng)在超級計(jì)算機(jī)上研究了LLM,并使用傳統(tǒng)的深度學(xué)習(xí)基準(zhǔn)來提供對其能力的詳細(xì)評估與分析。
    發(fā)表于 10-25 11:49 ?692次閱讀
    深度解讀各種人工智能加速器和<b class='flag-5'>GPU</b><b class='flag-5'>上</b>的<b class='flag-5'>LLM</b><b class='flag-5'>性能</b>特征

    如何利用OpenVINO加速LangChain中LLM任務(wù)

    LangChain 是一個高層級的開源的框架,從字面意義理解,LangChain 可以被用來構(gòu)建 “語言處理任務(wù)的鏈條”,它可以讓AI開發(fā)人員把大型語言模型(LLM)的能力和外部數(shù)據(jù)結(jié)合起來,從而
    的頭像 發(fā)表于 12-05 09:58 ?807次閱讀

    解鎖LLM新高度—OpenVINO? 2024.1賦能生成式AI高效運(yùn)行

    LLM 的發(fā)展仍保持著驚人的速度。盡管現(xiàn)有的 LLM 已經(jīng)具備強(qiáng)大的功能,但通過 OpenVINO? 的優(yōu)化和推理加速,可以對這些復(fù)雜模型的執(zhí)行進(jìn)行精煉,實(shí)現(xiàn)更快、更高效的處理,減少計(jì)算開銷并最大限度發(fā)揮硬件潛力,這將直接導(dǎo)致
    的頭像 發(fā)表于 05-10 10:36 ?519次閱讀

    解鎖NVIDIA TensorRT-LLM的卓越性能

    Batching、Paged KV Caching、量化技術(shù) (FP8、INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能,確保您的 NVIDIA GPU 能發(fā)揮出卓越的推理性能。
    的頭像 發(fā)表于 12-17 17:47 ?115次閱讀
    RM新时代网站-首页