新时代RM|APP官网网址,新时代下载安装最新版

作者：

Yury Gorbachev 英特爾院士 OpenVINO 產(chǎn)品架構(gòu)師

Whiteny Foster OpenVINO產(chǎn)品專家

翻譯：

武卓博士英特爾 OpenVINO 布道師

本次新版本在整個 OpenVINO 產(chǎn)品系列中引入了重要的功能和性能變化，使大語言模型（LLM）的優(yōu)化和部署在所有支持的場景中更容易、性能更高，包括邊緣和數(shù)據(jù)中心環(huán)境的部署。

在客戶端，在之前的版本中我們一直在努力工作，而這個版本則支持我們?nèi)碌?Intel Xe2 GPU 架構(gòu)，該架構(gòu)在最近推出的 Intel Core Ultra 處理器（第二代）中搭載。Xe2 架構(gòu)由 Intel Xe Matrix Extensions （Intel XMX）加速技術(shù)提供支持，我們與 oneDNN 和驅(qū)動程序團(tuán)隊(duì)的合作伙伴合作啟用了該技術(shù)，以在矩陣乘法等計(jì)算密集型運(yùn)算上實(shí)現(xiàn)最佳性能。由于矩陣乘法是 LLM 中的一個關(guān)鍵熱點(diǎn)，因此在部署 LLM 時(shí)，使用 Xe2 架構(gòu)的性能優(yōu)勢會立即顯現(xiàn)出來。

我們不僅直接通過英特爾 XMX 優(yōu)化了矩陣乘法，還創(chuàng)建了高度優(yōu)化的 GPU 基元，如縮放點(diǎn)積注意力（Scaled Dot Product Attention）和旋轉(zhuǎn)位置編碼（ Rotary Positional Embeddings），以減少這些復(fù)雜操作的執(zhí)行流水線開銷。我們致力于改善內(nèi)存消耗并更有效地支持具有壓縮權(quán)重的模型，從而使大型語言模型（LLM）的部署更適合筆記本電腦/邊緣設(shè)備，并允許 LLM 適應(yīng)最小的內(nèi)存占用，這對于資源有限的環(huán)境至關(guān)重要。

我們所做的一些更改是通用的，并且會對其它平臺產(chǎn)生顯著影響，包括平臺上的集成顯卡（例如 Intel Core Ultra（第一代））和獨(dú)立顯卡（Intel Arc 系列）。

通過橫跨數(shù)十個大語言模型的性能和準(zhǔn)確性驗(yàn)證，我們衡量了整個模型集的這些改進(jìn)。使用神經(jīng)網(wǎng)絡(luò)壓縮框架（NNCF）優(yōu)化框架中的權(quán)重壓縮算法可以嚴(yán)格控制對模型準(zhǔn)確性的影響。

對內(nèi)置顯卡的性能進(jìn)行比較，英特爾酷睿 Ultra 處理器（第二代）的第2 個Token延遲性能比第一代高出 1.3 倍，適用于 Llama3-8B 和 Phi-3-Mini-4k-Instruct 等 LLM，詳情請參見下圖。

使用 OpenVINO 工具套件 2024.4 在最新的英特爾酷睿超級處理器（第二代）內(nèi)置 GPU 上最大限度地提高 LLM 性能。有關(guān)工作負(fù)載和配置，請參閱附錄。結(jié)果可能會有所不同。

除了 GPU，Intel Core Ultra 處理器（第二代）還引入了更強(qiáng)大的 NPU，具有 40 TOPS 的峰值推理吞吐量，這是對上一代產(chǎn)品的重大升級。OpenVINO 現(xiàn)在通過 OpenVINO GenAI 軟件包為經(jīng)典深度學(xué)習(xí)模型（例如計(jì)算機(jī)視覺、語音識別和生成）和 LLM 提供對這種加速技術(shù)的訪問。我們一直在與 NPU 團(tuán)隊(duì)合作，以提高性能、減少內(nèi)存消耗并加快過去版本的模型編譯速度，并將在未來的版本中繼續(xù)增強(qiáng)。

使用 LLM 的另一種常用場景是通過模型服務(wù)，這意味著模型可以通過 REST API 被訪問，并通過 vLLM 或 OpenVINO 模型服務(wù)器（OVMS）等框架來進(jìn)行服務(wù)。對于此使用場景，我們還引入了新功能以增強(qiáng)解決方案特性。

OpenVINO 模型服務(wù)器（OVMS）現(xiàn)在通過 OpenAI API 為 LLM 提供服務(wù)，并提供了啟用前綴緩存功能的能力，該功能通過緩存提示詞常見部分的計(jì)算來提高服務(wù)吞吐量。當(dāng)提示詞以相同的文本開頭（例如“您是一個有用的 AI 助手”）或在聊天場景中使用 LLM 時(shí)，這尤其有用。我們還為 OVMS 中的 CPU 啟用了 KV 緩存壓縮，從而減少了內(nèi)存消耗并改進(jìn)了第二個Token延遲等指標(biāo)。

從 OpenVINO 2024.4 版本開始，GPU 將支持分頁注意力（ PagedAttention）操作和連續(xù)批處理，這使我們能夠在 LLM 服務(wù)場景中使用 GPU。我們最初在對 vLLM 的貢獻(xiàn)中啟用此功能，并在此版本中將其擴(kuò)展到 OpenVINO 模型服務(wù)器。這允許 Intel ARC GPU 在您的環(huán)境中以優(yōu)化的服務(wù)特性提供 LLM 模型服務(wù)。查看適用于 CPU 和 GPU 的 LLM 服務(wù)演示，其中展示了如何利用這些功能。

LLM 服務(wù)演示

https://docs.openvino.ai/2024/ovms_demos_continuous_batching.html

為了繼續(xù)數(shù)據(jù)中心場景，OpenVINO 現(xiàn)在在英特爾至強(qiáng)處理器上運(yùn)行時(shí)提供對 mxfp4 的支持，如開放計(jì)算項(xiàng)目規(guī)范中所定義。對于 LLM，與 BF16 精度相比，它允許在第二個令牌延遲上提高性能，同時(shí)減少內(nèi)存消耗。神經(jīng)網(wǎng)絡(luò)壓縮框架（NNCF）模型優(yōu)化功能支持此功能，該功能允許將 LLM 權(quán)重壓縮為這種格式。

定義

https://www.opencompute.org/documents/ocp-microscaling-formats-mx-v1-0-spec-final-pdf

從模型支持的角度來看，我們一直在與 Hugging Face 的合作伙伴一起更新 Optimum -Intel 解決方案。該方案允許在使用 OpenVINO 運(yùn)行時(shí)時(shí)使用 Hugging Face API 運(yùn)行模型，并高效導(dǎo)出和壓縮模型以用于 OpenVINO GenAI 軟件包 API。在此版本中，我們專注于支持 Florence 2、MiniCPM2、Phi-3-Vision、Flux.1 等模型。OpenVINONotebooks已經(jīng)可用，用于演示如何在您選擇的平臺上將這些模型與 OpenVINO 一起使用。

OpenVINONotebooks

https://github.com/openvinotoolkit/openvino_notebooks

使用 Flux.1 和 OpenVINO生成文本到圖像，并帶有輸入提示：一只小小的約克夏梗宇航員從月球上的蛋中孵化。https://github.com/openvinotoolkit/openvino_notebooks/tree/latest/notebooks/flux.1-image-generation

整個夏天，我們一直在與 Google Summer of Code 的優(yōu)秀貢獻(xiàn)者合作，結(jié)果令人鼓舞。我們一直在努力改進(jìn)

ARM 平臺上的生成式 AI

https://medium.com/openvino-toolkit/improve-openvino-performance-on-generative-ai-workload-on-arm-devices-with-5aee5808e23a，

支持RISC-V

https://medium.com/openvino-toolkit/my-journey-with-google-summer-of-code-2024-enhancing-openvino-for-risc-v-devices-b69568426aff

并探索許多其他令人興奮的發(fā)展，我們很快將更詳細(xì)地介紹這些發(fā)展。

謝謝您，我們期待在即將發(fā)布的版本中為您帶來更多性能改進(jìn)和新功能。有關(guān)此版本的更多詳細(xì)信息，請參閱發(fā)行說明。

發(fā)行說明

https://docs.openvino.ai/2024/about-openvino/release-notes-openvino.html

Appendix

附錄

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

處理器

處理器

+關(guān)注

關(guān)注
68

文章
19259

瀏覽量
229649
英特爾

英特爾

+關(guān)注

關(guān)注
61

文章
9949

瀏覽量
171692
LLM

LLM

+關(guān)注

關(guān)注
0

文章
286

瀏覽量
327
OpenVINO

OpenVINO

+關(guān)注

關(guān)注
0

文章
92

瀏覽量
196

原文標(biāo)題：OpenVINO? 2024.4｜支持新一代英特爾?酷睿? Ultra處理器，持續(xù)提升GPU上LLM性能｜開發(fā)者實(shí)戰(zhàn)

文章出處：【微信號：英特爾物聯(lián)網(wǎng)，微信公眾號：英特爾物聯(lián)網(wǎng)】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

低比特量化技術(shù)如何幫助LLM提升性能

針對大語言模型 (LLM) 在部署過程中的性能需求，低比特量化技術(shù)一直是優(yōu)化效果最佳的方案之一，本文將探討低比特量化技術(shù)如何幫助 LLM 提升性能

發(fā)表于 12-08 15:26 ?1141次閱讀

Arm KleidiAI助力提升PyTorch上LLM推理性能

熱門的深度學(xué)習(xí)框架尤為突出，許多企業(yè)均會選擇其作為開發(fā) AI 應(yīng)用的庫。通過部署 Arm Kleidi 技術(shù)，Arm 正在努力優(yōu)化 PyTorch，以加速在基于 Arm 架構(gòu)的處理器上運(yùn)行 LLM 的性能。Arm 通過將 Kle

發(fā)表于 12-03 17:05 ?733次閱讀

用Chiplet解決ASIC在LLM上的成本問題

電子發(fā)燒友網(wǎng)報(bào)道（文/周凱揚(yáng)）雖說最近靠著GPT大語言模型的熱度，英偉達(dá)之類的主流GPU公司賺得盆滿缽滿，但要說仗著GPU的高性能就能高枕無憂的話，也就未免有些癡人說夢了。未來隨著LLM

發(fā)表于 07-18 00:15 ?1240次閱讀

GPU上OpenVINO基準(zhǔn)測試的推斷模型的默認(rèn)參數(shù)與CPU上的參數(shù)不同是為什么？

在 CPU 和 GPU 上推斷出具有 OpenVINO? 基準(zhǔn)的相同模型： benchmark_app.exe -m model.xml -d CPU benchmark_app.exe -m

發(fā)表于 08-15 06:43

在Raspberry Pi上從源代碼構(gòu)建OpenVINO 2021.3收到錯誤怎么解決？

在 Raspberry Pi 上從源代碼構(gòu)建 OpenVINO?2021.3。運(yùn)行OpenVINO?推理，并收到錯誤消息： ModuleNotFoundError：沒有

發(fā)表于 08-15 08:24

芯片開發(fā)商ARM宣布對CPU與GPU的一系列改進(jìn)，性能大幅提升

芯片開發(fā)商ARM宣布對CPU與GPU的一系列改進(jìn)，當(dāng)芯片在Windows筆記本上運(yùn)行時(shí)，性能大幅提升。

發(fā)表于 06-04 14:54 ?3858次閱讀

ARM新架構(gòu)很給力，GPU性能提升了20%，但麒麟990無緣用上

ARM早已經(jīng)公布了下一代芯片架構(gòu)，即A77的CPU核心和Mali-G77的GPU，這一代架構(gòu)，在CPU上性能將會提升20%左右，但GPU改變

發(fā)表于 08-21 11:51 ?8912次閱讀

英偉達(dá):GPU讓AI的性能每年都成倍提升

英偉達(dá)首席科學(xué)家Bill Dally在一年一度的中國GPU技術(shù)大會召開前接受第一財(cái)經(jīng)記者獨(dú)家專訪時(shí)表示，GPU讓人工智能（AI）的性能每年都能成倍提升，英偉達(dá)的研究人員正在定義如何在具

發(fā)表于 12-15 13:37 ?2535次閱讀

選擇GPU服務(wù)器需要考慮哪些情況如何才能提升GPU存儲性能

GPU是我們常用器件，采用GPU，才使得圖形顯示成為可能。在上期文章中，小編對GPU的加速原理等知識有所闡述。為增進(jìn)大家對GPU的認(rèn)識，本文將基于兩點(diǎn)介紹

發(fā)表于 02-08 17:37 ?3465次閱讀

LLM性能的主要因素

現(xiàn)在是2023年5月，截止目前，網(wǎng)絡(luò)上已經(jīng)開源了眾多的LLM，如何用較低的成本，判斷LLM的基礎(chǔ)性能，選到適合自己任務(wù)的LLM，成為一個關(guān)鍵

發(fā)表于 05-22 15:26 ?1703次閱讀

Nvidia 通過開源庫提升 LLM 推理性能

加利福尼亞州圣克拉拉——Nvidia通過一個名為TensorRT LLM的新開源軟件庫，將其H100、A100和L4 GPU的大型語言模型(LLM)推理性能提高了一倍。正如對相同硬件

發(fā)表于 10-23 16:10 ?642次閱讀

深度解讀各種人工智能加速器和GPU上的LLM性能特征

在不同的硬件平臺上評估LLM對于理解傳統(tǒng)和非傳統(tǒng)體系結(jié)構(gòu)的能力和局限性至關(guān)重要。先前的工作已經(jīng)在超級計(jì)算機(jī)上研究了LLM，并使用傳統(tǒng)的深度學(xué)習(xí)基準(zhǔn)來提供對其能力的詳細(xì)評估與分析。

發(fā)表于 10-25 11:49 ?692次閱讀

如何利用OpenVINO加速LangChain中LLM任務(wù)

LangChain 是一個高層級的開源的框架，從字面意義理解，LangChain 可以被用來構(gòu)建 “語言處理任務(wù)的鏈條”，它可以讓AI開發(fā)人員把大型語言模型（LLM）的能力和外部數(shù)據(jù)結(jié)合起來，從而

發(fā)表于 12-05 09:58 ?807次閱讀

解鎖LLM新高度—OpenVINO? 2024.1賦能生成式AI高效運(yùn)行

LLM 的發(fā)展仍保持著驚人的速度。盡管現(xiàn)有的 LLM 已經(jīng)具備強(qiáng)大的功能，但通過 OpenVINO? 的優(yōu)化和推理加速，可以對這些復(fù)雜模型的執(zhí)行進(jìn)行精煉，實(shí)現(xiàn)更快、更高效的處理，減少計(jì)算開銷并最大限度發(fā)揮硬件潛力，這將直接導(dǎo)致

發(fā)表于 05-10 10:36 ?519次閱讀

解鎖NVIDIA TensorRT-LLM的卓越性能

Batching、Paged KV Caching、量化技術(shù) (FP8、INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能，確保您的 NVIDIA GPU 能發(fā)揮出卓越的推理性能。

發(fā)表于 12-17 17:47 ?115次閱讀