作者:
Yury Gorbachev 英特爾院士 OpenVINO 產(chǎn)品架構(gòu)師
Whiteny Foster OpenVINO產(chǎn)品專家
翻譯:
武卓 博士 英特爾 OpenVINO 布道師
本次新版本在整個 OpenVINO 產(chǎn)品系列中引入了重要的功能和性能變化,使大語言模型 (LLM) 的優(yōu)化和部署在所有支持的場景中更容易、性能更高,包括邊緣和數(shù)據(jù)中心環(huán)境的部署。
在客戶端,在之前的版本中我們一直在努力工作,而這個版本則支持我們?nèi)碌?Intel Xe2 GPU 架構(gòu),該架構(gòu)在最近推出的 Intel Core Ultra 處理器(第二代)中搭載。Xe2 架構(gòu)由 Intel Xe Matrix Extensions (Intel XMX) 加速技術(shù)提供支持,我們與 oneDNN 和驅(qū)動程序團(tuán)隊(duì)的合作伙伴合作啟用了該技術(shù),以在矩陣乘法等計(jì)算密集型運(yùn)算上實(shí)現(xiàn)最佳性能。由于矩陣乘法是 LLM 中的一個關(guān)鍵熱點(diǎn),因此在部署 LLM 時(shí),使用 Xe2 架構(gòu)的性能優(yōu)勢會立即顯現(xiàn)出來。
我們不僅直接通過英特爾 XMX 優(yōu)化了矩陣乘法,還創(chuàng)建了高度優(yōu)化的 GPU 基元,如 縮放點(diǎn)積注意力(Scaled Dot Product Attention) 和旋轉(zhuǎn)位置編碼( Rotary Positional Embeddings),以減少這些復(fù)雜操作的執(zhí)行流水線開銷。我們致力于改善內(nèi)存消耗并更有效地支持具有壓縮權(quán)重的模型,從而使大型語言模型(LLM)的部署更適合筆記本電腦/邊緣設(shè)備,并允許 LLM 適應(yīng)最小的內(nèi)存占用,這對于資源有限的環(huán)境至關(guān)重要。
我們所做的一些更改是通用的,并且會對其它平臺產(chǎn)生顯著影響,包括平臺上的集成顯卡(例如 Intel Core Ultra(第一代))和獨(dú)立顯卡(Intel Arc 系列)。
通過橫跨數(shù)十個大語言模型的性能和準(zhǔn)確性驗(yàn)證,我們衡量了整個模型集的這些改進(jìn)。使用神經(jīng)網(wǎng)絡(luò)壓縮框架 (NNCF) 優(yōu)化框架中的權(quán)重壓縮算法可以嚴(yán)格控制對模型準(zhǔn)確性的影響。
對內(nèi)置 顯卡的性能進(jìn)行比較,英特爾酷睿 Ultra 處理器(第二代)的 第2 個Token延遲性能比第一代 高出 1.3 倍,適用于 Llama3-8B 和 Phi-3-Mini-4k-Instruct 等 LLM,詳情請參見下圖。
使用 OpenVINO 工具套件 2024.4 在最新的英特爾酷睿超級處理器(第二代)內(nèi)置 GPU 上最大限度地提高 LLM 性能。有關(guān)工作負(fù)載和配置,請參閱附錄。結(jié)果可能會有所不同。
除了 GPU,Intel Core Ultra 處理器(第二代)還引入了更強(qiáng)大的 NPU,具有 40 TOPS 的峰值推理吞吐量,這是對上一代產(chǎn)品的重大升級。OpenVINO 現(xiàn)在通過 OpenVINO GenAI 軟件包為經(jīng)典深度學(xué)習(xí)模型(例如計(jì)算機(jī)視覺、語音識別和生成)和 LLM 提供對這種加速技術(shù)的訪問。我們一直在與 NPU 團(tuán)隊(duì)合作,以提高性能、減少內(nèi)存消耗并加快過去版本的模型編譯速度,并將在未來的版本中繼續(xù)增強(qiáng)。
使用 LLM 的另一種常用場景是通過模型服務(wù),這意味著模型可以通過 REST API 被訪問,并通過 vLLM 或 OpenVINO 模型服務(wù)器 (OVMS) 等框架來進(jìn)行服務(wù)。對于此使用場景,我們還引入了新功能以增強(qiáng)解決方案特性。
OpenVINO 模型服務(wù)器(OVMS) 現(xiàn)在通過 OpenAI API 為 LLM 提供服務(wù),并提供了啟用前綴緩存功能的能力,該功能通過緩存提示詞常見部分的計(jì)算來提高服務(wù)吞吐量。當(dāng)提示詞以相同的文本開頭(例如“您是一個有用的 AI 助手”)或在聊天場景中使用 LLM 時(shí),這尤其有用。我們還為 OVMS 中的 CPU 啟用了 KV 緩存壓縮,從而減少了內(nèi)存消耗并改進(jìn)了第二個Token延遲等指標(biāo)。
從 OpenVINO 2024.4 版本開始,GPU 將支持分頁注意力( PagedAttention) 操作和連續(xù)批處理,這使我們能夠在 LLM 服務(wù)場景中使用 GPU。我們最初在對 vLLM 的貢獻(xiàn)中啟用此功能,并在此版本中將其擴(kuò)展到 OpenVINO 模型服務(wù)器。這允許 Intel ARC GPU 在您的環(huán)境中以優(yōu)化的服務(wù)特性提供 LLM 模型服務(wù)。查看適用于 CPU 和 GPU 的 LLM 服務(wù)演示,其中展示了如何利用這些功能。
LLM 服務(wù)演示
https://docs.openvino.ai/2024/ovms_demos_continuous_batching.html
為了繼續(xù)數(shù)據(jù)中心場景,OpenVINO 現(xiàn)在在英特爾至強(qiáng)處理器上運(yùn)行時(shí)提供對 mxfp4 的支持,如開放計(jì)算項(xiàng)目規(guī)范中所定義。對于 LLM,與 BF16 精度相比,它允許在第二個令牌延遲上提高性能,同時(shí)減少內(nèi)存消耗。神經(jīng)網(wǎng)絡(luò)壓縮框架 (NNCF) 模型優(yōu)化功能支持此功能,該功能允許將 LLM 權(quán)重壓縮為這種格式。
定義
https://www.opencompute.org/documents/ocp-microscaling-formats-mx-v1-0-spec-final-pdf
從模型支持的角度來看,我們一直在與 Hugging Face 的合作伙伴一起更新 Optimum -Intel 解決方案。該方案允許在使用 OpenVINO 運(yùn)行時(shí)時(shí)使用 Hugging Face API 運(yùn)行模型,并高效導(dǎo)出和壓縮模型以用于 OpenVINO GenAI 軟件包 API。在此版本中,我們專注于支持 Florence 2、MiniCPM2、Phi-3-Vision、Flux.1 等模型。OpenVINONotebooks已經(jīng)可用,用于演示如何在您選擇的平臺上將這些模型與 OpenVINO 一起使用。
OpenVINONotebooks
https://github.com/openvinotoolkit/openvino_notebooks
使用 Flux.1 和 OpenVINO生成文本到圖像,并帶有輸入提示:一只小小的約克夏梗宇航員從月球上的蛋中孵化。https://github.com/openvinotoolkit/openvino_notebooks/tree/latest/notebooks/flux.1-image-generation
整個夏天,我們一直在與 Google Summer of Code 的優(yōu)秀貢獻(xiàn)者合作,結(jié)果令人鼓舞。我們一直在努力改進(jìn)
ARM 平臺上的生成式 AI
https://medium.com/openvino-toolkit/improve-openvino-performance-on-generative-ai-workload-on-arm-devices-with-5aee5808e23a,
支持RISC-V
https://medium.com/openvino-toolkit/my-journey-with-google-summer-of-code-2024-enhancing-openvino-for-risc-v-devices-b69568426aff
并探索許多其他令人興奮的發(fā)展,我們很快將更詳細(xì)地介紹這些發(fā)展。
謝謝您,我們期待在即將發(fā)布的版本中為您帶來更多性能改進(jìn)和新功能。有關(guān)此版本的更多詳細(xì)信息,請參閱 發(fā)行說明。
發(fā)行說明
https://docs.openvino.ai/2024/about-openvino/release-notes-openvino.html
Appendix
附錄
-
處理器
+關(guān)注
關(guān)注
68文章
19259瀏覽量
229649 -
英特爾
+關(guān)注
關(guān)注
61文章
9949瀏覽量
171692 -
LLM
+關(guān)注
關(guān)注
0文章
286瀏覽量
327 -
OpenVINO
+關(guān)注
關(guān)注
0文章
92瀏覽量
196
原文標(biāo)題:OpenVINO? 2024.4|支持新一代英特爾?酷睿? Ultra處理器,持續(xù)提升GPU上LLM性能|開發(fā)者實(shí)戰(zhàn)
文章出處:【微信號:英特爾物聯(lián)網(wǎng),微信公眾號:英特爾物聯(lián)網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論