新时代RM游戏app,RM新时代是什么平台

作為主要面向 RAG 任務(wù)方向的框架，Semantic Kernel 可以簡化大模型應(yīng)用開發(fā)過程，而在 RAG 任務(wù)中最常用的深度學(xué)習(xí)模型就是 Embedding 和 Text completion，分別實(shí)現(xiàn)文本的語義向量化和文本生成，因此本文主要會分享如何在 Semantic Kernel 中調(diào)用 OpenVINO runtime 部署 Embedding 和 Text completion 模型。

Semantic Kernel簡介

Semantic Kernel 是微軟推出的大模型應(yīng)用框架，支持 C#, Python 和 Java 等開發(fā)環(huán)境，通過 Semantic Kernel 集成的API 接口，開發(fā)者可以直接調(diào)用 OpenAI 或是 Hugging Face 中的大語言模型，進(jìn)一步構(gòu)建上層應(yīng)用任務(wù)，例如 Chat Copilot 或是 Code completion ，等。顧名思義，Semantic Kernel 的核心就在于由 Kernel 所連接的 pipeline/chain，它通過上下文，實(shí)現(xiàn)在各個函數(shù)組件間共享數(shù)據(jù)，下面這張展示的就是用戶的輸入 Prompt 如何在這些組件中進(jìn)行流轉(zhuǎn)，最終返回響應(yīng)結(jié)果。

圖：Semantic Kernel組件示意圖

OpenVINO 簡介

OpenVINO 作為英特爾官方推出的深度學(xué)習(xí)模型部署工具，可以極大地提升本地模型任務(wù)的推理性能。同時 OpenVINO 支持了多種推理后端，使模型可以在多種不同的硬件架構(gòu)上進(jìn)行部署和切換，進(jìn)一步提升任務(wù)的靈活性與系統(tǒng)資源利用率，例如我們可以利用 NPU 來部署一些輕負(fù)載的 AI 模型以降低功耗，利用 GPU 來部署大模型以優(yōu)化反饋延遲?？傊?，在大模型本地化趨勢越來越熱的今天，OpenVINO 勢必成為在 PC 端部署大模型任務(wù)的好幫手。

OpenVINO 與 Semantic Kernel

集成實(shí)現(xiàn)

Semantic Kernel 的 Connector 是一種用于連接外部數(shù)據(jù)源和服務(wù)的設(shè)計(jì)模式，包括獲取數(shù)據(jù)和保存輸出結(jié)果，而 Semantic Kernel 已經(jīng)原生集成了許多開箱即用的大模型服務(wù) Plugin，其中就包括了基于 Hugging Face Transformers 構(gòu)建的的 Embedding 和 Text completion Service，因此我們可以參考這兩個 Service 的代碼，來實(shí)現(xiàn)一組 OpenVINO 的 Service，完成和 Connectors 組件的集成，分別命名為 OpenVINOTextEmbedding 以及 OpenVINOTextCompletion。

Text completion service

首先是 Text completion 任務(wù)，由于 OpenVINO 可以通過 Optimum-intel 直接部署 Hugging Face中的 "summarization", "text-generation", "text2text-generation" 等模型，相較原生 Transformers API 的使用方式，也僅僅需要做少量修改(如以下代碼所示)。

- from transformers import AutoModelForCausalLM

+ from optimum.intel.openvino import OVModelForCausalLM

- model = AutoModelForCausalLM.from_pretrained(model_id)

+ ov_model = OVModelForCausalLM.from_pretrained(model_id)

generate_ids = ov_model.generate(input_ids)

因此，我們也可以直接在 Hugging Face Text completion service 的基礎(chǔ)上直接將 Transformers 的模型加載對象切換為 Optimum-intel 的對象，以實(shí)現(xiàn)基于 OpenVINO runtime 的模型推理。這里可通過 OVModelForCausalLM 類來部署 "text-generation" 類型的大模型，通過 OVModelForSeq2SeqLM 類調(diào)用 "text2text-generation", "summarization" 類型模型。

if task == "text-generation":
  ov_model = OVModelForCausalLM.from_pretrained(
   ai_model_id, **_model_kwargs)
 elif task in ("text2text-generation", "summarization"):
   ov_model = OVModelForSeq2SeqLM.from_pretrained(
    ai_model_id, **_model_kwargs)

Embedding service

不同于 Text completion service， Semantic Kernel 中集成的 Hugging Face Embedding service 是基于 sentence_transformers 庫來實(shí)現(xiàn)的，并調(diào)用 encode 函數(shù)來進(jìn)行 Embedding 文本向量化。

generator=sentence_transformers.SentenceTransformer(model_name_or_path=ai_model_id, device=resolved_device),
embeddings = self.generator.encode(texts)

而 OpenVINO 目前暫未直接對接 sentence_transformers 的模型部署接口，因此這里我們需要手動將 sentence_transformers 的 PyTorch 模型對象轉(zhuǎn)化為 OpenVINO IR 格式后，再重新構(gòu)建它的 encode 函數(shù) pipeline。

可以看到 Hugging Face 的 embedding 模型除了支持 Sentence-Transformers 對象部署方式外，還可以基于 Transformers 庫的方式，通過 AutoModel.from_pretrained 獲取 nn.module 格式的模型對象，而 OpenVINO 的 PyTorch 前端則已經(jīng)支持對該格式對象的直接轉(zhuǎn)換，所以我們首先需要手寫一個轉(zhuǎn)換腳本，來實(shí)現(xiàn) Embedding 模型從 PyTorch 對象到 OpenVINO IR 格式的轉(zhuǎn)化過程。

  tokenizer = AutoTokenizer.from_pretrained(args.model_id)
  model = AutoModel.from_pretrained(args.model_id)


  dummy_inputs = {"input_ids": torch.ones((1, 10), dtype=torch.long), "attention_mask": torch.ones(
    (1, 10), dtype=torch.long), "token_type_ids": torch.zeros((1, 10), dtype=torch.long)}


  ov_model = ov.convert_model(model, example_input=dummy_inputs)
  ov.save_model(ov_model, model_path / "openvino_model.xml")

在定義新的 encode 函數(shù)時，鑒于在 RAG 系統(tǒng)中的各個句子的向量化任務(wù)往往沒有依賴關(guān)系，因此我們可以通過 OpenVINO 的 AsyncInferQueue 接口，將這部分任務(wù)并行化，以提升整個 Embedding 任務(wù)的吞吐量。

infer_queue = ov.AsyncInferQueue(self.model, nireq)
    for i, sentence in enumerate(sentences_sorted):
      inputs = {}
      features = self.tokenizer(
        sentence, padding=True, truncation=True, return_tensors='np')
      for key in features:
        inputs[key] = features[key]
      infer_queue.start_async(inputs, i)
    infer_queue.wait_all()

此外，從 HuggingFace Transfomers 庫中導(dǎo)出的 Embedding 模型是不包含 mean_pooling 和歸一化操作的，因此我們需要在獲取模型推理結(jié)果后，再實(shí)現(xiàn)這部分后處理任務(wù)。并將其作為 callback function 與 AsyncInferQueue 進(jìn)行綁定。

    def postprocess(request, userdata):
      embeddings = request.get_output_tensor(0).data
      embeddings = np.mean(embeddings, axis=1)
      if self.do_norm:
        embeddings = normalize(embeddings, 'l2')
      all_embeddings.extend(embeddings)


    infer_queue.set_callback(postprocess)

測試驗(yàn)證

當(dāng)完成這兩個關(guān)鍵對象的創(chuàng)建后，我們可以來驗(yàn)證一下重新構(gòu)建的 OpenVINO 任務(wù)效果。

第一步：我們需要將 Embedding 和 Text completion 這兩個模型分轉(zhuǎn)換并導(dǎo)出到本地。這里以 all-MiniLM-L6-v2 和 gpt2 為例。

Embedding 模型可以通過剛剛定義的轉(zhuǎn)換腳本導(dǎo)出模型：

python3 export_embedding.py -m sentence-transformers/all-MiniLM-L6-v2

Text completion 模型可以通過 Optimum-intel 中自帶命令行工具導(dǎo)出：

optimum-cli export openvino --model gpt2 llm_model

第二步：通過修改 Semantic Kernel 官方提供的 Hugging Face Plugins 示例

來測試 OpenVINO Plugin 的效果，該示例基于 Embedding 和 Text completion 模型構(gòu)建了一個最小化的 RAG 任務(wù) pipeline。此處只需要把原始的 Hugging Face service 對象替換為我們剛剛構(gòu)建的 OpenVINOTextEmbedding 和 OpenVINOTextCompletion 對象，其中 ai_model_id 需要修改為模型文件夾的本地路徑。

kernel.add_text_completion_service(
  service_id="gpt2",
  service=OpenVINOTextCompletion(ai_model_id="./llm_model", task="text-generation", model_kwargs={
                  "device": "CPU", "ov_config": ov_config}, pipeline_kwargs={"max_new_tokens": 64})
)


kernel.add_text_embedding_generation_service(
  service_id="sentence-transformers/all-MiniLM-L6-v2",
  service=OpenVINOTextEmbedding(ai_model_id="./embedding_model"),
)

在這個示例中 Kernel 是通過 kernel.memory.save_information 函數(shù)來實(shí)現(xiàn)知識的注入，過程中會調(diào)用 Embedding service 來完成對于文本的語義向量化操作。我們可以通過執(zhí)行以下命令來執(zhí)行完整的 notebook 測試腳本。

$ jupyter lab sample.ipynb

示例中為了簡化模型下載和轉(zhuǎn)化步驟，采用了相較主流 LLM 更輕量化的gpt2來實(shí)現(xiàn)文本內(nèi)容生成，因此在輸出內(nèi)容上會相對單一，如果需要實(shí)現(xiàn)更復(fù)雜的內(nèi)容生成能力，可以將其替換為一些參數(shù)規(guī)模更大的文本生成模型，最終輸出結(jié)果如下：

gpt2 completed prompt with: 'I know these animal facts: ["Dolphins are mammals."] ["Flies are insects."] ["Penguins are birds."] and "Horses are mammals."

對比官方原始 Hugging Face Plugins 示例的輸出結(jié)果，與注入的知識庫信息，兩者對于 animal facts 的判斷使一致的，這也證明我們的重新構(gòu)建的 OpenVINO Plugin 在模型輸出的準(zhǔn)確性上是沒有問題的。

總結(jié)

在醫(yī)療、工業(yè)等領(lǐng)域，行業(yè)知識庫的構(gòu)建已經(jīng)成為了一個普遍需求，通過 Semantic-Kernel 與 OpenVINO 的加持，我們可以讓用戶對于知識庫的查詢以及反饋?zhàn)兊酶泳珳?zhǔn)高效，降低 RAG 任務(wù)的開發(fā)門檻，帶來更加友好的交互體驗(yàn)。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

JAVA

JAVA

+關(guān)注

關(guān)注
19

文章
2966

瀏覽量
104700
OpenAI

OpenAI

+關(guān)注

關(guān)注
9

文章
1079

瀏覽量
6480
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2423

瀏覽量
2640
LLM

LLM

+關(guān)注

關(guān)注
0

文章
286

瀏覽量
327

原文標(biāo)題：OpenVINO? 協(xié)同 Semantic Kernel：優(yōu)化大模型應(yīng)用性能新路徑 | 開發(fā)者實(shí)戰(zhàn)

文章出處：【微信號：英特爾物聯(lián)網(wǎng)，微信公眾號：英特爾物聯(lián)網(wǎng)】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

仿真系統(tǒng)的性能優(yōu)化技巧

在現(xiàn)代工業(yè)和科學(xué)研究中，仿真系統(tǒng)扮演著越來越重要的角色。它們不僅能夠幫助我們預(yù)測復(fù)雜系統(tǒng)的行為，還能在沒有實(shí)際物理原型的情況下進(jìn)行實(shí)驗(yàn)和測試。然而，隨著仿真模型的復(fù)雜度增加，性能優(yōu)化成為了一個不可

發(fā)表于 12-19 14:47 ?133次閱讀

如何優(yōu)化自然語言處理模型的性能

優(yōu)化自然語言處理（NLP）模型的性能是一個多方面的任務(wù)，涉及數(shù)據(jù)預(yù)處理、特征工程、模型選擇、模型調(diào)參、模

發(fā)表于 12-05 15:30 ?330次閱讀

如何通過OSI七層模型優(yōu)化網(wǎng)絡(luò)性能

七層模型的各個層次，可以顯著提升網(wǎng)絡(luò)性能。以下是通過OSI七層模型優(yōu)化網(wǎng)絡(luò)性能的具體方法：一、物理層優(yōu)

發(fā)表于 11-24 11:14 ?252次閱讀

使用OpenVINO Model Server在哪吒開發(fā)板上部署模型

OpenVINO Model Server(OVMS)是一個高性能的模型部署系統(tǒng)，使用C++實(shí)現(xiàn)，并在Intel架構(gòu)上的部署進(jìn)行了優(yōu)化，使用Open

發(fā)表于 11-01 14:19 ?270次閱讀

使用Arthas火焰圖工具的Java應(yīng)用性能分析和優(yōu)化經(jīng)驗(yàn)

分享作者在使用Arthas火焰圖工具進(jìn)行Java應(yīng)用性能分析和優(yōu)化的經(jīng)驗(yàn)。

發(fā)表于 10-28 09:27 ?248次閱讀

AI大模型的性能優(yōu)化方法

AI大模型的性能優(yōu)化是一個復(fù)雜而關(guān)鍵的任務(wù)，涉及多個方面和策略。以下是一些主要的性能優(yōu)化方法：一、模型

發(fā)表于 10-23 15:01 ?637次閱讀

使用OpenVINO C++在哪吒開發(fā)板上推理Transformer模型

OpenVINO 是一個開源工具套件，用于對深度學(xué)習(xí)模型進(jìn)行優(yōu)化并在云端、邊緣進(jìn)行部署。它能在諸如生成式人工智能、視頻、音頻以及語言等各類應(yīng)用場景中加快深度學(xué)習(xí)推理的速度，且支持來自 PyTorch

發(fā)表于 10-12 09:55 ?323次閱讀

OpenVINO 2024.4持續(xù)提升GPU上LLM性能

本次新版本在整個 OpenVINO 產(chǎn)品系列中引入了重要的功能和性能變化，使大語言模型（LLM）的優(yōu)化和部署在所有支持的場景中更容易、性能

發(fā)表于 10-12 09:41 ?393次閱讀

路由偏好，提升網(wǎng)絡(luò)性能新路徑

路由偏好對網(wǎng)絡(luò)性能和數(shù)據(jù)傳輸效率有著重要影響。本文將從路由偏好的相關(guān)概念、影響因素和實(shí)際應(yīng)用，同時結(jié)合IP數(shù)據(jù)云的功能展示其在優(yōu)化路由選擇中的作用。 ? 路由偏好，提升網(wǎng)絡(luò)性能新路徑

發(fā)表于 08-21 15:53 ?238次閱讀

OpenVINO2024 C++推理使用技巧

很多人都使用OpenVINO新版的C++ 或者Python的SDK，都覺得非常好用，OpenVINO2022之后的版本C++ SDK做了大量的優(yōu)化與整理，已經(jīng)是非常貼近開發(fā)的使用習(xí)慣與推理方式。與OpenCV的Mat對象對接方式

發(fā)表于 07-26 09:20 ?873次閱讀

用OpenVINO C# API在intel平臺部署YOLOv10目標(biāo)檢測模型

的模型設(shè)計(jì)策略,從效率和精度兩個角度對YOLOs的各個組成部分進(jìn)行了全面優(yōu)化，大大降低了計(jì)算開銷，增強(qiáng)了性能。在本文中，我們將結(jié)合OpenVINO C# API使用最新發(fā)布的

發(fā)表于 06-21 09:23 ?1018次閱讀

NVIDIA與微軟擴(kuò)展合作，幫助開發(fā)者更快構(gòu)建和部署AI應(yīng)用

NVIDIA 在 Microsoft Build 開發(fā)者大會上展示了與 Microsoft Azure 和 Windows PC 的集成解決方案，簡化了 AI 模型部署并優(yōu)化了路徑規(guī)劃和應(yīng)用性

發(fā)表于 05-23 10:14 ?403次閱讀

如何修改Kernel Affinity提升openplc性能？

如何修改Kernel Affinity提升openplc性能

發(fā)表于 05-22 06:36

湖南機(jī)場集團(tuán)與YOGO ROBOT共同探索智慧民航建設(shè)的新路徑

在數(shù)智時代的浪潮下，湖南機(jī)場集團(tuán)與YOGO ROBOT強(qiáng)強(qiáng)聯(lián)手，共同探索智慧民航建設(shè)的新路徑。

發(fā)表于 04-26 09:58 ?612次閱讀

如何在MacOS上編譯OpenVINO C++項(xiàng)目呢？

英特爾公司發(fā)行的模型部署工具 OpenVINO 模型部署套件，可以實(shí)現(xiàn)在不同系統(tǒng)環(huán)境下運(yùn)行，且發(fā)布的 OpenVINO 2023 最新版目前已經(jīng)支持 MacOS 系統(tǒng)并同時支持在蘋果

發(fā)表于 01-11 18:07 ?891次閱讀