Nemotron-4 340B 是針對 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 優(yōu)化的模型系列,該系列包含最先進的指導和獎勵模型,以及一個用于生成式 AI 訓練的數據集。
NVIDIA 于近日發(fā)布Nemotron-4 340B。開發(fā)者可以使用這組開源模型生成用于訓練大語言模型(LLM)的合成數據,訓練出的 LLM 可用于醫(yī)療、金融、制造、零售等各個行業(yè)的商業(yè)應用。
高質量的訓練數據對于自定義 LLM 的性能、準確性和回答質量來說至關重要,但強大的數據集通常非常昂貴且難以獲得。
通過獨樹一幟的開源模型許可證,Nemotron-4 340B 為開發(fā)者提供了一種免費、可擴展的合成數據生成方法,幫助他們構建強大的 LLM。
Nemotron-4 340B 系列包含基礎模型、指導模型和獎勵模型,由它們組成的流水線能夠生成用于訓練和完善 LLM 的合成數據。為了能夠與NVIDIA NeMo協(xié)同工作,這些模型專門進行了優(yōu)化。NVIDIA NeMo 是一個適用于端到端模型訓練的開源框架,涵蓋數據管護、定制、評估等步驟。該系列模型還針對開源NVIDIA TensorRT-LLM庫的推理進行了優(yōu)化。
Nemotron-4 340B 現已可以從NVIDIA NGC目錄和 Hugging Face 下載。開發(fā)者很快就能在 ai.nvidia.com 上訪問這些模型,它們將被打包成帶有標準應用編程接口的NVIDIA NIM微服務,可在任意位置進行部署。
將 Nemotron 用于生成合成數據
在難以獲得大型多樣化標記數據集的情況下,這些 LLM 可以幫助開發(fā)者生成合成訓練數據。
Nemotron-4 340B Instruct模型可生成各種模擬現實世界數據特征的合成數據,通過提高數據質量,增強自定義 LLM 在各個領域的性能和穩(wěn)健性。
隨后,為了提高 AI 生成數據的質量,開發(fā)者可以使用Nemotron-4 340B Reward模型來篩選高質量的回答。Nemotron-4 340B Reward 模型根據五個方面對回答進行評分,這五個方面分別是:有用性、正確性、連貫性、復雜性和冗長性。該模型目前在 AI2 專為評估獎勵模型能力、安全性和缺陷而創(chuàng)建的“Hugging Face RewardBench 排行榜”上排名第一。
在這個合成數據生成流水線中,(1)Nemotron-4 340B Instruct 模型首先生成基于文本的合成輸出。然后來到評估模型,
(2)Nemotron-4 340B Reward 模型對生成的文本進行評估,并提供指導反復改進的反饋,確保合成數據準確、相關且符合特定要求。
研究者還可以使用自己的專有數據,并結合隨附的HelpSteer2 數據集自定義 Nemotron-4 340B Base 模型,創(chuàng)造出自己的指導或獎勵模型。
使用 NeMo 進行微調
并使用 TensorRT-LLM 優(yōu)化推理
開發(fā)者可以使用開源的 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 提高其指導和獎勵模型的效率,以便生成合成數據并對回答進行評分。
所有 Nemotron-4 340B 模型均使用 TensorRT-LLM 優(yōu)化,能夠利用張量并行性,這是一種模型并行技術,通過將單個權重矩陣分割到多個 GPU 和服務器上,實現大規(guī)模的高效推理。
Nemotron-4 340B Base在 9 萬億個 token 上訓練而成。可使用 NeMo 框架對它進行自定義,使其適應特定的用例或領域。這一微調過程得益于大量的預訓練數據,使模型能夠針對特定的下游任務提供更加準確的輸出。
NeMo 框架提供多種自定義方法,包括有監(jiān)督的微調和各種參數高效微調方法,比如低秩自適應(LoRA)。
為了提升模型質量,開發(fā)者可以使用NeMo Aligner以及由 Nemotron-4 340B Reward 模型注釋的數據集對齊模型。校準是 LLM 訓練過程中的一個關鍵步驟。在該步驟中,模型的行為通過人類反饋強化學習(RLHF)等算法進行微調,以保證其輸出結果安全、準確、符合上下文并與其預期目標一致。
尋求企業(yè)級支持和生產環(huán)境安全性的企業(yè)也可以通過NVIDIA AI Enterprise云原生軟件平臺訪問 NeMo 和 TensorRT-LLM。該平臺為生成式 AI 基礎模型提供更加快速和高效的運行時。
評估模型安全性并開始使用
Nemotron-4 340B Instruct 模型經過包括對抗測試在內的大量安全性評估,其各項風險指標均表現良好。但用戶仍應對該模型的輸出結果進行仔細評估,確保合成生成的數據適合且安全而準確地用于自己的用例。
-
NVIDIA
+關注
關注
14文章
4978瀏覽量
102987 -
模型
+關注
關注
1文章
3226瀏覽量
48807 -
LLM
+關注
關注
0文章
286瀏覽量
327
原文標題:NVIDIA 發(fā)布適用于訓練大語言模型的開源合成數據生成流水線
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論