RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

揭秘英偉達A100、A800、H100、H800 GPU如何實現(xiàn)高性能大模型的百倍訓(xùn)練加速

GPU視覺識別 ? 來源:GPU視覺識別 ? 作者:GPU視覺識別 ? 2023-09-09 11:15 ? 次閱讀

關(guān)鍵詞:Transformer;PLM;SLM;NLM;LLM;Galactica;OPT;OPT-IML;BLOOM;BLOOMZ;GLM;Reddit;H100;H800;A100;A800;MI200;MI250;LaMA;OpenAI;GQA;RMSNorm;SFT;RTX 4090;A6000;AIGC;CHATGLM;LLVM;LLMs;GLM;AGI;HPC;GPU;CPU;CPU+GPU;英偉達;Nvidia;英特爾;AMD;高性能計算;高性能服務(wù)器;藍海大腦;多元異構(gòu)算力;大模型訓(xùn)練;通用人工智能;GPU服務(wù)器;GPU集群;大模型訓(xùn)練GPU集群;大語言模型;深度學(xué)習(xí);機器學(xué)習(xí);計算機視覺;生成式AI;ML;DLC;圖像分割;預(yù)訓(xùn)練語言模型;AI服務(wù)器;GH200;L40S;HBM3e;Grace Hopper;gracehopper

摘要:本文主要介紹大模型的內(nèi)部運行原理、我國算力發(fā)展現(xiàn)狀。大模型指具有巨大參數(shù)量的深度學(xué)習(xí)模型,如GPT-4。其通過在大規(guī)模數(shù)據(jù)集上進行訓(xùn)練,能夠產(chǎn)生更加準確和有創(chuàng)造性的結(jié)果。大模型的內(nèi)部運行原理包括輸入數(shù)據(jù)的處理、多層神經(jīng)網(wǎng)絡(luò)計算和輸出結(jié)果生成。這些模型通常由數(shù)十億個參數(shù)組成,需要龐大的計算資源和高速的存儲器來進行訓(xùn)練和推理。

隨著大模型的快速發(fā)展,我國在算力發(fā)展方面取得顯著進展。近年來,我國投入大量資源用于高性能計算和人工智能領(lǐng)域研發(fā),并建設(shè)一系列超級計算中心云計算平臺。這些舉措不僅提升我國的科學(xué)研究能力,也為大模型訓(xùn)練和應(yīng)用提供強大支持。我國算力發(fā)展已經(jīng)進入全球領(lǐng)先行列,為推動人工智能發(fā)展奠定堅實的基礎(chǔ)。

藍海大腦大模型訓(xùn)練平臺是藍海大腦自主研發(fā)的高性能計算平臺,專用于大模型訓(xùn)練和推理。該平臺采用先進的硬件架構(gòu)和優(yōu)化的軟件算法,可以提供高效的計算能力和存儲能力。

大模型內(nèi)部運行原理

近年來,在大規(guī)模語料上預(yù)訓(xùn)練 Transformer 模型產(chǎn)生了預(yù)訓(xùn)練語言模型(Pre-trained Language Model, PLM),在各類自然語言處理任務(wù)上展現(xiàn)強大的語言理解與生成能力。研究發(fā)現(xiàn)擴大模型規(guī)??梢蕴岣吣P湍芰?,導(dǎo)致大規(guī)模語言模型(Large Language Model, LLM)的產(chǎn)生。當模型規(guī)模超過一定閾值后,這些大模型不僅性能大幅提升,還表現(xiàn)出小模型所不具備的語言學(xué)習(xí)能力。

LLM技術(shù)的快速進展改變了AI系統(tǒng)的研發(fā)與應(yīng)用范式。本文回顧了近年來LLM技術(shù)的發(fā)展歷程,同時總結(jié)了LLM的研發(fā)資源、存在的問題和未來方向。

一、引言

語言是人類獨有的表達和交流能力,在兒童早期就開始形成并伴隨一生不斷發(fā)展變化。然而機器想要像人類一樣自然地掌握理解和使用語言的能力,必須配備強大的人工智能算法。實現(xiàn)機器擁有類似人類閱讀、寫作和交流能力是一個長期的研究挑戰(zhàn)。

從技術(shù)上講,語言建模是提高機器語言智能的主要方法之一。語言建模通常是對詞序列生成概率進行建模,以預(yù)測未出現(xiàn)的詞語。語言建模研究在學(xué)術(shù)界受到廣泛關(guān)注。其發(fā)展可分為四個主要階段:

1、統(tǒng)計語言模型 (SLM)

SLM(Statistical Language Model)在20世紀90年代興起,基于統(tǒng)計學(xué)習(xí)方法,通過馬爾可夫假設(shè)來建立詞預(yù)測模型。其具有固定上下文長度 n 的 SLM 也稱為 n 元語言模型,例如 bigram 和 trigram 語言模型。廣泛應(yīng)用于信息檢索和自然語言處理,但經(jīng)常面臨維數(shù)災(zāi)難的困擾。因此需要專門設(shè)計平滑策略,如回退估計和古德圖靈估計已被引入以緩解數(shù)據(jù)稀疏問題。

2、神經(jīng)語言模型 (NLM)

自然語言處理領(lǐng)域中,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等神經(jīng)網(wǎng)絡(luò)模型被廣泛應(yīng)用于描述單詞序列的概率。早期工作引入了詞的分布式表示概念,并基于分布式詞向量來構(gòu)建詞預(yù)測函數(shù),作為該領(lǐng)域的重要貢獻。后續(xù)研究擴展了學(xué)習(xí)詞語和句子有效特征的思路,開發(fā)出通用的神經(jīng)網(wǎng)絡(luò)方法,為各類自然語言處理任務(wù)建立統(tǒng)一的解決方案。另外,word2vec提出使用簡化的淺層神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)分布式詞表示,這些表示在多種自然語言處理任務(wù)中展現(xiàn)出非常有效。以上研究將語言模型應(yīng)用于表示學(xué)習(xí)領(lǐng)域,而不僅限于詞序列建模,對自然語言處理產(chǎn)生了深遠影響。

3、預(yù)訓(xùn)練語言模型 (PLM)

PLM通過在大規(guī)模語料上預(yù)訓(xùn)練獲取語義表示,然后微調(diào)到下游任務(wù)。Transformer等結(jié)構(gòu)的引入極大提高了性能?!邦A(yù)訓(xùn)練-微調(diào)”成為自然語言處理的重要范式。

4、大語言模型 (LLM)

大語言模型繼續(xù)擴大模型和數(shù)據(jù)規(guī)模,展示出小模型所不具備的強大語言能力。GPT-3等模型表現(xiàn)出驚人的上下文學(xué)習(xí)能力。ChatGPT成功地將大語言模型應(yīng)用到開放領(lǐng)域?qū)υ挕?/p>

相比預(yù)訓(xùn)練語言模型(PLM),大語言模型(LLM)有三大關(guān)鍵區(qū)別:

1)LLM展現(xiàn)出PLM不具備的驚人涌現(xiàn)能力,使其在復(fù)雜任務(wù)上表現(xiàn)強大

2)LLM將改變?nèi)祟愰_發(fā)和使用AI系統(tǒng)的方式,需要通過提示接口訪問

3)LLM的研究和工程界限不再明確。LLM技術(shù)正在引領(lǐng)AI、自然語言處理、信息檢索和計算機視覺等領(lǐng)域的變革,基于LLM的實際應(yīng)用生態(tài)正在形成。

但是,LLM的內(nèi)在原理與關(guān)鍵因素還有待進一步探索,訓(xùn)練大規(guī)模的LLM非常困難,將LLM與人類價值觀保持一致也面臨挑戰(zhàn)。因此需要更多關(guān)注LLM的研究和應(yīng)用。

二、概述

下面將概述大語言模型(LLM)的背景,并概括GPT系列模型的技術(shù)演進歷程。

1、大語言模型的背景

大語言模型(LLM)通常指在大規(guī)模文本數(shù)據(jù)上訓(xùn)練的、包含數(shù)千億級(或更多)參數(shù)的Transformer結(jié)構(gòu)語言模型,比如GPT-3、PaLM、Galactica、LLaMA和LLaMA2等。LLM展示了強大的語言理解能力和通過文本生成解決復(fù)雜任務(wù)的能力。為快速理解LLM的工作原理,下面將介紹LLM的基本背景,包括擴展法則、涌現(xiàn)能力和關(guān)鍵技術(shù)。

1)大語言模型的擴展法則

目前大語言模型主要建立在Transformer架構(gòu)之上,其中多頭注意力機制層堆疊在非常深的神經(jīng)網(wǎng)絡(luò)中。現(xiàn)有的大語言模型采用類似的Transformer結(jié)構(gòu)和與小型語言模型相同的預(yù)訓(xùn)練目標(如語言建模),但是大語言模型大幅擴展模型規(guī)模、訓(xùn)練數(shù)據(jù)量和總計算量(數(shù)量級上的提升)。大量研究表明擴展規(guī)??梢燥@著提高語言模型的能力。因此,建立一個定量的方法來描述擴展效應(yīng)很有意義。

KM擴展法則:2020年OpenAI團隊首次提出神經(jīng)語言模型的性能與模型規(guī)模、數(shù)據(jù)集規(guī)模和訓(xùn)練計算量之間存在冪律關(guān)系。在給定計算預(yù)算下,根據(jù)實驗提出三個公式來描述擴展法則。

wKgZomT742SAGnphAAB6jJEsr-0041.png

這里L(fēng)是用自然對數(shù)表示的交叉熵損失。上述三個規(guī)律是通過擬合不同數(shù)據(jù)量、不同模型大小和不同訓(xùn)練計算量條件下的語言模型性能得出。結(jié)果表明模型性能與這三個因素存在非常強的依賴關(guān)系。

Chinchilla擴展法則:Google DeepMind團隊提出了另一種替代的擴展法則形式,用于指導(dǎo)大語言模型的最優(yōu)訓(xùn)練計算量。通過變化更大范圍的模型規(guī)模和數(shù)據(jù)量進行嚴格的實驗,并擬合出一個類似的擴展法則,但具有不同的系數(shù):

wKgZomT742WAcnAJAAAdcyPAl7s831.png

在該法則中E、A、B、α和β為經(jīng)驗確定的系數(shù)。研究人員進一步在訓(xùn)練計算量約束C ≈ 6ND的條件下,通過優(yōu)化損失函數(shù)L(N,D)展示如何最優(yōu)地在模型規(guī)模和數(shù)據(jù)量之間分配計算預(yù)算的方法。

wKgaomT742WASyfBAAAkUgSDDrA138.png

這里G是根據(jù)系數(shù)A、B、α和β計算得到的擴展系數(shù)。如文獻分析隨著給定計算預(yù)算的增加,KM擴展法則更傾向于將預(yù)算分配給模型規(guī)模,而Chinchilla擴展法則認為應(yīng)該以相近的比例增加模型和數(shù)據(jù)規(guī)模。盡管存在一些局限性假設(shè),這些擴展法則提供了對擴展效應(yīng)的直觀理解,可以用于訓(xùn)練過程中預(yù)測語言模型的性能。但是一些能力(如上下文學(xué)習(xí))無法完全根據(jù)擴展法則預(yù)測,只有模型超過一定規(guī)模后才會出現(xiàn)。

大語言模型的關(guān)鍵特征之一是展現(xiàn)出預(yù)訓(xùn)練語言模型所不具備的涌現(xiàn)能力,即只有模型達到一定規(guī)模后才出現(xiàn)的全新能力。當涌現(xiàn)能力出現(xiàn)時,性能會突然顯著提升,超過隨機水平,類似于物理學(xué)中的相變現(xiàn)象。涌現(xiàn)能力可以與復(fù)雜任務(wù)相關(guān),需要關(guān)注那些能廣泛解決任務(wù)的通用能力。下面簡要介紹大語言模型的三種典型涌現(xiàn)能力和相關(guān)的代表性模型。

上下文學(xué)習(xí):GPT-3首次提出這種能力,即只需要提供語言指令和少量示例,模型就可以生成預(yù)期的輸出,無需額外訓(xùn)練。但這個能力與模型規(guī)模相關(guān),需要達到一定參數(shù)量才會出現(xiàn)。

指令遵循:通過指令微調(diào),大語言模型可以在完全未見過的任務(wù)上,僅根據(jù)語言描述就進行泛化。當模型超過680億參數(shù)后,這種能力才會顯著提升。不同模型對這種能力的掌握也有差異。

逐步推理:小模型難以解決需要多步推理的復(fù)雜任務(wù),而大語言模型可以通過提供中間推理步驟的思維鏈提示來完成這類任務(wù)。當模型超過600億參數(shù)時,這種提示帶來的效果才會顯著。不同任務(wù)對這種能力的依賴程度也不同。

2)大語言模型的關(guān)鍵技術(shù)

經(jīng)過長期發(fā)展大語言模型(LLM)進化到目前通用且具備強大能力的階段。主要技術(shù)進展包括:

擴展:增加模型、數(shù)據(jù)規(guī)模以及訓(xùn)練計算量,可以顯著提升LLM的能力。合理利用擴展定律指導(dǎo)資源分配也很重要。

訓(xùn)練:分布式訓(xùn)練算法對成功訓(xùn)練大模型至關(guān)重要。一些優(yōu)化框架和技巧可以促進大規(guī)模分布式訓(xùn)練。

能力引導(dǎo):設(shè)計恰當?shù)奶崾静呗钥梢约ぐl(fā)LLM的潛在能力,但對小模型效果可能不同。

對齊微調(diào):通過人機交互的強化學(xué)習(xí),使LLM生成內(nèi)容符合人類價值觀。

工具操作:利用外部工具彌補LLM的局限,類似其“眼睛和耳朵”,可以擴展能力范圍。

此外,許多其他因素(例如硬件升級)也對 LLM 的成功 做出了貢獻。但是,我們主要討論在開發(fā) LLM 方面的主要技 術(shù)方法和關(guān)鍵發(fā)現(xiàn)。

2、GPT 系列模型的技術(shù)演進

ChatGPT因其與人類交流的出色能力受到廣泛關(guān)注。它基于功能強大的GPT模型開發(fā),對話能力得到了專門的優(yōu)化??紤]到人們對ChatGPT和GPT模型的濃厚興趣,本文特別總結(jié)了GPT系列模型在過去幾年中的技術(shù)演進過程,以提高大眾的理解??偟脕碚fOpenAI在大語言模型研究上經(jīng)歷了以下幾個階段:

1)早期探索

根據(jù)OpenAI聯(lián)合創(chuàng)始人Ilya Sutskever的采訪,在OpenAI早期就已經(jīng)探索過使用語言模型實現(xiàn)智能系統(tǒng)的想法,但當時試驗的是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。隨著Transformer架構(gòu)的出現(xiàn),OpenAI開發(fā)出了兩個早期GPT模型:GPT-1和GPT-2,這些模型可以視為后來更強大的GPT-3和GPT-4的基礎(chǔ)。

GPT-1:在2018年,OpenAI基于當時新的Transformer架構(gòu),開發(fā)出第一個GPT模型。GPT-1采用Transformer解碼器結(jié)構(gòu),并使用無監(jiān)督預(yù)訓(xùn)練和有監(jiān)督微調(diào)的方法,為后續(xù)GPT模型奠定基礎(chǔ)。

GPT-2:GPT-2在GPT-1的基礎(chǔ)上增加了參數(shù)量,達到150億,使用更大規(guī)模的網(wǎng)頁數(shù)據(jù)集進行訓(xùn)練。通過無監(jiān)督語言建模來完成下游任務(wù),而不需要標注數(shù)據(jù)的顯式微調(diào)。

2)能力飛躍

盡管GPT-2旨在通過無監(jiān)督訓(xùn)練成為通用的多任務(wù)學(xué)習(xí)器,但與有監(jiān)督微調(diào)的當前最優(yōu)方法相比,其性能仍較弱。雖然GPT-2模型規(guī)模較小,經(jīng)過微調(diào)后在下游任務(wù)尤其是對話任務(wù)中仍然取得廣泛應(yīng)用。在GPT-2的基礎(chǔ)上,GPT-3通過擴大模型規(guī)模,實現(xiàn)了在類似生成式預(yù)訓(xùn)練架構(gòu)下的重大能力飛躍。

在2020年發(fā)布的GPT-3將模型規(guī)模進一步擴大到1750億參數(shù)。GPT-3論文正式提出上下文學(xué)習(xí)(In-Context Learning, ICL)的概念,即用小樣本或零樣本的方式使用語言模型。ICL本質(zhì)上仍然是語言建模,只是預(yù)測的是完成給定任務(wù)的文本輸出。GPT-3不僅在NLP任務(wù)上表現(xiàn)強勁,在需要推理的任務(wù)上也展現(xiàn)出驚人的適應(yīng)能力。盡管GPT-3論文沒有明確討論涌現(xiàn)能力,但可以觀察到其性能飛躍可能超越了基本的規(guī)模擴展法則,標志著從預(yù)訓(xùn)練語言模型到大語言模型的重要進化。

3)能力增強

GPT-3成為OpenAI開發(fā)更強大語言模型的基礎(chǔ),主要通過兩種方式進行改進:

使用代碼數(shù)據(jù)進行訓(xùn)練:原始GPT-3在純文本上訓(xùn)練,推理能力較弱。使用GitHub代碼微調(diào)可以增強其編程和數(shù)學(xué)問題解決能力。

與人類對齊:OpenAI早在2017年就開始研究如何從人類偏好中學(xué)習(xí)。他們使用強化學(xué)習(xí)方法訓(xùn)練語言模型以符合人類期望。不僅提高了指令遵循能力,也能減輕有害內(nèi)容生成。通過人機交互強化學(xué)習(xí)對齊語言模型與人類價值觀非常重要。

4)語言模型的重要里程碑

基于之前的探索,OpenAI取得兩個重要進展:ChatGPT和GPT-4,極大地提升AI系統(tǒng)的能力:

ChatGPT:2022年11月發(fā)布是對話優(yōu)化的GPT模型,訓(xùn)練方式類似InstructGPT。展現(xiàn)出與人交流的卓越能力和豐富知識,是目前最強大的聊天機器人,對AI研究影響重大。

GPT-4:2023年3月發(fā)布,支持多模態(tài)輸入,相比GPT-3.5有顯著提升,在各類困難任務(wù)上優(yōu)于ChatGPT。通過迭代對齊,對惡意問題的響應(yīng)也更安全。OpenAI采用各種策略減輕潛在風(fēng)險。

盡管取得長足進步,這些語言模型仍存在局限,需要持續(xù)優(yōu)化使其更強大和安全。OpenAI采用迭代部署策略來控制風(fēng)險。

三、大語言模型資源

鑒于訓(xùn)練大語言模型面臨的技術(shù)難題和計算資源需求,從零開始開發(fā)或復(fù)現(xiàn)大語言模型非常困難。一個可行的方法是在現(xiàn)有語言模型的基礎(chǔ)上進行增量開發(fā)或?qū)嶒炑芯俊O旅婧喴偨Y(jié)用于開發(fā)大語言模型的公開可用資源,包括公開的模型Checkpoint、語料庫和代碼庫。

1、公開可用的模型檢查點或API

考慮到預(yù)訓(xùn)練模型的高昂成本,公開的預(yù)訓(xùn)練檢查點對研究組織開展大語言模型至關(guān)重要。參數(shù)規(guī)模是使用這些模型時需要考慮的關(guān)鍵因素。為幫助用戶根據(jù)計算資源選擇適當?shù)难芯糠较?,將公開的模型分為百億和千億參數(shù)兩個級別。另外,公開的API可以直接使用模型進行推理,無需本地運行。下面介紹公開的模型檢查點和API。

1)百億參數(shù)量級別的模型

百億參數(shù)量級的公開語言模型包括mT5、PanGu-α、T0、GPT-NeoX-20B、CodeGen、UL2、Flan-T5 和 mT0等,參數(shù)規(guī)模在100-200億之間。其中Flan-T5可用于指令微調(diào)研究,CodeGen專為生成代碼設(shè)計,mT0支持多語言。針對中文任務(wù),PanGu-α表現(xiàn)較好。LLaMA是最近公開的模型,在指令遵循任務(wù)上展現(xiàn)卓越能力。這類規(guī)模的模型通常需要數(shù)百至上千個GPU/TPU。為準確估計所需計算資源,可使用計算量指標如FLOPS。

2)千億參數(shù)量級別的模型

千億參數(shù)量級的公開語言模型較少,主要有OPT、OPT-IML、BLOOM、BLOOMZ、GLM和Galactica。其中OPT用于復(fù)現(xiàn)GPT-3,BLOOM和BLOOMZ在多語言建模上表現(xiàn)較好,OPT-IML進行過指令微調(diào)。這類模型通常需要數(shù)千個GPU/TPU,比如OPT使用992個A100 GPU,GLM使用了96個DGX-A100節(jié)點。

3)大語言模型的公共API

相比直接使用模型,API提供更方便的方式使用大語言模型,無需本地運行。GPT系列模型的API已經(jīng)被廣泛使用,包括ada、babbage、curie、davinci等。其中davinci對應(yīng)GPT-3最大模型。此外還有與Codex相關(guān)的代碼生成API。GPT-3.5系列新增text-davinci-002等接口。gpt-3.5-turbo-0301對應(yīng)ChatGPT。最近,GPT-4的API也發(fā)布??傮w來說,接口選擇取決于具體應(yīng)用場景和響應(yīng)需求。

2、常用語料庫

與小規(guī)模預(yù)訓(xùn)練語言模型不同,大語言模型需要更大量且內(nèi)容廣泛的數(shù)據(jù)進行訓(xùn)練。為滿足這一需求,越來越多的公開數(shù)據(jù)集被發(fā)布用于研究。這里簡要概述一些常用的大語言模型訓(xùn)練語料庫,根據(jù)內(nèi)容類型分為六類:Books、CommonCrawl、Reddit Links、Wikipedia、Code、Others。

1)Books

BookCorpus包含超過1.1萬本電子書,覆蓋廣泛的主題,被早期小規(guī)模模型如GPT和GPT-2使用。Gutenberg語料包含超過7萬本各類文學(xué)作品,是目前最大的公開書籍集合之一,被用于訓(xùn)練MT-NLG和LLaMA等模型。而GPT-3中使用的未公開的Books1和Books2數(shù)據(jù)集規(guī)模更大。

2)CommonCrawl

CommonCrawl是最大的開源網(wǎng)絡(luò)爬蟲數(shù)據(jù)庫之一,已被廣泛運用于大型語言模型訓(xùn)練?,F(xiàn)有基于CommonCrawl的過濾數(shù)據(jù)集包括C4、CC-Stories、CC-News和RealNews。C4包括五個變種18,即 en,en.noclean ,realnewslike ,webtextlike 和 multilingual。其中,en 版本被用于預(yù)訓(xùn)練 T5, LaMDA,Gopher和 UL2用于預(yù)訓(xùn)練多個模型;CC-Stories和CC-News是CommonCrawl數(shù)據(jù)的子集,包含故事形式的內(nèi)容;RealNews也被用作預(yù)訓(xùn)練數(shù)據(jù)。

3)Reddit Links

Reddit是一個社交媒體平臺,用戶可以在上面提交鏈接和帖子。WebText是一個著名的基于Reddit的語料庫,由Reddit上高贊的鏈接組成。OpenWebText是易于獲取的開源替代品。PushShift.io是一個實時更新的數(shù)據(jù)集,包括自Reddit創(chuàng)建以來的歷史數(shù)據(jù)。提供有用的實用工具,支持用戶搜索、總結(jié)和對整個數(shù)據(jù)集進行初步統(tǒng)計分析。用戶可以輕松地收集和處理Reddit數(shù)據(jù)。

4)Wikipedia

Wikipedia是一個在線百科全書,包含大量高質(zhì)量的文章,涵蓋各種主題。采用解釋性寫作風(fēng)格并支持引用,覆蓋多種不同語言和廣泛的知識領(lǐng)域。Wikipedia英語版本被廣泛應(yīng)用于大多數(shù)LLM(如GPT-3、LaMDA和LLaMA),還提供多種語言版本,可在多語言環(huán)境下使用。

5)Code

收集代碼數(shù)據(jù)的主要來源是從互聯(lián)網(wǎng)上爬取有開源許可證的代碼,包括開源許可證的公共代碼庫(如GitHub)和與代碼相關(guān)的問答平臺(如StackOverflow)。Google公開發(fā)布BigQuery數(shù)據(jù)集,包含各種編程語言的大量開源許可證代碼片段,是典型的代碼數(shù)據(jù)集。CodeGen使用的BIGQUERY是BigQuery數(shù)據(jù)集的一個子集,用于訓(xùn)練多語言版本的CodeGen-Multi。

6)Others

The Pile是一個大規(guī)模、多樣化的開源文本數(shù)據(jù)集(超過800GB數(shù)據(jù)),包含書籍、網(wǎng)站、代碼、科學(xué)論文和社交媒體平臺等內(nèi)容。由22個高質(zhì)量的子集組成,被廣泛應(yīng)用于不同參數(shù)規(guī)模的模型中,如 GPT-J(6B)、CodeGen(16B)和 Megatron-Turing NLG(530B)。此外,ROOTS是由各種較小的數(shù)據(jù)集組成的大型語料庫,覆蓋59種不同的語言,用于訓(xùn)練BLOOM。

為了預(yù)訓(xùn)練LLM,通常需要混合使用不同的數(shù)據(jù)源,如C4、OpenWebText和The Pile等,并從相關(guān)源(如Wikipedia和BigQuery)提取數(shù)據(jù)以豐富預(yù)訓(xùn)練數(shù)據(jù)中的相應(yīng)信息。為快速了解現(xiàn)有 LLM 使用的數(shù)據(jù)來源,下面介紹三個代表性 LLM 的預(yù)訓(xùn)練語料庫:

GPT-3(175B)在混合數(shù)據(jù)集上進行訓(xùn)練,包括 CommonCrawl、WebText2、Books1、Books2 和 Wikipedia。

PaLM(540B)使用由社交媒體對話、過濾后的網(wǎng)頁、書籍、Github、多語言維基百科和新聞組成的預(yù)訓(xùn)練數(shù)據(jù)集,共包含 7800 億 token。

LLaMA從多個數(shù)據(jù)源中提取訓(xùn)練數(shù)據(jù),包括 CommonCrawl、C4、Github、Wikipedia、書籍、ArXiv 和 StackExchange。LLaMA(6B)、LLaMA(13B)和 LLaMA(32B)的訓(xùn)練數(shù)據(jù)大小為 1.0 萬億 token,而 LLaMA(65B)使用了 1.4 萬億 token。

3、代碼庫資源

在這部分,簡要介紹一些可用于開發(fā) LLM 的代碼庫。

1)Transformers

Transformers 是一個由 Hugging Face 開發(fā)的 Python 庫,采用 Transformer 架構(gòu)。提供簡單易用的 API,方便用戶定制各種預(yù)訓(xùn)練模型。該庫擁有龐大活躍的用戶和開發(fā)者社區(qū),定期更新和改進模型和算法。

2)DeepSpeed

Microsoft 開發(fā)的深度學(xué)習(xí)優(yōu)化庫(兼容 PyTorch),已被用于訓(xùn)練多個 LLM,例如 MT NLG 和 BLOOM。支持分布式訓(xùn)練優(yōu)化技術(shù),如內(nèi)存優(yōu)化(ZeRO 技術(shù)和梯度檢查點)和管道并行。

3)Megatron-LM

NVIDIA 開發(fā)的深度學(xué)習(xí)庫,用于訓(xùn)練LLM。提供分布式訓(xùn)練優(yōu)化技術(shù),如模型和數(shù)據(jù)并行、混合精度訓(xùn)練和FlashAttention,可提高訓(xùn)練效率和速度,實現(xiàn)高效分布式訓(xùn)練。

4)JAX

Google 開發(fā)的 Python 庫,用于高性能機器學(xué)習(xí)算法運算。支持在硬件加速下進行數(shù)組高效運算,可在各種設(shè)備上進行高效計算,還支持自動微分和即時編譯等特色功能。

5)Colossal-AI

HPC-AI Tech開發(fā)的深度學(xué)習(xí)庫,用于訓(xùn)練大規(guī)模人工智能模型。基于 PyTorch 實現(xiàn),支持并行訓(xùn)練策略和 PatrickStar 方法優(yōu)化異構(gòu)內(nèi)存管理。最近發(fā)布 ColossalChat 類 ChatGPT 模型(7B 和 13B 版本)。

6)BMTrain

OpenBMB 開發(fā)的分布式訓(xùn)練庫,強調(diào)簡潔代碼、低資源占用和高可用性。BMTrain 已在其 ModelCenter 中遷移常見 LLM(如 Flan T5 和 GLM),用戶可直接使用。

7)FastMoE

FastMoE是一種專門用于MoE模型的訓(xùn)練庫,基于PyTorch開發(fā),注重效率和用戶友好性。簡化了將Transformer模型轉(zhuǎn)換為MoE模型的過程,支持數(shù)據(jù)和模型并行訓(xùn)練。

除了上述深度學(xué)習(xí)框架提供的資源外,其他框架如PyTorch、TensorFlow、MXNet、PaddlePaddle、MindSpore 和OneFlow也提供并行算法支持,通常用于訓(xùn)練大規(guī)模模型。

四、數(shù)據(jù)收集

LLM 需要高質(zhì)量數(shù)據(jù)進行預(yù)訓(xùn)練,其模型能力也依賴預(yù)處理方式和預(yù)訓(xùn)練語料庫。下面主要討論預(yù)訓(xùn)練數(shù)據(jù)的收集和處理,包括數(shù)據(jù)來源、預(yù)處理方法以及對 LLM 性能的影響分析。

1、數(shù)據(jù)來源

開發(fā)有能力的LLM關(guān)鍵在于收集大量自然語言語料庫。現(xiàn)有LLM混合各種公共文本數(shù)據(jù)集作為預(yù)訓(xùn)練語料庫,來源分為通用文本和專用文本。通用文本數(shù)據(jù)(如網(wǎng)頁、書籍和對話文本等)規(guī)模大、多樣性強且易于獲取,被大多數(shù) LLM 所利用,可增強其語言建模和泛化能力。專用數(shù)據(jù)集(如多語言數(shù)據(jù)、科學(xué)數(shù)據(jù)和代碼等)可賦予 LLM 解決專用任務(wù)的能力。

wKgaomT742aAKxwKAAJIx3mgTm0995.png

現(xiàn)有 LLM 預(yù)訓(xùn)練數(shù)據(jù)中各種數(shù)據(jù)來源的比率

1)通用文本數(shù)據(jù)

通用預(yù)訓(xùn)練數(shù)據(jù)是LLM模型中不可或缺的部分,提供豐富的文本資源和多樣的主題。其中,三種重要的通用文本數(shù)據(jù)包括網(wǎng)頁、對話文本和書籍。

網(wǎng)頁包括維基百科、新聞網(wǎng)站等,但需要過濾低質(zhì)量內(nèi)容。為提高數(shù)據(jù)質(zhì)量,研究人員通常使用網(wǎng)絡(luò)爬蟲工具從互聯(lián)網(wǎng)上抓取大量數(shù)據(jù),如CommonCrawl。這些數(shù)據(jù)可能同時包含高質(zhì)量和低質(zhì)量的文本,因此需要進行過濾和處理。

對話文本可以增強 LLM 的對話能力和問答任務(wù)的表現(xiàn)。研究人員可以利用公共對話語料庫的子集或從在線社交媒體收集對話數(shù)據(jù)。由于對話數(shù)據(jù)通常涉及多個參與者之間的討論,因此一種有效的處理方法是將對話轉(zhuǎn)換成樹形結(jié)構(gòu),將每句話與回應(yīng)它的話語相連。通過這種方式,可以將多方之間的對話樹劃分為預(yù)訓(xùn)練語料庫中的多個子對話。但是,過度引入對話數(shù)據(jù)可能會導(dǎo)致指令錯誤地被認為是對話的開始,從而降低指令的有效性。

書籍是另一種重要的通用文本數(shù)據(jù)來源,相對于其他語料庫,書籍提供更正式的長文本。這對于LLM學(xué)習(xí)語言知識、建模長期依賴關(guān)系以及生成敘述性和連貫的文本具有潛在的好處?,F(xiàn)有的開源數(shù)據(jù)集包括Books3和Bookcorpus2,這些數(shù)據(jù)集可以在Pile數(shù)據(jù)集中獲得。

2)專用文本數(shù)據(jù)

專用數(shù)據(jù)集對提高LLM在特定任務(wù)中的能力非常有用。三種專用數(shù)據(jù)類型包括多語言文本、科學(xué)文本和代碼。

? 多語言文本:整合多語言語料庫可以增強模型的多語言理解和生成能力。例如,BLOOM和PaLM在其預(yù)訓(xùn)練語料庫中收集包含46種和122種語言的多語言數(shù)據(jù),這些模型在多語言任務(wù)中展現(xiàn)出色的性能,如翻譯、多語言摘要和多語言問答,并且與在目標語言上微調(diào)的最先進的模型具有可比性甚至更好的性能。

? 科學(xué)文本:科學(xué)出版物的不斷增長見證了人類對科學(xué)的探索。為增強LLM對科學(xué)知識的理解,可以將科學(xué)語料庫納入模型的預(yù)訓(xùn)練語料,通過在大量科學(xué)文本上進行預(yù)訓(xùn)練,LLM可以在科學(xué)和推理任務(wù)中取得出色的性能?,F(xiàn)有的工作主要收集arXiv 論文、科學(xué)教材、數(shù)學(xué)網(wǎng)頁和其他相關(guān)的科學(xué)資源。由于科學(xué)領(lǐng)域數(shù)據(jù)的復(fù)雜性,例如數(shù)學(xué)符號和蛋白質(zhì)序列,通常需要特定的標記化和預(yù)處理技術(shù)來將這些不同格式的數(shù)據(jù)轉(zhuǎn)換為可以被語言模型處理的統(tǒng)一形式。

?代碼:程序編寫在學(xué)術(shù)界和PLM應(yīng)用中受到廣泛關(guān)注,但生成高質(zhì)量和準確的程序仍具有挑戰(zhàn)性。最近研究顯示,在大量代碼語料庫上預(yù)訓(xùn)練LLM可以提高編程質(zhì)量,通過單元測試用例或解決競賽編程問題。預(yù)訓(xùn)練LLM的代碼語料庫主要有兩種來源:編程問答社區(qū)和開源軟件倉庫。與自然語言文本不同,代碼以編程語言格式呈現(xiàn),對應(yīng)著長距離依賴和準確的執(zhí)行邏輯。最近研究表明,訓(xùn)練代碼可能是復(fù)雜推理能力的來源,并且將推理任務(wù)格式化為代碼的形式還可以幫助 LLM 生成更準確的結(jié)果。

2、數(shù)據(jù)預(yù)處理

收集大量文本數(shù)據(jù)后,對數(shù)據(jù)進行預(yù)處理是必要的,特別是消除噪聲、冗余、無關(guān)和潛在有害的數(shù)據(jù),因為這些數(shù)據(jù)可能會影響 LLM 的能力和性能。下面將回顧提高數(shù)據(jù)質(zhì)量的數(shù)據(jù)預(yù)處理策略。預(yù)處理 LLM 的預(yù)訓(xùn)練數(shù)據(jù)的典型流程已在圖中說明。

wKgZomT742eATxOwAAHRBJnfgyM859.png

一個典型的預(yù)處理預(yù)訓(xùn)練數(shù)據(jù)的流程圖

1)質(zhì)量過濾

為刪除低質(zhì)量數(shù)據(jù),現(xiàn)有工作通常采用基于分類器或基于啟發(fā)式的方法。基于分類器的方法使用高質(zhì)量文本訓(xùn)練分類器,并預(yù)測每個數(shù)據(jù)的分數(shù),從而過濾低質(zhì)量數(shù)據(jù)。但這些方法可能會刪除方言、口語和社會語言的高質(zhì)量文本,導(dǎo)致偏見和減少多樣性。基于啟發(fā)式的方法則通過設(shè)計一組規(guī)則來消除低質(zhì)量文本,這些規(guī)則可以總結(jié)為:去除重復(fù)、無關(guān)或不完整的文本;去除拼寫錯誤、語法錯誤或非常規(guī)用詞的文本;去除缺乏上下文信息的文本等。

2)去重

現(xiàn)有研究發(fā)現(xiàn),語料庫中的重復(fù)數(shù)據(jù)會影響模型多樣性和訓(xùn)練過程穩(wěn)定性,因此需要對預(yù)訓(xùn)練語料庫進行去重處理。具體而言,可以在句子級、文檔級和數(shù)據(jù)集級等不同粒度上去重。在句子級別上,應(yīng)刪除包含重復(fù)單詞和短語的低質(zhì)量句子;在文檔級別上,可通過檢測重疊比率來刪除相似內(nèi)容的重復(fù)文檔;同時,還需防止訓(xùn)練集和評估集之間的重疊。這三個級別的去重都有助于改善 LLM 的訓(xùn)練,應(yīng)該共同使用。

3)隱私去除

大多數(shù)預(yù)訓(xùn)練文本數(shù)據(jù)來自網(wǎng)絡(luò)來源,包括用戶生成內(nèi)容涉及敏感或個人信息,可能增加隱私泄露風(fēng)險。因此,需要從預(yù)訓(xùn)練語料庫中刪除可識別個人信息(PII)。一種直接有效的方法是采用基于規(guī)則的方法,例如關(guān)鍵字識別,來檢測和刪除 PII 等敏感信息。此外,研究人員還發(fā)現(xiàn),LLM 在隱私攻擊下的脆弱性可能歸因于預(yù)訓(xùn)練語料庫中存在的重復(fù) PII 數(shù)據(jù)。因此,去重也可以降低隱私風(fēng)險。

4)分詞

分詞是數(shù)據(jù)預(yù)處理的關(guān)鍵步驟,將原始文本分割成詞序列,作為 LLM 的輸入。雖然已有的分詞器方便,但使用專為預(yù)訓(xùn)練語料庫設(shè)計的分詞器更有效,特別是對于多領(lǐng)域、語言和格式的語料庫。最近的幾個LLM使用SentencePiece為預(yù)訓(xùn)練語料庫訓(xùn)練定制化的分詞器,并利用BPE算法確保信息不會丟失。但需要注意歸一化技術(shù)可能會降低分詞性能。

3、預(yù)訓(xùn)練數(shù)據(jù)對大語言模型的影響

與小規(guī)模的PLM不同,大規(guī)模LLM通常無法進行多次預(yù)訓(xùn)練迭代,因此在訓(xùn)練之前準備充分的預(yù)訓(xùn)練語料庫非常重要。下面將探討預(yù)訓(xùn)練語料庫的質(zhì)量、分布等因素如何影響LLM的性能。

1)混合來源

來自不同領(lǐng)域或場景的預(yù)訓(xùn)練數(shù)據(jù)具有不同的語言特征或語義知識,混合不同來源的數(shù)據(jù)時需要仔細設(shè)置預(yù)訓(xùn)練數(shù)據(jù)的分布。Gopher實驗表明增加書籍數(shù)據(jù)比例可以提高模型從文本中捕捉長期依賴的能力,增加C4數(shù)據(jù)集比例則會提升在C4驗證數(shù)據(jù)集上的性能。但單獨訓(xùn)練過多某個領(lǐng)域的數(shù)據(jù)會影響LLM在其他領(lǐng)域的泛化能力。因此,建議研究人員應(yīng)確定預(yù)訓(xùn)練語料庫中來自不同領(lǐng)域的數(shù)據(jù)的比例,以開發(fā)更符合需求的 LLM。

2)預(yù)訓(xùn)練數(shù)據(jù)的數(shù)量

為預(yù)訓(xùn)練一個有效的 LLM,收集足夠的高質(zhì)量數(shù)據(jù)很重要?,F(xiàn)有研究發(fā)現(xiàn),隨著 LLM參數(shù)規(guī)模的增加,需要更多的數(shù)據(jù)來訓(xùn)練模型。許多現(xiàn)有的LLM由于缺乏充足的預(yù)訓(xùn)練數(shù)據(jù)而遭受次優(yōu)訓(xùn)練的問題。通過廣泛的實驗表明,在給定的計算預(yù)算下,采用相等規(guī)模的模型參數(shù)和訓(xùn)練token是必要的。LLaMA 研究表明,使用更多的數(shù)據(jù)和進行更長時間的訓(xùn)練,較小的模型也可以實現(xiàn)良好的性能。因此,建議研究人員在充分訓(xùn)練模型時,關(guān)注高質(zhì)量數(shù)據(jù)的數(shù)量。

3)預(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量

研究表明,對低質(zhì)量的語料庫進行預(yù)訓(xùn)練可能會損害模型性能。為了開發(fā)表現(xiàn)良好的 LLM,收集的訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量都至關(guān)重要。最近的研究已經(jīng)表明數(shù)據(jù)質(zhì)量對下游任務(wù)性能的影響。通過比較在過濾和未過濾的語料庫上訓(xùn)練的模型的性能,得到了相同的結(jié)論,即在清理后的數(shù)據(jù)上預(yù)訓(xùn)練LLM可以提高性能。更具體地說,數(shù)據(jù)的重復(fù)可能會導(dǎo)致“雙下降現(xiàn)象”,甚至可能會使訓(xùn)練過程不穩(wěn)定。此外,重復(fù)的數(shù)據(jù)會降低 LLM 從上下文中復(fù)制的能力,進一步影響 LLM 在 ICL 中的泛化能力。因此,研究人員有必要仔細地對預(yù)訓(xùn)練語料庫進行預(yù)處理來提高訓(xùn)練過程的穩(wěn)定性,并避免其對模型性能的影響。

五、大語言模型的適配微調(diào)

預(yù)訓(xùn)練后的LLM可以獲得解決各種任務(wù)的通用能力,LLM 的能力可以進一步適配到特定的目標。下面將介紹兩種適配預(yù)訓(xùn)練后的 LLM 的方法:指令微調(diào)和對齊微調(diào)。前者旨在增強 LLM 的能力,后者則旨在將LLM的行為與人類價值觀或偏好對齊。

1、指令微調(diào)

指令微調(diào)是在自然語言格式的實例集合上微調(diào)預(yù)訓(xùn)練后的 LLM 的方法。收集或構(gòu)建指令格式的實例后,使用有監(jiān)督的方式微調(diào)LLM,例如使用序列到序列的損失進行訓(xùn)練。微調(diào)后LLM 可以展現(xiàn)出泛化到未見過任務(wù)的能力,即使在多語言場景下也有不錯表現(xiàn)。

1)格式化實例的構(gòu)建

指令格式的實例包括任務(wù)描述、輸入輸出和示例。現(xiàn)有研究已經(jīng)發(fā)布帶標注的自然語言格式的數(shù)據(jù),是重要的公共資源。

格式化已有數(shù)據(jù)集:早期的幾項研究工作是在不同領(lǐng)域收集實例,創(chuàng)建有監(jiān)督的多任務(wù)訓(xùn)練數(shù)據(jù)集以進行多任務(wù)學(xué)習(xí)。即利用人類撰寫的自然語言任務(wù)描述來為這些數(shù)據(jù)集添加格式化,以指導(dǎo)語言模型理解不同的任務(wù)。例如,每一個問答任務(wù)都添加了"請回答以下問題"的描述。指令被證明是影響語言模型任務(wù)泛化能力的關(guān)鍵因素。為了指令調(diào)優(yōu)生成更好的標注數(shù)據(jù),一些工作采用逆向輸入輸出的方法,即反轉(zhuǎn)已有的輸入輸出設(shè)計指令。還有一些工作利用啟發(fā)式模板將大量無標注文本轉(zhuǎn)換為帶標注的實例。

格式化人類需求:盡管已經(jīng)通過添加指令格式化了大量訓(xùn)練數(shù)據(jù),但這些數(shù)據(jù)主要來自公共NLP數(shù)據(jù)集,缺乏多樣性和與真實需求的匹配。為了解決這個問題,一些工作采用了用戶提交給OpenAI API的真實查詢作為任務(wù)描述。這些用自然語言表達的查詢很適合引導(dǎo)語言模型遵循指令的能力。此外,還讓標注者為真實生活中的任務(wù)編寫各種指令,如開放式生成、問答、頭腦風(fēng)暴和聊天等。然后讓其他標注者直接根據(jù)這些指令作為輸出進行回答。最后,將指令和期望輸出配對作為一個訓(xùn)練實例。值得注意的是,這些真實世界任務(wù)還被用于對齊微調(diào)。另外一些工作將現(xiàn)有實例輸入語言模型生成指令和數(shù)據(jù),以減輕人工標注的負擔(dān),構(gòu)建更多樣性的訓(xùn)練數(shù)據(jù)。

構(gòu)建實例的關(guān)鍵因素:指令實例的質(zhì)量對模型的性能有重要影響。在此討論了一些實例構(gòu)建中的關(guān)鍵因素。

wKgaomT742eAeEP5AAPpinriWE4364.png

格式化實例和兩種構(gòu)造指令格式實例的方式的示意圖

增加指令數(shù)量:大量研究結(jié)果表明,擴充任務(wù)數(shù)量可以顯著提高大語言模型的泛化能力。隨著任務(wù)數(shù)量的增加,模型性能一開始持續(xù)提高,但當任務(wù)數(shù)量達到一定水平后,模型性能提升變得微乎其微。一個合理的猜想是,一定數(shù)量的代表性任務(wù)就可以提供相對充足的知識,繼續(xù)添加更多任務(wù)收益有限。此外,從任務(wù)描述的長度、結(jié)構(gòu)、創(chuàng)造性等多個維度增強任務(wù)的多樣性也是有益的。關(guān)于每個任務(wù)需要的實例數(shù)量,已有研究發(fā)現(xiàn)少量實例通常就可以使模型達到泛化性能飽和。然而,對某些任務(wù)大幅增加實例數(shù)量(例如數(shù)百個)可能會導(dǎo)致過擬合,影響模型性能。

指令格式的設(shè)計也很重要:通??梢栽谳斎胼敵鰧χ刑砑尤蝿?wù)描述和示例。適當數(shù)量的示例有助于模型理解,也降低了對指令工程的敏感性。但是過多無關(guān)內(nèi)容的添加反而可能適得其反。含有鏈式推理的指令可以提高模型的推理能力。

2)指令微調(diào)策略

與預(yù)訓(xùn)練不同,指令微調(diào)由于只需要少量實例進行訓(xùn)練,因此通常更加高效。指令微調(diào)可以視為一個有監(jiān)督的訓(xùn)練過程,其優(yōu)化過程與預(yù)訓(xùn)練存在一些區(qū)別,例如訓(xùn)練目標函數(shù)(如序列到序列的損失函數(shù))和優(yōu)化參數(shù)設(shè)置(如更小的批量大小和學(xué)習(xí)率)。這些細節(jié)在實踐中需要特別注意。除了優(yōu)化參數(shù)設(shè)置,指令微調(diào)還需要考慮以下兩個重要方面:

數(shù)據(jù)分布平衡:由于涉及多種任務(wù)混合,需要平衡不同任務(wù)的數(shù)據(jù)比例。一種方法是將所有數(shù)據(jù)合并后按比例采樣。通常會給高質(zhì)量數(shù)據(jù)如FLAN更高的采樣比例,并設(shè)置最大容量限制樣本總數(shù),防止大數(shù)據(jù)集占據(jù)采樣集合。

結(jié)合預(yù)訓(xùn)練:一些方法在指令微調(diào)中加入預(yù)訓(xùn)練數(shù),作為正則化。還有方法不分階段,而是從頭用多任務(wù)學(xué)習(xí)方式同時訓(xùn)練預(yù)訓(xùn)練數(shù)據(jù)和指令格式數(shù)據(jù)。一些模型也將指令數(shù)據(jù)作為預(yù)訓(xùn)練語料的一小部分來進行預(yù)訓(xùn),以同時獲得預(yù)訓(xùn)練和指令微調(diào)的優(yōu)勢。

3)指令微調(diào)的效果

指令微調(diào)對語言模型有以下兩個主要影響:

性能改進:指令微調(diào)可以顯著提高不同規(guī)模語言模型的能力,即使在小數(shù)據(jù)集上微調(diào)也有明顯效果。微調(diào)過的小模型有時甚至優(yōu)于原大模型。指令微調(diào)提供了一種提升現(xiàn)有語言模型能力的通用高效方法。

任務(wù)泛化:指令微調(diào)賦予模型遵循人類自然語言指令完成任務(wù)的能力,即使是未見過的任務(wù)也可以泛化執(zhí)行。已證實它能增強模型在見過和未見過任務(wù)上的表現(xiàn)。指令微調(diào)還能幫助緩解語言模型的一些弱點,提高解決真實世界任務(wù)的能力。經(jīng)微調(diào)的模型可以將英文任務(wù)的能力泛化到其他語言相關(guān)任務(wù)上,甚至只用英文指令就能取得可滿意的多語言任務(wù)表現(xiàn)。

2、對齊微調(diào)

這部分首先介紹對齊微調(diào)的背景,包括定義和評估標準;然后重點討論用于對齊語言模型的人類反饋數(shù)據(jù)的收集方法;最后探討利用人類反饋進行強化學(xué)習(xí)以實現(xiàn)對齊微調(diào)的關(guān)鍵技術(shù)。

1)對齊微調(diào)的背景和標準

語言模型在許多自然語言處理任務(wù)上展示了強大的能力,但有時也可能表現(xiàn)出不符合預(yù)期的行為,如生成虛假信息、追求不準確的目標以及產(chǎn)生有害、誤導(dǎo)或帶有偏見的輸出。預(yù)訓(xùn)練語言模型的目標是語言建模,沒有考慮到人類的價值觀,因此需要進行對齊微調(diào)以使模型行為符合人類期望。

對齊微調(diào)的標準與預(yù)訓(xùn)練和其他微調(diào)不同,更加主觀和復(fù)雜,如有用性、誠實性和無害性。這些標準難以直接作為優(yōu)化目標,需要采用特定的技術(shù)實現(xiàn)。有用性要求模型用簡明高效的方式解決用戶的問題和回答問題,并展示提出恰當問題獲取更多信息的能力。定義和測量有用性具有挑戰(zhàn)性;誠實性要求提供準確內(nèi)容而不捏造,需要傳達不確定性。相對更客觀,依賴人力可能更少;無害性要求不生成冒犯或歧視語言,檢測并拒絕惡意請求,依賴于使用背景。

2)人類反饋的收集

選擇合適的標注人員很重要,需要教育水平高、英語能力強的母語使用者,最好有相關(guān)學(xué)歷。還需要評估標注員產(chǎn)出與研究人員預(yù)期的一致性,選擇一致性最高的人員進行標注工作,并在標注過程中提供詳細指導(dǎo)。主要有以下三種方法收集人類反饋:

基于排序的方法:讓標注員對模型生成的多個候選輸出結(jié)果進行排序,得到一個偏好排名,根據(jù)這個排名調(diào)整模型傾向排名較高的輸出。相比只選擇單個最佳輸出,可以獲取更豐富的偏好信息。

基于問題的方法:研究人員設(shè)計特定的問題,標注員需要回答這些問題對模型輸出進行評估,問題設(shè)計需要覆蓋各種對齊標準??梢垣@得比排序更詳細的反饋信息。

基于規(guī)則的方法:研究人員制定一系列規(guī)則,測試模型輸出是否違反這些規(guī)則,標注員需要對違反程度進行定量的規(guī)則評分??梢灾苯荧@得是否符合對齊標準的反饋。

強化學(xué)習(xí)是對齊微調(diào)中一個重要的技術(shù),可以學(xué)習(xí)并優(yōu)化模型根據(jù)人類反饋達到對齊標準。下面將詳細討論基于人類反饋的強化學(xué)習(xí)方法。

wKgZomT742iAEIhjAAFvVZnYyWQ300.png

RLHF 算法工作流

3)基于人類反饋的強化學(xué)習(xí)

為了確保 LLM 與人類價值觀一致,人們提出了使用收集到的人類反饋數(shù)據(jù)對 LLM 進行微調(diào)的方法,稱為 RLHF。這種方法采用強化學(xué)習(xí)算法(如 PPO),通過學(xué)習(xí)獎勵模型使 LLM 適應(yīng)人類反饋。這種方法將人類納入訓(xùn)練循環(huán)中,以開發(fā)良好的 LLM,如 InstructGPT。

基于人類反饋的強化學(xué)習(xí)系統(tǒng):PLM 通常是一個生成模型,使用現(xiàn)有的 PLM 參數(shù)進行初始化。獎勵模型提供指導(dǎo)信號,反映人類對 LM (Language Model)生成文本的偏好。現(xiàn)有工作通常采用與要對齊的 LM(Language Model) 具有不同參數(shù)尺度的獎勵模型。最后,為了使用來自獎勵模型的信號優(yōu)化 PLM,設(shè)計了一種特定的 RL 算法用于大規(guī)模模型的微調(diào)。具體來說,PPO 是一種在現(xiàn)有工作中廣泛使用的 RL 對齊算法。

基于人類反饋的強化學(xué)習(xí)的關(guān)鍵步驟:

3、高效微調(diào)

本節(jié)將討論如何對大模型(如 Transformer)進行高效微調(diào)。下面將回顧幾種代表性的參數(shù)高效微調(diào)方法,并總結(jié)現(xiàn)有關(guān)于參數(shù)高效微調(diào) LLM 的工作。

1)參數(shù)高效微調(diào)方法

Transformer語言模型參數(shù)高效微調(diào)的幾種主要方法:

適配器微調(diào):在Transformer模型中插入小型的適配器模塊,可以壓縮并映射特征向量。適配器可以串行或并行連接在注意力層和前饋層之后。在微調(diào)時只優(yōu)化適配器參數(shù),固定原始語言模型參數(shù)。

前綴微調(diào):在每個Transformer層前面添加一組可訓(xùn)練的前綴向量,作為額外的任務(wù)特定參數(shù)。使用重參數(shù)化技巧學(xué)習(xí)映射前綴的小矩陣,而不是直接優(yōu)化。只優(yōu)化前綴參數(shù)以適配下游任務(wù)。

提示微調(diào):在輸入層加入軟提示token,以嵌入的形式加到輸入文本中。只優(yōu)化提示嵌入來適配特定任務(wù)。利用提示的自由格式設(shè)計。

低秩適配:用低秩分解矩陣來近似每層的網(wǎng)絡(luò)參數(shù)更新矩陣。固定原始參數(shù),只訓(xùn)練低秩分解中的兩小型可適配矩陣。

各方法優(yōu)勢不同,但共同點是只優(yōu)化很少的參數(shù)來適配下游任務(wù),固定語言模型大部分參數(shù),實現(xiàn)參數(shù)高效的微調(diào)。

2)大語言模型上的參數(shù)高效微調(diào)

隨著大語言模型(LLM)的興起,研究者們越來越關(guān)注高效微調(diào)方法,以開發(fā)更輕量級適用于各種下游任務(wù)的適配方法。其中,LoRA方法在開源LLM(如LLaMA和BLOOM)中得到廣泛應(yīng)用,用于實現(xiàn)參數(shù)高效微調(diào)。LLaMA及其變體因其參數(shù)高效微調(diào)而備受關(guān)注。例如,Alpaca-LoRA是Alpaca的輕量級微調(diào)版本,Alpaca是一個經(jīng)過微調(diào)的70億參數(shù)的LLaMA模型,包含5.2萬個人類指示遵循演示。對于Alpaca-LoRA,已經(jīng)在不同語言和模型大小方面進行了廣泛的探索。

此外,LLaMA-Adapter方法在每個Transformer層中插入可學(xué)習(xí)的提示向量,其中提出了零初始化的注意力,以減輕欠擬合提示向量的影響,從而改善訓(xùn)練效果。此方法還被擴展到多模態(tài)設(shè)置,如視覺問答。

六、總結(jié)與未來方向

理解和解釋語言模型的涌現(xiàn)能力是一個重要而又有挑戰(zhàn)的問題。隨著模型規(guī)模的擴大,像鏈式推理這樣的能力會突然出現(xiàn),但其機制還不清楚。探索涌現(xiàn)能力的影響因素和理論解釋是當前的研究熱點。然而,更多正式的理論和原理還需建立,比如從復(fù)雜系統(tǒng)的角度解釋語言模型。解讀語言模型的能力和行為仍是一個值得探討的基本問題,也是發(fā)展下一代模型的關(guān)鍵所在。需要跨學(xué)科視角,以期獲得更深入的理解和解釋。

構(gòu)建更高效的Transformer變體和減輕災(zāi)難性遺忘是未來改進語言模型架構(gòu)的兩個重要方向。由于標準自注意力復(fù)雜度高,需要探索更高效的注意力機制。另外,微調(diào)語言模型時原有知識很容易被新數(shù)據(jù)覆蓋并遺忘。所以需要通過引入更靈活的機制或模塊,支持模型進行數(shù)據(jù)更新和任務(wù)專用化,同時保留原有通用能力。擴展現(xiàn)有架構(gòu)使其既適應(yīng)新任務(wù)又不遺忘舊知識是語言模型面臨的關(guān)鍵挑戰(zhàn)。

盡管能力強大,大語言模型仍面臨小模型類似的安全性挑戰(zhàn),如產(chǎn)生錯誤信息、被利用產(chǎn)生有害內(nèi)容等。主要的對策是通過人類反饋進行對齊優(yōu)化,但目前的強化學(xué)習(xí)方法嚴重依賴大量高質(zhì)量人類標注。

隨著大規(guī)模語言模型(LLM)在各種任務(wù)中展現(xiàn)出強大的能力,正在廣泛應(yīng)用于現(xiàn)實世界的各種應(yīng)用中,包括遵循自然語言指令的特定任務(wù)。ChatGPT作為一個重要的進步,已經(jīng)改變了人們獲取信息的方式,并在"New Bing"發(fā)布中得到了體現(xiàn)。在不久的將來,可以預(yù)見LLM將對信息檢索技術(shù)產(chǎn)生重大影響,包括搜索引擎和推薦系統(tǒng)。此外,智能信息助手的開發(fā)和使用將隨著LLM技術(shù)的升級而得到廣泛推廣。從更廣泛的視角來看,這一技術(shù)創(chuàng)新浪潮將形成一個以LLM為支持的應(yīng)用生態(tài)系統(tǒng),例如ChatGPT對插件的支持,與人類的生活息息相關(guān)。

我國算力發(fā)展的現(xiàn)狀

為了推動算力基礎(chǔ)設(shè)施建設(shè),促進各行各業(yè)的數(shù)字化轉(zhuǎn)型,工業(yè)和信息化部與寧夏回族自治區(qū)人民政府于8月18日至19日在寧夏銀川舉辦了2023中國算力(基礎(chǔ)設(shè)施)大會。該大會旨在持續(xù)推動數(shù)字經(jīng)濟與實體經(jīng)濟的深度融合,為高質(zhì)量發(fā)展注入強勁動力。

一、AI 發(fā)展持續(xù)深化,帶動算力基礎(chǔ)設(shè)施建設(shè)加速推進

工信部近年來一直致力于推動算力基礎(chǔ)設(shè)施建設(shè),并持續(xù)加強算力頂層設(shè)計。他們發(fā)布了多項政策文件,如《“十四五”信息通信行業(yè)發(fā)展規(guī)劃》和《新型數(shù)據(jù)中心發(fā)展三年行動計劃》,以優(yōu)化全國算力布局,推動算力基礎(chǔ)設(shè)施建設(shè)和應(yīng)用。工信部還計劃根據(jù)算力行業(yè)的最新發(fā)展情況,出臺政策文件,促進算力基礎(chǔ)設(shè)施的高質(zhì)量發(fā)展,提升算力供給能力。這些舉措加速了算力基礎(chǔ)設(shè)施建設(shè),為數(shù)字經(jīng)濟的發(fā)展奠定了堅實的基礎(chǔ)。

在2023中國算力大會上指出兩個重要方面的發(fā)展需求。一方面,要增強自主創(chuàng)新能力,推動計算架構(gòu)、計算方式和算法的創(chuàng)新,加強CPU、GPU和服務(wù)器等關(guān)鍵產(chǎn)品的研發(fā),加快新技術(shù)和新產(chǎn)品的應(yīng)用。另一方面,要加強算力相關(guān)軟硬件生態(tài)系統(tǒng)的建設(shè),提升產(chǎn)業(yè)基礎(chǔ)的高級化水平,推動產(chǎn)業(yè)鏈上下游的協(xié)同發(fā)展,共同構(gòu)建良好的發(fā)展生態(tài)。

截至2022年底,我國擁有超過650萬架標準機架,總算力規(guī)模達到180EFLOPS,僅次于美國,存儲總規(guī)模超過1000EB(1萬億GB)。在人工智能AI發(fā)展的浪潮下,我國不斷加強CPU、GPU和服務(wù)器等關(guān)鍵產(chǎn)品的研發(fā),算力發(fā)展的動能有望持續(xù)增強,國產(chǎn)算力產(chǎn)業(yè)鏈上下游有望共同迎來快速發(fā)展。

wKgaomT742iAbLw7AANYWQGSGYk605.png

中國人工智能應(yīng)用場景發(fā)展

中國人工智能行業(yè)在2022年取得顯著的進展,應(yīng)用滲透度不斷提高,應(yīng)用場景也在不斷拓寬,特別是在金融和電信等行業(yè),人工智能的應(yīng)用滲透度明顯增加。智能客服、實體機器人、智慧網(wǎng)點和云上網(wǎng)點等場景的廣泛應(yīng)用,使金融行業(yè)的人工智能滲透率提高到62%;而電信行業(yè)的滲透度從45%增長到51%,人工智能技術(shù)為下一代智慧網(wǎng)絡(luò)建設(shè)提供了重要支持。據(jù)國際數(shù)據(jù)公司IDC)預(yù)測,到2023年年底,中國制造業(yè)供應(yīng)鏈環(huán)節(jié)中將有50%采用人工智能技術(shù)。隨著時間的推移,智能化場景在各行業(yè)的落地將呈現(xiàn)出更加深入、更加廣泛的趨勢。

wKgZomT742mAEpWgAACi78TrHvQ386.png

人工智能行業(yè)滲透率(%)

隨著大模型在人工智能領(lǐng)域的崛起,智能算力需求呈現(xiàn)幾何級增長的趨勢。中國的互聯(lián)網(wǎng)巨頭和科技巨頭紛紛推出自主研發(fā)的大模型,如百度的文心大模型、華為的盤古大模型、阿里巴巴的通義大模型等。這些大模型具有數(shù)千億甚至萬億級別的參數(shù),需要大量高質(zhì)量的訓(xùn)練數(shù)據(jù)以及龐大的算力支持。隨著大模型的復(fù)雜性不斷提高、數(shù)據(jù)規(guī)模的迅速增長以及應(yīng)用場景的持續(xù)拓展和深化,智能算力的需求和規(guī)模必將在未來幾年迎來爆發(fā)式增長。根據(jù)OpenAI的估算,自2012年以來,全球頂尖AI模型訓(xùn)練所需算力每3-4個月翻一番,每年的增長幅度高達10倍。

wKgaomT742mAEeNwAAJ7DubiucA769.png

大模型訓(xùn)練算力需求

智能算力的規(guī)模正在持續(xù)擴大,同時建設(shè)算力基礎(chǔ)設(shè)施已成為共識。根據(jù)IDC與浪潮信息聯(lián)合發(fā)布的《2022-2023中國人工智能計算力發(fā)展評估報告》,中國的人工智能計算力將快速持續(xù)增長。截至2022年,中國的智能算力規(guī)模已達到268百億億次/秒(EFLOPS),預(yù)計到2026年,中國的智能算力規(guī)模將達到1271.4EFLOPS,未來五年的復(fù)合增長率預(yù)計為52.3%,而通用算力規(guī)模的復(fù)合增長率為18.5%。在國家層面上,已經(jīng)啟動了在8個地區(qū)建設(shè)國家算力樞紐節(jié)點的計劃,并規(guī)劃10個國家數(shù)據(jù)中心集群,以實現(xiàn)資源的有效整合,促進產(chǎn)業(yè)結(jié)構(gòu)調(diào)整,構(gòu)建更加健全的算力和算法基礎(chǔ)設(shè)施。

wKgZomT742qAAGnIAADk2kaIe28087.png

中國智能算力規(guī)模及預(yù)測(EFLOPS)

二、算力需求與芯片能力存在剪刀差,AI 發(fā)展將對芯片性能提出更高要求

由于多樣化的人工智能應(yīng)用場景的需求,傳統(tǒng)以CPU為主的通用計算能力已經(jīng)不足以滿足要求。因此,采用CPU與AI芯片(如GPU、FPGA、ASIC)組成的異構(gòu)計算方案已成為當前和未來智能計算的主要解決方案。異構(gòu)計算方案需要大量的AI芯片,這些芯片具有出色的并行計算能力和高互聯(lián)帶寬,能夠最大化支持AI計算的效能。根據(jù)前瞻產(chǎn)業(yè)研究院的預(yù)測,中國的人工智能芯片市場規(guī)模將在2023年至2027年持續(xù)增長。到2024年,中國的人工智能芯片市場規(guī)模將突破1000億元;到2027年,市場規(guī)模將達到2881.9億元。

wKgaomT742qAaFtUAABu28ssy7o788.png

2023-2027 中國人工智能芯片市場規(guī)模預(yù)測(億元)

AI芯片算力競賽正如火如荼地展開,各家公司紛紛推出新產(chǎn)品。在6月13日,AMD發(fā)布了全新的人工智能GPU Instinct MI300,并計劃在今年晚些時候向一部分客戶發(fā)貨。這款處理器是AMD專為大型語言模型進行優(yōu)化的版本,擁有驚人的1530億個晶體管數(shù)量,192GB內(nèi)存和5.2TB/s的內(nèi)存帶寬,以及896GB/s的Infinity Fabric帶寬。而在8月8日,英偉達則宣布推出下一代NVIDIA GH200 Grace Hopper平臺,這是全球首款配備HBM3e內(nèi)存的GPU芯片。HBM3e內(nèi)存將使下一代GH200在運行AI模型時速度比當前快3.5倍。這些高容量的GPU有助于降低AI訓(xùn)練成本。

英偉達 GH200

行業(yè)龍頭以歐美日等為主,國產(chǎn)化替代勢在必行。根據(jù)中研普華產(chǎn)業(yè)研究院數(shù)據(jù)顯示, 目前全球人工智能芯片行業(yè)前十以歐美韓日等企業(yè)為主,其中前三為 Nvidia、Intel 及 IBM。國內(nèi)芯片企業(yè)如華為海思排 12 位,寒武紀排 23 位,地平線機器人排 24 位。當前競爭格局下,隨著國內(nèi)外大模型的加速發(fā)展及垂類融合,國內(nèi) AI 算力芯片廠商將迎來產(chǎn)業(yè)發(fā)展機會。

三、3方協(xié)同助力算力基礎(chǔ)設(shè)施,深化構(gòu)建“東數(shù)西算”工程

在2023年中國算力大會新聞發(fā)布會上,工業(yè)和信息化部副部長張云明介紹了近年來在構(gòu)建高質(zhì)量算力供給體系方面所取得的積極成果。為了提升算力基礎(chǔ)設(shè)施的綜合能力,各方積極合作,采取多種措施,取得了三個方面的積極成效。

1)算力發(fā)展規(guī)劃政策相繼出臺,制度保障有力有效。工信部、發(fā)改委等部門聯(lián)合印發(fā)了《全國一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系算力樞紐實施方案》,并批復(fù)同意在8個地區(qū)建設(shè)10個國家算力樞紐節(jié)點。同時,還出臺了《新型數(shù)據(jù)中心發(fā)展三年行動計劃(2021-2023年)》,以持續(xù)優(yōu)化全國算力的整體布局。

2)算力基礎(chǔ)設(shè)施建設(shè)扎實推進,發(fā)展動能持續(xù)增強。為了支撐數(shù)字經(jīng)濟的發(fā)展,產(chǎn)業(yè)各方緊密協(xié)同,加快了基礎(chǔ)設(shè)施建設(shè)、算力體系構(gòu)建和綠色發(fā)展。從2018年開始,我國數(shù)據(jù)中心的機架數(shù)量年復(fù)合增長率超過30%。截至2022年底,標準機架數(shù)量超過650萬架,總算力規(guī)模達到180EFLOPS,僅次于美國。同時,存儲總規(guī)模超過1000EB(1萬億GB)。這些數(shù)據(jù)表明,我國在算力底座方面取得了顯著的成就。

3)算力賦能傳統(tǒng)產(chǎn)業(yè)轉(zhuǎn)型升級,融合應(yīng)用加速涌現(xiàn)。目前,我國的算力產(chǎn)業(yè)已經(jīng)初步形成規(guī)模,并且產(chǎn)業(yè)鏈上的企業(yè)在中下游之間展開了協(xié)同合作,形成了良性互動。算力不僅成為傳統(tǒng)產(chǎn)業(yè)轉(zhuǎn)型升級的重要支撐點,還催生了一批新的經(jīng)濟增長點。根據(jù)中國信息通信研究院的測算,2022年我國算力核心產(chǎn)業(yè)規(guī)模達到了1.8萬億元。每投入1元的算力,將帶動3至4元的GDP經(jīng)濟增長。這些數(shù)據(jù)表明,算力產(chǎn)業(yè)在我國的發(fā)展前景非常廣闊,并具有巨大的經(jīng)濟潛力。

寧夏將擴大其算力樞紐的影響力,通過舉辦西部數(shù)字賦能大會和第二屆“西部數(shù)谷”算力產(chǎn)業(yè)大會來實現(xiàn)。作為西部地區(qū)首個以數(shù)字賦能為主題的產(chǎn)業(yè)大會,首屆“西部數(shù)谷”算力大會在2022年簽約了24個項目,總投資金額達727億元,目前已有18個項目開始實施。寧夏作為“東數(shù)西算”算力樞紐節(jié)點,在2023年6月已經(jīng)建設(shè)了34.9萬架的數(shù)據(jù)中心標準機架,互聯(lián)網(wǎng)省際出口帶寬達到20.6Tbps,網(wǎng)絡(luò)水平在西部地區(qū)處于領(lǐng)先地位。

目前,算力結(jié)構(gòu)以通算和存儲業(yè)務(wù)為主,占比達到61%。國家正在推進“東數(shù)西算”工程,通過構(gòu)建新型算力網(wǎng)絡(luò)體系,將東部的算力需求有序引導(dǎo)到西部,優(yōu)化數(shù)據(jù)中心建設(shè)布局,促進東西部的協(xié)同發(fā)展。8個國家算力樞紐節(jié)點將成為我國算力網(wǎng)絡(luò)的關(guān)鍵連接點,推動數(shù)據(jù)中心集群的發(fā)展,促進數(shù)據(jù)中心與網(wǎng)絡(luò)、云計算和大數(shù)據(jù)之間的協(xié)同建設(shè),同時也是國家“東數(shù)西算”工程的戰(zhàn)略支點,推動算力資源有序向西部轉(zhuǎn)移。

藍海大腦大模型訓(xùn)練平臺

藍海大腦大模型訓(xùn)練平臺提供強大的算力支持,包括基于開放加速模組高速互聯(lián)的AI加速器。配置高速內(nèi)存且支持全互聯(lián)拓撲,滿足大模型訓(xùn)練中張量并行的通信需求。支持高性能I/O擴展,同時可以擴展至萬卡AI集群,滿足大模型流水線和數(shù)據(jù)并行的通信需求。強大的液冷系統(tǒng)熱插拔及智能電源管理技術(shù),當BMC收到PSU故障或錯誤警告(如斷電、電涌,過熱),自動強制系統(tǒng)的CPU進入ULFM(超低頻模式,以實現(xiàn)最低功耗)。致力于通過“低碳節(jié)能”為客戶提供環(huán)保綠色的高性能計算解決方案。主要應(yīng)用于深度學(xué)習(xí)、學(xué)術(shù)教育、生物醫(yī)藥、地球勘探、氣象海洋、超算中心、AI及大數(shù)據(jù)等領(lǐng)域。

一、為什么需要大模型?

1、模型效果更優(yōu)

大模型在各場景上的效果均優(yōu)于普通模型

2、創(chuàng)造能力更強

大模型能夠進行內(nèi)容生成(AIGC),助力內(nèi)容規(guī)?;a(chǎn)

3、靈活定制場景

通過舉例子的方式,定制大模型海量的應(yīng)用場景

4、標注數(shù)據(jù)更少

通過學(xué)習(xí)少量行業(yè)數(shù)據(jù),大模型就能夠應(yīng)對特定業(yè)務(wù)場景的需求

二、平臺特點

1、異構(gòu)計算資源調(diào)度

一種基于通用服務(wù)器和專用硬件的綜合解決方案,用于調(diào)度和管理多種異構(gòu)計算資源,包括CPU、GPU等。通過強大的虛擬化管理功能,能夠輕松部署底層計算資源,并高效運行各種模型。同時充分發(fā)揮不同異構(gòu)資源的硬件加速能力,以加快模型的運行速度和生成速度。

2、穩(wěn)定可靠的數(shù)據(jù)存儲

支持多存儲類型協(xié)議,包括塊、文件和對象存儲服務(wù)。將存儲資源池化實現(xiàn)模型和生成數(shù)據(jù)的自由流通,提高數(shù)據(jù)的利用率。同時采用多副本、多級故障域和故障自恢復(fù)等數(shù)據(jù)保護機制,確保模型和數(shù)據(jù)的安全穩(wěn)定運行。

3、高性能分布式網(wǎng)絡(luò)

提供算力資源的網(wǎng)絡(luò)和存儲,并通過分布式網(wǎng)絡(luò)機制進行轉(zhuǎn)發(fā),透傳物理網(wǎng)絡(luò)性能,顯著提高模型算力的效率和性能。

4、全方位安全保障

在模型托管方面,采用嚴格的權(quán)限管理機制,確保模型倉庫的安全性。在數(shù)據(jù)存儲方面,提供私有化部署和數(shù)據(jù)磁盤加密等措施,保證數(shù)據(jù)的安全可控性。同時,在模型分發(fā)和運行過程中,提供全面的賬號認證和日志審計功能,全方位保障模型和數(shù)據(jù)的安全性。

三、常用配置

1、處理器,CPU:

Intel Xeon Gold 8358P 32C/64T 2.6GHz 48MB,DDR4 3200,Turbo,HT 240W

Intel Xeon Platinum 8350C 32C/64T 2.6GHz 48MB,DDR4 3200,Turbo,HT 240W

Intel Xeon Platinum 8458P 28C/56T 2.7GHz 38.5MB,DDR4 2933,Turbo,HT 205W

Intel Xeon Platinum 8468 Processor 48C/64T 2.1GHz 105M Cache 350W

AMD EPYC? 7742 64C/128T,2.25GHz to 3.4GHz,256MB,DDR4 3200MT/s,225W

AMD EPYC? 9654 96C/192T,2.4GHz to 3.55GHz to 3.7GHz,384MB,DDR5 4800MT/s,360W

2、顯卡,GPU:

NVIDIA NVLink-A100-SXM640GB

NVIDIA HGX A800 8-GPU 80GB

NVIDIA Tesla H800 80GB HBM2

NVIDIA A800-80GB-400Wx8-NvlinkSW×8

wKgZomT742yAQ23LAAA1n1m0gPU725.png

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4978

    瀏覽量

    102987
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4729

    瀏覽量

    128890
  • 英偉達
    +關(guān)注

    關(guān)注

    22

    文章

    3770

    瀏覽量

    90985
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2423

    瀏覽量

    2640
收藏 人收藏

    評論

    相關(guān)推薦

    通往AGI之路:揭秘英偉A100、A800H800、V100高性能計算與大模型訓(xùn)練中的霸主地位

    英偉前段時間發(fā)布GH 200包含 36 個 NVLink 開關(guān),將 256 個 GH200 Grace Hopper 芯片和 144TB 的共享內(nèi)存連接成一個單元。除此之外,英偉
    的頭像 發(fā)表于 06-29 11:23 ?2.9w次閱讀
    通往AGI之路:<b class='flag-5'>揭秘</b><b class='flag-5'>英偉</b><b class='flag-5'>達</b><b class='flag-5'>A100</b>、<b class='flag-5'>A800</b>、<b class='flag-5'>H800</b>、V<b class='flag-5'>100</b>在<b class='flag-5'>高性能</b>計算與大<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>中的霸主地位

    英偉a100h100哪個強?英偉A100H100的區(qū)別

    基于Ampere架構(gòu)的GPU計算加速器,專為高性能計算、人工智能和機器學(xué)習(xí)等領(lǐng)域而設(shè)計。它擁有高達6912個CUDA核心(在32GB版本中),是目前最強大的數(shù)據(jù)中心GPU之一。
    的頭像 發(fā)表于 08-09 17:31 ?4.7w次閱讀

    英偉將向中國推出芯片A800可替代被禁的A100

    此前被禁止出貨的A100 GPU一種替代產(chǎn)品。業(yè)內(nèi)預(yù)計A800 GPU的某些性能肯定會被限制或閹割。 對于上市時間的話預(yù)計
    的頭像 發(fā)表于 11-08 16:07 ?3268次閱讀

    英偉推出A800 GPU,為了能賣給中國客戶,對A100“砍了一刀”...

    ,不能通過編程超過限制的性能。 今年8月的最后一天,英偉發(fā)布公告稱,公司收到美國政府通知,要求對中國大陸以及中國香港、俄羅斯的客戶出口的高端GPU芯片,需要申請出口許可證,其中覆蓋到
    的頭像 發(fā)表于 11-09 07:15 ?8364次閱讀

    英偉a100h100哪個強?

    英偉a100h100哪個強? 英偉A100
    的頭像 發(fā)表于 08-07 17:32 ?1.5w次閱讀

    英偉a100a800的區(qū)別

    英偉a100a800的區(qū)別 英偉A100
    的頭像 發(fā)表于 08-07 17:57 ?4.4w次閱讀

    英偉a100a800參數(shù)對比

    英偉a100a800參數(shù)對比 以下是英偉A100
    的頭像 發(fā)表于 08-07 18:00 ?1.3w次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達</b><b class='flag-5'>a100</b>和<b class='flag-5'>a800</b>參數(shù)對比

    英偉A100H100的區(qū)別

    英偉A100H100的區(qū)別 英偉A100
    的頭像 發(fā)表于 08-07 18:06 ?3w次閱讀

    英偉h800的參數(shù)介紹

    英偉h800的參數(shù)介紹 英偉H800是一款特供版本,是
    的頭像 發(fā)表于 08-08 15:38 ?3w次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達</b><b class='flag-5'>h800</b>的參數(shù)介紹

    英偉h800a100參數(shù)對比

    英偉h800a100參數(shù)對比 NVIDIA H800A100是兩款高端的
    的頭像 發(fā)表于 08-08 15:53 ?3.2w次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達</b><b class='flag-5'>h800</b>和<b class='flag-5'>a100</b>參數(shù)對比

    英偉h800a800的區(qū)別

    英偉h800a800的區(qū)別 V100A100是非常強大的
    的頭像 發(fā)表于 08-08 15:59 ?7592次閱讀

    英偉h800a100的區(qū)別

    英偉h800a100的區(qū)別 NVIDIA H800A100是NVIDIA的兩種不同類型的
    的頭像 發(fā)表于 08-08 16:05 ?1.7w次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達</b><b class='flag-5'>h800</b>和<b class='flag-5'>a100</b>的區(qū)別

    英偉h800h100的區(qū)別

    英偉h800h100的區(qū)別 其實大白話就是,A100、H100是原版,特供中國市場的減配版是
    的頭像 發(fā)表于 08-08 16:06 ?4.6w次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達</b><b class='flag-5'>h800</b>和<b class='flag-5'>h100</b>的區(qū)別

    英偉h800a800的區(qū)別

    英偉h800a800的區(qū)別 英偉H800
    的頭像 發(fā)表于 08-08 16:20 ?3.5w次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達</b><b class='flag-5'>h800</b>和<b class='flag-5'>a800</b>的區(qū)別

    深度學(xué)習(xí)模型部署與優(yōu)化:策略與實踐;L40S與A100、H100的對比分析

    、TensorFlow、PyTorch、Batchnorm、Scale、Crop算子、L40S、A100H100、A800、H800
    的頭像 發(fā)表于 09-22 14:13 ?1178次閱讀
    深度學(xué)習(xí)<b class='flag-5'>模型</b>部署與優(yōu)化:策略與實踐;L40S與<b class='flag-5'>A100</b>、<b class='flag-5'>H100</b>的對比分析
    RM新时代网站-首页