RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

探究超大Transformer語言模型的分布式訓(xùn)練框架

NVIDIA英偉達企業(yè)解決方案 ? 來源:NVIDIA英偉達企業(yè)解決方案 ? 作者:NVIDIA英偉達企業(yè)解 ? 2021-10-20 09:25 ? 次閱讀

NVIDIA Megatron 是一個基于 PyTorch 的框架,用于訓(xùn)練基于 Transformer 架構(gòu)的巨型語言模型。本系列文章將詳細介紹Megatron的設(shè)計和實踐,探索這一框架如何助力大模型的預(yù)訓(xùn)練計算。 上篇主要介紹了大模型訓(xùn)練的發(fā)展趨勢、NVIDIA Megatron的模型并行設(shè)計,本篇將承接上篇的內(nèi)容,解析Megatron 在NVIDIA DGX SuperPOD 上的實踐。

優(yōu)化的分布式集群架構(gòu):NVIDIA DGX SuperPOD

有了高效的分布式訓(xùn)練框架,自然也需要優(yōu)化的分布式訓(xùn)練集群。

NVIDIA DGX SuperPOD 便是 NVIDIA 推出的一個分布式集群的參考架構(gòu),最新一代是基于NVIDIA DGX A100 和NVIDIA HDR 200Gb/s ConnectX-6 HCAs組建,旨在幫助AI 研究人員快速搭建一套強大、靈活、高效的系統(tǒng),以滿足工業(yè)界日益復(fù)雜、多變的模型對計算資源不同程度的需求。尤其對于超大語言模型預(yù)訓(xùn)練這一復(fù)雜場景,DGX SuperPOD 架構(gòu)尤為重要。

DGX SuperPOD 采用模塊化的設(shè)計,支持不同規(guī)模大小的設(shè)計。一個標(biāo)準(zhǔn)的SuperPOD 由140 臺DGX A100和三層Infiniband 交換機通過胖樹結(jié)構(gòu)全互聯(lián)起來。每臺DGX A100 配有8個200Gb/s 的高速計算網(wǎng),并配有2個200Gb/s的高速存儲網(wǎng),采用計算和存儲網(wǎng)絡(luò)分離的方案。

多個POD之間可以通過核心層交換機直連起來,可以支持多達560 臺DGX A100的互聯(lián)規(guī)模。

更多關(guān)于NVIDIA DGX SuperPOD 架構(gòu)的詳細設(shè)計,請參閱下列連接中的白皮書:https://images.nvidia.com/aem-dam/Solutions/Data-Center/gated-resources/nvidia-dgx-superpod-a100.pdf

NVIDIA Megatron 在 DGX SuperPOD 上的實踐

基于DGX SuperPOD 的Megatron實踐在不同大小的模型上,都表現(xiàn)出了很好的計算效率。

模型從1.7B 到1T ,訓(xùn)練規(guī)模從32 卡到3072 卡。

基于GPT-3 175B 模型的訓(xùn)練,采用如下的配置:

128 臺 DGX A100,總共 1024張 A100

Tensor 并行度:8;Pipeline 并行度:16; 數(shù)據(jù)并行度:8

全局Batch size : 1536;Micro-batch size: 1

在如此大的訓(xùn)練規(guī)模下,GPU 仍可達到44% 左右的計算效率,在規(guī)模和效率上,都遠遠超過已有的公開結(jié)果。

詳細內(nèi)容請參考以下鏈接:

Megatron repro: https://github.com/nvidia/megatron-lm

GPT3-175B training scripts: https://github.com/NVIDIA/Megatron-LM/blob/main/examples/pretrain_gpt3_175B.sh

總結(jié)

1. 大模型是大勢所趨。

2. 大規(guī)模分布式訓(xùn)練是訓(xùn)練大模型的必須。

3. NVIDIA Megatron 是開源的、軟硬協(xié)同設(shè)計的訓(xùn)練框架,專為Transformer-based的超大語言模型設(shè)計。

4. NVIDIA DGX SuperPOD 是開放的集群參考設(shè)計架構(gòu),專為大規(guī)模分布式訓(xùn)練而準(zhǔn)備。

5. Megatron 優(yōu)化的Tensor模型并行:用于intra-transformer 層,可以高效地執(zhí)行在HGX based的系統(tǒng)上。

6. Megatron優(yōu)化的 Pipeline 模型并行:用于inter-transformer 層,可以有效地利用集群中多網(wǎng)卡的設(shè)計。

7. 數(shù)據(jù)并行的加持,可以擴展到更大規(guī)模、訓(xùn)練更快。

8. GPT-3 175B 的大模型,在1024 張 A100上可達到44%左右的計算效率。

9. NVIDIA Megatron 的設(shè)計和實踐,已廣泛用于學(xué)術(shù)界和工業(yè)界。

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7002

    瀏覽量

    88941
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4978

    瀏覽量

    102987
  • 交換機
    +關(guān)注

    關(guān)注

    21

    文章

    2637

    瀏覽量

    99528
  • 分布式
    +關(guān)注

    關(guān)注

    1

    文章

    895

    瀏覽量

    74498

原文標(biāo)題:NVIDIA Megatron:超大Transformer語言模型的分布式訓(xùn)練框架 (二)

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    語言模型開發(fā)框架是什么

    語言模型開發(fā)框架是指用于訓(xùn)練、推理和部署大型語言模型的軟件工具和庫。下面,AI部落小編為您介紹
    的頭像 發(fā)表于 12-06 10:28 ?115次閱讀

    分布式通信的原理和實現(xiàn)高效分布式通信背后的技術(shù)NVLink的演進

    的大小已經(jīng)超出了單個 GPU 的范圍。所以就需要實現(xiàn)跨多個 GPU 的模型訓(xùn)練,這種訓(xùn)練方式就涉及到了分布式通信和 NVLink。 當(dāng)談及分布式
    的頭像 發(fā)表于 11-18 09:39 ?414次閱讀
    <b class='flag-5'>分布式</b>通信的原理和實現(xiàn)高效<b class='flag-5'>分布式</b>通信背后的技術(shù)NVLink的演進

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)知識學(xué)習(xí)

    收集海量的文本數(shù)據(jù)作為訓(xùn)練材料。這些數(shù)據(jù)集不僅包括語法結(jié)構(gòu)的學(xué)習(xí),還包括對語言的深層次理解,如文化背景、語境含義和情感色彩等。 自監(jiān)督學(xué)習(xí):模型采用自監(jiān)督學(xué)習(xí)策略,在大量無標(biāo)簽文本數(shù)據(jù)上學(xué)習(xí)
    發(fā)表于 08-02 11:03

    語言模型的預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點。大語言模型的預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟,它通過在海量無標(biāo)簽數(shù)據(jù)上進行訓(xùn)練,使模型學(xué)習(xí)到
    的頭像 發(fā)表于 07-11 10:11 ?417次閱讀

    Transformer語言模型簡介與實現(xiàn)過程

    在自然語言處理(NLP)領(lǐng)域,Transformer模型以其卓越的性能和廣泛的應(yīng)用前景,成為了近年來最引人注目的技術(shù)之一。Transformer模型
    的頭像 發(fā)表于 07-10 11:48 ?1625次閱讀

    使用PyTorch搭建Transformer模型

    Transformer模型自其問世以來,在自然語言處理(NLP)領(lǐng)域取得了巨大的成功,并成為了許多先進模型(如BERT、GPT等)的基礎(chǔ)。本文將深入解讀如何使用PyTorch
    的頭像 發(fā)表于 07-02 11:41 ?1597次閱讀

    摩爾線程攜手憨猴集團,深化AI算力戰(zhàn)略合作,成功實現(xiàn)大模型分布式訓(xùn)練

    摩爾線程與憨猴科技集團日前宣布,采用搭載摩爾線程的夸娥(KUAE)千卡智算集群,已成功完成了多個大模型分布式訓(xùn)練,涵蓋7B、34B以及70B三個不同的計算規(guī)模等級。
    的頭像 發(fā)表于 05-17 17:24 ?681次閱讀

    語言模型:原理與工程時間+小白初識大語言模型

    解鎖 我理解的是基于深度學(xué)習(xí),需要訓(xùn)練各種數(shù)據(jù)知識最后生成自己的的語言理解和能力的交互模型。 對于常說的RNN是處理短序列的數(shù)據(jù)時表現(xiàn)出色,耳真正厲害的是Transformer,此
    發(fā)表于 05-12 23:57

    【大語言模型:原理與工程實踐】大語言模型的預(yù)訓(xùn)練

    語言模型的核心特點在于其龐大的參數(shù)量,這賦予了模型強大的學(xué)習(xí)容量,使其無需依賴微調(diào)即可適應(yīng)各種下游任務(wù),而更傾向于培養(yǎng)通用的處理能力。然而,隨著學(xué)習(xí)容量的增加,對預(yù)訓(xùn)練數(shù)據(jù)的需求也相
    發(fā)表于 05-07 17:10

    【大語言模型:原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)

    語義學(xué)習(xí)的起點是研究如何將詞轉(zhuǎn)化為向量表示,這一直是自然語言處理領(lǐng)域的研究熱點。詞表示方法主要分為三種:詞的獨熱表示、詞的分布式表示和基于預(yù)訓(xùn)練的詞嵌入表示。 詞的獨熱表示:構(gòu)建包含所有詞的詞表V,獨
    發(fā)表于 05-05 12:17

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    語言模型(LLM)是人工智能領(lǐng)域的尖端技術(shù),憑借龐大的參數(shù)量和卓越的語言理解能力贏得了廣泛關(guān)注。它基于深度學(xué)習(xí),利用神經(jīng)網(wǎng)絡(luò)框架來理解和生成自然
    發(fā)表于 05-04 23:55

    【大語言模型:原理與工程實踐】探索《大語言模型原理與工程實踐》

    處理中預(yù)訓(xùn)練架構(gòu)Transformer,以及這些技術(shù)在現(xiàn)實世界中的如何應(yīng)用。通過具體案例的分析,作者展示了大語言模型在解決實際問題中的強大能力,同時也指出了當(dāng)前技術(shù)面臨的挑戰(zhàn)和局限性。
    發(fā)表于 04-30 15:35

    HarmonyOS實戰(zhàn)案例:【分布式賬本】

    Demo基于Open Harmony系統(tǒng)使用ETS語言進行編寫,本Demo主要通過設(shè)備認證、分布式拉起、分布式數(shù)據(jù)管理等功能來實現(xiàn)。
    的頭像 發(fā)表于 04-12 16:40 ?1312次閱讀
    HarmonyOS實戰(zhàn)案例:【<b class='flag-5'>分布式</b>賬本】

    鴻蒙OS 分布式任務(wù)調(diào)度

    形式、數(shù)據(jù)結(jié)構(gòu)、服務(wù)描述語言,屏蔽硬件差異;支持遠程啟動、遠程調(diào)用、業(yè)務(wù)無縫遷移等分布式任務(wù)。 分布式任務(wù)調(diào)度平臺在底層實現(xiàn) Ability(分布式任務(wù)調(diào)度的基本組件)跨設(shè)備的啟動/關(guān)
    的頭像 發(fā)表于 01-29 16:50 ?487次閱讀

    語言模型背后的Transformer,與CNN和RNN有何不同

    ? 電子發(fā)燒友網(wǎng)報道(文/李彎彎)近年來,隨著大語言模型的不斷出圈,Transformer這一概念也走進了大眾視野。Transformer是一種非常流行的深度學(xué)習(xí)
    的頭像 發(fā)表于 12-25 08:36 ?4027次閱讀
    大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>背后的<b class='flag-5'>Transformer</b>,與CNN和RNN有何不同
    RM新时代网站-首页