RM新时代正规平台入口-百度知道,RM新时代app下载

電子發(fā)燒友網(wǎng)報(bào)道（文/梁浩斌）過(guò)去幾年中爆發(fā)的AI算力需求，英偉達(dá)GPU成為了最大的贏家，無(wú)論是自動(dòng)駕駛還是AI大模型，比如特斯拉、小鵬、OpenAI、字節(jié)跳動(dòng)等廠商都在爭(zhēng)相搶購(gòu)英偉達(dá)GPU產(chǎn)品，獲得足夠的算力構(gòu)建自己的計(jì)算中心，用于訓(xùn)練不同應(yīng)用的AI模型。

AI領(lǐng)域眾星捧月也造就了英偉達(dá)市值曾突破三萬(wàn)億美元，并短暫登頂全球第一的位置。不過(guò)蘋果卻反其道而行之，在7月底蘋果公司揭露的官方論文顯示，蘋果自研大模型AFM背后，完全沒(méi)有英偉達(dá)GPU的影子。

蘋果大模型訓(xùn)練，選擇了谷歌芯片

在蘋果近期揭露的一篇技術(shù)論文中，詳細(xì)介紹了蘋果在端側(cè)和服務(wù)器側(cè)的大模型。在大模型預(yù)訓(xùn)練的階段，蘋果基礎(chǔ)模型是在AXLearn框架上進(jìn)行訓(xùn)練的，據(jù)蘋果介紹，AXLearn框架是蘋果公司在2023年發(fā)布的開源項(xiàng)目，這個(gè)框架建立在JAX和XLA的基礎(chǔ)上，允許模型在各種硬件和云平臺(tái)上進(jìn)行高效和可擴(kuò)展性訓(xùn)練，包括TPU以及云端和本地的GPU。

蘋果采用了數(shù)據(jù)并行、張量并行、序列并行和完全分片數(shù)據(jù)并行（FSDP）的組合來(lái)沿多個(gè)維度擴(kuò)展訓(xùn)練，如數(shù)據(jù)規(guī)模、模型規(guī)模和序列長(zhǎng)度。

其中，蘋果的AFM服務(wù)器端大模型是蘋果規(guī)模最大的語(yǔ)言模型，該模型在8192個(gè)TPUv4芯片上進(jìn)行了預(yù)訓(xùn)練，這些芯片被配置成8*1024個(gè)芯片集群，通過(guò)數(shù)據(jù)中心網(wǎng)絡(luò)（DCN）連接。預(yù)訓(xùn)練有三個(gè)階段，首先使用 6.3 萬(wàn)億個(gè)Tokens開始，接著使用 1 萬(wàn)億個(gè)Tokens繼續(xù)訓(xùn)練，最后使用 1000 億個(gè)Tokens進(jìn)行上下文長(zhǎng)度的擴(kuò)展。

而在AFM的端側(cè)模型上，蘋果對(duì)其進(jìn)行了大幅修剪，論文披露AFM端側(cè)模型是一個(gè)擁有30億參數(shù)的模型，該模型是從64億參數(shù)的服務(wù)器模型中蒸餾而來(lái)，而這個(gè)服務(wù)器模型則是在完整的6.3萬(wàn)億參數(shù)量上進(jìn)行訓(xùn)練。

與服務(wù)器端模型不同的是，AFM端側(cè)模型采用的芯片是谷歌的TPUv5，論文中的信息顯示，AFM端側(cè)模型是在一個(gè)由2048個(gè)TPUv5p芯片組成的集群上進(jìn)行訓(xùn)練的。

谷歌在去年12月發(fā)布了TPUv5p，面向云端AI加速，谷歌稱之為“迄今為止最強(qiáng)大、可擴(kuò)展性最強(qiáng)和最靈活的人工智能加速器”。

TPUv5p在bfloat16精度下可以提供459 teraFLOPS（每秒可執(zhí)行459萬(wàn)億次浮點(diǎn)運(yùn)算）算力；在Int8精度下，TPU v5p可以提供918 teraOPS（每秒可執(zhí)行918萬(wàn)億次整數(shù)運(yùn)算）；支持95GB的HBM內(nèi)存，帶寬高達(dá)2.76 TB/s。

相比上一代的TPU v4，TPUv5p實(shí)現(xiàn)了每秒浮點(diǎn)運(yùn)算次數(shù)提高一倍，內(nèi)存帶寬是前代的三倍，訓(xùn)練大模型速度提升2.8倍，并且性價(jià)比是前代的2.1倍。

除了蘋果之外，目前采用谷歌TPU系列芯片進(jìn)行大模型訓(xùn)練的還有谷歌自家的Gemini、PaLM，以及OpenAI前副總裁創(chuàng)立的Anthropic所推出的Claude大模型，上個(gè)月Anthropic發(fā)布的Llama 3.1 405B還被認(rèn)為是最強(qiáng)開源大模型。

蘋果、谷歌、Anthropic的實(shí)例，證明了TPU在大模型訓(xùn)練上的能力。但相比于英偉達(dá)，TPU目前在大模型領(lǐng)域的應(yīng)用依舊只是冰山一角，背后更多的大模型公司，包括OpenAI、特斯拉、字節(jié)跳動(dòng)等巨頭，主力AI數(shù)據(jù)中心依然是普遍采用英偉達(dá)GPU。

英偉達(dá)的挑戰(zhàn)者們

一直以來(lái)，圍繞CUDA打造的軟件生態(tài)，是英偉達(dá)在GPU領(lǐng)域最大的護(hù)城河，尤其是隨著目前AI領(lǐng)域的發(fā)展加速，市場(chǎng)火爆，英偉達(dá)GPU+CUDA的開發(fā)生態(tài)則更加穩(wěn)固，AMD、英特爾等廠商雖然在努力追趕，但目前還未能看到有威脅英偉達(dá)地位的可能。

但市場(chǎng)的火爆難免吸引更多的玩家入局，對(duì)英偉達(dá)發(fā)起挑戰(zhàn)，或者說(shuō)是在AI廣闊的市場(chǎng)空間中，希望分得一杯羹。

首先是英偉達(dá)在GPU領(lǐng)域的最大對(duì)手AMD ，今年一月有研究人員在Frontier超算集群上，利用其中8%左右的GPU，訓(xùn)練出一個(gè)GPT 3.5級(jí)別規(guī)模的大模型。而Frontier超算集群是完全基于AMD硬件的，由37888個(gè)MI250X GPU和9472個(gè)Epyc 7A53 CPU組成，這次研究也突破了在AMD硬件上突破了先進(jìn)分布式訓(xùn)練模型的難點(diǎn)，為AMD平臺(tái)訓(xùn)練大模型驗(yàn)證了可行性。

同時(shí)，CUDA生態(tài)也在逐步擊破，今年7月英國(guó)公司Spectral Compute推出了可以為AMD GPU原生編譯CUDA源代碼的方案，大幅提高了AMD GPU對(duì)CUDA的兼容效率。

英特爾的Gaudi 3 也在發(fā)布時(shí)直接對(duì)標(biāo)英偉達(dá)H100，并宣稱在模型訓(xùn)練速度和推理速度上分別比英偉達(dá)H100提高了40%和50%。

除了芯片巨頭外，也不乏來(lái)自初創(chuàng)公司的沖擊。比如Groq推出的LPU、Cerebras推出的Wafer Scale Engine 3、Etched推出的Sohu等等。國(guó)內(nèi)方面，有走多卡集群訓(xùn)練路線的初創(chuàng)公司，比如摩爾線程在今年6月宣布與羽人科技合作成功實(shí)現(xiàn)了摩爾線程夸娥（KUAE）千卡智算集群與羽人系列模型解決方案的訓(xùn)練兼容適配，高效完成了70億參數(shù)羽人大語(yǔ)言模型YuRen-7b的訓(xùn)練測(cè)試。

摩爾線程夸娥方案基于全功能MTT S4000 GPU，該GPU采用了第三代MUSA內(nèi)核，單卡支持48GB顯存容量和768GB/s的顯存帶寬，F(xiàn)P16算力為100TFLOPS。值得一提的是，MTT S4000計(jì)算卡借助摩爾線程自研開發(fā)工具，可以充分兼容現(xiàn)有CUDA軟件生態(tài)，實(shí)現(xiàn)CUDA代碼零成本遷移到MUSA平臺(tái)。

天數(shù)智芯也與智源研究院、愛(ài)特云翔合作，提供天垓100加速卡、構(gòu)建算力集群及全程技術(shù)支持，實(shí)現(xiàn)基于自主通用GPU的大模型CodeGen（高效編碼）項(xiàng)目，通過(guò)中文描述來(lái)生成可用的C、Java、Python代碼以實(shí)現(xiàn)高效編碼。

另外值得一提的是，國(guó)內(nèi)還有一家走TPU路線的AI芯片公司——中昊芯英。該公司在2023年底推出了國(guó)內(nèi)首款量產(chǎn)TPU AI訓(xùn)練芯片“剎那”，據(jù)稱在處理大模型訓(xùn)練和推理任務(wù)時(shí)相比英偉達(dá)A100，性能提高近150%，能耗下降30%，單位算力成本僅為A100的42%。

當(dāng)然，除了芯片公司，據(jù)現(xiàn)有的信息，目前主流的云服務(wù)供應(yīng)商，比如前面提到的谷歌，還有亞馬遜、微軟、Meta、阿里巴巴、字節(jié)跳動(dòng)、百度、華為等都有自研芯片的布局，其中還包括用于AI大模型訓(xùn)練的芯片。

寫在最后

從長(zhǎng)遠(yuǎn)來(lái)看，自研芯片是云服務(wù)供應(yīng)商有效降低算力成本的方式之一，當(dāng)AI大模型訓(xùn)練成為了云計(jì)算的重要用途時(shí)，自研AI訓(xùn)練芯片自然也是云服務(wù)廠商的長(zhǎng)遠(yuǎn)之計(jì)。蘋果作為消費(fèi)電子巨頭已經(jīng)邁出了重要的一步，即擺脫對(duì)英偉達(dá)的算力依賴，并且還有大量的挑戰(zhàn)者正在蠢蠢欲動(dòng)。星星之火，可以燎原，英偉達(dá)在AI訓(xùn)練領(lǐng)域的地位，可能沒(méi)有表面看起來(lái)那么穩(wěn)固。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

gpu

gpu

+關(guān)注

關(guān)注
28

文章
4729

瀏覽量
128890
蘋果

蘋果

+關(guān)注

關(guān)注
61

文章
24395

瀏覽量
198548
AI

AI

+關(guān)注

關(guān)注
87

文章
30728

瀏覽量
268882
英偉達(dá)

英偉達(dá)

+關(guān)注

關(guān)注
22

文章
3770

瀏覽量
90982
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2423

瀏覽量
2640

評(píng)論

相關(guān)推薦

GPU是如何訓(xùn)練AI大模型的

在AI模型的訓(xùn)練過(guò)程中，大量的計(jì)算工作集中在矩陣乘法、向量加法和激活函數(shù)等運(yùn)算上。這些運(yùn)算正是GPU所擅長(zhǎng)的。接下來(lái)，AI部落小編帶您了解GPU

發(fā)表于 12-19 17:54 ?79次閱讀

英偉達(dá)發(fā)布AI模型 Llama-3.1-Nemotron-51B AI模型

英偉達(dá)公司宣布推出 Llama-3.1-Nemotron-51B AI 模型，這個(gè)AI大模型是源

發(fā)表于 09-26 17:30 ?604次閱讀

英偉達(dá)與阿聯(lián)酋G42合作開發(fā)天氣預(yù)測(cè)AI模型

英偉達(dá)近期宣布與阿聯(lián)酋的領(lǐng)先AI應(yīng)用開發(fā)企業(yè)G42達(dá)成戰(zhàn)略合作，共同探索天氣預(yù)測(cè)技術(shù)的新前沿。雙方將整合各自的技術(shù)優(yōu)勢(shì)，依托英偉達(dá)的Eart

發(fā)表于 09-24 15:41 ?269次閱讀

英偉達(dá)Blackwell可支持10萬(wàn)億參數(shù)模型AI訓(xùn)練，實(shí)時(shí)大語(yǔ)言模型推理

、NVLink交換機(jī)、Spectrum以太網(wǎng)交換機(jī)和Quantum InfiniBand交換機(jī)。 ? 英偉達(dá)稱，Blackwell擁有6項(xiàng)革命性技術(shù)，可支持多達(dá)10萬(wàn)億參數(shù)的模型進(jìn)行AI

發(fā)表于 09-04 09:10 ?2887次閱讀

英偉達(dá)推出Eagle系列模型

英偉達(dá)最新推出的Eagle系列模型，以其1024×1024像素的高分辨率處理能力，重新定義了視覺(jué)信息處理的邊界。該模型通過(guò)多專家視覺(jué)編碼器架構(gòu)，每個(gè)編碼器專注于特定任務(wù)訓(xùn)練，極大地增強(qiáng)

發(fā)表于 09-03 16:13 ?450次閱讀

英偉達(dá)震撼發(fā)布:全新AI模型參數(shù)規(guī)模躍升至80億量級(jí)

8月23日，英偉達(dá)宣布，其全新AI模型面世，該模型參數(shù)規(guī)模高達(dá)80億，具有精度高、計(jì)算效益大等優(yōu)勢(shì)，適用于

發(fā)表于 08-23 16:08 ?727次閱讀

蘋果AI模型訓(xùn)練新動(dòng)向：攜手谷歌，未選英偉達(dá)

近日，蘋果公司發(fā)布的最新研究報(bào)告揭示了其在人工智能領(lǐng)域的又一重要戰(zhàn)略選擇——采用谷歌設(shè)計(jì)的芯片來(lái)訓(xùn)練其AI模型，而非行業(yè)巨頭英偉達(dá)的產(chǎn)品。這

發(fā)表于 08-01 18:11 ?918次閱讀

英偉達(dá)推出AI模型推理服務(wù)NVIDIA NIM

英偉達(dá)近日宣布推出一項(xiàng)革命性的AI模型推理服務(wù)——NVIDIA NIM。這項(xiàng)服務(wù)將極大地簡(jiǎn)化AI模型

發(fā)表于 06-04 09:15 ?674次閱讀

英偉達(dá)首席執(zhí)行官黃仁勛：AI模型推動(dòng)英偉達(dá)AI芯片需求

近來(lái)，以ChatGPT為代表的AI聊天機(jī)器人已經(jīng)導(dǎo)致英偉達(dá)AI芯片供應(yīng)緊張。然而，隨著能夠創(chuàng)造視頻并進(jìn)行近似人類交流的新型AI

發(fā)表于 05-24 10:04 ?489次閱讀

進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級(jí)芯片

計(jì)算工作負(fù)載、釋放百億億次計(jì)算能力和萬(wàn)億參數(shù)人工智能模型的全部潛力提供關(guān)鍵基礎(chǔ)。 NVLink釋放數(shù)萬(wàn)億參數(shù)AI模型的加速性能，顯著提升大型多GPU系統(tǒng)的可擴(kuò)展性。每個(gè)

發(fā)表于 05-13 17:16

研華與英偉達(dá)深化合作，成為NVIDIA AI Enterprise軟件全球分銷商

近日，研華宣布擴(kuò)大與英偉達(dá)的合作，未來(lái)將通過(guò)工業(yè)級(jí)邊緣計(jì)算和英偉達(dá) AI Enterprise

發(fā)表于 05-10 10:25 ?435次閱讀

微軟自研AI大模型即將問(wèn)世

微軟正悄然醞釀一項(xiàng)重大技術(shù)突破，據(jù)內(nèi)部消息人士透露，公司正全力訓(xùn)練一款名為“MAI-1”的自研人工智能大模型。這款模型備受期待，其規(guī)模龐大，足以與谷歌的Gemini和OpenAI的Ch

發(fā)表于 05-07 14:46 ?471次閱讀

國(guó)產(chǎn)GPU在AI大模型領(lǐng)域的應(yīng)用案例一覽

電子發(fā)燒友網(wǎng)報(bào)道（文/李彎彎）近一年多時(shí)間，隨著大模型的發(fā)展，GPU在AI領(lǐng)域的重要性再次凸顯。雖然相比英偉達(dá)等國(guó)際大廠，國(guó)產(chǎn)

發(fā)表于 04-01 09:28 ?3785次閱讀

英偉達(dá)市值躍居全球第四文生視頻大模型Sora帶動(dòng)

英偉達(dá)市值躍居全球第四文生視頻大模型Sora帶動(dòng) 文生視頻大模型Sora引發(fā)市場(chǎng)關(guān)注；OpenAI的首款文生視頻大模型Sora橫空出世帶動(dòng)

發(fā)表于 02-19 16:48 ?993次閱讀

英偉達(dá)缺貨？OpenAI選擇自研芯片

勢(shì)在必行。然而掀起這股AI洪流，或者說(shuō)將其推向浪尖的“始作俑者”，OpenAI，卻也已經(jīng)在計(jì)劃著自研芯片。 ? 有了英偉達(dá)供應(yīng)的前提下為何要

發(fā)表于 01-30 00:51 ?3708次閱讀

RM新时代网站-首页

搜索歷史

AI大模型不再依賴英偉達(dá)GPU？蘋果揭秘自研大模型

評(píng)論

GPU是如何訓(xùn)練AI大模型的

英偉達(dá)發(fā)布AI模型 Llama-3.1-Nemotron-51B AI模型

英偉達(dá)與阿聯(lián)酋G42合作開發(fā)天氣預(yù)測(cè)AI模型

英偉達(dá)Blackwell可支持10萬(wàn)億參數(shù)模型AI訓(xùn)練，實(shí)時(shí)大語(yǔ)言模型推理

英偉達(dá)推出Eagle系列模型

英偉達(dá)震撼發(fā)布:全新AI模型參數(shù)規(guī)模躍升至80億量級(jí)

蘋果AI模型訓(xùn)練新動(dòng)向：攜手谷歌，未選英偉達(dá)

英偉達(dá)推出AI模型推理服務(wù)NVIDIA NIM

英偉達(dá)首席執(zhí)行官黃仁勛：AI模型推動(dòng)英偉達(dá)AI芯片需求

進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級(jí)芯片

研華與英偉達(dá)深化合作，成為NVIDIA AI Enterprise軟件全球分銷商

微軟自研AI大模型即將問(wèn)世

國(guó)產(chǎn)GPU在AI大模型領(lǐng)域的應(yīng)用案例一覽

英偉達(dá)市值躍居全球第四文生視頻大模型Sora帶動(dòng)

英偉達(dá)缺貨？OpenAI選擇自研芯片

搜索歷史

AI大模型不再依賴英偉達(dá)GPU？蘋果揭秘自研大模型

評(píng)論

AI大模型不再依賴英偉達(dá)GPU？蘋果揭秘自研大模型