rm新时代跑路,RM新时代可以提现吗

我前兩天看到了一個挺震撼的視頻，科學家們在NASA戈達德空間飛行中心的天體物理學家指導下，使用Discover超級計算機模擬了跳入黑洞的過程。

畫面視覺效果攝人心魄，而一組數據同樣讓我感到震撼：該視頻生成10TB的數據，只用了5天，耗費了0.3%總算力。如果我們想用自己的筆記本電腦模擬這個場景，需要花費的時間是10年。

“時間就是金錢，效率就是生命”，這句改開時代的口號，在大模型驅動的智算時代，仍舊不過時。

算力作為生產力，所節(jié)約的不只是金錢，更重要的是時間。

目前算力集群已經從千卡，邁入了萬卡、五萬卡集群。甚至有媒體預測，GPT6未來部署的時候，需要70萬-80萬張卡才能支撐。

那問題來了，萬卡集群在執(zhí)行大規(guī)模訓練任務時負載重，發(fā)生軟硬件錯誤的概率，當然也就更高。萬卡時代，一張卡、一臺機器或一個鏈路的故障，都可能導致中斷，拖慢進程。那么十萬卡、百萬卡等更大數量級的提升，未來如何應對？

最近幾個月，我們團隊跟不少ICT廠商做了交流，簡單總結一下行業(yè)動向，那就是：邁入萬卡時代，必須“過三關”。

萬卡時代，做AI=“中彩票”？

有必要首先說明一下，為什么智能計算仍在“堆卡”？從千卡、萬卡到十萬卡、百萬卡，這個趨勢是可持續(xù)的嗎？

伴隨著模型規(guī)模與數據參數愈發(fā)龐大，在可以預見的未來，基礎設施層面的“堆卡”競賽仍將繼續(xù)。

目前，國際科技巨頭如谷歌、微軟、蘋果等，在算力集群建設上持續(xù)投入，其中AI算力占總算力支出的比例持續(xù)增長，預計到2025年將達到25%。放眼國內，萬卡及以上的組網也成為下一代智算中心的建設重點。

然而，算力集群卡的數量非線性增加，會帶來更大的不穩(wěn)定性和協(xié)作難度。正如新華三在前不久的媒體與分析師大會上所說，單卡單打獨斗我們（與N卡）有差距，多卡集群服務不能打群架。

（拍攝自新華三集團2024媒體與分析師溝通會）

我們知道，分布式并行訓練能夠加速訓練過程，是大模型常用的訓練方式，相當于將任務分配給多個AI硬件，組成協(xié)作節(jié)點和集群，主打一個“人多力量大”。但是，人多還得心齊啊，讓多卡用高效一致的步伐進行協(xié)作，卻是一件難事，容易出現“打群架”的情況。

多卡“打架”，集群就會因故障而中斷。

一位清華大學計算機教授曾分享過一個數據，其團隊寫一次容錯檢查點checkpoint需要三小時，這還是世界先進水平（未經優(yōu)化前）。

工作三小時就得被迫停下，活（訓練過程）又一點不能少，只能加班加點。普通打工人聽了都得“抓狂”，更別說要跟技術創(chuàng)新?lián)屗俣取⒆鳂I(yè)生產要效率的產學界了。

多卡集群“不打群架”，將算力最大化地有效使用起來，發(fā)揮每一張GPU的價值，提升訓練效率，對開發(fā)人員來說，堪比中“彩票”，價值很大，但概率卻不定。

顯然，千行百業(yè)智能化，當然不能靠“中彩”和運氣。

當算力集群即將從萬卡，邁入五萬、十萬乃至百萬卡的清晰未來，我們不能只以單一的規(guī)模和FLOPS浮點運算次數，來衡量智算中心的綜合水平。其他因素也同樣重要，比如集群擴展性、兼容性、算效比、能耗比等。

如何提供一個穩(wěn)定可靠高性能的智算基礎設施，萬卡時代要“過三關”。

第一關：闖過資源墻

超大規(guī)模集群的不穩(wěn)定性，一方面要對抗硬件數量非線性增長帶來的“增熵”。

隨著集群增大，AI芯片也會出現算力衰減的情況。支撐穩(wěn)定高效的訓練，就需要優(yōu)化分布式計算系統(tǒng)的并行加速比。

更高的加速比，可以讓集群在執(zhí)行同一任務時，獲得更高的速度和效率。也就是說，算力集群能夠最大限度地一直運轉，那么有效訓練時間的比例更高，是開發(fā)人員衡量集群性能的一個關鍵。

比如國產大模型文心4.0，就通過百度智能云的萬卡集群進行訓練，支持模型的穩(wěn)定高效迭代進化。目前，百度智能云上萬卡訓練集群的加速比和有效訓練時間，達到 95% 以上。

（拍攝自IPF2024浪潮信息生態(tài)伙伴大會）

另一方面，中國智算還有一個特殊的要求，那就是闖過多元異構算力的“資源墻（resource wall)”。

不少智算中心，使用不一樣的AI芯片服務器組成異構集群合池訓練，共同完成一個大模型訓練。尤其是此前GPU緊缺的情況下，一些數據中心、智算中心在不同時期，購買了不同的GPU，形成了不同類型、不同版本的異構集群。

多元異構的國產算力，既能以用促建，促進國產AI芯片的發(fā)展，減少對海外單一供應鏈的依賴，也能發(fā)揮不同類型芯片的特性，提高計算資源的利用率和訓練效率。

但要將多元異構算力進行合池訓練，會帶來精度誤差、同步問題，以及更復雜的資源管理和調度策略，更高的開發(fā)運維難度等。

未來，每個行業(yè)、每家公司都可能訓練自己的大模型，帶來充沛、高效、穩(wěn)定的AI算力需求。讓十萬百萬級集群、多元異構的算卡，以高效一致的步伐進行協(xié)作，將成為中國智算行業(yè)的關鍵挑戰(zhàn)。

第二關：踏寬通信路

如果網絡通信的聯(lián)接能力不暢，大量算力資源折損在傳輸過程中，給智算中心與AI模型開發(fā)者帶來的損失都是難以估量的。

如何將大量算卡有效地連接起來，形成一個高效穩(wěn)定的計算網絡，是支撐超大規(guī)模集群的關鍵。

需要說明的是，網絡作為算力運輸的道路，并不能無止境地拓寬。集群網絡，尤其是萬卡、十萬卡集群網絡的拓展，會受到幾方面的制約。

首先是成本上，萬卡乃至五萬卡集群，所需要的網絡設備數、端口數、光模塊數量，可能會達到百萬級別。而一個普通的400G光模塊功耗就在10瓦到12瓦，當一個網絡需要一萬多個光模塊，僅僅是電費成本都非常龐大。

此外，有業(yè)內人士向我們表示，萬卡集群還容易搭建起來，未來如果要有百萬卡集群來訓練的大模型，可能整個城市的電都不夠用。解決這個問題，那就需要分區(qū)、跨城域的算網，比如將多個萬卡集群連起來，組成五萬卡、十萬卡集群。這就需要超高帶寬的400G甚至800G網絡，低時延、無損地支撐算力資源調度。

而一張運力強大、輻射范圍廣的算力網絡，意味著管理運維的難度，也前所未有地增大了，依靠傳統(tǒng)人力運維是不現實、不高效的。通過智能化、平臺化、自動化，來實現更有效的網絡納管，是華為、新華三等ICT廠商正在探索的方向。

第三關：走出軟件生態(tài)叢林

鄭緯民院士曾提到一個觀點：目前國內已經有30多家公司推出了國產AI芯片，“但用戶不太喜歡用，核心問題就是生態(tài)不好”。

這里的生態(tài)，指的是國產軟件生態(tài)。

目前，編程框架、并行加速、通信庫、算子庫、AI編譯器、編程語言、調度器、內存分配系統(tǒng)、容錯系統(tǒng)、存儲系統(tǒng)等關鍵軟件，雖然都有國產的，但仍有不足之處，比如功能不夠齊全、性能不夠好、生態(tài)貢獻者不夠繁榮等。

在鄭院士看來，如果能把軟件問題解決好，那么國產AI芯片硬件性能達到國外芯片的60%，大多數用戶也可以是滿意的，國產AI卡也會大受歡迎。軟件做不好，國產硬件再好，也沒有市場。

而萬卡時代，意味著AI硬件的種類更多，既有不同架構，還有不同品類、不同版本。企業(yè)或開發(fā)者想要著手AI模型和應用開發(fā)，會在復雜的軟件生態(tài)中暈頭轉向，很難快速找到路徑。

比如說，每個芯片廠商都有自己的底層軟件棧，且彼此不兼容，這就給AI開發(fā)者帶來了大量移植工作，適配遷移的操作繁瑣，時間、人力、金錢成本都很高。

我們注意到，2024年以來，幫助企業(yè)和AI開發(fā)者加快走出軟件叢林，不少智算廠商都在強化AI軟件賦能。比如寧暢在3月提出了“全局智算”戰(zhàn)略，以“AI軟動力”支持“精、準、穩(wěn)”的AI集群設計，幫助客戶實現大規(guī)模AI集群方案架構設計；中科曙光首次提出了“立體計算”體系，在“建、用、生態(tài)”三維發(fā)力的全新計算體系中，加大對軟件生態(tài)的投入和支持；4月浪潮信息發(fā)布的企業(yè)大模型開發(fā)平臺“元腦企智（EPAI）”，通過端到端的解決方案，為企業(yè)提供AI應用開發(fā)全流程的系列工具。

可以看到，“軟硬兼施”的均衡能力，正在成為智算市場的兵家必爭之地。

（拍攝自寧暢全局智算發(fā)布會）

大模型正在重塑產品、企業(yè)和社會，AI將無處不在，也讓萬卡時代成為一個確定性的未來。五萬卡、十萬卡乃至百萬卡的算力集群，將是第四次工業(yè)革命的蒸汽機、發(fā)動機。

量子力學的創(chuàng)始人海森堡說過，提出正確的問題，往往等于解決了問題的大半。

從這個角度來說，正在闖關的中國智算行業(yè)，一定能在萬卡時代，將算力的“心臟”握在自己手中。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

超級計算機

超級計算機

+關注

關注
2

文章
461

瀏覽量
41942
算力

算力

+關注

關注
1

文章
964

瀏覽量
14793
智算中心

智算中心

+關注

關注
0

文章
68

瀏覽量
1691

哈爾濱即將迎來算力新紀元:中國移動智算中心節(jié)點盛大啟用

8月22日，來自“哈爾濱發(fā)布”公眾號的最新消息振奮人心，宣布了中國移動智算中心（哈爾濱）節(jié)點的一項重大進展——其超萬卡智算集群將于8月30日

發(fā)表于 08-22 15:19 ?656次閱讀

大模型時代的算力需求

現在AI已進入大模型時代，各企業(yè)都爭相部署大模型，但如何保證大模型的算力，以及相關的穩(wěn)定性和性能，是一個極為重要的問題，帶著這個極為重要的問題，我需要在此書中找到答案。

發(fā)表于 08-20 09:04

中國電信上海、北京兩個萬卡集群已經投產

中國電信在智算領域的發(fā)展迎來重要里程碑。近日，中國電信宣布，其上海、北京兩個萬卡智算集群已正式投

發(fā)表于 08-09 17:47 ?726次閱讀

從千卡集群卡到萬卡集群，燧原科技打造更好的AI算力底座

：WAIC 2024）上，不僅有國內各大模型廠商同場競技，也有豐富的算力基礎設施展示，其中包括專注人工智能領域云端算力產品的燧原科技。 ? 燧原科技展臺從千卡集群到萬

發(fā)表于 07-07 09:45 ?2296次閱讀

從千<b class='flag-5'>卡</b>集群卡到<b class='flag-5'>萬</b><b class='flag-5'>卡</b>集群，燧原科技打造更好的AI<b class='flag-5'>算</b>力底座

壁仞科技為中國移動呼和浩特智算中心提供強大算力

中心提供強大算力。該項目成功上線運營，標志著雙方在智能計算領域的深度合作邁出了堅實的步伐。 ? 中國移動智算中心（呼和浩特）屬于全國型N節(jié)點萬卡

發(fā)表于 07-05 17:16 ?1269次閱讀

萬卡集群解決大模型訓算力需求，建設面臨哪些挑戰(zhàn)

解決大模型訓練對算力需求的巨大增長問題，尤其是現在模型參數量從百億級、千億級邁向萬億級。 ? 國內外企業(yè)積極構建萬卡集群 ? 目前，在國際上，包括微軟、Google、Meta等AI領域的巨頭，都已落子超

發(fā)表于 06-02 06:18 ?4684次閱讀

近6萬張加速卡！中國移動新建3個超大規(guī)模智算中心

在第七屆數字中國建設峰會期間，中國移動正式發(fā)布了由萬卡級智算集群、千億多模態(tài)大模型、匯聚百大要素的生態(tài)平臺共同構成的“九天”人工智能基座。

發(fā)表于 05-29 11:36 ?657次閱讀

中國移動年內將投產多個超萬卡智算中心

在中國移動人工智能生態(tài)大會上，中國移動揭開了其全新“九天”人工智能基座的神秘面紗。這一基座由萬卡級智算集群、千億多模態(tài)大模型及匯聚百大要素的

發(fā)表于 05-28 09:27 ?658次閱讀

中國移動將商用三個自主可控萬卡集群

中國移動在近日舉辦的2024年算力網絡大會上宣布了重要計劃。據中國移動副總經理高同慶透露，公司今年將正式商用三個具有完全自主控制權的萬

發(fā)表于 05-06 10:21 ?568次閱讀

軟通動力亮相2024中國移動算力網絡大會，共繪算力網絡新藍圖

4月28日至29日，以“算力網絡點亮AI新時代”為主題的2024中國移動算力網絡大會在蘇州隆重舉行。

發(fā)表于 05-06 10:20 ?468次閱讀

中國移動發(fā)布基于飛騰CPU自主研發(fā)的賦能AI算力時代的新產品

4月16日，在中國南京舉辦的 “2024 全球 6G 技術大會”上，中國移動發(fā)布了基于飛騰 CPU 自主研發(fā)的賦能 AI 算力時代的新產品——“靈云” 無線通

發(fā)表于 04-17 18:12 ?1428次閱讀

中國第三代自主超導量子計算機“本源悟空”入駐國家超算互聯(lián)網

中國第三代自主超導量子計算機“本源悟空”日前正式入駐國家超算互聯(lián)網平臺，中國最先進的量子算力、超級算

發(fā)表于 04-04 08:21 ?324次閱讀

一圖看懂星河AI數據中心網絡，全面釋放AI時代算力

華為中國合作伙伴大會 | 一圖看懂星河AI數據中心網絡，以網強算，全面釋放AI時代算力

發(fā)表于 03-22 10:28 ?751次閱讀

中國電信規(guī)劃在上海建設首個國產超大規(guī)模算力液冷集群

中國電信規(guī)劃建設首個國產超大規(guī)模算力液冷集群人工智能技術的快速發(fā)展催生了巨大的算力需求；中國電信規(guī)劃在上海規(guī)劃建設可支持萬億參數大模型訓練的智算

發(fā)表于 02-22 18:48 ?1326次閱讀

寧暢賦能吉利星睿智算中心，引領中國汽車“智算時代”

日前，2023年數字中國萬里行暨算力經濟中國行活動走進吉利星睿智算中心。吉利星睿智算中心作為全球

發(fā)表于 01-30 17:13 ?995次閱讀