12月3日-5日,中國(guó)電信在廣州舉辦“2024數(shù)字科技生態(tài)大會(huì)”,本屆大會(huì)以“AI賦能 共筑數(shù)字新生態(tài)”為主題,在“科技創(chuàng)新合作論壇”上,壁仞科技聯(lián)合中國(guó)電信研究院、江蘇電信、中興通訊、上海人工智能實(shí)驗(yàn)室等發(fā)布了“智算異構(gòu)四芯混訓(xùn)解決方案”,打造算力、網(wǎng)絡(luò)、平臺(tái)、通信庫、框架全棧異構(gòu)方案,實(shí)現(xiàn)異構(gòu)算力的互聯(lián)互通、互調(diào)互算,基于壁仞科技、英偉達(dá)等GPU完成四款異構(gòu)芯片混合訓(xùn)練同一個(gè)大模型的測(cè)試驗(yàn)證,突破大模型算力孤島難題,引領(lǐng)業(yè)界異構(gòu)混訓(xùn)技術(shù)發(fā)展趨勢(shì)。
面對(duì)高端算力供應(yīng)緊張、國(guó)產(chǎn)芯片百花齊放、智算中心擴(kuò)容混建等導(dǎo)致的異構(gòu)算力孤島問題,壁仞科技聯(lián)合中國(guó)電信等共同打造異構(gòu)多芯混池訓(xùn)練解決方案,開創(chuàng)算力使用新模式,緩解因不同芯片體系架構(gòu)及軟件生態(tài)存在較大差異性,導(dǎo)致異構(gòu)算力聚合困難,無法實(shí)現(xiàn)“超大算力”統(tǒng)一供給的挑戰(zhàn)。異構(gòu)多芯混合訓(xùn)練主要面臨異構(gòu)網(wǎng)絡(luò)易擁塞、異構(gòu)芯片互聯(lián)互通難、異構(gòu)芯片混訓(xùn)木桶效應(yīng)等三大挑戰(zhàn)。
異構(gòu)多芯混訓(xùn)解決方案,實(shí)現(xiàn)了統(tǒng)一RDMA網(wǎng)絡(luò)擁塞控制、統(tǒng)一異構(gòu)集合通信庫、統(tǒng)一異構(gòu)訓(xùn)練框架。針對(duì)異構(gòu)網(wǎng)絡(luò)易擁塞問題,構(gòu)建統(tǒng)一RDMA網(wǎng)絡(luò)擁塞控制機(jī)制,支持RDMA多鏈路異構(gòu)端網(wǎng)協(xié)同擁塞控制,跨異構(gòu)芯片并行通信性能相比通用流量調(diào)度提升30%;針對(duì)異構(gòu)芯片互聯(lián)互通難問題,構(gòu)建統(tǒng)一異構(gòu)集合通信庫,屏蔽底層異構(gòu)芯片差異,業(yè)界首次通過GDR(GPUDirect RDMA)實(shí)現(xiàn)高速低延時(shí)異構(gòu)通信,異構(gòu)通信效率大于98%;針對(duì)異構(gòu)芯片混訓(xùn)木桶效應(yīng)問題,構(gòu)建統(tǒng)一異構(gòu)混合訓(xùn)練框架,通過異構(gòu)芯片算力感知進(jìn)行非均勻拆分優(yōu)化,支持國(guó)際主流模型LLaMA-2、中國(guó)電信自研TeleChat等大模型,四芯混訓(xùn)效率可達(dá)同構(gòu)訓(xùn)練效率的95%,實(shí)現(xiàn)異構(gòu)算力芯片高效互聯(lián)互通及算力聚合。
此前壁仞科技的壁礪系列通用GPU算力產(chǎn)品已經(jīng)在中國(guó)電信落地千卡集群并開展商業(yè)化落地應(yīng)用,另外在中國(guó)電信集團(tuán)新一輪國(guó)產(chǎn)化GPU集采項(xiàng)目中,壁仞科技的主流GPU產(chǎn)品已經(jīng)納入中國(guó)電信的集采名錄,成為中國(guó)電信的主要GPU供應(yīng)商。國(guó)產(chǎn)GPU加快落地的過程中正在在逐步擴(kuò)大算力規(guī)模,為破解這一過程中的“大模型算力孤島”難題,壁仞科技一直在積極開展異構(gòu)GPU協(xié)同訓(xùn)練技術(shù)攻關(guān),在2024年9月發(fā)布的自主原創(chuàng)異構(gòu)GPU協(xié)同訓(xùn)練方案HGCT中,已率先支持3種及以上異構(gòu)GPU混合訓(xùn)練同一個(gè)大模型,用一套統(tǒng)一方案支持多種不同廠商、不同型號(hào)的GPU,而且一行代碼適配多種框架。
此次,壁仞科技攜手中國(guó)電信等合作伙伴取得新的突破,完成異構(gòu)四芯混訓(xùn)測(cè)試驗(yàn)證,共同打造異構(gòu)算力生態(tài),借助中國(guó)電信“大息壤”平臺(tái)算網(wǎng)一體化調(diào)度核心能力及中國(guó)電信智算拉遠(yuǎn)方案,突破單集群異構(gòu)限制,整合國(guó)產(chǎn)芯片擴(kuò)大單一算力池規(guī)模,形成更大規(guī)模算力能力,提升大模型能力上限,推動(dòng)國(guó)產(chǎn)GPU產(chǎn)業(yè)和大模型產(chǎn)業(yè)發(fā)展與繁榮。
-
中國(guó)電信
+關(guān)注
關(guān)注
22文章
3453瀏覽量
62252 -
異構(gòu)
+關(guān)注
關(guān)注
0文章
40瀏覽量
13103 -
算力芯片
+關(guān)注
關(guān)注
0文章
46瀏覽量
4516 -
壁仞科技
+關(guān)注
關(guān)注
1文章
55瀏覽量
2733 -
智算中心
+關(guān)注
關(guān)注
0文章
68瀏覽量
1691
原文標(biāo)題:壁仞科技聯(lián)合中國(guó)電信等合作伙伴共同發(fā)布智算異構(gòu)四芯混訓(xùn)解決方案
文章出處:【微信號(hào):Birentech,微信公眾號(hào):壁仞科技Birentech】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論