RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

異構(gòu)專(zhuān)用AI芯片的黃金時(shí)代

jf_pJlTbmA9 ? 來(lái)源:黑芝麻智能技術(shù)專(zhuān)家 ? 作者:黑芝麻智能技術(shù)專(zhuān) ? 2023-12-04 16:42 ? 次閱讀

自動(dòng)駕駛領(lǐng)域在近兩年被大家所熟悉,主要的市場(chǎng)誘導(dǎo)因素是Tesla在輔助智能駕駛和采用全視覺(jué)技術(shù)的影子模式為主的FAD(Full Auto Drive)的成功。我們認(rèn)為,自動(dòng)駕駛領(lǐng)域?qū)⑹俏磥?lái)人工智能商業(yè)化落地非常重要的一個(gè)場(chǎng)景,并且能帶來(lái)百億級(jí)以上規(guī)模的企業(yè)的可能性非常之高。構(gòu)建下一代人工智能基礎(chǔ)設(shè)施的架構(gòu)與工業(yè)化成功成為一個(gè)新的熱點(diǎn)和行業(yè)內(nèi)的必爭(zhēng)高地。

作者簡(jiǎn)介:

作者為黑芝麻智能技術(shù)專(zhuān)家,系CCF高性能專(zhuān)委會(huì)委員、AAAI終身會(huì)員、中國(guó)智能計(jì)算產(chǎn)業(yè)聯(lián)盟核心會(huì)員、上海市人工智能專(zhuān)家委員會(huì)委員、中國(guó)信通院大模型標(biāo)準(zhǔn)制定委員會(huì)委員、國(guó)內(nèi)DSA領(lǐng)域的早期推廣者與踐行者、中國(guó)最早將分布式深度學(xué)習(xí)系統(tǒng)進(jìn)行商業(yè)化落地并取得一定的社會(huì)效益。

文章速覽:

? DSA成為下一代AI計(jì)算平臺(tái)的主流架構(gòu),加速異構(gòu)計(jì)算

? DSA-oriented Unified AI stack作為統(tǒng)一的 AI 基礎(chǔ)軟件設(shè)施,解決碎片化問(wèn)題

? 算法網(wǎng)絡(luò)的統(tǒng)一化與多樣化

? 黑芝麻智能華山系列芯片采用多核異構(gòu)架構(gòu)

? 建設(shè)易用的以CXE為基礎(chǔ)的人工智能軟件基礎(chǔ)設(shè)施是AI落地的關(guān)鍵

? 打造非歐數(shù)據(jù)形式的融合算法模型是自動(dòng)駕駛技術(shù)穩(wěn)定產(chǎn)業(yè)化的基礎(chǔ)

從事自動(dòng)駕駛解決方案和車(chē)載智能芯片的企業(yè)都看到了一個(gè)巨大的機(jī)會(huì),那就是自動(dòng)駕駛場(chǎng)景將產(chǎn)生海量的、復(fù)雜的、多樣的、高價(jià)值的數(shù)據(jù)。在當(dāng)今數(shù)據(jù)即財(cái)富的時(shí)代,這一點(diǎn)給所有人帶來(lái)了無(wú)限的想象空間。怎么把數(shù)據(jù)變現(xiàn)成價(jià)值、如何將數(shù)據(jù)變現(xiàn)并實(shí)現(xiàn)商業(yè)化,成為所有人的命題。而人工智能技術(shù)是普遍被學(xué)術(shù)界和產(chǎn)業(yè)界都認(rèn)可的用來(lái)解決這個(gè)問(wèn)題的一個(gè)技術(shù)。所以,構(gòu)建下一代人工智能基礎(chǔ)設(shè)施的架構(gòu)與工業(yè)化成功成為一個(gè)新的熱點(diǎn),成為行業(yè)內(nèi)的必爭(zhēng)高地。

下一代人工智能基礎(chǔ)設(shè)施的特征

下一代人工智能基礎(chǔ)設(shè)施的重要特征,特別是面向自動(dòng)駕駛或者機(jī)器智能領(lǐng)域,主要體現(xiàn)在:

1. Heterogeneous DSA(DSA: Domain Specific Architecture,下同)成為下一代AI計(jì)算平臺(tái)的主流架構(gòu),加速異構(gòu)計(jì)算

2. DSA-oriented Unified AI stack成為下一代AI的基礎(chǔ)軟件設(shè)施,解決碎片化問(wèn)題

3. 更廣泛算法網(wǎng)絡(luò)的統(tǒng)一與支持

DSA成為AI計(jì)算的主流架構(gòu)

在過(guò)去的四十年的體系結(jié)構(gòu)發(fā)展中,架構(gòu)師們通過(guò)利用各種技術(shù)來(lái)提升單芯片算力、優(yōu)化架構(gòu),但最終的效果不盡如人意,特別是在更多復(fù)雜應(yīng)用場(chǎng)景的大數(shù)據(jù)時(shí)代和智能應(yīng)用環(huán)境下,通用計(jì)算架構(gòu)受到了前所未有的挑戰(zhàn):

1、技術(shù)上,登納德定律失效導(dǎo)致了功耗的優(yōu)化成為限制;摩爾定律失效使得芯片晶體管的提升受到限制;

隨著晶體管密度的增加,每個(gè)晶體管的能耗將降低,因此硅芯片上每平方毫米上的能耗幾乎保持恒定。由于每平方毫米硅芯片的計(jì)算能力隨著技術(shù)的迭代而不斷增強(qiáng),計(jì)算機(jī)將變得更加節(jié)能。然而,登納德縮放定律從2007年開(kāi)始大幅放緩,2012年左右接近失效(如下圖):

2、芯片體系架構(gòu)上:指令集并行和單核性能優(yōu)化已經(jīng)成為瓶頸;阿姆達(dá)爾定律失效導(dǎo)致多核優(yōu)化達(dá)到瓶頸;當(dāng)前指令集和體系結(jié)構(gòu)不能處理芯片安全問(wèn)題;

根據(jù)“Iron law”可知,處理器的算力性能直接相關(guān)的參數(shù)就是:這個(gè)參數(shù)是指執(zhí)行一個(gè)程序所花費(fèi)的時(shí)間。該參數(shù)由以下的公式來(lái)決定:

在以上的公式中,右側(cè)式子的前兩項(xiàng)由指令集來(lái)影響,第三項(xiàng)由芯片制程和工藝來(lái)決定。在微架構(gòu)中增加指令的亂序執(zhí)行和指令級(jí)并行技術(shù)來(lái)提升算力的性能,也就是上述公式的前兩個(gè)因素。

3、應(yīng)用場(chǎng)景上,海量的算力需求從PC和服務(wù)器時(shí)代,進(jìn)化到物聯(lián)網(wǎng)、云計(jì)算和移動(dòng)互聯(lián)網(wǎng)時(shí)代,海量的、多樣的計(jì)算形式被催生出來(lái);當(dāng)前的算力基礎(chǔ)設(shè)施及技術(shù)發(fā)展已經(jīng)嚴(yán)重落后需求側(cè)的算力要求。

在這樣的環(huán)境下,數(shù)據(jù)流架構(gòu)思想和技術(shù)由于更適合海量連續(xù)數(shù)據(jù)的處理、緩解內(nèi)存墻問(wèn)題的優(yōu)勢(shì),在當(dāng)前的人工智能領(lǐng)域更加受到關(guān)注。融合了數(shù)據(jù)流架構(gòu)的深度學(xué)習(xí)處理器也不斷地被設(shè)計(jì)和研發(fā)出來(lái),用來(lái)解決不同場(chǎng)景下海量數(shù)據(jù)的算力“不足”問(wèn)題。這些變化都是由于軟硬件融合的設(shè)計(jì)與系統(tǒng)更適合于當(dāng)前應(yīng)用場(chǎng)景下對(duì)算力資源的需求。

人工智能在大數(shù)據(jù)的環(huán)境下得到了爆發(fā)式的增長(zhǎng),為高級(jí)編程語(yǔ)言pythontensorflow等特定領(lǐng)域語(yǔ)言通過(guò)增加軟件重用、提高抽象級(jí)別,顯著地提高了生產(chǎn)力。在此應(yīng)用環(huán)境下,編譯器與DSA體系結(jié)構(gòu)更要進(jìn)一步協(xié)同設(shè)計(jì),專(zhuān)門(mén)解決該領(lǐng)域下的特殊特征。

特定領(lǐng)域的體系結(jié)構(gòu)。一種以硬件為中心的設(shè)計(jì)思路是設(shè)計(jì)面向特定問(wèn)題和領(lǐng)域的架構(gòu),并給予它們強(qiáng)大且高效的性能,因此它們是特定領(lǐng)域的體系結(jié)構(gòu)(DSA),這是一種特定領(lǐng)域的可編程處理器,通常是圖靈完備的,但針對(duì)特定類(lèi)別的應(yīng)用進(jìn)行了定制。DSA通常被稱(chēng)為加速器,因?yàn)榕c在通用CPU上執(zhí)行整個(gè)應(yīng)用程序相比,它們可以加速某些應(yīng)用程序。此外,DSA可以實(shí)現(xiàn)更好的性能,因?yàn)樗鼈兏N近應(yīng)用的實(shí)際需求,比如圖形加速單元(GPU),用于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)處理器(NPU),以及軟件定義網(wǎng)絡(luò)處理器(SDNs)。DSA效率更高、能耗更低是因?yàn)橐韵滤膫€(gè)原因:

首先,DSA為特定領(lǐng)域的計(jì)算使用了更加有效的并行形式。例如單指令多數(shù)據(jù)并行(SIMD),因?yàn)樗谝粋€(gè)時(shí)鐘步長(zhǎng)內(nèi)只需處理一個(gè)指令流和處理單元。DSA也可以使用VLIW方法來(lái)實(shí)現(xiàn)ILP(指令級(jí)并行),而不是推測(cè)性的亂序機(jī)制,當(dāng)前AI處理器普遍采用in-order的流水線形勢(shì)。如前文所述,VLIW處理器與通用性代碼不匹配,但對(duì)于特定領(lǐng)域更加有效,因?yàn)樗目刂茩C(jī)制更加簡(jiǎn)單。與之相對(duì)的是,VLIW在編譯時(shí)執(zhí)行必要的分析和調(diào)度,這對(duì)于顯式并行程序來(lái)說(shuō)可以很好地工作。

其次,DSA可以更有效地利用內(nèi)存層次結(jié)構(gòu)。通用處理器的運(yùn)行代碼,其中的存儲(chǔ)器訪問(wèn)通常表現(xiàn)出空間和時(shí)間局部性,但在編譯時(shí)不是非??深A(yù)測(cè)的。因此,CPU使用多級(jí)高速緩存來(lái)增加帶寬,并掩蓋相對(duì)較慢的芯片外DRAM延遲。在那些編譯時(shí)可以很好地定義和發(fā)現(xiàn)內(nèi)存訪問(wèn)模式的應(yīng)用程序中(這對(duì)于典型的DSL來(lái)說(shuō)是常見(jiàn)的),程序員和編譯器可以比動(dòng)態(tài)分配的緩存更好地優(yōu)化內(nèi)存的使用。

再次,DSA可以使用較低的精度。適用于通用任務(wù)的CPU通常支持32和64位整型數(shù)和浮點(diǎn)數(shù)數(shù)據(jù)。對(duì)于很多機(jī)器學(xué)習(xí)和圖像應(yīng)用來(lái)說(shuō),并不需要如此高的精確度。例如在深度神經(jīng)網(wǎng)絡(luò)中(DNN),推理通常使用4、8或16位整型數(shù),從而提高數(shù)據(jù)和計(jì)算吞吐量。同樣,對(duì)于DNN訓(xùn)練程序,浮點(diǎn)數(shù)很有意義,但FP32位就夠了。當(dāng)前移動(dòng)端的推理過(guò)程以INT8精度為主;數(shù)據(jù)中心應(yīng)用端的推理過(guò)程以更廣泛的精度來(lái)滿足要求。

最后,DSA受益于以特定領(lǐng)域語(yǔ)言(DSL)編寫(xiě)的目標(biāo)程序,這些程序可以實(shí)現(xiàn)更高的并行性,更好的內(nèi)存訪問(wèn)的結(jié)構(gòu)和表示,并使應(yīng)用程序更有效地映射到特定域的處理器,這也需要面向DSA的編譯器的支持。

因此,體系結(jié)構(gòu)領(lǐng)域的大佬(John Hennessy、David Patterson)、AI領(lǐng)域大佬(Jeff Dean、Cliff Young)在近幾年內(nèi)連續(xù)發(fā)文或分享說(shuō)明,當(dāng)下是領(lǐng)域?qū)S眉軜?gòu)DSA的黃金時(shí)代(Golden Age)。

統(tǒng)一的 AI 基礎(chǔ)軟件設(shè)施

2019 年Chris Lattner(LLVM 發(fā)明者)提出來(lái)有關(guān)DSA架構(gòu)下的編譯器的黃金時(shí)代:

在肯定了John Hennessy和David Patterson有關(guān)當(dāng)下是DSA的黃金時(shí)代的判斷之后,Chris也隨之對(duì)適應(yīng)于DSA架構(gòu)的編譯器提出了新的方向:

隨著應(yīng)用的爆發(fā)式發(fā)展、專(zhuān)用領(lǐng)域架構(gòu)DSA的繁榮,比如AI和結(jié)構(gòu)化計(jì)算技術(shù)發(fā)展領(lǐng)域,出現(xiàn)了標(biāo)量加速和向量加速等多種層面的加速,當(dāng)然現(xiàn)在還有多核CPU。這樣一來(lái)就會(huì)出現(xiàn)多種硬件組合,這些硬件就必須相互通信。但軟件還是很難充分利用它們來(lái)提高性能,而且如果軟硬件協(xié)同不到位,性能就會(huì)受到巨大影響。

我們需要下一代編譯器和編程語(yǔ)言來(lái)幫助解決這種碎片化。首先,計(jì)算機(jī)行業(yè)需要更好的硬件抽象,硬件抽象是允許軟件創(chuàng)新的方式,不需要讓每種不同設(shè)備變得過(guò)于專(zhuān)用化。

其次,我們需要支持異構(gòu)計(jì)算,因?yàn)橐谝粋€(gè)混合計(jì)算矩陣?yán)镒鼍仃嚦朔?、解碼JPEG、非結(jié)構(gòu)化計(jì)算等等。然后,還需要適用專(zhuān)門(mén)領(lǐng)域的語(yǔ)言,以及普通人也可以用的編程模型。

最后,我們也需要具備高質(zhì)量、高可靠性和高延展性的架構(gòu)。

在經(jīng)歷了科研范式的AI算法和場(chǎng)景落地之后,專(zhuān)業(yè)的工程化落地才是人工智能技術(shù)能力變現(xiàn)的唯一途徑。為了解決AI系統(tǒng)和工具的單一化和碎片化的問(wèn)題,我們提出來(lái)建立統(tǒng)一開(kāi)放的人工智能軟件基礎(chǔ)設(shè)施的目標(biāo):建設(shè)面向工程化的人工智能軟件基礎(chǔ)設(shè)施,包括編譯器、運(yùn)行時(shí),異構(gòu)計(jì)算、邊緣到數(shù)據(jù)中心并重,并專(zhuān)注于可用性,提升開(kāi)發(fā)人員的效率。

算法網(wǎng)絡(luò)的統(tǒng)一化與多樣化

下圖從深度學(xué)習(xí)算法的發(fā)展歷程來(lái)看,總結(jié)了自人工智能伊始到現(xiàn)在的主要的算法與網(wǎng)絡(luò)結(jié)構(gòu):

自2012年以后,以深度學(xué)習(xí)為基礎(chǔ)的算法和網(wǎng)絡(luò)帶來(lái)了空前的繁榮。

從過(guò)去幾年的商業(yè)化落地情況來(lái)看,算法的碎片化、場(chǎng)景個(gè)性化等等嚴(yán)重的問(wèn)題導(dǎo)致了人工智能解決方案在工程化落地和市場(chǎng)化推廣方面的局限性。但是,2017年以來(lái),特別是2020年以后,以 Transformer為基礎(chǔ)的各類(lèi)大模型“霸占”各主要AI榜單的榜首,成為了名副其實(shí)的基礎(chǔ)模型。基礎(chǔ)大模型加上場(chǎng)景的小定制化越來(lái)越成為人工智能技術(shù)在商業(yè)化推廣中的使用范式。

當(dāng)然,也有很多人質(zhì)疑Transformer的可解釋性,也有人通過(guò)借鑒Transformer的思想反哺給CNN來(lái)進(jìn)一步加速和提升,我們認(rèn)為這都沒(méi)有問(wèn)題,用戶更多地希望從準(zhǔn)確率和效果上能有質(zhì)的提升。CNN與Transformer在網(wǎng)絡(luò)架構(gòu)方面的競(jìng)爭(zhēng)追根溯源是卷積操作與通用矩陣乘積操作這兩種操作之爭(zhēng)。處理CNN卷積操作時(shí),專(zhuān)用硬件架構(gòu)有發(fā)揮空間,這也就是之前大家所熟知的為算法和應(yīng)用而定制的AI加速器出現(xiàn)的原因;而隨著以GEMM為特征的Transformer網(wǎng)絡(luò)架構(gòu)的推廣和規(guī)?;瘧?yīng)用場(chǎng)景的挖掘,處理GEMM操作的較通用處理器可能更適合。當(dāng)然兩種方向會(huì)長(zhǎng)期存在,但最終以能效和成本為目標(biāo)的客戶應(yīng)用來(lái)說(shuō),通用硬件架構(gòu)更有可能帶來(lái)降本增效的效果。

對(duì)于Transformer的出現(xiàn),我們認(rèn)為其意義重大的原因更多地在于,Transformer為算法工作者提供了一種新的思想和思路方式,在大數(shù)據(jù)訓(xùn)練的情況下采用分布式的架構(gòu)更適合當(dāng)下人工智能算法的發(fā)展。

黑芝麻智能華山系列芯片采用多核異構(gòu)架構(gòu)

我們從以下三個(gè)維度進(jìn)行闡述我們認(rèn)為的下一代人工智能基礎(chǔ)設(shè)施的發(fā)展方向:

Heterogeneous DSA是未來(lái)異構(gòu)計(jì)算的主流。

當(dāng)前的計(jì)算架構(gòu)正在由單一的體系架構(gòu)往異構(gòu)的架構(gòu)發(fā)展、由單一芯片模式往融合異構(gòu)多芯片模式發(fā)展。軟硬件融合、異構(gòu)是當(dāng)前體系結(jié)構(gòu)發(fā)展的關(guān)鍵技術(shù)。

軟硬件融合是必然帶來(lái)以DSA為基礎(chǔ)的異構(gòu)計(jì)算的繁榮。除了芯片和體系結(jié)構(gòu)之外,編譯器、運(yùn)行系統(tǒng)、編程語(yǔ)言等軟件系統(tǒng)也面臨著DSA帶來(lái)的技術(shù)迭代周期。

隨著應(yīng)用場(chǎng)景的復(fù)雜性和異構(gòu)計(jì)算技術(shù)的發(fā)展,我們需要解決以下四類(lèi)問(wèn)題:

1、 海量數(shù)據(jù)的高效處理:

2、 復(fù)雜數(shù)據(jù)的有效處理:

3、 海量計(jì)算的范式創(chuàng)新和提升:

4、 高價(jià)值數(shù)據(jù)的識(shí)別與價(jià)值變現(xiàn):

黑芝麻智能兩大核心自研IP——車(chē)規(guī)級(jí)圖像處理器NeuralIQ ISP以及DynamAI NN車(chē)規(guī)級(jí)低功耗神經(jīng)網(wǎng)絡(luò)加速引擎,賦能汽車(chē)看得更清、更遠(yuǎn)、更懂。其中,NeuralIQ ISP可支持多達(dá)12路高清相機(jī)接入。每秒處理36億3曝光像素,12億單曝光像素的高處理率管道,并且每個(gè)管道可并行在線處理兩路視頻,支持在線、離線和混合處理模式。支持HDR處理,符合高動(dòng)態(tài)曝光、低光降噪、LED閃爍抑制等高質(zhì)量車(chē)規(guī)圖像處理要求,適用于智能駕駛環(huán)視感知、前視感知、駕駛監(jiān)控等應(yīng)用場(chǎng)景;DynamAI NN引擎具備大算力的架構(gòu),支持多形態(tài)、多精度運(yùn)算。通過(guò)可適配量化、結(jié)構(gòu)化剪裁壓縮、硬件可執(zhí)行軟件的子圖規(guī)劃實(shí)現(xiàn)軟硬件同步優(yōu)化。支持稀疏加速和配備自動(dòng)化開(kāi)發(fā)工具等優(yōu)勢(shì)。

黑芝麻智能自動(dòng)駕駛計(jì)算芯片SoC集成了多個(gè)加速器,有ARM、ARM Neon、GPU、NPU、DSP、ISP、VPU 等多個(gè)IP。NPU是主要用來(lái)處理AI相關(guān)workload的加速器,衡量一個(gè)NPU芯片的設(shè)計(jì)是否優(yōu)化,業(yè)界有三個(gè)認(rèn)可的設(shè)計(jì)原則:

1) 存儲(chǔ)層次化

2) 數(shù)據(jù)復(fù)用

3) 片上互聯(lián)

黑芝麻智能A1000芯片在設(shè)計(jì)層面已經(jīng)充分地將以上三點(diǎn)融合并實(shí)現(xiàn)在SoC芯片內(nèi),包含多級(jí)緩存和數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)、高效的數(shù)據(jù)復(fù)用邏輯、統(tǒng)一片上NoC互聯(lián)結(jié)構(gòu)將主要的IP進(jìn)行并聯(lián)等。

我們堅(jiān)定地認(rèn)為DSA架構(gòu)和軟件系統(tǒng)是更適合當(dāng)前應(yīng)用的思想和方法。充分融合DSA的思想、結(jié)合具體的領(lǐng)域場(chǎng)景,才可以構(gòu)建出面向該領(lǐng)域的通用計(jì)算架構(gòu)、高性能計(jì)算模型、高效的數(shù)據(jù)處理方式,才真正地讓用戶擺脫算力瓶頸、增強(qiáng)用戶體驗(yàn)。

建設(shè)易用的以CXE為基礎(chǔ)的人工智能軟件基礎(chǔ)設(shè)施是AI落地的關(guān)鍵

軟件系統(tǒng)和工具鏈體系是量產(chǎn)化芯片走向成功的兩個(gè)極為重要的因素。而AI工具集體系和人工智能平臺(tái)是AI芯片最重要的軟件系統(tǒng)。能否充分發(fā)揮AI芯片的性能和能效是判斷AI工具集體系優(yōu)劣的很重要的指標(biāo)。黑芝麻智能構(gòu)建了面向AI芯片的工具集系統(tǒng)和人工智能平臺(tái):山海人工智能開(kāi)發(fā)平臺(tái),如下圖所示:

基于我們對(duì)行業(yè)knowhow的理解、對(duì)技術(shù)創(chuàng)新的信心,我們構(gòu)建了面向異構(gòu)加速計(jì)算平臺(tái)的軟件基礎(chǔ)設(shè)施:CXE(Compiler and eXecution Environment)。這解決了三個(gè)問(wèn)題:

1. 數(shù)據(jù)處理需求與算力能力之間的不平衡

2. 數(shù)據(jù)處理格式與異構(gòu)計(jì)算體系架構(gòu)的不一致

3. 融合計(jì)算在模型正確性和數(shù)學(xué)一致性方面的統(tǒng)一,如人工智能計(jì)算、工程計(jì)算等

CXE 系統(tǒng)升級(jí)了AI工具鏈和優(yōu)化系統(tǒng)、人工智能訓(xùn)練系統(tǒng)等基礎(chǔ)軟件。

以自動(dòng)駕駛應(yīng)用場(chǎng)景為例:

我們基于底層的硬件平臺(tái),可能是CPU(如 ARM、X86、RISC-V等)、GPU、DSP、NPU、ISP等等處理器或異構(gòu)加速器,構(gòu)建了面向人工智能和技術(shù)領(lǐng)域的以MLIR為基礎(chǔ)的人工智能編譯器系統(tǒng)、分布式調(diào)度機(jī)制為基礎(chǔ)的實(shí)時(shí)推理系統(tǒng)和運(yùn)行時(shí)系統(tǒng)、融合了可解釋性為條件的分布式訓(xùn)練和構(gòu)建系統(tǒng)、可觀測(cè)可驗(yàn)證可調(diào)試的輔助工具集合,這構(gòu)成了以DSA為基礎(chǔ)的下一代人工智能基礎(chǔ)架構(gòu)和平臺(tái)。

打造非歐數(shù)據(jù)形式的融合算法模型是自動(dòng)駕駛技術(shù)穩(wěn)定產(chǎn)業(yè)化的基礎(chǔ)

在過(guò)去幾十年的發(fā)展歷程中,人工智能技術(shù)主要解決的是以歐幾里得空間的數(shù)據(jù)形式的處理問(wèn)題:

而物理世界和更廣泛的數(shù)據(jù)處理是非歐空間的數(shù)據(jù)處理問(wèn)題:

為了更好地解決自動(dòng)駕駛、機(jī)器智能的工程化問(wèn)題和領(lǐng)域知識(shí)的智能化泛化問(wèn)題,我們還需要解決計(jì)算密集型的工程數(shù)學(xué)和以強(qiáng)化學(xué)習(xí)為方向的Simulation的技術(shù)閉環(huán)問(wèn)題。


由此可見(jiàn),我們基于MLIR等框架構(gòu)建了我們自控的編譯器/優(yōu)化器和運(yùn)行時(shí)系統(tǒng),不僅支持AI workload相關(guān)的內(nèi)存密集型的計(jì)算場(chǎng)景,而且支持如OpenCV、Halide等面向工業(yè)場(chǎng)景的計(jì)算密集型場(chǎng)景,還在圖優(yōu)化領(lǐng)域支持靜態(tài)圖的編譯和高效轉(zhuǎn)換,正在對(duì)動(dòng)態(tài)圖的處理進(jìn)一步優(yōu)化。未來(lái)在多復(fù)雜度數(shù)據(jù)處理場(chǎng)景、分布式計(jì)算場(chǎng)景、人工智能場(chǎng)景、邊緣計(jì)算領(lǐng)域等多個(gè)交叉和融合的領(lǐng)域內(nèi),將會(huì)產(chǎn)生更大的價(jià)值和現(xiàn)實(shí)意義。

“工欲善其事、必先利其器”。我們堅(jiān)信,好的工具是構(gòu)建基礎(chǔ)理論、驗(yàn)證現(xiàn)實(shí)問(wèn)題的至關(guān)重要的手段。通過(guò)構(gòu)建先進(jìn)的人工智能基礎(chǔ)設(shè)施和軟件系統(tǒng),技術(shù)人員不僅可以高效完成人工智能場(chǎng)景化解決方案,而且還可以產(chǎn)生創(chuàng)新的靈感,創(chuàng)造性地完成新的場(chǎng)景、新的算法等,又可以解決有限時(shí)間下的工程交付需求。

開(kāi)發(fā)工具鏈?zhǔn)欠裢晟剖求w現(xiàn)黑芝麻智能芯片易用性的重要指標(biāo)。配合華山系列自動(dòng)駕駛計(jì)算芯片,黑芝麻智能發(fā)布的山海人工智能開(kāi)發(fā)平臺(tái)。它擁有50多種AI參考模型庫(kù)轉(zhuǎn)換用例,降低客戶的算法開(kāi)發(fā)門(mén)檻;能夠?qū)崿F(xiàn)QAT和訓(xùn)練后量化的綜合優(yōu)化,保障算法模型精度;支持動(dòng)態(tài)異構(gòu)多核任務(wù)分配,同時(shí)還支持客戶自定義算子開(kāi)發(fā),完善的工具鏈開(kāi)發(fā)包及應(yīng)用支持,能夠助力客戶快速移植模型和部署落地的一體化流程。

  • 審核編輯 黃宇
聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 芯片
    +關(guān)注

    關(guān)注

    455

    文章

    50714

    瀏覽量

    423136
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    30728

    瀏覽量

    268885
  • DSA
    DSA
    +關(guān)注

    關(guān)注

    0

    文章

    48

    瀏覽量

    15145
  • 異構(gòu)
    +關(guān)注

    關(guān)注

    0

    文章

    40

    瀏覽量

    13104
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    黃金時(shí)代:抓住AI加速科學(xué)的機(jī)遇

    /public-policy/ai-for-science/ ? 全球?qū)嶒?yàn)室正悄然興起一場(chǎng)革命,科學(xué)家對(duì)AI的使用正迅猛增長(zhǎng)。超過(guò)三分之一的博士后已利用大語(yǔ)言模型輔助整理文獻(xiàn)、撰寫(xiě)綜述、編寫(xiě)代碼等等。2024年10 月,
    的頭像 發(fā)表于 12-12 14:44 ?156次閱讀
    新<b class='flag-5'>黃金時(shí)代</b>:抓住<b class='flag-5'>AI</b>加速科學(xué)的機(jī)遇

    安謀科技異構(gòu)算力組合,破局生成式AI算力挑戰(zhàn)

    近日,此芯科技集團(tuán)有限公司(以下簡(jiǎn)稱(chēng)“此芯科技”)AI PC戰(zhàn)略暨首款芯片發(fā)布會(huì)在上海舉行,正式推出了其首款專(zhuān)為AI PC打造的異構(gòu)高能效芯片
    的頭像 發(fā)表于 08-13 09:12 ?551次閱讀

    此芯科技發(fā)布“此芯P1”異構(gòu)高能效芯片,引領(lǐng)AI PC新紀(jì)元

    近日,此芯科技集團(tuán)有限公司(簡(jiǎn)稱(chēng)“此芯科技”)在上海隆重舉辦了AI PC戰(zhàn)略發(fā)布會(huì),正式揭曉了其首款創(chuàng)新力作——“此芯P1”異構(gòu)高能效芯片。這一里程碑式的發(fā)布,標(biāo)志著國(guó)產(chǎn)芯片
    的頭像 發(fā)表于 08-01 17:42 ?845次閱讀

    安謀科技異構(gòu)算力賦能AI計(jì)算,此芯科技首款AI PC芯片發(fā)布

    7月30日,此芯科技集團(tuán)有限公司(以下簡(jiǎn)稱(chēng)“此芯科技”)AI PC戰(zhàn)略暨首款芯片發(fā)布會(huì)在上海舉行,正式推出了其首款專(zhuān)為AI PC打造的異構(gòu)高能效芯片
    發(fā)表于 07-31 14:36 ?1030次閱讀
    安謀科技<b class='flag-5'>異構(gòu)</b>算力賦能<b class='flag-5'>AI</b>計(jì)算,此芯科技首款<b class='flag-5'>AI</b> PC<b class='flag-5'>芯片</b>發(fā)布

    異構(gòu)混訓(xùn)整合不同架構(gòu)芯片資源,提高算力利用率

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)隨著AI技術(shù)的飛速發(fā)展,大模型的訓(xùn)練和推理任務(wù)對(duì)算力的需求日益增長(zhǎng)。然而,單一品牌的芯片往往難以滿足所有需求,且可能存在供應(yīng)鏈風(fēng)險(xiǎn)。因此,異構(gòu)芯片混訓(xùn)成為
    的頭像 發(fā)表于 07-18 00:11 ?3437次閱讀

    AI初創(chuàng)公司Etched獲1.2億美元A輪融資,加速專(zhuān)用AI芯片研發(fā)

    舊金山的一家人工智能(AI)初創(chuàng)公司Etched宣布,在最近完成的A輪融資中成功籌集了1.2億美元的資金。這筆資金將主要用于進(jìn)一步開(kāi)發(fā)其專(zhuān)用AI芯片,以支持日益增長(zhǎng)的人工智能應(yīng)用需求
    的頭像 發(fā)表于 06-26 14:13 ?728次閱讀

    AI時(shí)代芯片革命:GPU、FPGA與TPU競(jìng)相涌現(xiàn)

    隨著人工智能(AI)技術(shù)的迅猛發(fā)展,我們正站在一個(gè)新時(shí)代的門(mén)檻上,這個(gè)時(shí)代將由強(qiáng)大的計(jì)算芯片引領(lǐng),徹底改變世界經(jīng)濟(jì)格局。美國(guó)開(kāi)放人工智能研究中心(OpenAI)首席執(zhí)行官山姆·奧特曼等
    的頭像 發(fā)表于 06-20 09:47 ?585次閱讀

    AI芯片哪里買(mǎi)?

    AI芯片
    芯廣場(chǎng)
    發(fā)布于 :2024年05月31日 16:58:19

    臺(tái)積電成功集成CFET架構(gòu),預(yù)計(jì)2025年2nm技術(shù)實(shí)現(xiàn)量產(chǎn),將支持A

    張曉強(qiáng)強(qiáng)調(diào),半導(dǎo)體行業(yè)的黃金時(shí)代已然來(lái)臨,未來(lái)AI芯片的發(fā)展幾乎99%都依賴于臺(tái)積電的先進(jìn)邏輯技術(shù)與先進(jìn)封裝技術(shù)。臺(tái)積電憑借其技術(shù)創(chuàng)新,將使芯片性能提升,能耗降低。
    的頭像 發(fā)表于 05-27 09:53 ?718次閱讀

    臺(tái)積電跨制程整合晶體管架構(gòu)并引入CFET,發(fā)布新一代芯片技術(shù)

    張曉強(qiáng)強(qiáng)調(diào),半導(dǎo)體產(chǎn)業(yè)的黃金時(shí)代已然來(lái)臨,未來(lái)AI芯片的發(fā)展幾乎99%都依賴于臺(tái)積電的先進(jìn)邏輯技術(shù)和先進(jìn)封裝技術(shù)。臺(tái)積電憑借技術(shù)創(chuàng)新,將在未來(lái)提升芯片性能和降低功耗方面發(fā)揮更大作用。
    的頭像 發(fā)表于 05-24 15:09 ?814次閱讀

    傳感器產(chǎn)業(yè)迎來(lái)黃金時(shí)代,矽典微賦能感知體驗(yàn)再升級(jí)

    毫米波傳感器為智能化應(yīng)用提供更智能更細(xì)分的感知新體驗(yàn)。成立于2018年的矽典微,如今正處在傳感器產(chǎn)業(yè)的“黃金時(shí)代”,矽典微也站上技術(shù)創(chuàng)新、產(chǎn)品迭代的商業(yè)化快速發(fā)展的階
    的頭像 發(fā)表于 05-13 08:06 ?302次閱讀
    傳感器產(chǎn)業(yè)迎來(lái)<b class='flag-5'>黃金時(shí)代</b>,矽典微賦能感知體驗(yàn)再升級(jí)

    為什么說(shuō)2024年會(huì)是傳感器發(fā)展的黃金時(shí)代?

    ? ? 2023年,智能化的創(chuàng)新涌現(xiàn)為科技圈貢獻(xiàn)了許多熱點(diǎn)話題,從大模型到人形機(jī)器人,AI的浪潮一浪接一浪,資本的腳步也從未停歇,引發(fā)著各界的熱切關(guān)注。聚焦的話題迭現(xiàn)常新,但萬(wàn)變不離其宗的是,AI
    的頭像 發(fā)表于 04-12 08:44 ?176次閱讀

    高通NPU和異構(gòu)計(jì)算提升生成式AI性能?

    異構(gòu)計(jì)算的重要性不可忽視。根據(jù)生成式AI的獨(dú)特需求和計(jì)算負(fù)擔(dān),需要配備不同的處理器,如專(zhuān)注于AI工作負(fù)載的定制設(shè)計(jì)的NPU、CPU和GPU。
    的頭像 發(fā)表于 03-06 14:15 ?783次閱讀

    何為異構(gòu)芯片 協(xié)同異構(gòu)AI芯片的挑戰(zhàn)

    進(jìn)入大模型時(shí)代,全社會(huì)算力需求被推高到了前所未有的程度。
    的頭像 發(fā)表于 02-25 13:53 ?1996次閱讀

    【2023電子工程師大會(huì)】開(kāi)源硬件的黃金時(shí)代ppt

    【2023電子工程師大會(huì)】開(kāi)源硬件的黃金時(shí)代ppt
    發(fā)表于 01-03 16:31 ?63次下載
    RM新时代网站-首页