RM新时代专业团队|首入球时间 ,RM新时代APP官网网址

自動(dòng)駕駛領(lǐng)域在近兩年被大家所熟悉，主要的市場(chǎng)誘導(dǎo)因素是Tesla在輔助智能駕駛和采用全視覺(jué)技術(shù)的影子模式為主的FAD(Full Auto Drive)的成功。我們認(rèn)為，自動(dòng)駕駛領(lǐng)域?qū)⑹俏磥?lái)人工智能商業(yè)化落地非常重要的一個(gè)場(chǎng)景，并且能帶來(lái)百億級(jí)以上規(guī)模的企業(yè)的可能性非常之高。構(gòu)建下一代人工智能基礎(chǔ)設(shè)施的架構(gòu)與工業(yè)化成功成為一個(gè)新的熱點(diǎn)和行業(yè)內(nèi)的必爭(zhēng)高地。

作者簡(jiǎn)介：

作者為黑芝麻智能技術(shù)專(zhuān)家，系CCF高性能專(zhuān)委會(huì)委員、AAAI終身會(huì)員、中國(guó)智能計(jì)算產(chǎn)業(yè)聯(lián)盟核心會(huì)員、上海市人工智能專(zhuān)家委員會(huì)委員、中國(guó)信通院大模型標(biāo)準(zhǔn)制定委員會(huì)委員、國(guó)內(nèi)DSA領(lǐng)域的早期推廣者與踐行者、中國(guó)最早將分布式深度學(xué)習(xí)系統(tǒng)進(jìn)行商業(yè)化落地并取得一定的社會(huì)效益。

文章速覽：

? DSA成為下一代AI計(jì)算平臺(tái)的主流架構(gòu)，加速異構(gòu)計(jì)算

? DSA-oriented Unified AI stack作為統(tǒng)一的 AI 基礎(chǔ)軟件設(shè)施，解決碎片化問(wèn)題

? 算法網(wǎng)絡(luò)的統(tǒng)一化與多樣化

? 黑芝麻智能華山系列芯片采用多核異構(gòu)架構(gòu)

? 建設(shè)易用的以CXE為基礎(chǔ)的人工智能軟件基礎(chǔ)設(shè)施是AI落地的關(guān)鍵

? 打造非歐數(shù)據(jù)形式的融合算法模型是自動(dòng)駕駛技術(shù)穩(wěn)定產(chǎn)業(yè)化的基礎(chǔ)

從事自動(dòng)駕駛解決方案和車(chē)載智能芯片的企業(yè)都看到了一個(gè)巨大的機(jī)會(huì)，那就是自動(dòng)駕駛場(chǎng)景將產(chǎn)生海量的、復(fù)雜的、多樣的、高價(jià)值的數(shù)據(jù)。在當(dāng)今數(shù)據(jù)即財(cái)富的時(shí)代，這一點(diǎn)給所有人帶來(lái)了無(wú)限的想象空間。怎么把數(shù)據(jù)變現(xiàn)成價(jià)值、如何將數(shù)據(jù)變現(xiàn)并實(shí)現(xiàn)商業(yè)化，成為所有人的命題。而人工智能技術(shù)是普遍被學(xué)術(shù)界和產(chǎn)業(yè)界都認(rèn)可的用來(lái)解決這個(gè)問(wèn)題的一個(gè)技術(shù)。所以，構(gòu)建下一代人工智能基礎(chǔ)設(shè)施的架構(gòu)與工業(yè)化成功成為一個(gè)新的熱點(diǎn)，成為行業(yè)內(nèi)的必爭(zhēng)高地。

下一代人工智能基礎(chǔ)設(shè)施的特征

下一代人工智能基礎(chǔ)設(shè)施的重要特征，特別是面向自動(dòng)駕駛或者機(jī)器智能領(lǐng)域，主要體現(xiàn)在：

1. Heterogeneous DSA(DSA: Domain Specific Architecture，下同)成為下一代AI計(jì)算平臺(tái)的主流架構(gòu)，加速異構(gòu)計(jì)算

2. DSA-oriented Unified AI stack成為下一代AI的基礎(chǔ)軟件設(shè)施，解決碎片化問(wèn)題

3. 更廣泛算法網(wǎng)絡(luò)的統(tǒng)一與支持

DSA成為AI計(jì)算的主流架構(gòu)

在過(guò)去的四十年的體系結(jié)構(gòu)發(fā)展中，架構(gòu)師們通過(guò)利用各種技術(shù)來(lái)提升單芯片算力、優(yōu)化架構(gòu)，但最終的效果不盡如人意，特別是在更多復(fù)雜應(yīng)用場(chǎng)景的大數(shù)據(jù)時(shí)代和智能應(yīng)用環(huán)境下，通用計(jì)算架構(gòu)受到了前所未有的挑戰(zhàn)：

1、技術(shù)上，登納德定律失效導(dǎo)致了功耗的優(yōu)化成為限制；摩爾定律失效使得芯片晶體管的提升受到限制；

隨著晶體管密度的增加，每個(gè)晶體管的能耗將降低，因此硅芯片上每平方毫米上的能耗幾乎保持恒定。由于每平方毫米硅芯片的計(jì)算能力隨著技術(shù)的迭代而不斷增強(qiáng)，計(jì)算機(jī)將變得更加節(jié)能。然而，登納德縮放定律從2007年開(kāi)始大幅放緩，2012年左右接近失效（如下圖）：

2、芯片體系架構(gòu)上：指令集并行和單核性能優(yōu)化已經(jīng)成為瓶頸；阿姆達(dá)爾定律失效導(dǎo)致多核優(yōu)化達(dá)到瓶頸；當(dāng)前指令集和體系結(jié)構(gòu)不能處理芯片安全問(wèn)題；

根據(jù)“Iron law”可知，處理器的算力性能直接相關(guān)的參數(shù)就是：這個(gè)參數(shù)是指執(zhí)行一個(gè)程序所花費(fèi)的時(shí)間。該參數(shù)由以下的公式來(lái)決定：

在以上的公式中，右側(cè)式子的前兩項(xiàng)由指令集來(lái)影響，第三項(xiàng)由芯片制程和工藝來(lái)決定。在微架構(gòu)中增加指令的亂序執(zhí)行和指令級(jí)并行技術(shù)來(lái)提升算力的性能，也就是上述公式的前兩個(gè)因素。

3、應(yīng)用場(chǎng)景上，海量的算力需求從PC和服務(wù)器時(shí)代，進(jìn)化到物聯(lián)網(wǎng)、云計(jì)算和移動(dòng)互聯(lián)網(wǎng)時(shí)代，海量的、多樣的計(jì)算形式被催生出來(lái)；當(dāng)前的算力基礎(chǔ)設(shè)施及技術(shù)發(fā)展已經(jīng)嚴(yán)重落后需求側(cè)的算力要求。

在這樣的環(huán)境下，數(shù)據(jù)流架構(gòu)思想和技術(shù)由于更適合海量連續(xù)數(shù)據(jù)的處理、緩解內(nèi)存墻問(wèn)題的優(yōu)勢(shì)，在當(dāng)前的人工智能領(lǐng)域更加受到關(guān)注。融合了數(shù)據(jù)流架構(gòu)的深度學(xué)習(xí)處理器也不斷地被設(shè)計(jì)和研發(fā)出來(lái)，用來(lái)解決不同場(chǎng)景下海量數(shù)據(jù)的算力“不足”問(wèn)題。這些變化都是由于軟硬件融合的設(shè)計(jì)與系統(tǒng)更適合于當(dāng)前應(yīng)用場(chǎng)景下對(duì)算力資源的需求。

人工智能在大數(shù)據(jù)的環(huán)境下得到了爆發(fā)式的增長(zhǎng)，為高級(jí)編程語(yǔ)言python和tensorflow等特定領(lǐng)域語(yǔ)言通過(guò)增加軟件重用、提高抽象級(jí)別，顯著地提高了生產(chǎn)力。在此應(yīng)用環(huán)境下，編譯器與DSA體系結(jié)構(gòu)更要進(jìn)一步協(xié)同設(shè)計(jì)，專(zhuān)門(mén)解決該領(lǐng)域下的特殊特征。

特定領(lǐng)域的體系結(jié)構(gòu)。一種以硬件為中心的設(shè)計(jì)思路是設(shè)計(jì)面向特定問(wèn)題和領(lǐng)域的架構(gòu)，并給予它們強(qiáng)大且高效的性能，因此它們是特定領(lǐng)域的體系結(jié)構(gòu)（DSA），這是一種特定領(lǐng)域的可編程處理器，通常是圖靈完備的，但針對(duì)特定類(lèi)別的應(yīng)用進(jìn)行了定制。DSA通常被稱(chēng)為加速器，因?yàn)榕c在通用CPU上執(zhí)行整個(gè)應(yīng)用程序相比，它們可以加速某些應(yīng)用程序。此外，DSA可以實(shí)現(xiàn)更好的性能，因?yàn)樗鼈兏N近應(yīng)用的實(shí)際需求，比如圖形加速單元（GPU），用于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)處理器(NPU)，以及軟件定義網(wǎng)絡(luò)處理器（SDNs）。DSA效率更高、能耗更低是因?yàn)橐韵滤膫€(gè)原因：

首先，DSA為特定領(lǐng)域的計(jì)算使用了更加有效的并行形式。例如單指令多數(shù)據(jù)并行（SIMD），因?yàn)樗谝粋€(gè)時(shí)鐘步長(zhǎng)內(nèi)只需處理一個(gè)指令流和處理單元。DSA也可以使用VLIW方法來(lái)實(shí)現(xiàn)ILP(指令級(jí)并行)，而不是推測(cè)性的亂序機(jī)制，當(dāng)前AI處理器普遍采用in-order的流水線形勢(shì)。如前文所述，VLIW處理器與通用性代碼不匹配，但對(duì)于特定領(lǐng)域更加有效，因?yàn)樗目刂茩C(jī)制更加簡(jiǎn)單。與之相對(duì)的是，VLIW在編譯時(shí)執(zhí)行必要的分析和調(diào)度，這對(duì)于顯式并行程序來(lái)說(shuō)可以很好地工作。

其次，DSA可以更有效地利用內(nèi)存層次結(jié)構(gòu)。通用處理器的運(yùn)行代碼，其中的存儲(chǔ)器訪問(wèn)通常表現(xiàn)出空間和時(shí)間局部性，但在編譯時(shí)不是非?？深A(yù)測(cè)的。因此，CPU使用多級(jí)高速緩存來(lái)增加帶寬，并掩蓋相對(duì)較慢的芯片外DRAM延遲。在那些編譯時(shí)可以很好地定義和發(fā)現(xiàn)內(nèi)存訪問(wèn)模式的應(yīng)用程序中(這對(duì)于典型的DSL來(lái)說(shuō)是常見(jiàn)的)，程序員和編譯器可以比動(dòng)態(tài)分配的緩存更好地優(yōu)化內(nèi)存的使用。

再次，DSA可以使用較低的精度。適用于通用任務(wù)的CPU通常支持32和64位整型數(shù)和浮點(diǎn)數(shù)數(shù)據(jù)。對(duì)于很多機(jī)器學(xué)習(xí)和圖像應(yīng)用來(lái)說(shuō)，并不需要如此高的精確度。例如在深度神經(jīng)網(wǎng)絡(luò)中（DNN），推理通常使用4、8或16位整型數(shù)，從而提高數(shù)據(jù)和計(jì)算吞吐量。同樣，對(duì)于DNN訓(xùn)練程序，浮點(diǎn)數(shù)很有意義，但FP32位就夠了。當(dāng)前移動(dòng)端的推理過(guò)程以INT8精度為主；數(shù)據(jù)中心應(yīng)用端的推理過(guò)程以更廣泛的精度來(lái)滿足要求。

最后，DSA受益于以特定領(lǐng)域語(yǔ)言（DSL）編寫(xiě)的目標(biāo)程序，這些程序可以實(shí)現(xiàn)更高的并行性，更好的內(nèi)存訪問(wèn)的結(jié)構(gòu)和表示，并使應(yīng)用程序更有效地映射到特定域的處理器，這也需要面向DSA的編譯器的支持。

因此，體系結(jié)構(gòu)領(lǐng)域的大佬(John Hennessy、David Patterson)、AI領(lǐng)域大佬(Jeff Dean、Cliff Young)在近幾年內(nèi)連續(xù)發(fā)文或分享說(shuō)明，當(dāng)下是領(lǐng)域?qū)Ｓ眉軜?gòu)DSA的黃金時(shí)代(Golden Age)。

統(tǒng)一的 AI 基礎(chǔ)軟件設(shè)施

2019 年Chris Lattner(LLVM 發(fā)明者)提出來(lái)有關(guān)DSA架構(gòu)下的編譯器的黃金時(shí)代:

在肯定了John Hennessy和David Patterson有關(guān)當(dāng)下是DSA的黃金時(shí)代的判斷之后，Chris也隨之對(duì)適應(yīng)于DSA架構(gòu)的編譯器提出了新的方向：

隨著應(yīng)用的爆發(fā)式發(fā)展、專(zhuān)用領(lǐng)域架構(gòu)DSA的繁榮，比如AI和結(jié)構(gòu)化計(jì)算技術(shù)發(fā)展領(lǐng)域，出現(xiàn)了標(biāo)量加速和向量加速等多種層面的加速，當(dāng)然現(xiàn)在還有多核CPU。這樣一來(lái)就會(huì)出現(xiàn)多種硬件組合，這些硬件就必須相互通信。但軟件還是很難充分利用它們來(lái)提高性能，而且如果軟硬件協(xié)同不到位，性能就會(huì)受到巨大影響。

我們需要下一代編譯器和編程語(yǔ)言來(lái)幫助解決這種碎片化。首先，計(jì)算機(jī)行業(yè)需要更好的硬件抽象，硬件抽象是允許軟件創(chuàng)新的方式，不需要讓每種不同設(shè)備變得過(guò)于專(zhuān)用化。

其次，我們需要支持異構(gòu)計(jì)算，因?yàn)橐谝粋€(gè)混合計(jì)算矩陣?yán)镒鼍仃嚦朔?、解碼JPEG、非結(jié)構(gòu)化計(jì)算等等。然后，還需要適用專(zhuān)門(mén)領(lǐng)域的語(yǔ)言，以及普通人也可以用的編程模型。

最后，我們也需要具備高質(zhì)量、高可靠性和高延展性的架構(gòu)。

在經(jīng)歷了科研范式的AI算法和場(chǎng)景落地之后，專(zhuān)業(yè)的工程化落地才是人工智能技術(shù)能力變現(xiàn)的唯一途徑。為了解決AI系統(tǒng)和工具的單一化和碎片化的問(wèn)題，我們提出來(lái)建立統(tǒng)一開(kāi)放的人工智能軟件基礎(chǔ)設(shè)施的目標(biāo)：建設(shè)面向工程化的人工智能軟件基礎(chǔ)設(shè)施，包括編譯器、運(yùn)行時(shí)，異構(gòu)計(jì)算、邊緣到數(shù)據(jù)中心并重，并專(zhuān)注于可用性，提升開(kāi)發(fā)人員的效率。

算法網(wǎng)絡(luò)的統(tǒng)一化與多樣化

下圖從深度學(xué)習(xí)算法的發(fā)展歷程來(lái)看，總結(jié)了自人工智能伊始到現(xiàn)在的主要的算法與網(wǎng)絡(luò)結(jié)構(gòu)：

自2012年以后，以深度學(xué)習(xí)為基礎(chǔ)的算法和網(wǎng)絡(luò)帶來(lái)了空前的繁榮。

從過(guò)去幾年的商業(yè)化落地情況來(lái)看，算法的碎片化、場(chǎng)景個(gè)性化等等嚴(yán)重的問(wèn)題導(dǎo)致了人工智能解決方案在工程化落地和市場(chǎng)化推廣方面的局限性。但是，2017年以來(lái)，特別是2020年以后，以 Transformer為基礎(chǔ)的各類(lèi)大模型“霸占”各主要AI榜單的榜首，成為了名副其實(shí)的基礎(chǔ)模型。基礎(chǔ)大模型加上場(chǎng)景的小定制化越來(lái)越成為人工智能技術(shù)在商業(yè)化推廣中的使用范式。

當(dāng)然，也有很多人質(zhì)疑Transformer的可解釋性，也有人通過(guò)借鑒Transformer的思想反哺給CNN來(lái)進(jìn)一步加速和提升，我們認(rèn)為這都沒(méi)有問(wèn)題，用戶更多地希望從準(zhǔn)確率和效果上能有質(zhì)的提升。CNN與Transformer在網(wǎng)絡(luò)架構(gòu)方面的競(jìng)爭(zhēng)追根溯源是卷積操作與通用矩陣乘積操作這兩種操作之爭(zhēng)。處理CNN卷積操作時(shí)，專(zhuān)用硬件架構(gòu)有發(fā)揮空間，這也就是之前大家所熟知的為算法和應(yīng)用而定制的AI加速器出現(xiàn)的原因；而隨著以GEMM為特征的Transformer網(wǎng)絡(luò)架構(gòu)的推廣和規(guī)?；瘧?yīng)用場(chǎng)景的挖掘，處理GEMM操作的較通用處理器可能更適合。當(dāng)然兩種方向會(huì)長(zhǎng)期存在，但最終以能效和成本為目標(biāo)的客戶應(yīng)用來(lái)說(shuō)，通用硬件架構(gòu)更有可能帶來(lái)降本增效的效果。

對(duì)于Transformer的出現(xiàn)，我們認(rèn)為其意義重大的原因更多地在于，Transformer為算法工作者提供了一種新的思想和思路方式，在大數(shù)據(jù)訓(xùn)練的情況下采用分布式的架構(gòu)更適合當(dāng)下人工智能算法的發(fā)展。

黑芝麻智能華山系列芯片采用多核異構(gòu)架構(gòu)

我們從以下三個(gè)維度進(jìn)行闡述我們認(rèn)為的下一代人工智能基礎(chǔ)設(shè)施的發(fā)展方向：

Heterogeneous DSA是未來(lái)異構(gòu)計(jì)算的主流。

當(dāng)前的計(jì)算架構(gòu)正在由單一的體系架構(gòu)往異構(gòu)的架構(gòu)發(fā)展、由單一芯片模式往融合異構(gòu)多芯片模式發(fā)展。軟硬件融合、異構(gòu)是當(dāng)前體系結(jié)構(gòu)發(fā)展的關(guān)鍵技術(shù)。

軟硬件融合是必然帶來(lái)以DSA為基礎(chǔ)的異構(gòu)計(jì)算的繁榮。除了芯片和體系結(jié)構(gòu)之外，編譯器、運(yùn)行系統(tǒng)、編程語(yǔ)言等軟件系統(tǒng)也面臨著DSA帶來(lái)的技術(shù)迭代周期。

隨著應(yīng)用場(chǎng)景的復(fù)雜性和異構(gòu)計(jì)算技術(shù)的發(fā)展，我們需要解決以下四類(lèi)問(wèn)題：

1、海量數(shù)據(jù)的高效處理：

2、復(fù)雜數(shù)據(jù)的有效處理：

3、海量計(jì)算的范式創(chuàng)新和提升：

4、高價(jià)值數(shù)據(jù)的識(shí)別與價(jià)值變現(xiàn)：

黑芝麻智能兩大核心自研IP——車(chē)規(guī)級(jí)圖像處理器NeuralIQ ISP以及DynamAI NN車(chē)規(guī)級(jí)低功耗神經(jīng)網(wǎng)絡(luò)加速引擎，賦能汽車(chē)看得更清、更遠(yuǎn)、更懂。其中，NeuralIQ ISP可支持多達(dá)12路高清相機(jī)接入。每秒處理36億3曝光像素，12億單曝光像素的高處理率管道，并且每個(gè)管道可并行在線處理兩路視頻，支持在線、離線和混合處理模式。支持HDR處理，符合高動(dòng)態(tài)曝光、低光降噪、LED閃爍抑制等高質(zhì)量車(chē)規(guī)圖像處理要求，適用于智能駕駛環(huán)視感知、前視感知、駕駛監(jiān)控等應(yīng)用場(chǎng)景；DynamAI NN引擎具備大算力的架構(gòu)，支持多形態(tài)、多精度運(yùn)算。通過(guò)可適配量化、結(jié)構(gòu)化剪裁壓縮、硬件可執(zhí)行軟件的子圖規(guī)劃實(shí)現(xiàn)軟硬件同步優(yōu)化。支持稀疏加速和配備自動(dòng)化開(kāi)發(fā)工具等優(yōu)勢(shì)。

黑芝麻智能自動(dòng)駕駛計(jì)算芯片SoC集成了多個(gè)加速器，有ARM、ARM Neon、GPU、NPU、DSP、ISP、VPU 等多個(gè)IP。NPU是主要用來(lái)處理AI相關(guān)workload的加速器，衡量一個(gè)NPU芯片的設(shè)計(jì)是否優(yōu)化，業(yè)界有三個(gè)認(rèn)可的設(shè)計(jì)原則：

1) 存儲(chǔ)層次化

2) 數(shù)據(jù)復(fù)用

3) 片上互聯(lián)

黑芝麻智能A1000芯片在設(shè)計(jì)層面已經(jīng)充分地將以上三點(diǎn)融合并實(shí)現(xiàn)在SoC芯片內(nèi)，包含多級(jí)緩存和數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)、高效的數(shù)據(jù)復(fù)用邏輯、統(tǒng)一片上NoC互聯(lián)結(jié)構(gòu)將主要的IP進(jìn)行并聯(lián)等。

我們堅(jiān)定地認(rèn)為DSA架構(gòu)和軟件系統(tǒng)是更適合當(dāng)前應(yīng)用的思想和方法。充分融合DSA的思想、結(jié)合具體的領(lǐng)域場(chǎng)景，才可以構(gòu)建出面向該領(lǐng)域的通用計(jì)算架構(gòu)、高性能計(jì)算模型、高效的數(shù)據(jù)處理方式，才真正地讓用戶擺脫算力瓶頸、增強(qiáng)用戶體驗(yàn)。

建設(shè)易用的以CXE為基礎(chǔ)的人工智能軟件基礎(chǔ)設(shè)施是AI落地的關(guān)鍵

軟件系統(tǒng)和工具鏈體系是量產(chǎn)化芯片走向成功的兩個(gè)極為重要的因素。而AI工具集體系和人工智能平臺(tái)是AI芯片最重要的軟件系統(tǒng)。能否充分發(fā)揮AI芯片的性能和能效是判斷AI工具集體系優(yōu)劣的很重要的指標(biāo)。黑芝麻智能構(gòu)建了面向AI芯片的工具集系統(tǒng)和人工智能平臺(tái)：山海人工智能開(kāi)發(fā)平臺(tái)，如下圖所示：

基于我們對(duì)行業(yè)knowhow的理解、對(duì)技術(shù)創(chuàng)新的信心，我們構(gòu)建了面向異構(gòu)加速計(jì)算平臺(tái)的軟件基礎(chǔ)設(shè)施：CXE(Compiler and eXecution Environment)。這解決了三個(gè)問(wèn)題：

1. 數(shù)據(jù)處理需求與算力能力之間的不平衡

2. 數(shù)據(jù)處理格式與異構(gòu)計(jì)算體系架構(gòu)的不一致

3. 融合計(jì)算在模型正確性和數(shù)學(xué)一致性方面的統(tǒng)一，如人工智能計(jì)算、工程計(jì)算等

CXE 系統(tǒng)升級(jí)了AI工具鏈和優(yōu)化系統(tǒng)、人工智能訓(xùn)練系統(tǒng)等基礎(chǔ)軟件。

以自動(dòng)駕駛應(yīng)用場(chǎng)景為例：

我們基于底層的硬件平臺(tái)，可能是CPU(如 ARM、X86、RISC-V等)、GPU、DSP、NPU、ISP等等處理器或異構(gòu)加速器，構(gòu)建了面向人工智能和技術(shù)領(lǐng)域的以MLIR為基礎(chǔ)的人工智能編譯器系統(tǒng)、分布式調(diào)度機(jī)制為基礎(chǔ)的實(shí)時(shí)推理系統(tǒng)和運(yùn)行時(shí)系統(tǒng)、融合了可解釋性為條件的分布式訓(xùn)練和構(gòu)建系統(tǒng)、可觀測(cè)可驗(yàn)證可調(diào)試的輔助工具集合，這構(gòu)成了以DSA為基礎(chǔ)的下一代人工智能基礎(chǔ)架構(gòu)和平臺(tái)。

打造非歐數(shù)據(jù)形式的融合算法模型是自動(dòng)駕駛技術(shù)穩(wěn)定產(chǎn)業(yè)化的基礎(chǔ)

在過(guò)去幾十年的發(fā)展歷程中，人工智能技術(shù)主要解決的是以歐幾里得空間的數(shù)據(jù)形式的處理問(wèn)題：

而物理世界和更廣泛的數(shù)據(jù)處理是非歐空間的數(shù)據(jù)處理問(wèn)題：

為了更好地解決自動(dòng)駕駛、機(jī)器智能的工程化問(wèn)題和領(lǐng)域知識(shí)的智能化泛化問(wèn)題，我們還需要解決計(jì)算密集型的工程數(shù)學(xué)和以強(qiáng)化學(xué)習(xí)為方向的Simulation的技術(shù)閉環(huán)問(wèn)題。

由此可見(jiàn)，我們基于MLIR等框架構(gòu)建了我們自控的編譯器/優(yōu)化器和運(yùn)行時(shí)系統(tǒng)，不僅支持AI workload相關(guān)的內(nèi)存密集型的計(jì)算場(chǎng)景，而且支持如OpenCV、Halide等面向工業(yè)場(chǎng)景的計(jì)算密集型場(chǎng)景，還在圖優(yōu)化領(lǐng)域支持靜態(tài)圖的編譯和高效轉(zhuǎn)換，正在對(duì)動(dòng)態(tài)圖的處理進(jìn)一步優(yōu)化。未來(lái)在多復(fù)雜度數(shù)據(jù)處理場(chǎng)景、分布式計(jì)算場(chǎng)景、人工智能場(chǎng)景、邊緣計(jì)算領(lǐng)域等多個(gè)交叉和融合的領(lǐng)域內(nèi)，將會(huì)產(chǎn)生更大的價(jià)值和現(xiàn)實(shí)意義。

“工欲善其事、必先利其器”。我們堅(jiān)信，好的工具是構(gòu)建基礎(chǔ)理論、驗(yàn)證現(xiàn)實(shí)問(wèn)題的至關(guān)重要的手段。通過(guò)構(gòu)建先進(jìn)的人工智能基礎(chǔ)設(shè)施和軟件系統(tǒng)，技術(shù)人員不僅可以高效完成人工智能場(chǎng)景化解決方案，而且還可以產(chǎn)生創(chuàng)新的靈感，創(chuàng)造性地完成新的場(chǎng)景、新的算法等，又可以解決有限時(shí)間下的工程交付需求。

開(kāi)發(fā)工具鏈?zhǔn)欠裢晟剖求w現(xiàn)黑芝麻智能芯片易用性的重要指標(biāo)。配合華山系列自動(dòng)駕駛計(jì)算芯片，黑芝麻智能發(fā)布的山海人工智能開(kāi)發(fā)平臺(tái)。它擁有50多種AI參考模型庫(kù)轉(zhuǎn)換用例，降低客戶的算法開(kāi)發(fā)門(mén)檻；能夠?qū)崿F(xiàn)QAT和訓(xùn)練后量化的綜合優(yōu)化，保障算法模型精度；支持動(dòng)態(tài)異構(gòu)多核任務(wù)分配，同時(shí)還支持客戶自定義算子開(kāi)發(fā)，完善的工具鏈開(kāi)發(fā)包及應(yīng)用支持，能夠助力客戶快速移植模型和部署落地的一體化流程。

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

芯片

芯片

+關(guān)注

關(guān)注
455

文章
50714

瀏覽量
423136
AI

AI

+關(guān)注

關(guān)注
87

文章
30728

瀏覽量
268885
DSA

DSA

+關(guān)注

關(guān)注
0

文章
48

瀏覽量
15145
異構(gòu)

異構(gòu)

+關(guān)注

關(guān)注
0

文章
40

瀏覽量
13104

評(píng)論

相關(guān)推薦

新黃金時(shí)代：抓住AI加速科學(xué)的機(jī)遇

/public-policy/ai-for-science/ ? 全球?qū)嶒?yàn)室正悄然興起一場(chǎng)革命，科學(xué)家對(duì)AI的使用正迅猛增長(zhǎng)。超過(guò)三分之一的博士后已利用大語(yǔ)言模型輔助整理文獻(xiàn)、撰寫(xiě)綜述、編寫(xiě)代碼等等。2024年10 月，

發(fā)表于 12-12 14:44 ?156次閱讀

新<b class='flag-5'>黃金時(shí)代</b>：抓住<b class='flag-5'>AI</b>加速科學(xué)的機(jī)遇

安謀科技異構(gòu)算力組合，破局生成式AI算力挑戰(zhàn)

近日，此芯科技集團(tuán)有限公司（以下簡(jiǎn)稱(chēng)“此芯科技”）AI PC戰(zhàn)略暨首款芯片發(fā)布會(huì)在上海舉行，正式推出了其首款專(zhuān)為AI PC打造的異構(gòu)高能效芯片

發(fā)表于 08-13 09:12 ?551次閱讀

此芯科技發(fā)布“此芯P1”異構(gòu)高能效芯片，引領(lǐng)AI PC新紀(jì)元

近日，此芯科技集團(tuán)有限公司（簡(jiǎn)稱(chēng)“此芯科技”）在上海隆重舉辦了AI PC戰(zhàn)略發(fā)布會(huì)，正式揭曉了其首款創(chuàng)新力作——“此芯P1”異構(gòu)高能效芯片。這一里程碑式的發(fā)布，標(biāo)志著國(guó)產(chǎn)芯片在

發(fā)表于 08-01 17:42 ?845次閱讀

安謀科技異構(gòu)算力賦能AI計(jì)算，此芯科技首款AI PC芯片發(fā)布

7月30日，此芯科技集團(tuán)有限公司（以下簡(jiǎn)稱(chēng)“此芯科技”）AI PC戰(zhàn)略暨首款芯片發(fā)布會(huì)在上海舉行，正式推出了其首款專(zhuān)為AI PC打造的異構(gòu)高能效芯片

發(fā)表于 07-31 14:36 ?1030次閱讀

異構(gòu)混訓(xùn)整合不同架構(gòu)芯片資源，提高算力利用率

電子發(fā)燒友網(wǎng)報(bào)道（文/李彎彎）隨著AI技術(shù)的飛速發(fā)展，大模型的訓(xùn)練和推理任務(wù)對(duì)算力的需求日益增長(zhǎng)。然而，單一品牌的芯片往往難以滿足所有需求，且可能存在供應(yīng)鏈風(fēng)險(xiǎn)。因此，異構(gòu)芯片混訓(xùn)成為

發(fā)表于 07-18 00:11 ?3437次閱讀

AI初創(chuàng)公司Etched獲1.2億美元A輪融資，加速專(zhuān)用AI芯片研發(fā)

舊金山的一家人工智能（AI）初創(chuàng)公司Etched宣布，在最近完成的A輪融資中成功籌集了1.2億美元的資金。這筆資金將主要用于進(jìn)一步開(kāi)發(fā)其專(zhuān)用的AI芯片，以支持日益增長(zhǎng)的人工智能應(yīng)用需求

發(fā)表于 06-26 14:13 ?728次閱讀

AI時(shí)代的芯片革命:GPU、FPGA與TPU競(jìng)相涌現(xiàn)

隨著人工智能（AI）技術(shù)的迅猛發(fā)展，我們正站在一個(gè)新時(shí)代的門(mén)檻上，這個(gè)時(shí)代將由強(qiáng)大的計(jì)算芯片引領(lǐng)，徹底改變世界經(jīng)濟(jì)格局。美國(guó)開(kāi)放人工智能研究中心（OpenAI）首席執(zhí)行官山姆·奧特曼等

發(fā)表于 06-20 09:47 ?585次閱讀

AI芯片哪里買(mǎi)？

AI芯片

芯廣場(chǎng)
發(fā)布于 :2024年05月31日 16:58:19

臺(tái)積電成功集成CFET架構(gòu)，預(yù)計(jì)2025年2nm技術(shù)實(shí)現(xiàn)量產(chǎn)，將支持A

張曉強(qiáng)強(qiáng)調(diào)，半導(dǎo)體行業(yè)的黃金時(shí)代已然來(lái)臨，未來(lái)AI芯片的發(fā)展幾乎99%都依賴于臺(tái)積電的先進(jìn)邏輯技術(shù)與先進(jìn)封裝技術(shù)。臺(tái)積電憑借其技術(shù)創(chuàng)新，將使芯片性能提升，能耗降低。

發(fā)表于 05-27 09:53 ?718次閱讀

臺(tái)積電跨制程整合晶體管架構(gòu)并引入CFET，發(fā)布新一代芯片技術(shù)

張曉強(qiáng)強(qiáng)調(diào)，半導(dǎo)體產(chǎn)業(yè)的黃金時(shí)代已然來(lái)臨，未來(lái)AI芯片的發(fā)展幾乎99%都依賴于臺(tái)積電的先進(jìn)邏輯技術(shù)和先進(jìn)封裝技術(shù)。臺(tái)積電憑借技術(shù)創(chuàng)新，將在未來(lái)提升芯片性能和降低功耗方面發(fā)揮更大作用。

發(fā)表于 05-24 15:09 ?814次閱讀

傳感器產(chǎn)業(yè)迎來(lái)黃金時(shí)代，矽典微賦能感知體驗(yàn)再升級(jí)

毫米波傳感器為智能化應(yīng)用提供更智能更細(xì)分的感知新體驗(yàn)。成立于2018年的矽典微，如今正處在傳感器產(chǎn)業(yè)的“黃金時(shí)代”，矽典微也站上技術(shù)創(chuàng)新、產(chǎn)品迭代的商業(yè)化快速發(fā)展的階

發(fā)表于 05-13 08:06 ?302次閱讀

為什么說(shuō)2024年會(huì)是傳感器發(fā)展的黃金時(shí)代？

? ? 2023年，智能化的創(chuàng)新涌現(xiàn)為科技圈貢獻(xiàn)了許多熱點(diǎn)話題，從大模型到人形機(jī)器人，AI的浪潮一浪接一浪，資本的腳步也從未停歇，引發(fā)著各界的熱切關(guān)注。聚焦的話題迭現(xiàn)常新，但萬(wàn)變不離其宗的是，AI

發(fā)表于 04-12 08:44 ?176次閱讀

高通NPU和異構(gòu)計(jì)算提升生成式AI性能?

異構(gòu)計(jì)算的重要性不可忽視。根據(jù)生成式AI的獨(dú)特需求和計(jì)算負(fù)擔(dān)，需要配備不同的處理器，如專(zhuān)注于AI工作負(fù)載的定制設(shè)計(jì)的NPU、CPU和GPU。

發(fā)表于 03-06 14:15 ?783次閱讀

何為異構(gòu)芯片協(xié)同異構(gòu)AI芯片的挑戰(zhàn)

進(jìn)入大模型時(shí)代，全社會(huì)算力需求被推高到了前所未有的程度。

發(fā)表于 02-25 13:53 ?1996次閱讀

【2023電子工程師大會(huì)】開(kāi)源硬件的黃金時(shí)代ppt

【2023電子工程師大會(huì)】開(kāi)源硬件的黃金時(shí)代ppt

發(fā)表于 01-03 16:31 ?63次下載

RM新时代网站-首页

搜索歷史

異構(gòu)專(zhuān)用AI芯片的黃金時(shí)代

評(píng)論

新黃金時(shí)代：抓住AI加速科學(xué)的機(jī)遇

安謀科技異構(gòu)算力組合，破局生成式AI算力挑戰(zhàn)

此芯科技發(fā)布“此芯P1”異構(gòu)高能效芯片，引領(lǐng)AI PC新紀(jì)元

安謀科技異構(gòu)算力賦能AI計(jì)算，此芯科技首款AI PC芯片發(fā)布

異構(gòu)混訓(xùn)整合不同架構(gòu)芯片資源，提高算力利用率

AI初創(chuàng)公司Etched獲1.2億美元A輪融資，加速專(zhuān)用AI芯片研發(fā)

AI時(shí)代的芯片革命:GPU、FPGA與TPU競(jìng)相涌現(xiàn)

AI芯片哪里買(mǎi)？

臺(tái)積電成功集成CFET架構(gòu)，預(yù)計(jì)2025年2nm技術(shù)實(shí)現(xiàn)量產(chǎn)，將支持A

臺(tái)積電跨制程整合晶體管架構(gòu)并引入CFET，發(fā)布新一代芯片技術(shù)

傳感器產(chǎn)業(yè)迎來(lái)黃金時(shí)代，矽典微賦能感知體驗(yàn)再升級(jí)

為什么說(shuō)2024年會(huì)是傳感器發(fā)展的黃金時(shí)代？

高通NPU和異構(gòu)計(jì)算提升生成式AI性能?

何為異構(gòu)芯片協(xié)同異構(gòu)AI芯片的挑戰(zhàn)

【2023電子工程師大會(huì)】開(kāi)源硬件的黃金時(shí)代ppt