RM新时代app官方版下载,RM新时代下载不了

華為智能汽車部門IntelligentAutomotive Solutions（IAS）下設(shè)包括提供應(yīng)用算法的AutonomousDriving Solution (ADS)部門、提供域控制器的Mobile Data Center（MDC）和提供傳感器系統(tǒng)的集成感知事業(yè)部。其中，ADS負責(zé)算法研究，下分很多小組，分得特別精細，比如有Obstacle Detection Team障礙物探測、Prediction and Decision預(yù)測與決策；MDC類似于Tier1，前身為中央計算部門，主要為華為ARM服務(wù)器業(yè)務(wù)提供硬件。華為智能駕駛使用的芯片由海思提供，華為ARM服務(wù)器芯片也由海思提供，智能駕駛和ARM服務(wù)器芯片共用大部分研發(fā)成果。

華為海思AI 產(chǎn)品線規(guī)劃路線圖

圖片來源：https://ggim.un.org/meetings/2019/Deqing/documents/1-3%20Huawei%20slides.pdf

海思AI產(chǎn)品線規(guī)劃有四條，分別為鯤鵬、昇騰、麒麟和鴻鵠。其中，鯤鵬系列主要是CPU，昇騰是AI加速器，麒麟主要是針對手機，鴻鵠針對電視。智能駕駛是昇騰產(chǎn)品線的延伸。此外基于麒麟990的麒麟990A則是華為汽車座艙芯片。

華為智能駕駛芯片主要有昇騰310、昇騰610和昇騰620，這三款芯片還可以級聯(lián)增加性能。https://www-file.huawei.com/-/media/corp2020/pdf/publications/huawei-research/2022/huawei-research-issue1-en.pdf，這個文檔里有華為昇騰系列芯片的詳細解釋，本文主要資料來源就是這個文檔。

昇騰610的內(nèi)部框架圖

圖片來源：華為

昇騰910內(nèi)部框架圖

圖片來源：華為

華為設(shè)計芯片是模塊形式，盡量復(fù)用研發(fā)成果，昇騰系列芯片的CPU和AI核心基本是相同的，只是核心數(shù)量不同。

華為昇騰核心特性一覽表

圖片來源：華為

昇騰核心即AI核，分原始、Max、Mini、Lite、Tiny幾個版本，針對不同的應(yīng)用使用不同的核心和數(shù)量配置，如針對手機領(lǐng)域的麒麟990，是兩個Lite和一個Tiny核心，三個加起來是6.88TOPS@INT8算力。昇騰310則是兩個Mini核心，昇騰610則是10個原始核心，昇騰910是32個Max核心。昇騰620可能是10個Max核心。每個核心基本是相同的，主要是緩存配置和頻率配置不同。

不同的核心對應(yīng)不同的算法網(wǎng)絡(luò)

圖片來源：華為

昇騰Max核心內(nèi)部框架

圖片來源：華為

上圖為Max核心內(nèi)部框架，主要包括標(biāo)量Scalar、矢量Vector和張量Tensor三個運算單元。標(biāo)量單元負責(zé)任務(wù)調(diào)度，矢量單元負責(zé)深度學(xué)習(xí)最后的激活階段，張量負責(zé)卷積矩陣乘法。

三種運算單元的計算模式

圖片來源：華為

標(biāo)量基本近似CPU，靈活性最高，但針對AI運算力最低。1D矢量近似于GPU，靈活性居中，AI算力中等，CUBE針對2D矩陣，也就是一般意義上的張量。

如果按照嚴格數(shù)學(xué)的定義，那么矢量是一階張量，矩陣是二階張量，CUBE核跟英偉達的所謂張量核Tensor基本一致。

英偉達自Turing架構(gòu)開始用的張量核架構(gòu)和華為的CUBE基本一致，都是三維架構(gòu)。

三種運算核心的對比

圖片來源：華為

一個CUBE核是8TOPS@FP16的算力，注意是FP16不是常見的INT8，車載領(lǐng)域一般是INT8。一個CUBE內(nèi)部包含4096個FP16 MACs，8192個INT8 MACs，而一個MAC是包含兩個Ops，因此如果運行頻率是1GHz，那FP16算力就是1G*2*4096=8T。

同樣，谷歌的TPU V1是65000個FP16 MAC，運行頻率0.7GHz，那么算力就是65000*0.7G*2=91T。特斯拉第一代FSD兩個NPU，每個NPU是9216個INT8 MAC，運行頻率是2GHz，算力就是2*2*2G*9216=73TOPS。所謂算力基本就是MAC數(shù)量的堆砌，堆的越多，算力越高，面積也越大，成本就越高。

算力這個數(shù)字不用較真。

幾個手機芯片的AI算力對比

來源：華為

高通驍龍865標(biāo)稱最高，有8TOPS，但AI得分很低，遠低于4.5TOPS的聯(lián)發(fā)科天璣1000，更低于華為的麒麟990，顯然高通的水分很大，聯(lián)發(fā)科則太老實了，標(biāo)稱比實際低了至少1TOPS。

華為在2019年在IEEE上發(fā)表論文《Kunpeng 920: The First 7-nm Chiplet-Based 64-Core ARM SoC for CloudServices》，鏈接為https://ieeexplore.ieee.org/document/9444893，這可是要付費瀏覽的論文，不是ARXIV那種只要你投就發(fā)表的論文，IEEE的論文是要嚴格審核的。

華為的論文主要說了LLC，即最后一級緩存。鯤鵬920的設(shè)計中，將SoC的全局LLC切片到各個CPU Cluster中，使LLC與CPU Cluster形成NUMA關(guān)系。因此，需要仔細考慮如何選擇每個集群的適當(dāng)大小，以最大限度地發(fā)揮其效益。綜合考慮多種因素，選擇每個集群4個CPU核心，以獲得當(dāng)前進程節(jié)點的最佳PPA分數(shù)。

LLC采用私有模式或共享模式：私有模式通常用于每個CPU核心承載相對獨立的任務(wù)數(shù)據(jù)時；當(dāng)SoC內(nèi)的任務(wù)共享大量數(shù)據(jù)時，通常使用共享模式。

在私有模式下，每個CPU集群和對應(yīng)的LLC切片組成一個私有組，可以避免集群訪問高延遲的緩存切片。

在共享模式下，所有 LLC切片組合在一起充當(dāng)一個塊，以提高 SoC 內(nèi)部數(shù)據(jù)的重用率。

再來看CPU部分，昇騰610里是16核心的CPU，按照慣例這里的CPU核心很可能就是鯤鵬里的CPU核心，即《Kunpeng 920: The First 7-nm Chiplet-Based 64-Core ARM SoC for CloudServices》里所說的TAISHAN V110，眾所周知，泰山也是華為服務(wù)器的產(chǎn)品線名稱。TAISHAN V110是ARM系列的魔改，因為TAISHAN V120內(nèi)核是基于ARM Cortex-A76的魔改，https://www.huaweicentral.com/kirin-990a-huaweis-first-auto-chipset-installed-in-arcfox-alpha-s-smart-car/，這里提到了麒麟990A的CPU是TAISHAN V120的lite版，而https://www.hisilicon.com/en/products/Kirin/Kirin-flagship-chips/Kirin-990-5G，則直接承認麒麟990的CPU就是ARM Cortex-A76，因此TAISHANV110很可能是ARM Cortex-A75或A73或者是ARM服務(wù)器系列的N1。和英偉達的Orin使用的ARM Cortex-A78AE差距很大，但華為用數(shù)量彌補了這一差距，基本與英偉達旗鼓相當(dāng)。

NoC方面是2D的4*6 MESH網(wǎng)格，節(jié)點間工作頻率2GHz，帶寬1024位即256GB/s，這個在2019年是比較高端的配置，但現(xiàn)在是2023年了，只能是中等配置。

華為與其他智能駕駛芯片的對比

圖片來源：華為

華為最后也做了與其他智能駕駛芯片的對比，從中也可以看出昇騰610的die size尺寸很大，有401平方毫米。根據(jù)TechanaLye的分析，英偉達Orin的die size是455平方毫米，不過英偉達是三星的8納米工藝，如果用和昇騰一樣的臺積電7納米工藝，那么面積應(yīng)該與昇騰610差不多，也就是說昇騰610的硬件成本和英偉達Orin是基本一致的。依照昇騰610的功率，水冷散熱是少不了的。

算力實際上很難對比，英偉達的一般都是稀疏算力，而華為據(jù)說是稠密，通常兩者會差一倍。英偉達Orin有多個版本，最頂級版本的275TOPS@稀疏INT8，算力實際上是兩部分：一部分由2048個CUDA貢獻，最高頻率1.3GHz，貢獻170TOPS@稀疏INT8算力；另一部分是64個張量核貢獻，最高頻率1.6GHz，貢獻105TOPS@INT8稀疏算力，如果是FP32稠密格式那么算力僅為5.3TOPS（此時只有CUDA能處理FP32數(shù)據(jù)），并且CUDA核和張量核很難同時達到最大化性能。張量核主要做矩陣乘法，CUDA主要做矩陣與矢量乘法，矢量與矢量之間乘法，CPU會根據(jù)數(shù)據(jù)和任務(wù)的不同安排誰來工作。

此外稀疏和稠密有三種不同的定義，一種稀疏是計算稀疏，稀疏指計算密度低，谷歌第四代TPU就特設(shè)稀疏核，就是針對稀疏計算部分如transformer的嵌入部分。另一種是輸入數(shù)據(jù)本身就是稀疏矩陣，還有一種是密集權(quán)重模型經(jīng)過剪枝后的稀疏模型。天然稀疏矩陣指原始數(shù)據(jù)就包含很多0的矩陣，激光雷達的信息矩陣就是典型的稀疏矩陣，RGB攝像頭一般是稠密矩陣。

在汽車這種嵌入式領(lǐng)域，算力和存儲帶寬限制需要盡可能地降低權(quán)重規(guī)模，對模型進行剪枝或者說蒸餾，這種屬于主動將模型稀疏化，通常有四級，分別是Fine-grained、Vector、Kernel和Filter，分別對應(yīng)單個權(quán)重、行或列、通道和卷積核。

英偉達對于最高級的fine grained做了特別優(yōu)化，相對稠密模型，計算速度提高一倍，也就是算力數(shù)值高了一倍，英偉達公布的算力數(shù)值，一般默認是稀疏。如果沒有針對fine grained優(yōu)化，那么計算速度還是與稠密模型時一致。順便說一句，對于激光雷達這種稀疏矩陣，人類目前沒有找到好的優(yōu)化加速的方法。

算力數(shù)值實際和算法高度捆綁。若算法不匹配，最糟糕的情況下，算力只能發(fā)揮1%不到，也就是如果是100TOPS的算力，那么實際只發(fā)揮了不到1TOPS，這種情況不算罕見。

昇騰的軟件開發(fā)棧

圖片來源：華為

上圖是昇騰的軟件開發(fā)棧，CUDA還是必須使用，算子庫還是常見的cuBLAS，英偉達的GPU此時會更占優(yōu)勢。

Transformer時代，存儲帶寬比算力數(shù)值更有價值。CNN時代，卷積之類的稠密算子占了90%以上的計算，而Transformer時代稠密算子所占的部分大幅下降，對存儲帶寬要求高的存儲密集型算子大幅增加數(shù)倍，80-90%的計算延遲都是由這些算子造成的。

存儲帶寬方面，昇騰910不計成本使用了HBM，不過2019年只有HBM一代，昇騰910的存儲帶寬是1TB/s，和目前主流AI加速器比差距較大；昇騰610自然無法用昂貴的HBM，只能是LPDDR4/5，估計是100-200GB/s之間；昇騰310考慮成本，存儲帶寬只有47.8GB/s。特斯拉二代FSD用了GDDR6做存儲，可輕易超過400GB/s。

考慮到華為的智能駕駛芯片是2019年確定設(shè)計框架的，這在2019年毫無疑問是全球最先進的，沒有之一，即便到了2023年，這個設(shè)計仍然不算落伍，但與英偉達和高通的下一代相比，難免出現(xiàn)差距。特別是Transformer對AI運算有非常大的改變，必須做出對應(yīng)的修改。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

華為

華為

+關(guān)注

關(guān)注
216

文章
34411

瀏覽量
251494
智能駕駛

智能駕駛

+關(guān)注

關(guān)注
3

文章
2505

瀏覽量
48736
cnn

cnn

+關(guān)注

關(guān)注
3

文章
352

瀏覽量
22203

原文標(biāo)題：華為智能駕駛芯片深度分析

文章出處：【微信號：zuosiqiche，微信公眾號：佐思汽車研究】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

智能駕駛的市場前景分析

智能駕駛的市場前景廣闊，以下是對其市場前景的分析：一、市場需求持續(xù)增長隨著消費者對智能駕駛技術(shù)的認知度和接受度不斷提高，市場需求也在持續(xù)

發(fā)表于 10-23 15:44 ?472次閱讀

比亞迪方程豹與華為簽訂智能駕駛合作協(xié)議

比亞迪與華為在深圳攜手，正式簽署智能駕駛領(lǐng)域的深度合作協(xié)議，標(biāo)志著雙方合作邁入全新階段。此次合作聚焦于比亞迪旗下方程豹品牌，特別是即將震撼登場的方程豹豹8車型，旨在為全球消費者帶來前所

發(fā)表于 09-29 18:25 ?645次閱讀

華為智能駕駛發(fā)展路徑探討

隨著全球科技的迅速發(fā)展，汽車產(chǎn)業(yè)正經(jīng)歷著從機械化向智能化的發(fā)展轉(zhuǎn)型，而智能駕駛技術(shù)則是這一變革的核心推動力。全球各大汽車制造商和科技公司紛紛布局智能

發(fā)表于 09-19 10:09 ?1438次閱讀

比亞迪與華為合作,加快智能駕駛領(lǐng)域深度融合

8月27日，比亞迪旗下的方程豹品牌與華為乾崑智駕在深圳正式達成戰(zhàn)略合作，標(biāo)志著中國兩大科技巨頭在智能駕駛領(lǐng)域的深度融合。雙方攜手共創(chuàng)，旨在推出全球首個專為硬派車型設(shè)計的專屬

發(fā)表于 08-27 14:30 ?1268次閱讀

深度學(xué)習(xí)在自動駕駛中的關(guān)鍵技術(shù)

隨著人工智能技術(shù)的飛速發(fā)展，自動駕駛技術(shù)作為其中的重要分支，正逐漸走向成熟。在自動駕駛系統(tǒng)中，深度學(xué)習(xí)技術(shù)發(fā)揮著至關(guān)重要的作用。它通過模擬人腦的學(xué)習(xí)過程，實現(xiàn)對車輛周圍環(huán)境的感知、理解

發(fā)表于 07-01 11:40 ?753次閱讀

HDC2024華為發(fā)布鴻蒙原生智能：AI與OS深度融合，開啟全新的AI時代

6月21日，華為開發(fā)者大會2024（HDC.2024）召開。 HarmonyOS NEXT將AI與OS深度融合，構(gòu)筑全新鴻蒙原生智能框架。大會現(xiàn)場，華為常務(wù)董事、終端BG董事長、

發(fā)表于 06-24 09:28 ?612次閱讀

華為智能駕駛:領(lǐng)跑全球的智能駕駛新紀元

，與這些科技巨頭不同，華為卻堅定地跨界進入智能駕駛領(lǐng)域，并最終成為全球領(lǐng)先的智能駕駛操作系統(tǒng)供應(yīng)商。這背后，是

發(fā)表于 06-21 16:35 ?1893次閱讀

易控智駕獲華為MDC 2023年智能駕駛杰出合作伙伴的稱號

4月24日下午，在“智在·必行”2024華為智能汽車解決方案MDC生態(tài)論壇上，易控智駕憑借在礦山無人駕駛領(lǐng)域規(guī)?；涞貞?yīng)用實踐的突出成就，獲得華為MDC 2023年

發(fā)表于 04-25 18:27 ?2090次閱讀

華為發(fā)布以智能駕駛為核心的智能汽車解決方案新品牌—華為乾崑

2024（第十八屆）北京國際汽車展覽會召開前夕，華為智能汽車解決方案發(fā)布會隆重召開，現(xiàn)場發(fā)布了以智能駕駛為核心的智能汽車解決方案新品牌——

發(fā)表于 04-25 09:30 ?1022次閱讀

智能駕駛基本概念定義中國智能駕駛格局分析

在行車領(lǐng)域，產(chǎn)品迭代路線包括低級輔助駕駛到高級駕駛輔助，涵蓋了諸如LKA、AEB、ACC、LCC、ALC、HWA等功能。城市NOA和高速NOA則實現(xiàn)了在城市和高速場景下的智能駕駛。

發(fā)表于 04-12 11:36 ?1226次閱讀

平線與黑芝麻智駕芯片發(fā)展路徑的深度復(fù)盤

智能駕駛芯片市場正處于白熱化的競爭之中，各大企業(yè)爭相尋求突圍和領(lǐng)先優(yōu)勢。從現(xiàn)有數(shù)據(jù)和分析可以看出，智能

發(fā)表于 04-01 11:47 ?718次閱讀

華為公開智能駕駛新專利：可識別唇語并報警

華為技術(shù)有限公司最近公開了一項關(guān)于“報警方法、裝置以及智能駕駛設(shè)備”的新專利，這項創(chuàng)新技術(shù)為智能駕駛領(lǐng)域注入了新的活力。

發(fā)表于 03-26 09:26 ?635次閱讀

華為自動駕駛技術(shù)怎么樣？

強大，主要體現(xiàn)在以下幾個方面：強大的研發(fā)團隊：華為擁有一支專業(yè)的研發(fā)團隊，專注于自動駕駛技術(shù)的研發(fā)和創(chuàng)新。這支團隊匯聚了眾多頂尖的技術(shù)專家和工程師，具備豐富的研發(fā)經(jīng)驗和技術(shù)積累。領(lǐng)先的技術(shù)儲備：華為在通信、

發(fā)表于 02-02 16:58 ?1733次閱讀

長安華為合資公司將涉足智能駕駛等領(lǐng)域

據(jù)了解，今年的11月25日，長安汽車與華為在深圳簽署了一份《投資合作備忘錄》，約定華為將設(shè)立一個專注智能網(wǎng)聯(lián)汽車智能駕駛系統(tǒng)及增量部件研發(fā)、

發(fā)表于 01-16 11:20 ?530次閱讀

智能駕駛芯片TOP20排名

智能駕駛芯片排名并不簡單只看AI算力，CPU、存儲帶寬、功耗和AI算力數(shù)值一樣重要，這個下文會詳細分析。

發(fā)表于 12-28 10:29 ?2718次閱讀