新时代官方下载,RM新时代成立多久了

1、引言

在上一篇文章“從A76到A78——在變化中學(xué)習(xí)Arm微架構(gòu)”中，我們了解了Arm處理器微架構(gòu)的基本組成，介紹了Armv8架構(gòu)最后幾代經(jīng)典處理器架構(gòu)。現(xiàn)在，Arm公司已經(jīng)在2021年3月推出了其最新的Armv9架構(gòu)系列處理器，距上一代Armv8系列架構(gòu)發(fā)布相隔了整整10年時(shí)間。新一代的Armv9產(chǎn)品，不但會(huì)帶來更強(qiáng)大的計(jì)算性能，在安全、AI等領(lǐng)域也帶來了全新的設(shè)計(jì)?？梢哉f，Armv9系列繼承了Armv8架構(gòu)的優(yōu)勢(shì)，同時(shí)也為Arm公司的下一個(gè)十年拉開了帷幕。本文將著重介紹基于Armv9架構(gòu)的A710、A715、A510等處理器架構(gòu)，讓大家了解Armv9架構(gòu)和Armv8架構(gòu)的差異。

2、Arm的Cortex-X定制CPU計(jì)劃

在介紹Armv9系列前，我們先看一下ARM的Cortex-X定制CPU計(jì)劃。Cortex-X方案先于Armv9發(fā)布，在Arm發(fā)布A78時(shí)，同時(shí)也發(fā)布了Cortex-X1這一顆性能強(qiáng)大的CPU，后續(xù)大家習(xí)慣稱之為超級(jí)大核。從此，旗艦處理器的架構(gòu)從4+4（4大+4?。┲鸩阶兂闪?+3+4（1超大+3大+4?。┘軜?gòu)。Cortex-X計(jì)劃不但帶來了如X1這樣的超級(jí)大核心設(shè)計(jì)，也允許廠商參與定制Cortex-X系列的核心設(shè)計(jì)。X系列超級(jí)大核心相比A系列大核心，擁有更大的芯片面積，同時(shí)支持更多的發(fā)射和解碼能力，還增加了緩存和ROB空間等，圖中Arm宣稱X1相比A78的性能提升超過30%。后續(xù)計(jì)劃專門寫一篇文章介紹Cortex-X的系列處理器。

3、64bit應(yīng)用生態(tài)

32bit和64bit應(yīng)用兼容問題已經(jīng)歷經(jīng)多年討論，主流的蘋果和安卓平臺(tái)都明確表示要切換到64bit以提供更大的應(yīng)用訪問空間和支持處理器的最新特性。蘋果公司在2017年的iOS11中就強(qiáng)制要求開發(fā)者切換到64bit應(yīng)用，谷歌公司則要求安卓開發(fā)者在2021年將上傳的應(yīng)用完全切換到64bit。但是，由于安卓系統(tǒng)的開放性，應(yīng)用商店的多樣性，且開發(fā)者可以自由安裝應(yīng)用，市場上的應(yīng)用商店的存量應(yīng)用更新64bit的速度較慢，直到2021年的Armv9處理器，我們明確看到了存量32bit應(yīng)用對(duì)于使用的影響。

2021年，Armv9第一代的A510處理器和Cortex-X2處理器不支持運(yùn)行32bit應(yīng)用，但是A710處理器是可以支持的，所以采用X2+A710+A510的處理器（例如驍龍8Gen1）只支持在3顆A710中運(yùn)行32bit應(yīng)用，運(yùn)行32bit應(yīng)用時(shí)存在高耗電和卡頓的風(fēng)險(xiǎn)。

2022年，Armv9第二代的A510r處理器增加了32bit應(yīng)用支持，但是Cortex-X3和A715處理器不支持運(yùn)行32bit處理器，所以如果采用X3+A715+A510r（1+3+4）的處理器（例如天璣9200）只支持在4顆A510r小核運(yùn)行32bit應(yīng)用，運(yùn)行32bit應(yīng)用會(huì)有嚴(yán)重的卡頓風(fēng)險(xiǎn)（MTK也提供了對(duì)應(yīng)的優(yōu)化方案）。相信高通也提前預(yù)判到了這個(gè)風(fēng)險(xiǎn)，在2022年的驍龍8Gen2設(shè)計(jì)中，采用了X3+A715+A710+A510r（1+2+2+3）的架構(gòu)，提供了2顆兼容32bit的A710大核心，從另一個(gè)角度消解了大核心無法運(yùn)行32bit應(yīng)用的風(fēng)險(xiǎn)。

希望安卓和Arm可以在2023年實(shí)現(xiàn)純64bit的計(jì)劃。

4、SVE2擴(kuò)展指令集

Armv9和Armv8在核心指令集上變化不大，依然采用AArch64。Arm自v7開始推出的NEON指令集作為向量擴(kuò)展指令，可以大幅度提高多媒體運(yùn)行的效率，無疑是非常成功的，這次Armv9給大家?guī)砹巳碌腟VE2（Scalable Vector Extension 2）擴(kuò)展指令集。

SVE2是基于SVE的擴(kuò)展，實(shí)際上SVE在2016年就有發(fā)布，SVE2在2019年也專門對(duì)外進(jìn)行過發(fā)布。我們?cè)诹私馓幚砥魑⒓軜?gòu)的執(zhí)行單元時(shí)，可以看到浮點(diǎn)運(yùn)算單元中提供了多種SIMD的運(yùn)算模塊。SVE2有三個(gè)特點(diǎn)，一是基于SVE指令集的擴(kuò)展，二是提升了擴(kuò)展性，三是支持更多類型任務(wù)的矢量化運(yùn)算。舉個(gè)例子，NEON指令是固定的128bits，SVE2指令則可以從128bits到擴(kuò)展到最大2048bits。

雖然擴(kuò)展指令集聽起來很香，實(shí)際使用起來并不是在編譯器中打開編譯開關(guān)就可以高枕無憂的，編譯器雖然提供了一些基礎(chǔ)能力，可將一些固定計(jì)算邏輯轉(zhuǎn)換成擴(kuò)展指令集，但若想要充分利用擴(kuò)展指令集的能力，還是需要開發(fā)者充分學(xué)習(xí)擴(kuò)展指令集的能力，通過專用的編程語法（Intrinsics ）甚至去寫擴(kuò)展指令集的專用匯編，通過合理的邏輯排序組合，充分利用指令集的優(yōu)勢(shì)，才能獲得最佳的效果。

5、聊聊Arm的產(chǎn)品代號(hào)

A710的產(chǎn)品代號(hào)叫做Matterhorn（馬特洪峰），海拔4478米，阿爾卑斯山系最著名的山脈之一。

A715的產(chǎn)品代號(hào)叫做Makalu（馬卡魯峰）海拔8463米，屬于喜馬拉雅山脈，是世界第五高峰。

A510的產(chǎn)品代號(hào)叫做Klein（克萊因），CK里面的K就是這個(gè)單詞。

A715的下一代產(chǎn)品代號(hào)叫做Hunter（獵人），Hunter下一代產(chǎn)品代號(hào)叫做Chaberton。

A510的下一代產(chǎn)品代號(hào)則叫做Hayes（海因斯）。

有時(shí)候我不禁聯(lián)想，Matterhorn和Makalu兩座高山，可能代表著工程師想挑戰(zhàn)的高度吧！

6、A710和A715微架構(gòu)介紹

6.1 A78回顧

文章都寫了一半了，終于到聊到正題了？還沒有！因?yàn)锳710是基于A78微架構(gòu)優(yōu)化而來，我們先要先回顧一下A78。這里和大家快速回顧下A78的微架構(gòu)，4路decode，加上Mop Cache可以一次最多提供6路Mops指令進(jìn)入執(zhí)行單元，整數(shù)執(zhí)行單元提供2個(gè)Branch，4個(gè)ALU，浮點(diǎn)單元提供2個(gè)FPU，存儲(chǔ)單元提供2個(gè)LS AGU，1個(gè)LD AGU和2個(gè)ST-Data通路。

6.2 A710和A715簡介

A710是Armv9家族的第一顆大核心，A710也是第一次正式引入了SVE2擴(kuò)展指令集，A710沒有放棄32bit的支持，可以同時(shí)兼容32bit和64bit應(yīng)用。

A715是Armv9家族的第二顆大核心，值得注意的是核心序號(hào)只加了5，難道Arm覺得還達(dá)不到A720的預(yù)期？我們后續(xù)揭曉。A715相比A710最大的變化是輕裝上陣，拋棄了32bit的支持，讓設(shè)計(jì)師可以更加聚焦設(shè)計(jì)一款純64bit的核心。

6.3 A710能效

Arm在A710這一代產(chǎn)品希望重點(diǎn)優(yōu)化能效。根據(jù)Arm提供的性能功耗曲線數(shù)據(jù)，A710依然是一顆高能效比的核心，相比A78在同樣的能耗下性能可以提升約10%，同樣的性能條件下功耗可以降低約30%，需要注意2點(diǎn)，第一是這個(gè)數(shù)據(jù)是在高頻率區(qū)間取得的，低頻率區(qū)間的能效曲線和A78較為接近；第二是性能的提升是在L3緩存增加情況下得出的，緩存增大理論也貢獻(xiàn)了一部分性能得分。

可惜A710的出生似乎有些生不逢時(shí)，大家寄予厚望的采用了A710的第一代產(chǎn)品高通驍龍8Gen1處理器，由于采用了三星工藝代工，整體能效表現(xiàn)一般，直到高通公司第二年將工藝切換TSMC并量產(chǎn)了驍龍8+Gen1芯片，整體芯片能效有了明顯提升，才發(fā)揮出了A710應(yīng)有的實(shí)力。

驍龍8+Gen1和8Gen1能效對(duì)比數(shù)據(jù)

6.4 A710架構(gòu)設(shè)計(jì)

A710在前端設(shè)計(jì)部分上和A78差異不大，同樣提供了1.5K的MOP cache，提供了可動(dòng)態(tài)配置3264KB的L1緩存和可動(dòng)態(tài)配置256512KB的L2緩存。Arm在A710上的優(yōu)化點(diǎn)是提升了分支預(yù)測(cè)的能力，將關(guān)鍵的分支預(yù)測(cè)結(jié)構(gòu)體容量空間翻了一番，此外L1的TLB容量也翻了一倍。

A710微架構(gòu)的一個(gè)關(guān)鍵的修改在指令分發(fā)Dispatch模塊，該模塊發(fā)生了一些有趣的變化，大家還記得A77新引入MOP cache時(shí)就是4路decode和6路dispatch，A78同樣繼承如此，到了A710上Arm將其減少到了5路dispatch。減少一條通路意味著可以節(jié)省芯片電路和面積，另一方向性能上也難免會(huì)有一定的損失。為了彌補(bǔ)這個(gè)損失，Arm宣稱做了一系列基于MOP cache的優(yōu)化，并將分支預(yù)測(cè)到分支執(zhí)行的流水線縮減到10個(gè)時(shí)鐘周期，從而達(dá)成宣稱的能效優(yōu)化指標(biāo)。

目前網(wǎng)絡(luò)上A710的資料并不多，特別缺乏后端設(shè)計(jì)部分的詳細(xì)資料，根據(jù)推測(cè)后端設(shè)計(jì)和A78比差異不大，推測(cè)ROB應(yīng)該會(huì)增加，推測(cè)訪存LSU的單元和A78沒有明顯變化，后續(xù)我們可以在A715上再次論證。

Arm還提到A710通過優(yōu)化數(shù)據(jù)預(yù)?。╬refetcher）來提升性能和能效，減少CPU的數(shù)據(jù)預(yù)取次數(shù)，可以減少對(duì)于DSU的訪問參數(shù)，同業(yè)也可以降低對(duì)于DRAM的訪問次數(shù)，從圖中數(shù)據(jù)看，相比A78，A710在DSU和DRAM的訪問上都有明顯改善。

簡單總結(jié)下，A710相比A78的設(shè)計(jì)僅相隔了一年，并不是一個(gè)準(zhǔn)備多年的全新架構(gòu)升級(jí)，在A78的基礎(chǔ)上，A710保留了32bit的支持，優(yōu)化了流水線和數(shù)據(jù)預(yù)取能力，前端分支預(yù)測(cè)和指令通路是最明顯的變化。這次Armv9架構(gòu)升級(jí)涉及到X2、A710和A510三款核心，相比之下X2和A510的變化更多，我們后續(xù)會(huì)詳細(xì)分析。

6.5 A715能效

目前最新的Arm大核心是A715，從官方數(shù)據(jù)中我們可以看出A715這一代的目標(biāo)并不是以提升性能為主，同樣功耗下性能只提升了5%，或許這也是被叫做A715的一個(gè)原因。在能效方面，相同性能下可以降低20%的功耗。

再來看一下DVFS曲線，A715的曲線和A710比較接近，同樣功耗下性能有小幅度提升。后續(xù)這幾代Arm大核心微架構(gòu)上都不會(huì)有像A75、A76那樣大幅變化，基本是保持A715對(duì)A710這樣的穩(wěn)定功耗優(yōu)化，性能小幅度提升。

從數(shù)據(jù)上看，A715整體的能效優(yōu)化幅度不高，可以認(rèn)為A715是A710的一個(gè)小改款。結(jié)合微架構(gòu)分析整體看，Arm需要一顆更經(jīng)濟(jì)的核心來支撐整個(gè)產(chǎn)品線以及平衡性能和功耗。

6.6 A715架構(gòu)設(shè)計(jì)

很幸運(yùn)，網(wǎng)絡(luò)有高手（Cardyak）放出了A715的微架構(gòu)圖，我們可以借此一窺A77到A715的變化。

A715的前端分支預(yù)測(cè)能力有了進(jìn)一步提升，Arm在Armv9上很重視分支預(yù)測(cè)能力，每一代都有一些優(yōu)化。A710相比A78提升了分支預(yù)測(cè)能力，這次A715進(jìn)一步優(yōu)化，以提升IPC和能效。細(xì)節(jié)上，A715將Direction Predictor的容量提升了一倍，從而進(jìn)一步提升分支預(yù)測(cè)的準(zhǔn)確性。A715每個(gè)周期支持預(yù)測(cè)2個(gè)分支，比A710多支持了條件分支的預(yù)測(cè)能力。此外，在分支預(yù)測(cè)方案上，Arm傳統(tǒng)支持0級(jí)和2級(jí)預(yù)測(cè)模型，這次A715將2級(jí)預(yù)測(cè)模型拆分成3級(jí)，增加了一個(gè)faster turnaroud功能，在發(fā)現(xiàn)預(yù)測(cè)錯(cuò)誤時(shí)可以快速返回，提升分支預(yù)測(cè)效率。最后是訪問指令緩存（Icache）方面，A715將指令緩存的查找?guī)捯蔡嵘艘槐?，從而支持更好的訪問指令緩存的效率。

解碼模塊依然是Armv9重點(diǎn)優(yōu)化的部分，也是A715變化最大的模塊。在A715上有一個(gè)關(guān)鍵的修改，Arm出于成本考慮，將自A77開始加入的MOP cache模塊移除了。MOP cache可以緩存一些常用的核心指令，降低從L1取指令的負(fù)擔(dān)，但是Arm宣稱可以通過其他優(yōu)化方法，進(jìn)一步提升性能和能效。第一點(diǎn)，A715是一顆純64bit的大核心，憑借這一點(diǎn)，可以節(jié)省原來為了兼容32bit而增加的晶體管電路；第二是A715上增加了一路decode通路，從4通路提升到5通路，在A710之后Dispatch也改成了5通路，A715這一代Fetch和Dispatch到后端模塊的通道正好對(duì)齊都是5通路，可以發(fā)揮最高的效率；第三是采用了小尺寸的decoder，將原來A710的統(tǒng)一大尺寸decoder拆分成4個(gè)小尺寸的decoder，便于分配資源和節(jié)省能耗；最后是A715提升了復(fù)雜指令（NEONSVESVE2）的吞吐率，讓它們可以快速發(fā)送到對(duì)應(yīng)的執(zhí)行單元。

在ROB重排序緩沖方面，A715提供了192個(gè)entry，相比A77的160個(gè)entry提升了20%，和A77至A715的性能提升可以匹配上。執(zhí)行單元的Issue entry還是120個(gè)，這個(gè)大小自A76開始就沒有變化。在執(zhí)行單元上，A715相比A710和A78都沒有明顯變化，還是2個(gè)Branch，4個(gè)ALU，浮點(diǎn)單元提供2個(gè)FPU，存儲(chǔ)單元提供2個(gè)LS AGU，1個(gè)LD AGU和2個(gè)ST-Data通路，看來Arm認(rèn)為這塊的設(shè)計(jì)非常合理不需要改變。

在存儲(chǔ)單元上，A715增大了Load Replay隊(duì)列尺寸，可以提供更多的數(shù)據(jù)預(yù)取和L2訪問機(jī)會(huì)。此外A715提供了2倍的Data Cache Banks，可以支持更多同步讀寫數(shù)據(jù)，降低并發(fā)沖突從而降低能耗。A715的L2的TLB entry增大了50%，達(dá)到了1.5K個(gè)entry，提升了數(shù)據(jù)預(yù)取的準(zhǔn)確性，也可以降低內(nèi)存的訪問，進(jìn)而提升綜合性能。

6.7 小結(jié)

階段總結(jié)下，A715相比A710的微架構(gòu)修改較大，A715取消了32bit的支持，取消了MOP cache，優(yōu)化了分支預(yù)測(cè)、指令單元和存儲(chǔ)單元，統(tǒng)一了指令通路數(shù)量，還提出了小decoder的模型。目前A715已經(jīng)在高通驍龍8Gen2，MTK天璣9200等產(chǎn)品成功應(yīng)用，搭配最新的4nm工藝，性能和能效表現(xiàn)可圈可點(diǎn)。

7、A510微架構(gòu)介紹

7.1 A510簡介

我們并沒有花很多篇幅去介紹A55這顆處理器，因?yàn)锳55實(shí)在是“久經(jīng)沙場”，伴隨著A75登場，歷經(jīng)A75-A78四代產(chǎn)品。到Armv9時(shí)代，Arm認(rèn)為必須更新一下A5x系列的小核心產(chǎn)品線了，于是我們看到了最新的A510系列小核心處理器。

21年Arm更新了A510產(chǎn)品線，22年Arm又做了小幅度優(yōu)化，更新了A510r產(chǎn)品線。由于Arm維持了每年迭代的產(chǎn)品快速更新策略，進(jìn)入Armv9后一年需要更新X2、A710和A510三款產(chǎn)品，難免造成資源分散。例如對(duì)于32bit的支持問題上，A710支持32bit，X2和A510不支持，但是在22年更新的A510r第二代產(chǎn)品，又加入了32bit的支持。

7.2 A510能效

官方數(shù)據(jù)顯示A510可以提升35%的性能，能效優(yōu)化20%，ML性能是以前A55的3倍。從能效曲線看，性能提升35%都是保守的，后續(xù)的架構(gòu)分析也可以支撐這一說法，但是能效的20%優(yōu)化要加限定詞，限定在A55高頻率段區(qū)間比較合理，因?yàn)檎w的功耗和性能提升成正比，簡單說就是A510的極限性能和極限功耗都增加了。

對(duì)于A510的能效，Arm也提出后續(xù)會(huì)不斷優(yōu)化，例如A510r重新設(shè)計(jì)了一些電路，宣稱可以提升5%的能效。下一代的Hayes也會(huì)繼續(xù)優(yōu)化能效。為什么A510的性能提升，能效沒有進(jìn)一步提升呢？在后面的架構(gòu)設(shè)計(jì)部分大家應(yīng)該可以得出一些推論。

7.3 A510架構(gòu)設(shè)計(jì)

上面是A510的微架構(gòu)圖和A55的架構(gòu)簡圖，從圖中可以看到A510相比A710的大核心設(shè)計(jì)，確實(shí)有很多簡化的地方，但是相比A55還是有明顯增強(qiáng)的。

A510和A55一樣，是一顆不支持亂序執(zhí)行（OoO-Out of oder）的核心，不支持OoO意味著沒有重排序緩沖（ROB）模塊，可以節(jié)省芯片面積，缺點(diǎn)則是無法充分填充和利用流水線，指令執(zhí)行的效率較低。

此外，第一代的A510不支持32bit應(yīng)用，第二年Arm在A510r上，又把32bit應(yīng)用的支持加回來了。

A510為了進(jìn)一步優(yōu)化芯片面積，采用了拼接核心設(shè)計(jì)，如圖中所示，兩顆A510被封裝在一起，共享L2緩存、L2 TLB等模塊。這種硬件設(shè)計(jì)對(duì)于軟件調(diào)度器的設(shè)計(jì)提供了優(yōu)化思路，因?yàn)楣蚕鞮2，在2顆共享核心之間調(diào)度的效率會(huì)高于跨L2，所以軟件在選擇任務(wù)遷移時(shí)，如果還是移動(dòng)到小核心執(zhí)行，應(yīng)當(dāng)優(yōu)先去選擇共享L2的那個(gè)CPU去執(zhí)行，效率會(huì)最高。

在前端設(shè)計(jì)上，A510相比A55最大的改變是將2寬度流水線拓展到了3寬度，如指令Fetch能力從2提升到3，等于增加了一條通路，這也是A510同頻率性能可以提升的關(guān)鍵影響因素。此外，A55每個(gè)周期可以fetch 64-bit，A510每時(shí)鐘周期則可以fetch128-bit指令。同時(shí)，A510還借鑒了Armv9系列架構(gòu)的分支預(yù)測(cè)方案設(shè)計(jì)，相比A55可以提供更為準(zhǔn)確的分支預(yù)測(cè)能力，減少流水線的損失。

A510相比A55的通路增加是完整的，在指令Fetch模塊后，指令Decode和Issue模塊的通路也從2增加到3，提升了50%。

運(yùn)算單元部分，小核心僅有1個(gè)Branch單元沒有變化，ALU數(shù)量（含MAC、DIV）從2提升到4，也提升了50%。FPU（又叫做VPU）被挪到了2個(gè)核心共享，雖然無法直接對(duì)比，根據(jù)Arm提供的數(shù)據(jù)看FP也有50%的性能提升。

存儲(chǔ)模塊上，A510相比A55也有明顯提升，A55提供了1個(gè)Load和1個(gè)Store通路，A510雖然還是2通路，但是一個(gè)支持Load，另一個(gè)同時(shí)支持Load和Store，Load能力有提升。同時(shí)，Load帶寬從A55的64bit提升到128bit，如圖中顯示L1帶寬可以提升4倍，L2和L3分別也提升了2倍。此外，Data Prefetcher模塊也引入了Armv9的系列優(yōu)化，可以提升數(shù)據(jù)預(yù)取準(zhǔn)確性。

最后，A510的兩個(gè)核心還共享了矢量運(yùn)算單元（VPU），用于處理Scalar FP、NEON、SVE2等指令，Arm期望通過這種設(shè)計(jì)進(jìn)一步優(yōu)化小核心的面積，優(yōu)化能效。

7.4 小結(jié)

相隔4年，Arm終于更新了A5x系列小核心，看完后還是感覺有點(diǎn)不夠過癮，意猶未盡的感覺。雖然A510相比A55，不論在整數(shù)、浮點(diǎn)還是存儲(chǔ)性能上都有明顯的提升（見上圖），但是整體處理器的能效并沒有明顯的改善，究其根因，這次A510的升級(jí)，并沒有引入OoO亂序執(zhí)行等大核心的先進(jìn)特性，而是基于A55的架構(gòu)上通過增加通路和運(yùn)算模塊達(dá)成的性能提升，總體能效改善不夠明顯。

A510的這次升級(jí)，也導(dǎo)致終端廠商在實(shí)際產(chǎn)品開發(fā)中，針對(duì)A510的小核心的處理需要更加謹(jǐn)慎，例如盡可能利用和A55性能接近的區(qū)間，獲取最大能效收益，在軟件調(diào)度時(shí)需要考慮2個(gè)共享核心內(nèi)優(yōu)先調(diào)度以獲取最低的開銷等等。

相信Arm公司對(duì)于A5x會(huì)持續(xù)迭代優(yōu)化，在后續(xù)的A510r和Hayes等產(chǎn)品中，Arm也是提出了不斷優(yōu)化能效的目標(biāo)。

8、總結(jié)

通過本篇文章我們了解了Armv9的大核心A710、A715和小核心A510的微架構(gòu)設(shè)計(jì)，以及進(jìn)入Armv9時(shí)代后Arm推進(jìn)的超級(jí)大核心Cortex-X定制計(jì)劃、SVE2指令集，并討論了Arm對(duì)于32bit和64bit兼容的態(tài)度，希望Arm可以持續(xù)迭代Armv9系列架構(gòu)，推動(dòng)移動(dòng)處理器持續(xù)高速發(fā)展，不斷提升用戶的移動(dòng)終端體驗(yàn)。由于篇幅限制，本文沒有深入討論超級(jí)大核心Cortex-X系列處理器，計(jì)劃在后續(xù)的文章中補(bǔ)完這部分。

最后補(bǔ)個(gè)彩蛋，看Armv9三系列能效曲線圖，小核心迭代速度較慢，逐漸無法滿足日益增長的性能需求，由于小核心不支持亂序執(zhí)行等特性，導(dǎo)致高頻率區(qū)間能效反而不如大核心A715和A710（見圖中箭頭位置），在Armv9時(shí)代我們可以看到已經(jīng)有廠商開始改變傳統(tǒng)的1+3+4的架構(gòu)。例如高通驍龍8Gen2芯片，將1+3+4的架構(gòu)改成1+4+3的架構(gòu)，減少一顆小核心，增加一顆大核心。這是一個(gè)很關(guān)鍵的變化，新架構(gòu)的出現(xiàn)意味著更多的可能性，并且從實(shí)際測(cè)試數(shù)據(jù)看，性能有收益，跑分達(dá)130w+，能效方面8Gen2相比8+Gen1也有了進(jìn)一步的改善。從8Gen2的處理器架構(gòu)變化可以看出，芯片廠商也在走出多年不變的1+3+4八核心架構(gòu)模式，希望以后有機(jī)會(huì)看到更多有意思的芯片架構(gòu)設(shè)計(jì)組合。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

TSMC

TSMC

+關(guān)注

關(guān)注
3

文章
177

瀏覽量
84494
ARM處理器

ARM處理器

+關(guān)注

關(guān)注
6

文章
360

瀏覽量
41716
Cache

Cache

+關(guān)注

關(guān)注
0

文章
129

瀏覽量
28329
FPU

FPU

+關(guān)注

關(guān)注
0

文章
42

瀏覽量
21311
ALU

ALU

+關(guān)注

關(guān)注
0

文章
33

瀏覽量
13096

評(píng)論

相關(guān)推薦

Arm下一代指令架構(gòu)“Armv9”已經(jīng)問世

Arm的下一代CPU指令集架構(gòu)（ISA：指令集架構(gòu)） Armv9開始推出。該公司正在逐步擴(kuò)展當(dāng)前的ISA

發(fā)表于 11-13 11:55 ?4.4w次閱讀

Armv9核心A710、A715和A510微架構(gòu)解讀

在介紹Armv9系列前，我們先看一下ARM的Cortex-X定制CPU計(jì)劃。Cortex-X方案先于Armv9發(fā)布，在Arm發(fā)布A78時(shí)，同時(shí)也發(fā)布了Cortex-X1這一顆性能強(qiáng)大的

發(fā)表于 06-12 09:27 ?2.5w次閱讀

<b class='flag-5'>Armv9</b>核心A710、A715和A510<b class='flag-5'>微</b><b class='flag-5'>架構(gòu)</b>解讀

十年來最大技術(shù)革新！Arm發(fā)布Armv9架構(gòu)！不受美國EAR約束，華為可獲授權(quán)！

公司十年來的最大技術(shù)革新。上一代V8架構(gòu)發(fā)布于2011年10月。 ? Arm首席執(zhí)行官Simon Segars表示，“在展望由AI定義的未來時(shí)，我們必須夯實(shí)先進(jìn)的計(jì)算基礎(chǔ)，以應(yīng)對(duì)未來的獨(dú)特挑戰(zhàn)。

發(fā)表于 03-31 16:57 ?6851次閱讀

安謀科技：十年磨一劍的Armv9架構(gòu)，下半年將有終端面市

第九屆EEVIA年度中國電子ICT媒體論壇暨2021產(chǎn)業(yè)和技術(shù)展望研討會(huì)上表示，基于Armv9架構(gòu)的處理器終端將于今年下半年面市。 ? Armv9架構(gòu)特色 ?

發(fā)表于 08-11 08:01 ?3821次閱讀

重磅！Arm正式推出Armv9架構(gòu)

當(dāng)?shù)貢r(shí)間3月30日，Arm宣布正式推出Armv9架構(gòu)，以應(yīng)對(duì)全球?qū)o處不在的專業(yè)化處理的需求，這種處理具有越來越強(qiáng)大的安全性和人工智能（AI）能力。Armv9是

發(fā)表于 03-31 09:43 ?2635次閱讀

重磅！<b class='flag-5'>Arm</b>正式推出<b class='flag-5'>Armv9</b><b class='flag-5'>架構(gòu)</b>

重磅！Arm推出新一代指令集架構(gòu)Armv9，整體性能躍升一級(jí)

Arm推出新一代指令集架構(gòu)Armv9，以越來越強(qiáng)大的安全性和人工智能能力，應(yīng)對(duì)無處不在的專業(yè)處理需求，這是Arm十年來

發(fā)表于 03-31 11:15 ?3474次閱讀

Arm推出Arm?v9架構(gòu) 面向人工智能、安全和專用計(jì)算的未來

Arm在新一代架構(gòu)Armv9上將保持這個(gè)速度，預(yù)計(jì)未來兩代移動(dòng)和基礎(chǔ)設(shè)施CPU的性能提升將超過30%。

發(fā)表于 03-31 15:14 ?1814次閱讀

Arm確定其Armv9架構(gòu)不受美國出口管理?xiàng)l例(EAR)的約束

集微網(wǎng)消息，當(dāng)?shù)貢r(shí)間周二，Arm推出新一代指令集架構(gòu)Armv9，以越來越強(qiáng)大的安全性和人工智能能力，應(yīng)對(duì)無處不在的專業(yè)處理需求，這是

發(fā)表于 04-01 09:21 ?2097次閱讀

淺談ARM發(fā)布Armv9的三大改進(jìn)

英國芯片設(shè)計(jì)公司Arm周二發(fā)布了Armv9，這是其在2011年發(fā)布Armv8之后十年來首次推出新的芯片架構(gòu)。Arm表示，與以前的

發(fā)表于 04-01 15:17 ?2339次閱讀

Arm公司正式發(fā)布了該公司的新一代Armv9架構(gòu)的首個(gè)細(xì)節(jié)

今天，作為Arm的Vision Day活動(dòng)的一部分，該公司正式發(fā)布了該公司的新一代Armv9架構(gòu)的首個(gè)細(xì)節(jié)，為Arm未來十年內(nèi)成為下一個(gè)30

發(fā)表于 04-13 14:45 ?2749次閱讀

<b class='flag-5'>Arm</b>公司正式發(fā)布了該公司的新一<b class='flag-5'>代</b><b class='flag-5'>Armv9</b><b class='flag-5'>架構(gòu)</b>的首個(gè)細(xì)節(jié)

淺談Armv9的三個(gè)技術(shù)特性及引發(fā)的市場競爭力

十年轉(zhuǎn)瞬，Armv9架構(gòu)終于露出廬山真面目，適用于Arm全系列芯片的Armv9架構(gòu)，這次的升級(jí)瞄準(zhǔn)的則是日益強(qiáng)大的安全、人工智能（AI）和無

發(fā)表于 04-15 18:08 ?3748次閱讀

ARMv9架構(gòu)能否解決中國“缺芯”之急?

近日，ARM正式宣布推出ARMv9架構(gòu)。據(jù)ARM官方稱，這是10年來最重要的創(chuàng)新，是未來3000億ARM芯片的基礎(chǔ)。

發(fā)表于 05-02 17:06 ?2407次閱讀

Arm推出三款基于Armv9架構(gòu)的全新CPU內(nèi)核

從全面升級(jí)到Armv9架構(gòu)，到公布Neoverse V1和N2平臺(tái)技術(shù)細(xì)節(jié)，再到推出三款基于Armv9架構(gòu)的全新CPU內(nèi)核，短短兩個(gè)月時(shí)間里，Arm

發(fā)表于 06-12 09:11 ?4224次閱讀

Arm微架構(gòu)之Armv9時(shí)代

在介紹Armv9系列前，我們先看一下ARM的Cortex-X定制CPU計(jì)劃。Cortex-X方案先于Armv9發(fā)布，在Arm發(fā)布A78時(shí)，同時(shí)也發(fā)布了Cortex-X1這一顆性能強(qiáng)大的

發(fā)表于 02-06 14:43 ?9079次閱讀

Armv8架構(gòu)和Armv9架構(gòu)的區(qū)別分析

新的Armv9兼容CPU所承諾的最大的新功能可能是開發(fā)人員和用戶可以立即看到的——SVE2作為NEON的后繼產(chǎn)品。

發(fā)表于 03-10 14:02 ?4800次閱讀

RM新时代网站-首页

搜索歷史

Arm微架構(gòu)學(xué)習(xí)—開啟Armv9時(shí)代