RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Lunar Lake:NPU性能全面提升,能耗也大幅降低,綜合AI算力提升至120TOPS

eeDesigner ? 來源:11 ? 作者:11 ? 2024-06-05 15:54 ? 次閱讀

英特爾CEO帕特·基辛格在COMPUTEX 2024上發(fā)表主題演講,正式公布了下一代面向AI PC的移動(dòng)處理器Lunar Lake,不僅CPUGPU、NPU性能全面提升,能耗也大幅降低,綜合AI算力提升至120TOPS。

wKgaomZgGYiAVUgeAABtwgtnYzs115.jpg


1、Lunar Lake首次全部由臺(tái)積電代工,但下一代的Panther lake將重回英特爾代工

據(jù)介紹Lunar Lake由7個(gè)主要部分組成,整個(gè)封裝包含內(nèi)存、加固器和底層芯片,底層芯片使用Intel Foveros互連技術(shù)將計(jì)算芯片和平臺(tái)控制器芯片結(jié)合在一起。在工藝節(jié)點(diǎn)方面,Lunar Lake計(jì)算芯片(包括CPU、GPU和NPU等)采用臺(tái)積電的N3B工藝節(jié)點(diǎn)制造,平臺(tái)控制器芯片則采用臺(tái)積電的N6工藝節(jié)點(diǎn)制造,也就是說這款芯片的主要核心die全部都是由臺(tái)積電代工!


要知到之前英特爾的高端移動(dòng)平臺(tái)芯片雖然有部分核心是交由臺(tái)積電代工,但是CPU核心一直是英特爾自己生產(chǎn)的。而這種轉(zhuǎn)變,一方面是臺(tái)積電在制程技術(shù)上的領(lǐng)先,另一方面則可能與英特爾代工業(yè)務(wù)獨(dú)立分拆有關(guān)。英特爾代工業(yè)務(wù)獨(dú)立分拆,使得英特爾的設(shè)計(jì)業(yè)務(wù)可以更自由的選擇外部更有競(jìng)爭(zhēng)力的供應(yīng)商,但是這對(duì)于英特爾代工業(yè)務(wù)集團(tuán)來說并不是一個(gè)好消息,所幸的是Lunar Lake的封裝還是交由英特爾代工業(yè)務(wù)集團(tuán)來完成的。

對(duì)此,基辛格表示,Lunar Lake之所以選擇臺(tái)積電制造,是因?yàn)楫?dāng)時(shí)臺(tái)積電有更好的制程技術(shù),現(xiàn)在看仍是好選擇。感謝臺(tái)積電,提供了很多核心關(guān)鍵制造技術(shù),使Lunar Lake成為可能,也能看出臺(tái)積電和英特爾在代工產(chǎn)業(yè)的合作,包括UCIe(通用小芯片互連)也是。

不過基辛格強(qiáng)調(diào),到下一代Panther lake將幾乎全部是基于英特爾制程,將采用Intel 18A工藝,還有混合鍵合技術(shù)、晶圓對(duì)晶圓(Wafer to Wafer)堆疊,還有先進(jìn)封裝技術(shù)和背面供電技術(shù),希望屆時(shí)能夠向大家展示英特爾的晶圓廠能力。

1、CPU核心:4個(gè)P核+4個(gè)E核,性能及效率大幅提升

據(jù)介紹,Lunar Lake的CPU內(nèi)核依然采用的Hybrid核心架構(gòu)設(shè)計(jì),擁有4個(gè)Lion Cove P-core性能核心和4個(gè)Skymont E-core效率核心,組合成8核心混合設(shè)計(jì),以達(dá)到性能與效率的最佳。


Lunar Lake的Lion Cove P-core性能核心在緩存層次上進(jìn)行了眾大改進(jìn),其采用了多層數(shù)據(jù)緩存,每個(gè)核心包括一個(gè) 48KB L0D 緩存(加載到使用延遲為 4 周期)、一個(gè) 192KB L1D 緩存(延遲為 9 周期)、一個(gè)擴(kuò)展的 L2 緩存(最高可達(dá) 3MB,延遲為 17 周期)??偟膩碚f,這使得 240KB 緩存的延遲時(shí)間與 CPU 內(nèi)核的延遲時(shí)間相差無幾,而之前的 Redwood Cove 只能在相同時(shí)間內(nèi)達(dá)到 48KB 緩存。4個(gè)P核心還共享了12MB L3緩存,可以帶來更出色的單線程性能,并優(yōu)化核心PPA設(shè)計(jì)。

英特爾添加了第三個(gè)地址生成單元 (AGU)/存儲(chǔ)單元對(duì),以進(jìn)一步提升存儲(chǔ)性能。值得注意的是,這使加載和存儲(chǔ)管道的數(shù)量達(dá)到平衡,分別為 3 個(gè);在大多數(shù)英特爾架構(gòu)中,加載單元的數(shù)量都比存儲(chǔ)單元多。

總體而言,英特爾在真正的長(zhǎng)期 CPU 設(shè)計(jì)理念中,已經(jīng)投入了更多緩存來解決這個(gè)問題。隨著 CPU 復(fù)雜度的增加,緩存子系統(tǒng)也在不斷增加,以保證其正常運(yùn)行。在這種情況下,保證 CPU 正常運(yùn)行是提高其性能和保持其能效的關(guān)鍵改進(jìn)。

深入研究 Lion Cove 的計(jì)算架構(gòu),該架構(gòu)在英特爾的 P 核設(shè)計(jì)上專注于提高性能和效率。該架構(gòu)采用一種新的前端方法來處理指令,其預(yù)測(cè)塊比以前大 8 倍,提取范圍更廣,解碼帶寬更高,Uops 緩存容量和讀取帶寬也大幅增加。UOP 隊(duì)列容量增加,這也提高了整體吞吐量。在執(zhí)行過程中,Lion Cove 的無序引擎在整數(shù) (INT) 和矢量 (VEC) 域之間劃分,具有獨(dú)立的重命名和調(diào)度功能。


數(shù)據(jù)轉(zhuǎn)換后備緩沖區(qū) (DTLB) 也進(jìn)行了修改,將其深度從 96 頁增加到 128 頁,以提高其命中率。這種分區(qū)方式可以實(shí)現(xiàn)未來的可擴(kuò)展性、每個(gè)域的獨(dú)立增長(zhǎng),并且有利于降低特定域工作負(fù)載的功耗。亂序引擎也得到了改進(jìn),分配/重命名從 6 個(gè)增加到 8 個(gè),退出從 8 個(gè)增加到 12 個(gè),深度指令窗口從 512 個(gè)增加到 576 個(gè),執(zhí)行端口從 12 個(gè)增加到 18 個(gè)。這些變化使管道更加穩(wěn)健,執(zhí)行起來也更加靈活。


Lion Cove 中的整數(shù)執(zhí)行單元也得到了改進(jìn):整數(shù) ALU 從 5 個(gè)增加到 6 個(gè),跳躍單元從 2 個(gè)增加到 3 個(gè),移位單元從 2 個(gè)增加到 3 個(gè)。它們將64x64單元增加到超過64,并從 1 個(gè)單元增加到 3 個(gè),為最復(fù)雜的操作提供更強(qiáng)大的計(jì)算能力。另一個(gè)顯著的進(jìn)步是 P 核心數(shù)據(jù)庫從“sea of fubs”遷移到了 “sea of cells”。更新 P 核心子結(jié)構(gòu)組織的過程從微小的、以鎖存器為主的分區(qū)轉(zhuǎn)變?yōu)楦鼜V泛、更大的以觸發(fā)器為主的分區(qū),這些分區(qū)在發(fā)展過程中非常不可知。


Lion Cove 架構(gòu)也與性能提升保持一致,與上一代 Redwood Cove 相比,IPC 性能預(yù)計(jì)將提升兩位數(shù)百分比。這種提升尤其明顯,尤其是在超線程的改進(jìn)方面,IPC 提高了 30%,動(dòng)態(tài)功率效率提高了 20%,并且在不增加核心面積的情況下平衡了先前的技術(shù),體現(xiàn)了英特爾在現(xiàn)有物理限制內(nèi)提高性能的承諾。


Lion Cove 的電源管理也得到了改進(jìn),包括采用 AI 自調(diào)節(jié)控制器來取代靜態(tài)熱保護(hù)帶。它讓系統(tǒng)以自適應(yīng)方式動(dòng)態(tài)響應(yīng)實(shí)際的實(shí)時(shí)運(yùn)行條件,以實(shí)現(xiàn)更高的持續(xù)性能。它使用更精細(xì)的時(shí)鐘粒度,現(xiàn)在間隔為 16.67MHz。與 100MHz 相比,這意味著更精確的電源管理和性能調(diào)整,從而從功率預(yù)算中獲得最大效率。


至少從紙面上看,Lion Cove 看起來比 Golden Cove 有了很大的改進(jìn)。它整合了改進(jìn)的內(nèi)存和緩存子系統(tǒng)、更好的電源管理以及 IPC 性能的提升,而不是專注于提高頻率。

Lunar Lake的Skymont E-core效率核心是專為實(shí)現(xiàn)全新水平的性能效率而設(shè)計(jì)。4個(gè)E-core共享4MB L2緩存,能比上一代有著超過2倍的省電表現(xiàn),并比上一代提升2倍的Vector與AI輸出性能。

wKgaomZgGY2ASVw-AABG0PyXOJE668.jpg


wKgZomZgGY2APmdGAABRVrAbxrE571.jpg


Skymont 核心具有更全面的微架構(gòu),首先是 9-wide 解碼階段,其解碼簇比前幾代多 50%。這由更大的微操作隊(duì)列支持,現(xiàn)在可容納 96 個(gè)條目,而舊設(shè)計(jì)中只有 64 個(gè)。使用“Nanocode”可在每個(gè)解碼簇內(nèi)增加更多微代碼并行性。


Skymont核心的無序執(zhí)行引擎也得到了顯著改進(jìn)。分配寬度增加到 8-wide,而退出階段則加倍到 16-wide。這增強(qiáng)了內(nèi)核同時(shí)發(fā)出和執(zhí)行多條指令的能力,并通過依賴中斷機(jī)制減少了延遲。


Skymont 將重排序緩沖區(qū)從之前的 256 個(gè)條目加深到 416 個(gè)條目,以提供排隊(duì)和緩沖功能。此外,物理寄存器文件 (PRF) 和保留站的大小也增加了。這些增強(qiáng)功能使內(nèi)核能夠處理更多正在運(yùn)行的指令,從而提高指令執(zhí)行的并行性。


需要注意的是,調(diào)度端口最初為 26 個(gè),其中 8 個(gè)用于整數(shù) ALU,3 個(gè)用于跳轉(zhuǎn)操作,3 個(gè)用于每個(gè)周期的加載操作,從而進(jìn)一步實(shí)現(xiàn)了靈活高效的資源分配。在矢量性能方面,Skymont 支持 4×128 位 FP 和 SIMD 矢量,這使每秒千兆次浮點(diǎn)運(yùn)算 (Gigaflops/TOPs) 翻倍,并降低了浮點(diǎn)運(yùn)算的延遲。英特爾還重新設(shè)計(jì)了內(nèi)存子系統(tǒng),四個(gè)內(nèi)核共享 4MB L2 緩存,將 L2 帶寬翻倍至每周期 128B,在此過程中,降低了內(nèi)存訪問延遲,同時(shí)提高了數(shù)據(jù)吞吐量。


英特爾公布的性能指標(biāo),凸顯了Skymont E核的電源效率的顯著提升:與上代的Meteor Lake 的 LP E 核相比,單線程性能提高了 1.7 倍,而功耗僅為其三分之一。

wKgZomZgGY-AO6XLAABuXW9p7kY037.jpg


當(dāng)將 Skymont E-core 集群與 Meteor Lake的 LP E-core 集群直接進(jìn)行比較時(shí),多線程性能提高了 2.9 倍,而功耗卻全面降低。

wKgaomZgGZCAdp8fAABw6EQ9Q_g092.jpg


這對(duì)于移動(dòng)和桌面設(shè)計(jì)同樣有用。換句話說,Skymont E 核心非常靈活,在移動(dòng)場(chǎng)景中充分利用了低功耗結(jié)構(gòu)和系統(tǒng)緩存,并針對(duì)桌面計(jì)算塊優(yōu)化了多線程吞吐量。與 Raptor Cove 相比,Skymont在單線程工作負(fù)載中提供了 2% 更好的整數(shù)和浮點(diǎn)性能,其功率和熱量范圍幾乎與其前代產(chǎn)品相同。

wKgaomZgGZCANEu6AACAzPHTfXw285.jpg


Skymont E 核代表了英特爾內(nèi)核架構(gòu)開發(fā)的下一步,在解碼、執(zhí)行、內(nèi)存子系統(tǒng)和電源效率方面取得了顯著的進(jìn)步,滿足了更節(jié)能計(jì)算的需求,并且比以前的 Crestmont E 核提高了 IPC 增益。

wKgZomZgGZGAIJ_iAACD5cKTiXM334.jpg


2、GPU性能提升50%,還有全新顯示、多媒體和圖像引擎

Lunar Lake的GPU采用的是新一代的Xe2 GPU構(gòu)架,擁有8組新一代Xe核心、8個(gè)光線追蹤單元、XMX AI引擎和8MB的專屬緩存。能夠提供67 GPU TOPS的算力、實(shí)時(shí)的光線追蹤、基于AI的XeSS畫質(zhì)提升、Intel Arc軟件堆疊等功能,相比上一代Meteor Lake能帶來50%的圖形處理性能提升。

wKgaomZgGZGAHpFXAABHDL7TbEs578.jpg



Lunar Lake內(nèi)部還集成了與GPU搭配的全新顯示、多媒體和圖像引擎(IPU)。其中,顯示核心擁有3個(gè)eDP 1.5、DP與HDMI 2.1輸出接口,多媒體引擎支持AV1和最新的VVC編譯功能,IPU則可提供Temporal noise reduction、Multi-frame與Dual exposure staggered HDR等圖像強(qiáng)化功能。

wKgaomZgGZOAGBmaAABQP_QdYhI741.jpg


具體來說,英特爾的 eDisplayPort 1.5 包含面板重放功能,該功能集成了自適應(yīng)同步和選擇性更新機(jī)制。這有助于通過僅刷新屏幕發(fā)生變化的部分而不是整個(gè)顯示屏來降低功耗。這些創(chuàng)新不僅節(jié)省能源,而且還通過減少顯示延遲和提高同步精度來改善視覺體驗(yàn)。



描繪像素處理管道是英特爾顯示引擎所依賴的基本基礎(chǔ)之一,每條管道支持六個(gè)平面,用于高級(jí)顏色轉(zhuǎn)換和合成。此外,它還集成了對(duì)顏色增強(qiáng)、顯示縮放、像素調(diào)整和 HDR 感知量化的硬件支持,確保屏幕上的圖形生動(dòng)準(zhǔn)確。該設(shè)計(jì)非常靈活,非常節(jié)能,性能經(jīng)過精心設(shè)計(jì),至少在紙面上支持各種輸入和輸出格式。到目前為止,英特爾尚未提供任何可量化的功率指標(biāo)、TDP 或其他功率元素。

wKgZomZgGZSABVSBAAB9kT2A-CY426.jpg


在壓縮和編碼方面,Xe2 架構(gòu)可無損地將顯示流壓縮率提高到 3:1,包括針對(duì) HDMI 和 DisplayPort 協(xié)議的傳輸編碼。這些芯片功能可進(jìn)一步降低數(shù)據(jù)負(fù)載,并在輸出端保持高分辨率,而不會(huì)損失視覺質(zhì)量。

wKgaomZgGZSAHQNKAABy0LuaJzk083.jpg


多媒體引擎方面,英特爾采用 VVC 編解碼器對(duì)視頻壓縮技術(shù)的改進(jìn)意義重大。與 AV1 相比,此編解碼器可將文件大小減少 10%,并支持自適應(yīng)分辨率流媒體和針對(duì) 360 度和全景視頻的高級(jí)內(nèi)容編碼。這將確保流媒體的比特率較低,而不會(huì)降低質(zhì)量——這是現(xiàn)代多媒體應(yīng)用的一個(gè)基本方面。

wKgZomZgGZSANFUgAAB3x2ELmdU818.jpg


Windows GPU 軟件堆棧從上到下都非常強(qiáng)大,支持 D3D、Vulkan 和 Intel VPL API 和框架。這意味著,結(jié)合這些品質(zhì)可以為市場(chǎng)上各種運(yùn)行時(shí)和驅(qū)動(dòng)程序提供全面支持,從而提高其在不同軟件環(huán)境中的整體效率和兼容性。

wKgaomZgGZWAXlvsAABpNlUA_qs808.jpg


3、NPU算力提升至48TOPS

作為新一代面向筆記本電腦的AI PC處理器,Lunar Lake的神經(jīng)處理單元(NPU)帶來了重大升級(jí),其集成了全新的第四代NPU內(nèi)核(NPU 4),具備6個(gè)Neural Compute引擎、12個(gè)強(qiáng)化SHAVE 數(shù)字信號(hào)處理器(DSP)與9MB緩存,能夠提供48 TOPS的AI算力。

wKgZomZgGZWAO3QZAABI1Z5K3HY431.jpg


與上一代 NPU 3 相比,NPU 4 在增強(qiáng)神經(jīng)處理能力和效率方面有了巨大飛躍。NPU 4 的改進(jìn)主要是通過實(shí)現(xiàn)更高的頻率、更好的電源架構(gòu)和更多的引擎數(shù)量來實(shí)現(xiàn)的,從而賦予它更好的性能和效率。

wKgaomZgGZaARAgCAABKN_paP8M319.jpg


在 NPU 4 中,這些改進(jìn)在矢量性能架構(gòu)中得到了增強(qiáng),計(jì)算塊數(shù)量更多,矩陣計(jì)算的優(yōu)化性更好。這需要大量的神經(jīng)處理帶寬;換句話說,這對(duì)于需要超高速數(shù)據(jù)處理和實(shí)時(shí)推理的應(yīng)用程序至關(guān)重要。

wKgZomZgGZaAD3KcAACIeLxcjto581.jpg


該架構(gòu)支持 INT8 和 FP16 精度,INT8 每周期最多可進(jìn)行 2048 次 MAC(乘法累加)運(yùn)算,F(xiàn)P16 每周期最多可進(jìn)行 1024 次 MAC 運(yùn)算,這顯然表明計(jì)算效率顯著提高。

更深入地了解架構(gòu)后,可以發(fā)現(xiàn) NPU 4 的層次有所增加。其每個(gè)神經(jīng)計(jì)算引擎都嵌入了令人難以置信的出色推理管道,包括 MAC 陣列和許多用于不同類型計(jì)算的專用 DSP。該管道專為眾多并行操作而構(gòu)建,從而提高了性能和效率。新的 SHAVE DSP 經(jīng)過優(yōu)化,矢量計(jì)算能力是上一代的四倍,可以處理更復(fù)雜的神經(jīng)網(wǎng)絡(luò)。

wKgaomZgGZeAXnOwAACSA_9xwyc567.jpg


NPU 4 的另一項(xiàng)重大改進(jìn)是提高了時(shí)鐘速度,并引入了一個(gè)新節(jié)點(diǎn),在與 NPU 3 相同的功率水平下將性能提高了一倍。這使峰值性能提高了四倍,使 NPU 4 成為要求苛刻的 AI 應(yīng)用的強(qiáng)大引擎。新的 MAC 陣列在芯片上具有先進(jìn)的數(shù)據(jù)轉(zhuǎn)換功能,允許動(dòng)態(tài)進(jìn)行數(shù)據(jù)類型轉(zhuǎn)換、融合操作和輸出數(shù)據(jù)布局,從而使數(shù)據(jù)流以最小的延遲達(dá)到最佳狀態(tài)。

NPU 4 的帶寬改進(jìn)對(duì)于處理更大的模型和數(shù)據(jù)集至關(guān)重要,尤其是在基于 Transformer 語言模型的應(yīng)用程序中。該架構(gòu)支持更高的數(shù)據(jù)流,從而減少瓶頸并確保即使在運(yùn)行時(shí)也能順利運(yùn)行。NPU 4 的 DMA(直接內(nèi)存訪問)引擎將 DMA 帶寬翻倍——這是提高網(wǎng)絡(luò)性能的重要補(bǔ)充,也是處理重型神經(jīng)網(wǎng)絡(luò)模型的有效方法。進(jìn)一步支持更多功能,包括嵌入標(biāo)記化,從而擴(kuò)大了 NPU 4 的潛力。

wKgZomZgGZeAAkwkAAB1JlCxkaA494.jpg


NPU 4 的另一項(xiàng)顯著改進(jìn)在于矩陣乘法和卷積運(yùn)算,其中 MAC 陣列可以在單個(gè)周期內(nèi)處理最多 2048 個(gè) MAC 運(yùn)算(INT8)和 1024 個(gè) MAC 運(yùn)算(FP16)。這反過來又使得 NPU 能夠以更高的速度和更低的功率處理更復(fù)雜的神經(jīng)網(wǎng)絡(luò)計(jì)算。這在矢量寄存器文件的維度上產(chǎn)生了差異;NPU 4 的寬度為 512 位。這意味著在一個(gè)時(shí)鐘周期內(nèi),可以進(jìn)行更多的矢量運(yùn)算;這反過來又提高了計(jì)算效率。

NPU 4 支持激活函數(shù),現(xiàn)在有更多種類的激活函數(shù)可以支持和處理任何神經(jīng)網(wǎng)絡(luò),并可選擇精度來支持浮點(diǎn)計(jì)算,這將使計(jì)算更加精確和可靠。改進(jìn)的激活函數(shù)和優(yōu)化的推理管道,將使其能夠以更快的速度和更高的準(zhǔn)確度執(zhí)行更復(fù)雜和更細(xì)致的神經(jīng)網(wǎng)絡(luò)模型。

wKgaomZgGZiAGwjRAABzSYSYVow505.jpg


NPU 4 中的 SHAVE DSP 升級(jí),使得其矢量計(jì)算能力達(dá)到了 NPU 3 的四倍,將整體的矢量性能整體提高 12 倍。這對(duì)于轉(zhuǎn)換器和大型語言模型 (LLM) 性能非常有用,使其更加快速和節(jié)能。增加每個(gè)時(shí)鐘周期的矢量操作可以實(shí)現(xiàn)更大的矢量寄存器文件大小,從而顯著提升 NPU 4 的計(jì)算能力。

wKgZomZgGZiABbYAAABhymvlgT8545.jpg


總體而言,NPU 4 的性能比 NPU 3 有了大幅提升,整體的矢量性能提高了 12 倍,TOPS 算力提高了 4 倍,IP 帶寬提高了 2 倍。這些改進(jìn)使 NPU 4 成為高性能和高效率的AI解決方案,適合性能和延遲至關(guān)重要的最新 AI 和機(jī)器學(xué)習(xí)應(yīng)用。這些架構(gòu)改進(jìn)以及數(shù)據(jù)轉(zhuǎn)換和帶寬改進(jìn)使 NPU 4 成為管理要求極高的 AI 工作負(fù)載的頂級(jí)解決方案。

wKgaomZgGZmAT3iMAABA9JjTDd4061.jpg


4、更好的安全技術(shù)和高速連接技術(shù)

Lunar Lake平臺(tái)的控制層還內(nèi)置了安全和新一代高速連接技術(shù)。

在安全方面,擁有Intel Partner Security(合作伙伴安全)引擎、Intel Silicon Security(硅安全)引擎、Converged Security和Manageability(融合安全與可管理性)引擎。

連接方面,Lunar Lake平臺(tái)則整合了最新的Wi-Fi 7、Bluetooth 5.4與1GbE MAC連接技術(shù)。

其中,集成的Wi-Fi 7解決方案支持多鏈路操作(Multi-Link Operation或MLO),它增加了可靠性,提高了吞吐量(支持5.8Gbps),改善了延遲,并實(shí)現(xiàn)了流量分離/區(qū)分。與BE200網(wǎng)絡(luò)接口相比,硅片尺寸縮小了28%,并采用11Gbps的CNVio3接口。此外,還采用了射頻干擾緩解技術(shù),可動(dòng)態(tài)調(diào)整對(duì)Wi-Fi性能有重大影響的DDR時(shí)鐘頻率。

英特爾還宣布與Meta 的合作更進(jìn)一步,利用這項(xiàng) Wi-Fi 7 技術(shù)來增強(qiáng) VR 體驗(yàn)。這進(jìn)一步優(yōu)化了視頻延遲性能并減少了干擾,從而使 VR 應(yīng)用更加無縫和引人入勝,至少從無線連接的角度來看是如此。Wi-Fi 7 的新增強(qiáng)功能提供了高、可靠的速度和低延遲,可滿足 VR 應(yīng)用中最具挑戰(zhàn)性的需求。

wKgZomZgGZmARhurAABLuGIwUh4674.jpg


在接口方面,Lunar Lake提供4個(gè)PCIe 5.0、4個(gè)PCIe 4.0、3個(gè)整合的Thunderbolt 4(40Gbps)、2個(gè)USB 3.0與6個(gè)USB 2.0等接口。值得一提的是,Thunderbolt 4 接口通過Thunderbolt Share加速,可以將生產(chǎn)力提升到一個(gè)新水平,實(shí)現(xiàn)多臺(tái)電腦連接。

5、3D Foveros封裝與Scalable Fabric Gen 2互聯(lián)

Lunar Lake以上所有的計(jì)算核心、Memory Side緩存、安全、連接和I/O模塊均通過英特爾的3D Foveros多芯片封裝技術(shù)共同封裝在處理器基板上,并采用Memory On Package封裝,在Lunar Lake核心的旁邊封裝了32GB內(nèi)存。


需要指出的是Lunar Lake的32GB w/ 2 Ranks LPDDR5X內(nèi)存顆粒與處理器一同封裝在基版上,每芯片可有著8.5GT/s的傳輸頻寬、支持16b x 4信道,能夠降低40% PHY電源并節(jié)省250mm2的電路版面積。

Lunar Lake的CPU、GPU和NPU計(jì)算核心則通過Scalable Fabric Gen 2進(jìn)行互聯(lián),然后通過D2D直接與平臺(tái)控制層的Scalable Fabric Gen 2連接,能夠無縫的銜接計(jì)算節(jié)點(diǎn)、芯片層,讓計(jì)算核心能有著更好的擴(kuò)展性與效率。此外,借助Home Agent統(tǒng)籌整個(gè)層級(jí)的一致性(Hierarchical Coherency),包括Memory Side緩存、每個(gè)核心叢集中的Coherency Agent,包括平臺(tái)控制層的I/O Coherency。

wKgZomZgGZqAXwoYAABQj1U5Wwo457.jpg


wKgaomZgGZqAdyCnAABVoOTSPds457.jpg


6、全新的供電設(shè)計(jì)與電源管理,綜合能耗可降低40%

在供電方面,Lunar Lake采用了新的4個(gè)PMIC供電設(shè)計(jì),可提供更多的供電路徑、動(dòng)態(tài)電壓ID與更多的監(jiān)控功能。針對(duì)SoC的供電使用優(yōu)化達(dá)到最佳的性能效率。


在電源管理方面,集成的英特爾線程控制器專注于效率,還有針對(duì)每種負(fù)載類型優(yōu)化的功率平衡器,增強(qiáng)的“睡眠”狀態(tài)電源和延遲,以及基于ML的WL分類與頻率控制。Thread Director(線程調(diào)度器)通過識(shí)別每個(gè)工作負(fù)載的級(jí)別并使用其能源和性能內(nèi)核評(píng)分機(jī)制,幫助操作系統(tǒng)將線程調(diào)度到性能和效率最佳的內(nèi)核上。


另外,Lunar Lake還在眾多核心芯片中加入了共享的8MB Memory Side緩存,可以降低DRAM的傳輸次數(shù)并節(jié)省電源,借助緩存機(jī)制讓核心與DRAM間的延遲進(jìn)一步降低并提升傳輸帶寬。

wKgZomZgGZyAV6icAABINoMUSiU312.jpg


根據(jù)英特爾公布的數(shù)據(jù)顯示,得益于先進(jìn)的工藝節(jié)點(diǎn)、新的E-core設(shè)計(jì)、Memory Side緩存、供電設(shè)計(jì)、電源管理及線程調(diào)度器技術(shù),Lunar Lake比起上一代的Meteor Lake 的能耗可降低40%。


7、Lunar Lake三季度出貨,Arrow Lake四季度推出

據(jù)介紹,目前Lunar Lake已有超過80款設(shè)計(jì),來自20家OEM廠商,預(yù)計(jì)第三季開始出貨。

wKgZomZgGZ2ADMK1AAB6hirw0Jo017.jpg


英特爾還透露了未來的面向AI PC的移動(dòng)處理器構(gòu)架,今年第四季將推出面向桌面端的Arrow Lake,明年將會(huì)推出采用Intel 18A的Panther Lake,2026年后還會(huì)有后續(xù)新產(chǎn)品。

wKgaomZgGZ6AIrJ2AABc46YE95A913.jpg


小結(jié):綜合AI算力高達(dá)120 TOPS

從Lunar Lake的內(nèi)部的各個(gè)核心來看,相對(duì)于上代的Meteor Lake,無疑是帶來了重大的升級(jí),不僅CPU核心將 Lion Cove P 核與 Skymont E 核集成在一起,還帶了最新的 Xe2-LPG GPU架構(gòu),以及新一代的NPU 4 內(nèi)核,帶來了領(lǐng)先的AI性能。

結(jié)合CPU、GPU和NPU所提供的AI算力,使得整個(gè)Lunar Lake平臺(tái)的AI總算力達(dá)到了120 TOPS,凸顯了英特爾在 AI 方面的投資。其中,CPU可通過VNNI與AVX指令提供5 TOPS的算力,驅(qū)動(dòng)輕度AI工作;GPU提供的67 TOPS算力則通過XMX與DP4a提供游戲與創(chuàng)作所需的AI性能;NPU提供的48 TOPS算力能夠處理密集向量與矩陣運(yùn)算,提供AI輔助與創(chuàng)作等功能。


作為對(duì)比,高通驍龍X Elite的NPU的算力為45TOPS,蘋果M4的NPU的算力只有38TOPS,雖然AMD最新推出的AI PC芯片——銳龍AI 300系列集成的AMD第三代NPU內(nèi)核的AI算力提升到50TOPS,英特爾Lunar Lake的NPU內(nèi)核的AI算力48TOPS略低,但是依然是大幅超過了微軟對(duì)于Copilot+ PC的最低NPU算力40TOPS的需求門檻,并且英特爾更專注于提供更高的綜合的AI算力,即通過AI引擎結(jié)合NPU、CPU和GPU,將綜合AI算力提高到了120TOPS,達(dá)到了上代Meteor Lake的接近3倍,這樣的提升幅度不可謂不高。

wKgZomZgGZ-ANiuZAABLtZPGREQ911.jpg


特別值得一提的是,Lunar Lake 還帶來了供電和電源管理方面的大幅改進(jìn),結(jié)合更先進(jìn)的工藝節(jié)點(diǎn)、CPU計(jì)算核心等在能效方面的改進(jìn),使得Lunar Lake比起上一代的Meteor Lake 的能耗大幅降低,更適合于移動(dòng)設(shè)備。

根據(jù)英特爾披露的數(shù)據(jù)顯示,Lunar Lake的GPU性能提升50%、NPU內(nèi)核的AI算力增加了四倍、SoC耗電量減少40%、GPU AI算力增加3.5倍,整個(gè)SoC的算力超過了120TOPS。

wKgaomZgGZ-AXYQaAACjobs42hQ606.jpg


總結(jié)來說,Lunar Lake相比上代的Meteor Lake帶來了巨大的性能提升,特別是在AI能力方面,同時(shí)也帶來了更高的能效和更低的功耗。相對(duì)于其他的AI PC芯片競(jìng)品來說,依然有著不小的優(yōu)勢(shì)。

wKgZomZgGaCAXHJXAACRVRZa23s414.jpg


英特爾CEO基辛格在演講當(dāng)中也表示,非常看好AI PC的發(fā)展,目前已有超過800萬臺(tái)搭載英特爾—Core Ultra處理器的AI PC出貨,顯示AI PC時(shí)代已然來臨。

同時(shí)基辛格還預(yù)計(jì)今年基于英特爾芯片的AI PC出貨將達(dá)到4500萬臺(tái),在2028年時(shí),搭載AI功能的PC在所有PC當(dāng)中的占比將達(dá)到80%的水平。而英特爾擁有300多個(gè)AI加速功能、500多個(gè)人工智能模型,當(dāng)AI PC進(jìn)入市場(chǎng)時(shí),英特爾已經(jīng)擁有了完整的AI PC生態(tài)系統(tǒng)。

顯然,隨著Lunar Lake的推出,將有助于進(jìn)一步增強(qiáng)英特爾在AI PC芯片市場(chǎng)的競(jìng)爭(zhēng)力。不過,Lunar Lake的具體市場(chǎng)表現(xiàn)如何,還有待觀察。

談到高通等Windows on Arm設(shè)備推出是否會(huì)影響英特爾X86 PC芯片的市占率,基辛格認(rèn)為,這不是第一個(gè)Windows on Arm的產(chǎn)品發(fā)布,x86市占率仍維持領(lǐng)先,目前還沒明確誘因促使消費(fèi)者從x86平臺(tái)轉(zhuǎn)換到Arm平臺(tái),也還沒看到類似產(chǎn)品能取代x86現(xiàn)有構(gòu)架,認(rèn)為消費(fèi)者需要有改變的理由,加上新推出的Lunar Lake擁有更好的性能表現(xiàn),并不怕市占受影響。

被問到是否視高通為對(duì)手?基辛格笑說歡迎高通推出自家產(chǎn)品進(jìn)入市場(chǎng),因?yàn)檫@有助于更快創(chuàng)造整個(gè)市場(chǎng),不過對(duì)自己很有自信,目前出貨量已經(jīng)售100萬臺(tái),從這角度看,表現(xiàn)比高通昨天呈現(xiàn)的Snapdragon X Elite更優(yōu)秀。此外,從Lunar Lake到下一代Panther Lake,英特爾是打造自家生態(tài)系,是全新的篇章,在整個(gè)AI也很難被取代。

基辛格指出,下半年客戶購買Lunar Lake的PC會(huì)相當(dāng)好的體驗(yàn),相信也會(huì)和高通產(chǎn)品做比較,未來會(huì)有更多跑分等信息出現(xiàn)。

目前英特爾積極擴(kuò)展海外制造,在美國(guó)也有多項(xiàng)半導(dǎo)體建設(shè)?;粮裾J(rèn)為英特爾、三星、臺(tái)積電在美國(guó)布局,顯示美國(guó)芯片產(chǎn)業(yè)將有很大發(fā)展,研調(diào)機(jī)構(gòu)也預(yù)期美國(guó)在半導(dǎo)體的影響力從10%增加至2030年的20%,相信會(huì)有很大動(dòng)能的發(fā)展。英特爾在演講中不斷贊揚(yáng)臺(tái)積電在Lunar Lake及與聯(lián)電的合作,顯示重視中國(guó)臺(tái)灣生態(tài)系,但全球需要更平衡的供應(yīng)鏈,相信現(xiàn)在正在成形中。

對(duì)于被美國(guó)限制出口限制,是否可能讓中國(guó)加速芯片開發(fā)的問題,基辛格坦言,芯片禁令如同一條魔術(shù)界線(magic line),限制太強(qiáng)確實(shí)促使中國(guó)打造自研芯片,的確傷害出口市場(chǎng),因此要小心平衡,英特爾要確保這方面能符合全球生態(tài)系伙伴的期待。同時(shí)英特爾也會(huì)持續(xù)出口產(chǎn)品到中國(guó),隨著制程達(dá)到2nm以下,在中國(guó)半導(dǎo)體技術(shù)發(fā)展受到限制的背景下,英特爾這部分芯片在中國(guó)市場(chǎng)將更具吸引力。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    30728

    瀏覽量

    268873
  • 能耗
    +關(guān)注

    關(guān)注

    1

    文章

    343

    瀏覽量

    12891
  • NPU
    NPU
    +關(guān)注

    關(guān)注

    2

    文章

    279

    瀏覽量

    18582
  • AI算力
    +關(guān)注

    關(guān)注

    0

    文章

    72

    瀏覽量

    8651
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    40+TOPS NPUAI PC處理器開卷

    的人工智能任務(wù)。同時(shí),微軟還提出,這款全新電腦搭配擁有全新神經(jīng)處理單元NPU的芯片,可實(shí)現(xiàn)每秒超過40萬億次即40+TOPS的運(yùn)算。那么也就是說,若要符合微軟給出的AI PC的定義,NPU
    的頭像 發(fā)表于 07-14 01:11 ?4575次閱讀
    40+<b class='flag-5'>TOPS</b> <b class='flag-5'>NPU</b>,<b class='flag-5'>AI</b> PC處理器開卷<b class='flag-5'>算</b><b class='flag-5'>力</b>

    NPU技術(shù)如何提升AI性能

    設(shè)計(jì)的處理器,與傳統(tǒng)的CPU和GPU相比,它在執(zhí)行深度學(xué)習(xí)任務(wù)時(shí)具有更高的效率和更低的能耗。NPU通過專門優(yōu)化的硬件結(jié)構(gòu)和指令集,能夠更快地處理神經(jīng)網(wǎng)絡(luò)中的大量并行計(jì)算任務(wù)。 1. 優(yōu)化硬件架構(gòu) NPU技術(shù)通過優(yōu)化硬件架構(gòu)來
    的頭像 發(fā)表于 11-15 09:11 ?411次閱讀

    芯片 高性能 CPU/GPU/NPU 微架構(gòu)分析》第1-4章閱讀心得——之巔:從基準(zhǔn)測(cè)試到CPU微架構(gòu)的深度探索

    ,全面評(píng)估了芯片在實(shí)際AI工作負(fù)載中的表現(xiàn)。這兩項(xiàng)基準(zhǔn)測(cè)試共同構(gòu)成了一個(gè)全面評(píng)估體系,推動(dòng)了芯片設(shè)計(jì)向多樣化和專用化方向發(fā)展。 2 流
    發(fā)表于 10-19 01:21

    【「芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】--全書概覽

    、GPU、NPU,給我們剖析了芯片的微架構(gòu)。書中有對(duì)芯片方案商處理器的講解,理論聯(lián)系實(shí)際,使讀者能更好理解芯片。 全書共11章,
    發(fā)表于 10-15 22:08

    名單公布!【書籍評(píng)測(cè)活動(dòng)NO.43】 芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析

    ,在全球范圍內(nèi),對(duì)于推動(dòng)科技進(jìn)步、經(jīng)濟(jì)發(fā)展及社會(huì)整體的運(yùn)作具有至關(guān)重要的作用。隨著信息技術(shù)的高速發(fā)展,高性能計(jì)算(HPC)和人工智能(AI)等技術(shù)在多個(gè)領(lǐng)域的應(yīng)用變得日益廣泛,芯片
    發(fā)表于 09-02 10:09

    用ARMxy ARM工業(yè)控制器自帶的1Tops實(shí)現(xiàn)高性能圖像處理

    ARMxy ARM工業(yè)控制器憑借其強(qiáng)大的性能、靈活的配置和高度集成的特性,尤其是其內(nèi)置的1TopsNPU(神經(jīng)網(wǎng)絡(luò)處理單元),在圖像識(shí)別
    的頭像 發(fā)表于 08-20 11:55 ?409次閱讀
    用ARMxy ARM工業(yè)控制器自帶的1<b class='flag-5'>Tops</b><b class='flag-5'>算</b><b class='flag-5'>力</b>實(shí)現(xiàn)高<b class='flag-5'>性能</b>圖像處理

    刷新AI PC NPU,AMD銳龍AI 9 HX 375領(lǐng)銜55 TOPS

    NPU性能第一梯隊(duì)。而此次推出的Ryzen AI 9 HX 375進(jìn)一步提升至55
    的頭像 發(fā)表于 08-07 00:28 ?3328次閱讀
    刷新<b class='flag-5'>AI</b> PC <b class='flag-5'>NPU</b><b class='flag-5'>算</b><b class='flag-5'>力</b>,AMD銳龍<b class='flag-5'>AI</b> 9 HX 375領(lǐng)銜55 <b class='flag-5'>TOPS</b>

    前沿情報(bào)局 | 合眾恒躍HZHY-AI500G集成Hailo-8?智能模塊,超高助力邊緣設(shè)備實(shí)現(xiàn)高性能人工智能!

    近年來,隨著人工智能和大數(shù)據(jù)的迅速崛起,對(duì)高性能計(jì)算的需求大幅增長(zhǎng)。傳統(tǒng)的CPU在處理復(fù)雜計(jì)算任務(wù)時(shí)已顯現(xiàn)出瓶頸,GPU和專用的AI加速器等
    的頭像 發(fā)表于 07-27 08:45 ?502次閱讀
    前沿情報(bào)局 | 合眾恒躍HZHY-<b class='flag-5'>AI</b>500G集成Hailo-8?智能<b class='flag-5'>算</b><b class='flag-5'>力</b>模塊,超高<b class='flag-5'>算</b><b class='flag-5'>力</b>助力邊緣設(shè)備實(shí)現(xiàn)高<b class='flag-5'>性能</b>人工智能!

    加碼,8T可提升至12T,OrangePi AIpro/Kunpeng Pro升級(jí)不加價(jià)

    /KunpengPro的8TOPS提升至12TOPS。通過提升主頻、
    的頭像 發(fā)表于 06-17 15:41 ?406次閱讀
    加碼<b class='flag-5'>算</b><b class='flag-5'>力</b>,8T可<b class='flag-5'>提升至</b>12T,OrangePi AIpro/Kunpeng Pro升級(jí)不加價(jià)

    NPUAI TOPS是什么?它們有哪些性能

    可運(yùn)行AI模型的性能、準(zhǔn)確性和效率。如今,TOPS(每秒萬億次運(yùn)算)是衡量處理器AI性能的主要方式之一。
    的頭像 發(fā)表于 06-13 10:33 ?809次閱讀

    AI PC市場(chǎng)爭(zhēng)霸:英特爾、AMD、高通芯片誰主沉???

    目前英特爾的Meteor Lake處理器NPU只能提供10 TOPS性能,沒有達(dá)到下一代AI PC的標(biāo)準(zhǔn)。而
    發(fā)表于 04-18 14:29 ?411次閱讀

    NPU3倍,新一代酷睿Ultra Lunar Lake搶先看

    TOPSNPU。目前的酷睿Ultra系列處理器,也就是Meteor Lake,NPU
    的頭像 發(fā)表于 04-14 11:04 ?635次閱讀

    AMD推出銳龍8000嵌入式處理器,AI高達(dá)39 T

    此款CPU選用4納米制程、AMD基于“Zen 4”架構(gòu)的CPU核心以及使用RDNA 3架構(gòu)GPU和XDNA架構(gòu)NPU,實(shí)現(xiàn)高達(dá)39TOPSAI
    的頭像 發(fā)表于 04-03 10:39 ?870次閱讀

    英特爾Arrow LakeLunar Lake性能揭曉:無超線程,性能提升顯著

    另有最新消息顯示,英特爾依舊打算在2024年年底推出Lunar Lake平臺(tái)。若英特爾圖形部門能成功修復(fù)Battlemage驅(qū)動(dòng)程序問題,或許該平臺(tái)的實(shí)際面市時(shí)間還將提前于Arrow Lake。
    的頭像 發(fā)表于 03-10 11:26 ?2601次閱讀

    Lunar Lake處理器筆記本最早今年上市,2025年大規(guī)模發(fā)售

    在CES 2024大會(huì)上,英特爾宣布了Lunar Lake處理器將于2024年上市,它搭載全新節(jié)能架構(gòu)和IPC提升以及AI性能提高高達(dá)三倍以
    的頭像 發(fā)表于 02-26 15:55 ?1434次閱讀
    RM新时代网站-首页