RM新时代投资官网|首入球时间 ,rm新时代爆单

英特爾CEO帕特·基辛格在COMPUTEX 2024上發(fā)表主題演講，正式公布了下一代面向AI PC的移動(dòng)處理器Lunar Lake，不僅CPU、GPU、NPU性能全面提升，能耗也大幅降低，綜合AI算力提升至120TOPS。

1、Lunar Lake首次全部由臺(tái)積電代工，但下一代的Panther lake將重回英特爾代工

據(jù)介紹Lunar Lake由7個(gè)主要部分組成，整個(gè)封裝包含內(nèi)存、加固器和底層芯片，底層芯片使用Intel Foveros互連技術(shù)將計(jì)算芯片和平臺(tái)控制器芯片結(jié)合在一起。在工藝節(jié)點(diǎn)方面，Lunar Lake計(jì)算芯片（包括CPU、GPU和NPU等）采用臺(tái)積電的N3B工藝節(jié)點(diǎn)制造，平臺(tái)控制器芯片則采用臺(tái)積電的N6工藝節(jié)點(diǎn)制造，也就是說這款芯片的主要核心die全部都是由臺(tái)積電代工！

要知到之前英特爾的高端移動(dòng)平臺(tái)芯片雖然有部分核心是交由臺(tái)積電代工，但是CPU核心一直是英特爾自己生產(chǎn)的。而這種轉(zhuǎn)變，一方面是臺(tái)積電在制程技術(shù)上的領(lǐng)先，另一方面則可能與英特爾代工業(yè)務(wù)獨(dú)立分拆有關(guān)。英特爾代工業(yè)務(wù)獨(dú)立分拆，使得英特爾的設(shè)計(jì)業(yè)務(wù)可以更自由的選擇外部更有競(jìng)爭(zhēng)力的供應(yīng)商，但是這對(duì)于英特爾代工業(yè)務(wù)集團(tuán)來說并不是一個(gè)好消息，所幸的是Lunar Lake的封裝還是交由英特爾代工業(yè)務(wù)集團(tuán)來完成的。

對(duì)此，基辛格表示，Lunar Lake之所以選擇臺(tái)積電制造，是因?yàn)楫?dāng)時(shí)臺(tái)積電有更好的制程技術(shù)，現(xiàn)在看仍是好選擇。感謝臺(tái)積電，提供了很多核心關(guān)鍵制造技術(shù)，使Lunar Lake成為可能，也能看出臺(tái)積電和英特爾在代工產(chǎn)業(yè)的合作，包括UCIe（通用小芯片互連）也是。

不過基辛格強(qiáng)調(diào)，到下一代Panther lake將幾乎全部是基于英特爾制程，將采用Intel 18A工藝，還有混合鍵合技術(shù)、晶圓對(duì)晶圓（Wafer to Wafer）堆疊，還有先進(jìn)封裝技術(shù)和背面供電技術(shù)，希望屆時(shí)能夠向大家展示英特爾的晶圓廠能力。

1、CPU核心：4個(gè)P核＋4個(gè)E核，性能及效率大幅提升

據(jù)介紹，Lunar Lake的CPU內(nèi)核依然采用的Hybrid核心架構(gòu)設(shè)計(jì)，擁有4個(gè)Lion Cove P-core性能核心和4個(gè)Skymont E-core效率核心，組合成8核心混合設(shè)計(jì)，以達(dá)到性能與效率的最佳。

Lunar Lake的Lion Cove P-core性能核心在緩存層次上進(jìn)行了眾大改進(jìn)，其采用了多層數(shù)據(jù)緩存，每個(gè)核心包括一個(gè) 48KB L0D 緩存（加載到使用延遲為 4 周期）、一個(gè) 192KB L1D 緩存（延遲為 9 周期）、一個(gè)擴(kuò)展的 L2 緩存（最高可達(dá) 3MB，延遲為 17 周期）?？偟膩碚f，這使得 240KB 緩存的延遲時(shí)間與 CPU 內(nèi)核的延遲時(shí)間相差無幾，而之前的 Redwood Cove 只能在相同時(shí)間內(nèi)達(dá)到 48KB 緩存。4個(gè)P核心還共享了12MB L3緩存，可以帶來更出色的單線程性能，并優(yōu)化核心PPA設(shè)計(jì)。

英特爾添加了第三個(gè)地址生成單元 (AGU)/存儲(chǔ)單元對(duì)，以進(jìn)一步提升存儲(chǔ)性能。值得注意的是，這使加載和存儲(chǔ)管道的數(shù)量達(dá)到平衡，分別為 3 個(gè)；在大多數(shù)英特爾架構(gòu)中，加載單元的數(shù)量都比存儲(chǔ)單元多。

總體而言，英特爾在真正的長(zhǎng)期 CPU 設(shè)計(jì)理念中，已經(jīng)投入了更多緩存來解決這個(gè)問題。隨著 CPU 復(fù)雜度的增加，緩存子系統(tǒng)也在不斷增加，以保證其正常運(yùn)行。在這種情況下，保證 CPU 正常運(yùn)行是提高其性能和保持其能效的關(guān)鍵改進(jìn)。

深入研究 Lion Cove 的計(jì)算架構(gòu)，該架構(gòu)在英特爾的 P 核設(shè)計(jì)上專注于提高性能和效率。該架構(gòu)采用一種新的前端方法來處理指令，其預(yù)測(cè)塊比以前大 8 倍，提取范圍更廣，解碼帶寬更高，Uops 緩存容量和讀取帶寬也大幅增加。UOP 隊(duì)列容量增加，這也提高了整體吞吐量。在執(zhí)行過程中，Lion Cove 的無序引擎在整數(shù) (INT) 和矢量 (VEC) 域之間劃分，具有獨(dú)立的重命名和調(diào)度功能。

數(shù)據(jù)轉(zhuǎn)換后備緩沖區(qū) (DTLB) 也進(jìn)行了修改，將其深度從 96 頁增加到 128 頁，以提高其命中率。這種分區(qū)方式可以實(shí)現(xiàn)未來的可擴(kuò)展性、每個(gè)域的獨(dú)立增長(zhǎng)，并且有利于降低特定域工作負(fù)載的功耗。亂序引擎也得到了改進(jìn)，分配/重命名從 6 個(gè)增加到 8 個(gè)，退出從 8 個(gè)增加到 12 個(gè)，深度指令窗口從 512 個(gè)增加到 576 個(gè)，執(zhí)行端口從 12 個(gè)增加到 18 個(gè)。這些變化使管道更加穩(wěn)健，執(zhí)行起來也更加靈活。

Lion Cove 中的整數(shù)執(zhí)行單元也得到了改進(jìn)：整數(shù) ALU 從 5 個(gè)增加到 6 個(gè)，跳躍單元從 2 個(gè)增加到 3 個(gè)，移位單元從 2 個(gè)增加到 3 個(gè)。它們將64x64單元增加到超過64，并從 1 個(gè)單元增加到 3 個(gè)，為最復(fù)雜的操作提供更強(qiáng)大的計(jì)算能力。另一個(gè)顯著的進(jìn)步是 P 核心數(shù)據(jù)庫從“sea of fubs”遷移到了 “sea of cells”。更新 P 核心子結(jié)構(gòu)組織的過程從微小的、以鎖存器為主的分區(qū)轉(zhuǎn)變?yōu)楦鼜V泛、更大的以觸發(fā)器為主的分區(qū)，這些分區(qū)在發(fā)展過程中非常不可知。

Lion Cove 架構(gòu)也與性能提升保持一致，與上一代 Redwood Cove 相比，IPC 性能預(yù)計(jì)將提升兩位數(shù)百分比。這種提升尤其明顯，尤其是在超線程的改進(jìn)方面，IPC 提高了 30%，動(dòng)態(tài)功率效率提高了 20%，并且在不增加核心面積的情況下平衡了先前的技術(shù)，體現(xiàn)了英特爾在現(xiàn)有物理限制內(nèi)提高性能的承諾。

Lion Cove 的電源管理也得到了改進(jìn)，包括采用 AI 自調(diào)節(jié)控制器來取代靜態(tài)熱保護(hù)帶。它讓系統(tǒng)以自適應(yīng)方式動(dòng)態(tài)響應(yīng)實(shí)際的實(shí)時(shí)運(yùn)行條件，以實(shí)現(xiàn)更高的持續(xù)性能。它使用更精細(xì)的時(shí)鐘粒度，現(xiàn)在間隔為 16.67MHz。與 100MHz 相比，這意味著更精確的電源管理和性能調(diào)整，從而從功率預(yù)算中獲得最大效率。

至少從紙面上看，Lion Cove 看起來比 Golden Cove 有了很大的改進(jìn)。它整合了改進(jìn)的內(nèi)存和緩存子系統(tǒng)、更好的電源管理以及 IPC 性能的提升，而不是專注于提高頻率。

Lunar Lake的Skymont E-core效率核心是專為實(shí)現(xiàn)全新水平的性能效率而設(shè)計(jì)。4個(gè)E-core共享4MB L2緩存，能比上一代有著超過2倍的省電表現(xiàn)，并比上一代提升2倍的Vector與AI輸出性能。

Skymont 核心具有更全面的微架構(gòu)，首先是 9-wide 解碼階段，其解碼簇比前幾代多 50%。這由更大的微操作隊(duì)列支持，現(xiàn)在可容納 96 個(gè)條目，而舊設(shè)計(jì)中只有 64 個(gè)。使用“Nanocode”可在每個(gè)解碼簇內(nèi)增加更多微代碼并行性。

Skymont核心的無序執(zhí)行引擎也得到了顯著改進(jìn)。分配寬度增加到 8-wide，而退出階段則加倍到 16-wide。這增強(qiáng)了內(nèi)核同時(shí)發(fā)出和執(zhí)行多條指令的能力，并通過依賴中斷機(jī)制減少了延遲。

Skymont 將重排序緩沖區(qū)從之前的 256 個(gè)條目加深到 416 個(gè)條目，以提供排隊(duì)和緩沖功能。此外，物理寄存器文件 (PRF) 和保留站的大小也增加了。這些增強(qiáng)功能使內(nèi)核能夠處理更多正在運(yùn)行的指令，從而提高指令執(zhí)行的并行性。

需要注意的是，調(diào)度端口最初為 26 個(gè)，其中 8 個(gè)用于整數(shù) ALU，3 個(gè)用于跳轉(zhuǎn)操作，3 個(gè)用于每個(gè)周期的加載操作，從而進(jìn)一步實(shí)現(xiàn)了靈活高效的資源分配。在矢量性能方面，Skymont 支持 4×128 位 FP 和 SIMD 矢量，這使每秒千兆次浮點(diǎn)運(yùn)算 (Gigaflops/TOPs) 翻倍，并降低了浮點(diǎn)運(yùn)算的延遲。英特爾還重新設(shè)計(jì)了內(nèi)存子系統(tǒng)，四個(gè)內(nèi)核共享 4MB L2 緩存，將 L2 帶寬翻倍至每周期 128B，在此過程中，降低了內(nèi)存訪問延遲，同時(shí)提高了數(shù)據(jù)吞吐量。

英特爾公布的性能指標(biāo)，凸顯了Skymont E核的電源效率的顯著提升：與上代的Meteor Lake 的 LP E 核相比，單線程性能提高了 1.7 倍，而功耗僅為其三分之一。

當(dāng)將 Skymont E-core 集群與 Meteor Lake的 LP E-core 集群直接進(jìn)行比較時(shí)，多線程性能提高了 2.9 倍，而功耗卻全面降低。

這對(duì)于移動(dòng)和桌面設(shè)計(jì)同樣有用。換句話說，Skymont E 核心非常靈活，在移動(dòng)場(chǎng)景中充分利用了低功耗結(jié)構(gòu)和系統(tǒng)緩存，并針對(duì)桌面計(jì)算塊優(yōu)化了多線程吞吐量。與 Raptor Cove 相比，Skymont在單線程工作負(fù)載中提供了 2% 更好的整數(shù)和浮點(diǎn)性能，其功率和熱量范圍幾乎與其前代產(chǎn)品相同。

Skymont E 核代表了英特爾內(nèi)核架構(gòu)開發(fā)的下一步，在解碼、執(zhí)行、內(nèi)存子系統(tǒng)和電源效率方面取得了顯著的進(jìn)步，滿足了更節(jié)能計(jì)算的需求，并且比以前的 Crestmont E 核提高了 IPC 增益。

2、GPU性能提升50%，還有全新顯示、多媒體和圖像引擎

Lunar Lake的GPU采用的是新一代的Xe2 GPU構(gòu)架，擁有8組新一代Xe核心、8個(gè)光線追蹤單元、XMX AI引擎和8MB的專屬緩存。能夠提供67 GPU TOPS的算力、實(shí)時(shí)的光線追蹤、基于AI的XeSS畫質(zhì)提升、Intel Arc軟件堆疊等功能，相比上一代Meteor Lake能帶來50%的圖形處理性能提升。

Lunar Lake內(nèi)部還集成了與GPU搭配的全新顯示、多媒體和圖像引擎（IPU）。其中，顯示核心擁有3個(gè)eDP 1.5、DP與HDMI 2.1輸出接口，多媒體引擎支持AV1和最新的VVC編譯功能，IPU則可提供Temporal noise reduction、Multi-frame與Dual exposure staggered HDR等圖像強(qiáng)化功能。

具體來說，英特爾的 eDisplayPort 1.5 包含面板重放功能，該功能集成了自適應(yīng)同步和選擇性更新機(jī)制。這有助于通過僅刷新屏幕發(fā)生變化的部分而不是整個(gè)顯示屏來降低功耗。這些創(chuàng)新不僅節(jié)省能源，而且還通過減少顯示延遲和提高同步精度來改善視覺體驗(yàn)。

描繪像素處理管道是英特爾顯示引擎所依賴的基本基礎(chǔ)之一，每條管道支持六個(gè)平面，用于高級(jí)顏色轉(zhuǎn)換和合成。此外，它還集成了對(duì)顏色增強(qiáng)、顯示縮放、像素調(diào)整和 HDR 感知量化的硬件支持，確保屏幕上的圖形生動(dòng)準(zhǔn)確。該設(shè)計(jì)非常靈活，非常節(jié)能，性能經(jīng)過精心設(shè)計(jì)，至少在紙面上支持各種輸入和輸出格式。到目前為止，英特爾尚未提供任何可量化的功率指標(biāo)、TDP 或其他功率元素。

在壓縮和編碼方面，Xe2 架構(gòu)可無損地將顯示流壓縮率提高到 3:1，包括針對(duì) HDMI 和 DisplayPort 協(xié)議的傳輸編碼。這些芯片功能可進(jìn)一步降低數(shù)據(jù)負(fù)載，并在輸出端保持高分辨率，而不會(huì)損失視覺質(zhì)量。

多媒體引擎方面，英特爾采用 VVC 編解碼器對(duì)視頻壓縮技術(shù)的改進(jìn)意義重大。與 AV1 相比，此編解碼器可將文件大小減少 10%，并支持自適應(yīng)分辨率流媒體和針對(duì) 360 度和全景視頻的高級(jí)內(nèi)容編碼。這將確保流媒體的比特率較低，而不會(huì)降低質(zhì)量——這是現(xiàn)代多媒體應(yīng)用的一個(gè)基本方面。

Windows GPU 軟件堆棧從上到下都非常強(qiáng)大，支持 D3D、Vulkan 和 Intel VPL API 和框架。這意味著，結(jié)合這些品質(zhì)可以為市場(chǎng)上各種運(yùn)行時(shí)和驅(qū)動(dòng)程序提供全面支持，從而提高其在不同軟件環(huán)境中的整體效率和兼容性。

3、NPU算力提升至48TOPS

作為新一代面向筆記本電腦的AI PC處理器，Lunar Lake的神經(jīng)處理單元（NPU）帶來了重大升級(jí)，其集成了全新的第四代NPU內(nèi)核（NPU 4），具備6個(gè)Neural Compute引擎、12個(gè)強(qiáng)化SHAVE 數(shù)字信號(hào)處理器（DSP）與9MB緩存，能夠提供48 TOPS的AI算力。

與上一代 NPU 3 相比，NPU 4 在增強(qiáng)神經(jīng)處理能力和效率方面有了巨大飛躍。NPU 4 的改進(jìn)主要是通過實(shí)現(xiàn)更高的頻率、更好的電源架構(gòu)和更多的引擎數(shù)量來實(shí)現(xiàn)的，從而賦予它更好的性能和效率。

在 NPU 4 中，這些改進(jìn)在矢量性能架構(gòu)中得到了增強(qiáng)，計(jì)算塊數(shù)量更多，矩陣計(jì)算的優(yōu)化性更好。這需要大量的神經(jīng)處理帶寬；換句話說，這對(duì)于需要超高速數(shù)據(jù)處理和實(shí)時(shí)推理的應(yīng)用程序至關(guān)重要。

該架構(gòu)支持 INT8 和 FP16 精度，INT8 每周期最多可進(jìn)行 2048 次 MAC（乘法累加）運(yùn)算，F(xiàn)P16 每周期最多可進(jìn)行 1024 次 MAC 運(yùn)算，這顯然表明計(jì)算效率顯著提高。

更深入地了解架構(gòu)后，可以發(fā)現(xiàn) NPU 4 的層次有所增加。其每個(gè)神經(jīng)計(jì)算引擎都嵌入了令人難以置信的出色推理管道，包括 MAC 陣列和許多用于不同類型計(jì)算的專用 DSP。該管道專為眾多并行操作而構(gòu)建，從而提高了性能和效率。新的 SHAVE DSP 經(jīng)過優(yōu)化，矢量計(jì)算能力是上一代的四倍，可以處理更復(fù)雜的神經(jīng)網(wǎng)絡(luò)。

NPU 4 的另一項(xiàng)重大改進(jìn)是提高了時(shí)鐘速度，并引入了一個(gè)新節(jié)點(diǎn)，在與 NPU 3 相同的功率水平下將性能提高了一倍。這使峰值性能提高了四倍，使 NPU 4 成為要求苛刻的 AI 應(yīng)用的強(qiáng)大引擎。新的 MAC 陣列在芯片上具有先進(jìn)的數(shù)據(jù)轉(zhuǎn)換功能，允許動(dòng)態(tài)進(jìn)行數(shù)據(jù)類型轉(zhuǎn)換、融合操作和輸出數(shù)據(jù)布局，從而使數(shù)據(jù)流以最小的延遲達(dá)到最佳狀態(tài)。

NPU 4 的帶寬改進(jìn)對(duì)于處理更大的模型和數(shù)據(jù)集至關(guān)重要，尤其是在基于 Transformer 語言模型的應(yīng)用程序中。該架構(gòu)支持更高的數(shù)據(jù)流，從而減少瓶頸并確保即使在運(yùn)行時(shí)也能順利運(yùn)行。NPU 4 的 DMA（直接內(nèi)存訪問）引擎將 DMA 帶寬翻倍——這是提高網(wǎng)絡(luò)性能的重要補(bǔ)充，也是處理重型神經(jīng)網(wǎng)絡(luò)模型的有效方法。進(jìn)一步支持更多功能，包括嵌入標(biāo)記化，從而擴(kuò)大了 NPU 4 的潛力。

NPU 4 的另一項(xiàng)顯著改進(jìn)在于矩陣乘法和卷積運(yùn)算，其中 MAC 陣列可以在單個(gè)周期內(nèi)處理最多 2048 個(gè) MAC 運(yùn)算（INT8）和 1024 個(gè) MAC 運(yùn)算（FP16）。這反過來又使得 NPU 能夠以更高的速度和更低的功率處理更復(fù)雜的神經(jīng)網(wǎng)絡(luò)計(jì)算。這在矢量寄存器文件的維度上產(chǎn)生了差異；NPU 4 的寬度為 512 位。這意味著在一個(gè)時(shí)鐘周期內(nèi)，可以進(jìn)行更多的矢量運(yùn)算；這反過來又提高了計(jì)算效率。

NPU 4 支持激活函數(shù)，現(xiàn)在有更多種類的激活函數(shù)可以支持和處理任何神經(jīng)網(wǎng)絡(luò)，并可選擇精度來支持浮點(diǎn)計(jì)算，這將使計(jì)算更加精確和可靠。改進(jìn)的激活函數(shù)和優(yōu)化的推理管道，將使其能夠以更快的速度和更高的準(zhǔn)確度執(zhí)行更復(fù)雜和更細(xì)致的神經(jīng)網(wǎng)絡(luò)模型。

NPU 4 中的 SHAVE DSP 升級(jí)，使得其矢量計(jì)算能力達(dá)到了 NPU 3 的四倍，將整體的矢量性能整體提高 12 倍。這對(duì)于轉(zhuǎn)換器和大型語言模型 (LLM) 性能非常有用，使其更加快速和節(jié)能。增加每個(gè)時(shí)鐘周期的矢量操作可以實(shí)現(xiàn)更大的矢量寄存器文件大小，從而顯著提升 NPU 4 的計(jì)算能力。

總體而言，NPU 4 的性能比 NPU 3 有了大幅提升，整體的矢量性能提高了 12 倍，TOPS 算力提高了 4 倍，IP 帶寬提高了 2 倍。這些改進(jìn)使 NPU 4 成為高性能和高效率的AI解決方案，適合性能和延遲至關(guān)重要的最新 AI 和機(jī)器學(xué)習(xí)應(yīng)用。這些架構(gòu)改進(jìn)以及數(shù)據(jù)轉(zhuǎn)換和帶寬改進(jìn)使 NPU 4 成為管理要求極高的 AI 工作負(fù)載的頂級(jí)解決方案。

4、更好的安全技術(shù)和高速連接技術(shù)

Lunar Lake平臺(tái)的控制層還內(nèi)置了安全和新一代高速連接技術(shù)。

在安全方面，擁有Intel Partner Security（合作伙伴安全）引擎、Intel Silicon Security（硅安全）引擎、Converged Security和Manageability（融合安全與可管理性）引擎。

連接方面，Lunar Lake平臺(tái)則整合了最新的Wi-Fi 7、Bluetooth 5.4與1GbE MAC連接技術(shù)。

其中，集成的Wi-Fi 7解決方案支持多鏈路操作（Multi-Link Operation或MLO），它增加了可靠性，提高了吞吐量（支持5.8Gbps），改善了延遲，并實(shí)現(xiàn)了流量分離/區(qū)分。與BE200網(wǎng)絡(luò)接口相比，硅片尺寸縮小了28%，并采用11Gbps的CNVio3接口。此外，還采用了射頻干擾緩解技術(shù)，可動(dòng)態(tài)調(diào)整對(duì)Wi-Fi性能有重大影響的DDR時(shí)鐘頻率。

英特爾還宣布與Meta 的合作更進(jìn)一步，利用這項(xiàng) Wi-Fi 7 技術(shù)來增強(qiáng) VR 體驗(yàn)。這進(jìn)一步優(yōu)化了視頻延遲性能并減少了干擾，從而使 VR 應(yīng)用更加無縫和引人入勝，至少從無線連接的角度來看是如此。Wi-Fi 7 的新增強(qiáng)功能提供了高、可靠的速度和低延遲，可滿足 VR 應(yīng)用中最具挑戰(zhàn)性的需求。

在接口方面，Lunar Lake提供4個(gè)PCIe 5.0、4個(gè)PCIe 4.0、3個(gè)整合的Thunderbolt 4（40Gbps）、2個(gè)USB 3.0與6個(gè)USB 2.0等接口。值得一提的是，Thunderbolt 4 接口通過Thunderbolt Share加速，可以將生產(chǎn)力提升到一個(gè)新水平，實(shí)現(xiàn)多臺(tái)電腦連接。

5、3D Foveros封裝與Scalable Fabric Gen 2互聯(lián)

Lunar Lake以上所有的計(jì)算核心、Memory Side緩存、安全、連接和I/O模塊均通過英特爾的3D Foveros多芯片封裝技術(shù)共同封裝在處理器基板上，并采用Memory On Package封裝，在Lunar Lake核心的旁邊封裝了32GB內(nèi)存。

需要指出的是Lunar Lake的32GB w/ 2 Ranks LPDDR5X內(nèi)存顆粒與處理器一同封裝在基版上，每芯片可有著8.5GT/s的傳輸頻寬、支持16b x 4信道，能夠降低40% PHY電源并節(jié)省250mm2的電路版面積。

Lunar Lake的CPU、GPU和NPU計(jì)算核心則通過Scalable Fabric Gen 2進(jìn)行互聯(lián)，然后通過D2D直接與平臺(tái)控制層的Scalable Fabric Gen 2連接，能夠無縫的銜接計(jì)算節(jié)點(diǎn)、芯片層，讓計(jì)算核心能有著更好的擴(kuò)展性與效率。此外，借助Home Agent統(tǒng)籌整個(gè)層級(jí)的一致性（Hierarchical Coherency），包括Memory Side緩存、每個(gè)核心叢集中的Coherency Agent，包括平臺(tái)控制層的I/O Coherency。

6、全新的供電設(shè)計(jì)與電源管理，綜合能耗可降低40%

在供電方面，Lunar Lake采用了新的4個(gè)PMIC供電設(shè)計(jì)，可提供更多的供電路徑、動(dòng)態(tài)電壓ID與更多的監(jiān)控功能。針對(duì)SoC的供電使用優(yōu)化達(dá)到最佳的性能效率。

在電源管理方面，集成的英特爾線程控制器專注于效率，還有針對(duì)每種負(fù)載類型優(yōu)化的功率平衡器，增強(qiáng)的“睡眠”狀態(tài)電源和延遲，以及基于ML的WL分類與頻率控制。Thread Director（線程調(diào)度器）通過識(shí)別每個(gè)工作負(fù)載的級(jí)別并使用其能源和性能內(nèi)核評(píng)分機(jī)制，幫助操作系統(tǒng)將線程調(diào)度到性能和效率最佳的內(nèi)核上。

另外，Lunar Lake還在眾多核心芯片中加入了共享的8MB Memory Side緩存，可以降低DRAM的傳輸次數(shù)并節(jié)省電源，借助緩存機(jī)制讓核心與DRAM間的延遲進(jìn)一步降低并提升傳輸帶寬。

根據(jù)英特爾公布的數(shù)據(jù)顯示，得益于先進(jìn)的工藝節(jié)點(diǎn)、新的E-core設(shè)計(jì)、Memory Side緩存、供電設(shè)計(jì)、電源管理及線程調(diào)度器技術(shù)，Lunar Lake比起上一代的Meteor Lake 的能耗可降低40%。

7、Lunar Lake三季度出貨，Arrow Lake四季度推出

據(jù)介紹，目前Lunar Lake已有超過80款設(shè)計(jì)，來自20家OEM廠商，預(yù)計(jì)第三季開始出貨。

英特爾還透露了未來的面向AI PC的移動(dòng)處理器構(gòu)架，今年第四季將推出面向桌面端的Arrow Lake，明年將會(huì)推出采用Intel 18A的Panther Lake，2026年后還會(huì)有后續(xù)新產(chǎn)品。

小結(jié)：綜合AI算力高達(dá)120 TOPS

從Lunar Lake的內(nèi)部的各個(gè)核心來看，相對(duì)于上代的Meteor Lake，無疑是帶來了重大的升級(jí)，不僅CPU核心將 Lion Cove P 核與 Skymont E 核集成在一起，還帶了最新的 Xe2-LPG GPU架構(gòu)，以及新一代的NPU 4 內(nèi)核，帶來了領(lǐng)先的AI性能。

結(jié)合CPU、GPU和NPU所提供的AI算力，使得整個(gè)Lunar Lake平臺(tái)的AI總算力達(dá)到了120 TOPS，凸顯了英特爾在 AI 方面的投資。其中，CPU可通過VNNI與AVX指令提供5 TOPS的算力，驅(qū)動(dòng)輕度AI工作；GPU提供的67 TOPS算力則通過XMX與DP4a提供游戲與創(chuàng)作所需的AI性能；NPU提供的48 TOPS算力能夠處理密集向量與矩陣運(yùn)算，提供AI輔助與創(chuàng)作等功能。

作為對(duì)比，高通驍龍X Elite的NPU的算力為45TOPS，蘋果M4的NPU的算力只有38TOPS，雖然AMD最新推出的AI PC芯片——銳龍AI 300系列集成的AMD第三代NPU內(nèi)核的AI算力提升到50TOPS，英特爾Lunar Lake的NPU內(nèi)核的AI算力48TOPS略低，但是依然是大幅超過了微軟對(duì)于Copilot+ PC的最低NPU算力40TOPS的需求門檻，并且英特爾更專注于提供更高的綜合的AI算力，即通過AI引擎結(jié)合NPU、CPU和GPU，將綜合AI算力提高到了120TOPS，達(dá)到了上代Meteor Lake的接近3倍，這樣的提升幅度不可謂不高。

特別值得一提的是，Lunar Lake 還帶來了供電和電源管理方面的大幅改進(jìn)，結(jié)合更先進(jìn)的工藝節(jié)點(diǎn)、CPU計(jì)算核心等在能效方面的改進(jìn)，使得Lunar Lake比起上一代的Meteor Lake 的能耗大幅降低，更適合于移動(dòng)設(shè)備。

根據(jù)英特爾披露的數(shù)據(jù)顯示，Lunar Lake的GPU性能提升50%、NPU內(nèi)核的AI算力增加了四倍、SoC耗電量減少40%、GPU AI算力增加3.5倍，整個(gè)SoC的算力超過了120TOPS。

總結(jié)來說，Lunar Lake相比上代的Meteor Lake帶來了巨大的性能提升，特別是在AI能力方面，同時(shí)也帶來了更高的能效和更低的功耗。相對(duì)于其他的AI PC芯片競(jìng)品來說，依然有著不小的優(yōu)勢(shì)。

英特爾CEO基辛格在演講當(dāng)中也表示，非常看好AI PC的發(fā)展，目前已有超過800萬臺(tái)搭載英特爾—Core Ultra處理器的AI PC出貨，顯示AI PC時(shí)代已然來臨。

同時(shí)基辛格還預(yù)計(jì)今年基于英特爾芯片的AI PC出貨將達(dá)到4500萬臺(tái)，在2028年時(shí)，搭載AI功能的PC在所有PC當(dāng)中的占比將達(dá)到80%的水平。而英特爾擁有300多個(gè)AI加速功能、500多個(gè)人工智能模型，當(dāng)AI PC進(jìn)入市場(chǎng)時(shí)，英特爾已經(jīng)擁有了完整的AI PC生態(tài)系統(tǒng)。

顯然，隨著Lunar Lake的推出，將有助于進(jìn)一步增強(qiáng)英特爾在AI PC芯片市場(chǎng)的競(jìng)爭(zhēng)力。不過，Lunar Lake的具體市場(chǎng)表現(xiàn)如何，還有待觀察。

談到高通等Windows on Arm設(shè)備推出是否會(huì)影響英特爾X86 PC芯片的市占率，基辛格認(rèn)為，這不是第一個(gè)Windows on Arm的產(chǎn)品發(fā)布，x86市占率仍維持領(lǐng)先，目前還沒明確誘因促使消費(fèi)者從x86平臺(tái)轉(zhuǎn)換到Arm平臺(tái)，也還沒看到類似產(chǎn)品能取代x86現(xiàn)有構(gòu)架，認(rèn)為消費(fèi)者需要有改變的理由，加上新推出的Lunar Lake擁有更好的性能表現(xiàn)，并不怕市占受影響。

被問到是否視高通為對(duì)手？基辛格笑說歡迎高通推出自家產(chǎn)品進(jìn)入市場(chǎng)，因?yàn)檫@有助于更快創(chuàng)造整個(gè)市場(chǎng)，不過對(duì)自己很有自信，目前出貨量已經(jīng)售100萬臺(tái)，從這角度看，表現(xiàn)比高通昨天呈現(xiàn)的Snapdragon X Elite更優(yōu)秀。此外，從Lunar Lake到下一代Panther Lake，英特爾是打造自家生態(tài)系，是全新的篇章，在整個(gè)AI也很難被取代。

基辛格指出，下半年客戶購買Lunar Lake的PC會(huì)相當(dāng)好的體驗(yàn)，相信也會(huì)和高通產(chǎn)品做比較，未來會(huì)有更多跑分等信息出現(xiàn)。

目前英特爾積極擴(kuò)展海外制造，在美國(guó)也有多項(xiàng)半導(dǎo)體建設(shè)?；粮裾J(rèn)為英特爾、三星、臺(tái)積電在美國(guó)布局，顯示美國(guó)芯片產(chǎn)業(yè)將有很大發(fā)展，研調(diào)機(jī)構(gòu)也預(yù)期美國(guó)在半導(dǎo)體的影響力從10%增加至2030年的20%，相信會(huì)有很大動(dòng)能的發(fā)展。英特爾在演講中不斷贊揚(yáng)臺(tái)積電在Lunar Lake及與聯(lián)電的合作，顯示重視中國(guó)臺(tái)灣生態(tài)系，但全球需要更平衡的供應(yīng)鏈，相信現(xiàn)在正在成形中。

對(duì)于被美國(guó)限制出口限制，是否可能讓中國(guó)加速芯片開發(fā)的問題，基辛格坦言，芯片禁令如同一條魔術(shù)界線（magic line），限制太強(qiáng)確實(shí)促使中國(guó)打造自研芯片，的確傷害出口市場(chǎng)，因此要小心平衡，英特爾要確保這方面能符合全球生態(tài)系伙伴的期待。同時(shí)英特爾也會(huì)持續(xù)出口產(chǎn)品到中國(guó)，隨著制程達(dá)到2nm以下，在中國(guó)半導(dǎo)體技術(shù)發(fā)展受到限制的背景下，英特爾這部分芯片在中國(guó)市場(chǎng)將更具吸引力。

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

AI

AI

+關(guān)注

關(guān)注
87

文章
30728

瀏覽量
268873
能耗

能耗

+關(guān)注

關(guān)注
1

文章
343

瀏覽量
12891
NPU

NPU

+關(guān)注

關(guān)注
2

文章
279

瀏覽量
18582
AI算力

AI算力

+關(guān)注

關(guān)注
0

文章
72

瀏覽量
8651

評(píng)論

相關(guān)推薦

40+TOPS NPU，AI PC處理器開卷算力

的人工智能任務(wù)。同時(shí)，微軟還提出，這款全新電腦搭配擁有全新神經(jīng)處理單元NPU的芯片，可實(shí)現(xiàn)每秒超過40萬億次即40+TOPS的運(yùn)算。那么也就是說，若要符合微軟給出的AI PC的定義，NPU

發(fā)表于 07-14 01:11 ?4575次閱讀

NPU技術(shù)如何提升AI性能

設(shè)計(jì)的處理器，與傳統(tǒng)的CPU和GPU相比，它在執(zhí)行深度學(xué)習(xí)任務(wù)時(shí)具有更高的效率和更低的能耗。NPU通過專門優(yōu)化的硬件結(jié)構(gòu)和指令集，能夠更快地處理神經(jīng)網(wǎng)絡(luò)中的大量并行計(jì)算任務(wù)。 1. 優(yōu)化硬件架構(gòu) NPU技術(shù)通過優(yōu)化硬件架構(gòu)來

發(fā)表于 11-15 09:11 ?411次閱讀

《算力芯片高性能 CPU/GPU/NPU 微架構(gòu)分析》第1-4章閱讀心得——算力之巔：從基準(zhǔn)測(cè)試到CPU微架構(gòu)的深度探索

，全面評(píng)估了芯片在實(shí)際AI工作負(fù)載中的表現(xiàn)。這兩項(xiàng)基準(zhǔn)測(cè)試共同構(gòu)成了一個(gè)全面的算力評(píng)估體系，推動(dòng)了芯片設(shè)計(jì)向多樣化和專用化方向發(fā)展。 2 流

發(fā)表于 10-19 01:21

【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】--全書概覽

、GPU、NPU,給我們剖析了算力芯片的微架構(gòu)。書中有對(duì)芯片方案商處理器的講解，理論聯(lián)系實(shí)際，使讀者能更好理解算力芯片。全書共11章，

發(fā)表于 10-15 22:08

名單公布！【書籍評(píng)測(cè)活動(dòng)NO.43】算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析

力，在全球范圍內(nèi)，對(duì)于推動(dòng)科技進(jìn)步、經(jīng)濟(jì)發(fā)展及社會(huì)整體的運(yùn)作具有至關(guān)重要的作用。隨著信息技術(shù)的高速發(fā)展，高性能計(jì)算（HPC）和人工智能（AI）等技術(shù)在多個(gè)領(lǐng)域的應(yīng)用變得日益廣泛，芯片算

發(fā)表于 09-02 10:09

用ARMxy ARM工業(yè)控制器自帶的1Tops算力實(shí)現(xiàn)高性能圖像處理

ARMxy ARM工業(yè)控制器憑借其強(qiáng)大的性能、靈活的配置和高度集成的特性，尤其是其內(nèi)置的1Tops算力NPU（神經(jīng)網(wǎng)絡(luò)處理單元），在圖像識(shí)別

發(fā)表于 08-20 11:55 ?409次閱讀

刷新AI PC NPU算力，AMD銳龍AI 9 HX 375領(lǐng)銜55 TOPS

NPU性能第一梯隊(duì)。而此次推出的Ryzen AI 9 HX 375算力進(jìn)一步提升至55

發(fā)表于 08-07 00:28 ?3328次閱讀

前沿情報(bào)局 | 合眾恒躍HZHY-AI500G集成Hailo-8?智能算力模塊，超高算力助力邊緣設(shè)備實(shí)現(xiàn)高性能人工智能！

近年來，隨著人工智能和大數(shù)據(jù)的迅速崛起，對(duì)高性能計(jì)算的需求大幅增長(zhǎng)。傳統(tǒng)的CPU在處理復(fù)雜計(jì)算任務(wù)時(shí)已顯現(xiàn)出瓶頸，GPU和專用的AI加速器等算力

發(fā)表于 07-27 08:45 ?502次閱讀

加碼算力，8T可提升至12T，OrangePi AIpro/Kunpeng Pro升級(jí)不加價(jià)

/KunpengPro的8TOPS算力可提升至12TOPS。通過提升主頻、

發(fā)表于 06-17 15:41 ?406次閱讀

NPU和AI TOPS是什么？它們有哪些性能？

可運(yùn)行AI模型的性能、準(zhǔn)確性和效率。如今，TOPS(每秒萬億次運(yùn)算)是衡量處理器AI性能的主要方式之一。

發(fā)表于 06-13 10:33 ?809次閱讀

AI PC市場(chǎng)爭(zhēng)霸：英特爾、AMD、高通芯片算力誰主沉??？

目前英特爾的Meteor Lake處理器NPU只能提供10 TOPS的性能，沒有達(dá)到下一代AI PC的標(biāo)準(zhǔn)。而

發(fā)表于 04-18 14:29 ?411次閱讀

NPU算力3倍，新一代酷睿Ultra Lunar Lake搶先看

TOPS算力的NPU。目前的酷睿Ultra系列處理器，也就是Meteor Lake，NPU的

發(fā)表于 04-14 11:04 ?635次閱讀

AMD推出銳龍8000嵌入式處理器，AI算力高達(dá)39 T

此款CPU選用4納米制程、AMD基于“Zen 4”架構(gòu)的CPU核心以及使用RDNA 3架構(gòu)GPU和XDNA架構(gòu)NPU，實(shí)現(xiàn)高達(dá)39TOPS的AI算力

發(fā)表于 04-03 10:39 ?870次閱讀

英特爾Arrow Lake和Lunar Lake性能揭曉：無超線程，性能提升顯著

另有最新消息顯示，英特爾依舊打算在2024年年底推出Lunar Lake平臺(tái)。若英特爾圖形部門能成功修復(fù)Battlemage驅(qū)動(dòng)程序問題，或許該平臺(tái)的實(shí)際面市時(shí)間還將提前于Arrow Lake。

發(fā)表于 03-10 11:26 ?2601次閱讀

Lunar Lake處理器筆記本最早今年上市，2025年大規(guī)模發(fā)售

在CES 2024大會(huì)上，英特爾宣布了Lunar Lake處理器將于2024年上市，它搭載全新節(jié)能架構(gòu)和IPC提升以及AI性能提高高達(dá)三倍以

發(fā)表于 02-26 15:55 ?1434次閱讀