嵌入式 AI

AI 簡報 20221125 期

1. 能逆襲蘋果A16芯片嗎？高通驍龍8Gen2 VS聯(lián)發(fā)科天璣9200，誰能成為2023年智能手機高端芯片霸主？

原文：

https://mp.weixin.qq.com/s/IWSolPkauAJEGYARg9Iheg

11月22日晚上7點，vivo召開vivo X90系列新品發(fā)布會，推出全新旗艦X90系列。其中，vivo X90 和vivo X90 Pro搭載聯(lián)發(fā)科天璣9200系列，X90首發(fā)天璣9200處理器，搭載自研芯片V2，內(nèi)置4810mAh大電池，支持120W雙芯閃充，起始定價3699元，X90 Pro起始定價4999元。在3000元到5000元價位段智能手機領(lǐng)域，vivo選擇了聯(lián)發(fā)科的新品。

在高于800美元的高端旗艦手機當中，vivo選擇了高通產(chǎn)品。vivo X90 Pro+搭載高通驍龍8 Gen2，首發(fā)LPDDR5x + UFS 4.0，4700mAh電池，80W有線快充，50W無線快充。12GB+256GB版本售價6499元。

11月16日，高通驍龍8Gen2正式官宣后，海外媒體報道，三星下一代旗艦Galaxy S23，S23 +和S23 Ultra將采用驍龍8Gen2，這個系列預(yù)計會在2023年1月份發(fā)布。在微博上，數(shù)碼博主爆料，小米13系列將搭載滿血版驍龍8 Gen2，其最高頻率達到3.2GHz，同時在調(diào)校中會釋放滿血性能，在游戲表現(xiàn)上可能會更上一層。

高通、聯(lián)發(fā)科是安卓手機芯片的主要供應(yīng)商，他們?nèi)绾慰创?023年智能手機市場？作為高端旗艦芯片，兩款芯片的極致性能對比，哪些優(yōu)勢顯現(xiàn)？在智能手機和元宇宙生態(tài)圈的融合當中，誰又是最有潛力的選手？

2. IBM全新AIU芯片：5nm工藝，230億晶體管！深度學習處理性能強勁！

原文：https://mp.weixin.qq.com/s/RR0ACES8j8bZvULjyy5MfA

IBM 研究院推出了一款A(yù)I處理器，名為人工智能單元（Artificial Intelligent Unit，AIU），這是IBM首個用于運行和訓(xùn)練深度學習模型的完整 SoC。IBM聲稱，其比通用CPU工作更快、更高效。

AIU：32個處理器核心、230億個晶體管

這款A(yù)IU芯片是IBM研究院AI硬件中心投入五年開發(fā)出的結(jié)果，AI硬件中心于2019年啟動，專注于開發(fā)下一代芯片與AI系統(tǒng)。該中心的目標是，計劃未來每年將AI硬件效率提升2.5倍。到2029年，將AI模型的訓(xùn)練和運行速度拉高1000倍。

據(jù)IBM介紹，該芯片采用5nm制程工藝，共有32個處理器核心和230億個晶體管，在設(shè)計易用性方面，與普通顯卡相當，能夠介入任何帶有PCI插槽的計算機或服務(wù)器。AIU芯片，旨在支持多種格式并簡化從圖像識別到自然語言處理的人工智能工作流程。

AIU芯片與傳統(tǒng)用于訓(xùn)練的GPU芯片有何不同？一直以來，深度學習模型依賴于CPU加GPU協(xié)處理器的組合進行訓(xùn)練與運行。GPU最初是為沉浸圖形圖像而開發(fā)，后來人們發(fā)現(xiàn)其在AI領(lǐng)域有著顯著優(yōu)勢，因此GPU在AI訓(xùn)練領(lǐng)域占據(jù)了非常重要的位置。

IBM開發(fā)的AIU并非圖形處理器，它是專為深度學習模型加速設(shè)計的，針對矩陣和矢量計算進行了優(yōu)化。AIU能夠解決高復(fù)雜計算問題，并以遠超CPU的速度執(zhí)行數(shù)據(jù)分析。

AIU芯片有何特點呢？過去這些年，AI與深度學習模型在各行各業(yè)中快速普及，同時深度學習的發(fā)展也給算力資源帶來了巨大的壓力。深度學習模型的體量越來越大，包含數(shù)十億甚至數(shù)萬億個參數(shù)。而硬件效率的發(fā)展卻似乎跟不上深度學習模型的增長速度。

過去，計算一般集中在高精度64位與32位浮點運算層面。IBM認為，有些計算任務(wù)并不需要這樣的精度，于是提出了降低傳統(tǒng)計算精度的新術(shù)語——近似計算。

如何理解呢？IBM認為對于常見的深度學習任務(wù)，其實并不需要那么高的計算精度，就比如說人類大腦，即使沒有高分辨率，也能夠分辨出家人或者小貓。也就是說各種任務(wù)，其實都可以通過近似計算來處理。

在AIU芯片的設(shè)計中，近似計算發(fā)揮著重要作用。IBM研究人員設(shè)計的AIU芯片精度低于CPU，而這種較低精度也讓新型AIU硬件加速器獲得了更高的計算密度。IBM使用混合8位浮點（HFP）計算，而非AI訓(xùn)練中常見的32位或16點浮點計算。由于精度較低，因此該芯片的運算執(zhí)行速度可達到FP16的2倍，同時繼續(xù)保持類似的訓(xùn)練效能。

IBM在AI芯片技術(shù)上的不斷升級

在去2月的國際固態(tài)電路會議（ISSCC 2021）上，IBM也曾發(fā)布過一款性能優(yōu)異的AI芯片，據(jù)IBM稱它是當時全球首款高能效AI芯片，采用7nm制程工藝，可達到80%以上的訓(xùn)練利用率和60%以上的推理利用率，而通常情況下，GPU的利用率在30%以下。

有對比數(shù)據(jù)顯示，IBM 7nm高能效AI芯片的性能和能效，不同程度地超過了IBM此前推出的14nm芯片、韓國科學院（KAIST）推出的65nm芯片、平頭哥推出的12nm芯片含光800、NVIDIA推出的7nm芯片A100、聯(lián)發(fā)科推出的7nm芯片。

IBM去年推出的這款7nm AI芯片支持fp8、fp16、fp32、int4、int2混合精度。在fp32和fp8精度下，這款芯片每秒浮點運算次數(shù)分別達到16TFLOPS和25.6TFLOPS，能效比為3.5TFLOPS/W和1.9TFLOPS。而被業(yè)界高度認可的NVIDIA A100 GPU在fp16精度下的能效比為0.78TFLOPS/W，低于IBM這款高能效AI芯片。

IBM在官網(wǎng)中稱，這款A(yù)I芯片之所以能夠兼顧能效和性能，是因為該芯片支持超低精度混合8位浮點格式（(HFP8，hybrid FP8）。這是IBM于2019年發(fā)布的一種高度優(yōu)化設(shè)計，允許AI芯片在低精度下完成訓(xùn)練任務(wù)和不同AI模型的推理任務(wù)，同時避免任何質(zhì)量損失。

可以看到IBM此次發(fā)布的新款A(yù)IU與去年2月發(fā)布的7nm AI芯片，都采用了IBM此前提出的近似計算。從性能來看，去年推出的那款A(yù)I芯片一定程度上甚至超過了目前業(yè)界訓(xùn)練場景普遍使用的NVIDIA A100 GPU，而今年新推出的AIU無論是在制程工藝、晶體管數(shù)量上都有升級，可想而知性能水平將會更高。

3. 索尼、瑞薩入局，談?wù)勅毡镜?a target="_blank">RISC-V生態(tài)

原文：https://mp.weixin.qq.com/s/QX5ugMprlzoNQXQKeDsIvg

RISC-V作為一個尚在飛速成長中的ISA，如何輻射到更多的應(yīng)用領(lǐng)域和地域是最為重要的，從我們過去的報道中可以看出，歐美、中國、印度乃至越南都已經(jīng)開始了自己的RISC-V生態(tài)構(gòu)建之路。除了這些地區(qū)之外，日本作為半導(dǎo)體大國之一，也是RISC-V開疆擴土的對象之一。那么RISC-V在如今半導(dǎo)體產(chǎn)業(yè)處于重振期的日本，究竟已經(jīng)發(fā)展到何種程度了呢？

日本的RISC-V IP生態(tài)

對于打造一個基于RISC-V的芯片來說，第一步就是選擇可用的RISC-V CPU核心IP。在RISC-V生態(tài)中，CPU IP的選擇有很多種，你可以選擇香山這樣的開源IP，可以選擇SiFive、晶心科技、平頭哥、芯來科技等提供的商用IP，也可以基于RISC-V這一開源ISA內(nèi)部自研IP，或是通過OpenHW這樣的協(xié)作平臺來選擇驗證過的IP。

日本本土的RISC-V IP供應(yīng)商并不多，除了電裝旗下的NSITEXE外，日本廠商用到的主要RISC-V IP多來自SiFive和晶心科技兩家海外廠商，主要客戶有瑞薩、ArchiTek等?？v觀各大芯片原廠，瑞薩大概是與RISC-V廠商合作最多的公司之一了。

早在2020年，瑞薩就宣布與晶心科技合作，將其32為RISC-V CPU內(nèi)核用于其專用標準產(chǎn)品中，也就是今年發(fā)布的R9A02G020電機控制 MCU，2022年瑞薩又基于晶心科技的64位RISC-V CPU內(nèi)核打造了全新的RZ/Five通用MPU。去年，瑞薩還宣布了與SiFive合作，利用其Intelligence系列處理器來打造下一代車用高端SoC和MCU。而瑞薩已經(jīng)發(fā)布的汽車MCU RH850/U2B中，也用到了NSITEXE的DR1000C，一個RISC-V并行處理器IP。

另一家AI公司ArchiTek，也選擇了SiFive的E3系列內(nèi)核和自研的ArchiTek智能像素引擎（aIPE）來打造首個AI處理器AiOnlc。AiOnlc將作為一個邊緣AI處理器，實時處理傳感器數(shù)據(jù)的同時，減少AI推理的時延并提高安全性。從其融資公告來看，ArchiTek計劃在明年開始出貨AiOnlc芯片，并推出基于AiOnlc芯片的攝像頭模組、SBC和配套軟件。

索尼的入局

我們從RISC-V國際基金會的成員列表中可以看出，RISC-V已經(jīng)在全球范圍內(nèi)開始普及，無論是IP廠商、芯片廠商、工具廠商還是終端廠商，都紛紛參與其中。不少知名廠商雖然動作不大，但均已經(jīng)開始了布局，比如高通、谷歌和英特爾等等。其中日本廠商也不少，比如日立、自動駕駛廠商OTSL、超算廠商PEZY Computing等。

而在這些大廠中，還有一家日本廠商名列其中，也就是索尼半導(dǎo)體。索尼半導(dǎo)體的圖像傳感器業(yè)務(wù)自然無需多言，其市場地位幾乎無人可以撼動。然而，索尼也是最先加入RISC-V國際基金會的廠商之一，早在2019年的RISC-V日本大會上，索尼半導(dǎo)體就曾分享過一篇《與RISC-V攜手的未來圖像傳感》主題演講。

其中提到，盡管索尼在設(shè)計制造傳感器的過程中不需要用到RISC-V，但單靠圖像傳感器，還是很難解決一些遺留問題，比如色彩還原、摩爾紋消除等。然而在進入AI時代后，機器視覺開始發(fā)揮巨大的功效，尤其是在自動駕駛領(lǐng)域，決心進軍汽車市場又想在圖像市場更進一步的索尼，就打算將邊緣AI與圖像傳感器結(jié)合起來。

以索尼最新發(fā)布的A7R5旗艦微單相機為例，微單相機最為關(guān)鍵的兩大元件莫過于傳感器和處理器，然而A7R5加入的AI識別功能是靠一塊獨立的AI處理器來實現(xiàn)的，從而完成自動對象識別、人體姿態(tài)識別等一系列復(fù)雜的智能對焦操作，未來也有機會繼續(xù)注入新的識別模型來提升對焦體驗。

雖然這一AI處理器是否基于RISC-V設(shè)計無從得知，但從上文舉的幾個例子就能看出，RISC-V在邊緣AI市場存在著不小的優(yōu)勢，低功耗高算力的RISC-V AI芯片可以廣泛用于汽車、攝像頭中，哪怕只是作為一個協(xié)處理器來使用。除此之外，索尼還參與了印度的DIR-V計劃，索尼印度會利用印度自研的SHAKTI RISC-V處理器來設(shè)計索尼的系統(tǒng)或產(chǎn)品，足見索尼已經(jīng)開始在RISC-V上加大投入。

小結(jié)

除了以上這些商業(yè)公司外，日本的學研界也已經(jīng)參與的RISC-V生態(tài)的構(gòu)建中來，比如東京大學、立命館大學和日本產(chǎn)業(yè)技術(shù)綜合研究所等，相繼發(fā)表了基于RISC-V芯片設(shè)計和軟件開發(fā)移植的成果。日本作為一大半導(dǎo)體產(chǎn)業(yè)人才寶地，無疑能為RISC-V的發(fā)展提供更多的助力，而日本RISC-V生態(tài)的建立，或許也能為國內(nèi)的一眾RISC-V IP公司帶來新的機遇。

4. 一句話生成3D模型：AI擴散模型的突破，讓建模師慌了

原文：https://mp.weixin.qq.com/s/MhS6vjbc9iKjZiGDkFKjXQ

我們生活在三維的世界里，盡管目前大多數(shù)應(yīng)用程序是 2D 的，但人們一直對 3D 數(shù)字內(nèi)容有很高的需求，包括游戲、娛樂、建筑和機器人模擬等應(yīng)用。

然而，創(chuàng)建專業(yè)的 3D 內(nèi)容需要很高的藝術(shù)與審美素養(yǎng)和大量 3D 建模專業(yè)知識。人工完成這項工作需要花費大量時間和精力來培養(yǎng)這些技能。

需求大又是「勞動密集型行業(yè)」，那么有沒有可能交給 AI 來做？上周五，英偉達提交到預(yù)印版論文平臺 arXiv 的論文引起了人們的關(guān)注。

和現(xiàn)在流行的 NovelAI 差不多，人們只需要輸入一段文字比如「一只坐在睡蓮上的藍色箭毒蛙」，AI 就能給你生成個紋理造型俱全的 3D 模型出來。

Magic3D 還可以執(zhí)行基于提示的 3D 網(wǎng)格編輯：給定低分辨率 3D 模型和基本提示，可以更改文本從而修改生成的模型內(nèi)容。此外，作者還展示了保持畫風，以及將 2D 圖像樣式應(yīng)用于 3D 模型的能力。

Stable Diffusion 的論文在 2022 年 8 月才首次提交，幾個月就已經(jīng)進化到這樣的程度，不禁讓人感嘆科技發(fā)展的速度。

英偉達表示，你只需要在這個基礎(chǔ)上稍作修改，生成的模型就可以當做游戲或 CGI 藝術(shù)場景的素材了。

3D 生成模型的方向并不神秘，其實在 9 月 29 日，谷歌曾經(jīng)發(fā)布過一款文本到 3D 的生成模型 DreamFusion，英偉達在 Magic3D 的研究中直接對標該方法。

英偉達的方法首先使用低分辨率擴散先驗獲得粗糙模型，并使用稀疏 3D 哈希網(wǎng)格結(jié)構(gòu)進行加速。用粗略表示作為初始，再進一步優(yōu)化了帶紋理的 3D 網(wǎng)格模型，該模型具有與高分辨率潛在擴散模型交互的高效可微分渲染器。

Magic3D 可以在 40 分鐘內(nèi)創(chuàng)建高質(zhì)量的 3D 網(wǎng)格模型，比 DreamFusion 快 2 倍（后者平均需要 1.5 小時），同時還實現(xiàn)了更高的分辨率。統(tǒng)計表明相比 DreamFusion，61.7% 的人更喜歡英偉達的新方法。

連同圖像調(diào)節(jié)生成功能，新技術(shù)為各種創(chuàng)意應(yīng)用開辟了新途徑。

論文鏈接：https://arxiv.org/abs/2211.10440

如果感興趣，可以進一步的去看看相關(guān)論文。

5. 如何讓AI具有通用能力？新研究：讓它睡覺

原文：https://mp.weixin.qq.com/s/ZqiZHVSeqX2oiJITTELZfA

神經(jīng)網(wǎng)絡(luò)可以在很多任務(wù)上有超越人類的表現(xiàn)，但如果你要求一個 AI 系統(tǒng)吸收新的記憶，它們可能會瞬間忘記之前所學的內(nèi)容?，F(xiàn)在，一項新的研究揭示了神經(jīng)網(wǎng)絡(luò)經(jīng)歷睡眠階段并幫助預(yù)防這種健忘癥的新方法。

人工神經(jīng)網(wǎng)絡(luò)面臨的一個主要挑戰(zhàn)是「災(zāi)難性遺忘」（catastrophic forgetting）。當它們?nèi)W習一項新任務(wù)時，就有一種不幸的傾向，即突然完全忘記他們以前學到的東西。

本質(zhì)上，神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)的表示是對原始數(shù)據(jù)的一種面向任務(wù)的數(shù)據(jù)「壓縮」，新學到的知識會覆蓋過去的數(shù)據(jù)。

這是當前技術(shù)相比人類神經(jīng)網(wǎng)絡(luò)的最大缺陷之一：相比之下，人腦能夠終身學習新任務(wù)，而不會影響其執(zhí)行先前記憶的任務(wù)的能力。我們并不完全知曉其中原因，但早有研究表明，當學習輪次穿插在睡眠期間時，人腦的學習效果最好。睡眠顯然有助于將最近的經(jīng)歷納入長期記憶庫。

「重組記憶實際上可能是生物體需要經(jīng)歷睡眠階段的主要原因之一，」加州大學圣地亞哥分校計算神經(jīng)科學家 Erik Delanois 說道。

AI 能不能也學會去睡覺？此前的一些研究試圖通過讓 AI 模擬睡眠來解決災(zāi)難性遺忘。例如，當神經(jīng)網(wǎng)絡(luò)學習一項新任務(wù)時，一種稱為交錯訓(xùn)練（interleaved training）的策略會同時向機器提供它們之前學習過的舊數(shù)據(jù)，以幫助它們保留過去的知識。這種方法以前被認為是模仿大腦在睡眠期間的工作方式——不斷重播舊的記憶。

然而，科學家們曾假設(shè)交錯訓(xùn)練需要在神經(jīng)網(wǎng)絡(luò)每次想要學習新事物時，為其提供最初用于學習舊技能的所有數(shù)據(jù)。這不僅需要大量的時間和數(shù)據(jù)，而且看起來也不是生物大腦在真正的睡眠中所做的事情——生物既沒有能力保留學習舊任務(wù)所需的所有數(shù)據(jù)，睡覺時也沒有時間重播所有這些內(nèi)容。

在一項新研究中，研究人員分析了災(zāi)難性遺忘背后的機制以及睡眠對于預(yù)防問題的效果。研究人員沒有使用傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)，而是使用了一種更接近人類大腦的「脈沖神經(jīng)網(wǎng)絡(luò)」。

在人工神經(jīng)網(wǎng)絡(luò)中，被稱為神經(jīng)元的組件被填喂數(shù)據(jù)并共同解決一個問題，例如識別人臉。神經(jīng)網(wǎng)絡(luò)反復(fù)調(diào)整突觸——它的神經(jīng)元之間的聯(lián)系——并查看由此產(chǎn)生的行為模式是否能更好地找到解決方案。隨著時間的推移（不斷訓(xùn)練），網(wǎng)絡(luò)會發(fā)現(xiàn)哪些模式最適合計算正確結(jié)果。最后它采用這些模式作為默認模式，這被認為是部分模仿了人腦的學習過程。

在人工神經(jīng)網(wǎng)絡(luò)中，神經(jīng)元的輸出隨著輸入的變化而不斷變化。相比之下，在脈沖神經(jīng)網(wǎng)絡(luò)（SNN）中，一個神經(jīng)元只有在給定數(shù)量的輸入信號后，才會產(chǎn)生輸出信號，這一過程是對真正生物神經(jīng)元行為的真實再現(xiàn)。由于脈沖神經(jīng)網(wǎng)絡(luò)很少發(fā)射脈沖，因此它們比典型的人工神經(jīng)網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)更少，原則上也需要更少的電力和通信帶寬。

正如預(yù)期的那樣，脈沖神經(jīng)網(wǎng)絡(luò)具有這樣一個特點：在初始學習過程中會出現(xiàn)災(zāi)難性遺忘，然而，在之后的幾輪學習后，經(jīng)過一段時間間隔，參與學習第一個任務(wù)的神經(jīng)元集合被重新激活。這更接近神經(jīng)科學家目前認為的睡眠過程。

簡單來說就是：SNN 使得之前學習過的記憶痕跡能夠在離線處理睡眠期間自動重新激活，并在不受干擾的情況下修改突觸權(quán)重。

該研究使用帶有強化學習的多層 SNN 來探索將新任務(wù)訓(xùn)練周期與類睡眠自主活動周期交錯，是否可以避免災(zāi)難性遺忘。值得注意的是，該研究表明，可以通過周期性地中斷新任務(wù)中的強化學習（類似睡眠階段的新任務(wù)）來預(yù)防災(zāi)難性遺忘。

圖 1A 顯示了一個前饋脈沖神經(jīng)網(wǎng)絡(luò)，用于模擬信號從輸入到輸出。位于輸入層 (I) 和隱藏層 (H) 之間的神經(jīng)元接受無監(jiān)督學習 (使用非獎勵 STDP)，H 層和輸出(O) 層之間的神經(jīng)元則接受強化學習(使用獎勵 STDP 實現(xiàn))。

無監(jiān)督學習允許隱藏層神經(jīng)元學習來自輸入層不同空間位置的不同粒子（particle）模式，而獎勵 STDP 使輸出層神經(jīng)元學習基于輸入層檢測到的粒子模式類型的運動決策。

研究人員對網(wǎng)絡(luò)進行了兩項互補的訓(xùn)練。在任一任務(wù)中，網(wǎng)絡(luò)都學會了區(qū)分獎勵和懲罰的粒子模式，目標是獲得盡可能多的獎勵。任務(wù)將模式可辨性（消耗的獎勵與懲罰粒子的比率）視為性能的衡量標準，機會為 0.5。所有報告的結(jié)果都基于至少 10 次具有不同隨機網(wǎng)絡(luò)初始化的試驗。

為了揭示訓(xùn)練和睡眠期間的突觸權(quán)重動態(tài)，研究人員接下來追蹤「任務(wù)相關(guān)」的突觸，即在特定任務(wù)訓(xùn)練后在分布的前 10% 中識別的突觸。首先訓(xùn)練任務(wù) 1，然后訓(xùn)練任務(wù) 2，在每次任務(wù)訓(xùn)練后識別任務(wù)相關(guān)突觸。接下來再次繼續(xù)訓(xùn)練任務(wù) 1，但將其與睡眠時間交織在一起（交錯訓(xùn)練）：T1→T2→InterleavedS,T1。任務(wù) 1 - 任務(wù) 2 的順序訓(xùn)練導(dǎo)致忘記了任務(wù) 1，但是在 InterleavedS 之后，任務(wù) 1 被重新學習，而任務(wù) 2 也被保留（圖 4A 和 4B）。

重要的是，該策略允許我們比較 InterleavedS,T1 訓(xùn)練后的突觸權(quán)重與單獨任務(wù) 1 和任務(wù) 2 訓(xùn)練后被識別為任務(wù)相關(guān)的突觸權(quán)重（圖 4C）。任務(wù) 1 訓(xùn)練后形成的任務(wù) 1 相關(guān)突觸的分布結(jié)構(gòu)（圖 4C；左上）在任務(wù) 2 訓(xùn)練（中上）后被破壞，但在 InterleavedS、T1 訓(xùn)練（右上）后部分恢復(fù)。任務(wù) 2 訓(xùn)練（中下）后任務(wù) 2 相關(guān)突觸的分布結(jié)構(gòu)在任務(wù) 1 訓(xùn)練（左下）后不存在，并且在 InterleavedS、T1 訓(xùn)練（右下）后部分保留。

應(yīng)該注意的是，這種定性模式可以在單個試驗中清楚地觀察到（圖 4C；藍色條），也可以在試驗中推廣（圖 4C；橙線）。因此，睡眠可以在合并新突觸的同時保留重要的突觸。

研究人員指出，他們的發(fā)現(xiàn)不僅限于脈沖神經(jīng)網(wǎng)絡(luò)。Sanda 表示，即將開展的工作表明，類似睡眠的階段可以幫助「克服標準人工神經(jīng)網(wǎng)絡(luò)中的災(zāi)難性遺忘」。

該研究于 11 月 18 日發(fā)表在《PLOS Computational Biology》雜志上。

論文地址：

https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1010628

6. 如何用單個GPU在不到24小時的時間內(nèi)從零開始訓(xùn)練ViT模型？

原文：https://mp.weixin.qq.com/s/woAWs9l_7Opt63-vJfmhzQ

Transformers已成為計算機視覺最新進展的核心。然而，從頭開始訓(xùn)練ViT模型可能會耗費大量資源和時間。在本文中旨在探索降低ViT模型訓(xùn)練成本的方法。引入了一些算法改進，以便能夠在有限的硬件（1 GPU）和時間（24小時）資源下從頭開始訓(xùn)練ViT模型。

首先，提出了一種向ViT架構(gòu)添加局部性的有效方法。其次，開發(fā)了一種新的圖像大小課程學習策略，該策略允許在訓(xùn)練開始時減少從每個圖像中提取的patch的數(shù)量。最后，我們通過添加硬件和時間限制，提出了流行的ImageNet1k基準的新變體。根據(jù)這一基準評估了本文的貢獻，并表明在擬定的訓(xùn)練預(yù)算下可以顯著提高性能。

代碼：https://github.com/BorealisAI/efficient-vit-training

1、簡介

最近，Transformer架構(gòu)已成為大量計算機視覺模型的關(guān)鍵組成部分。然而，訓(xùn)練大型變壓器模型通常需要付出巨大的成本。例如，在4個GPU上訓(xùn)練像DeiT-S這樣的小型ViT大約需要3天時間。

為了降低成本，作者建議探索以下問題：如何用單個GPU在不到24小時的時間內(nèi)從零開始訓(xùn)練ViT模型。作者認為，由于多種原因，這一方向的進展可能會對計算機視覺研究和應(yīng)用的未來產(chǎn)生重大影響。

加快模型開發(fā)。ML中的新模型通常通過運行和分析其上的實驗來評估性能，當每次實驗的訓(xùn)練成本過高時，這不是一種可擴展的方法。通過降低訓(xùn)練成本，縮短了開發(fā)周期。
更容易接近。大多數(shù)ViT模型都是通過使用多個GPU或TPU從頭開始訓(xùn)練的，不幸的是，這將無法獲得此類資源的研究人員排除在這一研究領(lǐng)域之外。通過僅使用1個GPU作為基準，顯著降低了ViT的訓(xùn)練成本，這使得更多的研究人員能夠推動這一研究方向。
降低環(huán)境成本。降低訓(xùn)練成本的一種方法是開發(fā)更高效的專用硬件或更高效的數(shù)據(jù)表示，如半精度。另一種正交方法是開發(fā)更有效的算法。

在本文中，重點討論第二種方法。已經(jīng)開發(fā)了許多方法（例如剪枝）來降低推理成本，但數(shù)量有限的工作正在探索降低訓(xùn)練成本的想法。有工作探索了如何在小型數(shù)據(jù)集上從頭開始訓(xùn)練ViT。也有工作在探索如何在24小時內(nèi)對文本數(shù)據(jù)訓(xùn)練BERT模型，但它使用8個GPU的服務(wù)器，而作者將自己限制在單個GPU。Primer建議尋找Transformer的更有效的替代品，但它側(cè)重于NLP。作者試圖將這項工作的發(fā)現(xiàn)應(yīng)用于ViT，但沒有看到任何改進。因此，仍然不清楚為NLP領(lǐng)域開發(fā)的改進是否也可以推廣到計算機視覺應(yīng)用中。

作者將目標定義為在固定預(yù)算內(nèi)獲得最高績效指標。為了降低訓(xùn)練成本，提出了兩種算法貢獻。首先，作者表明，在Transformer編碼器架構(gòu)的每個前饋網(wǎng)絡(luò)中添加局部機制可以顯著提高給定固定資源預(yù)算的性能。其次，提出了一種基于圖像大小的課程學習策略，以減少訓(xùn)練開始時每個時期的訓(xùn)練時間。訓(xùn)練從小圖像開始，然后逐漸將大圖像添加到訓(xùn)練中。除了為降低訓(xùn)練成本而引入的算法更改之外，還通過包括資源限制（1 GPU和24小時時間預(yù)算）正式定義了在ImageNet1k上的新基準，并在其上評估了模型。

2、本文方法

2.1、Locality in vision Transformer architecture

在本節(jié)中，首先解釋了ViT架構(gòu)，然后描述了對架構(gòu)的更改，以加快訓(xùn)練。

（1）ViT architecture

Vanilla Transformer接收token嵌入的1D序列作為輸入。為了處理2D圖像，ViT模型將每個輸入圖像分割成一系列不重疊的reshape 2D塊。用可訓(xùn)練的線性投影將面片映射到D維。該投影的輸出通常稱為patch嵌入。然后，將可學習的位置嵌入添加到塊嵌入以編碼圖像中每個塊的位置信息。嵌入向量z'的輸出序列用作Transformer編碼器的輸入。

Transformer編碼器由多頭自注意力（MSA）和前饋網(wǎng)絡(luò)（FFN）的交替層組成。在每個塊之前應(yīng)用LayerNorm（LN），在每個塊之后應(yīng)用殘差連接。對于具有L個塊的Transformer編碼器，輸出表示按照以下公式計算：

FFN由兩個由GELU激活分離的線性層組成。第一個線性層將尺寸從D擴展到4D，第二個線性層則將尺寸從4D減小回D。

（2）Locality in ViT architecture

ViT的自注意力層捕獲所有patch之間的全局依賴性，但它缺乏局部誘導(dǎo)偏差，特別是允許在局部區(qū)域內(nèi)進行信息交換的機制。為了將局部性引入到vit中，這里只調(diào)整了FFN，而其他部分，如自注意力和位置編碼，沒有改變。作者建議通過在每個FFN中添加深度卷積層來為ViT架構(gòu)添加局部性。在FFN中的兩個FC層之間添加3×3深度卷積（圖1）。在每個3×3深度卷積之前，使用序列到圖像（Seq2Im）層將每個reshape的塊表示轉(zhuǎn)換為2D塊表示。類似地，圖像到序列（Im2Seq）層用于將每個2D面片表示轉(zhuǎn)換為reshape patch表示。作者還將GELU激活層替換為h-swish。

（3）Connection with existing works

其他工作探索在ViT架構(gòu)中添加局部性。他們中的大多數(shù)人分析局部機制對最終準確性的影響，沒有人研究局部機制對訓(xùn)練速度的影響。最接近架構(gòu)的工作可能是LocalViT，它也在FFN中使用卷積。LocalViT和本文的模型之間有3個主要區(qū)別。

首先，本文的體系結(jié)構(gòu)使用LayerNorm作為標準化層，而LocalViT使用2D BatchNorm。
其次，在本文的架構(gòu)中，擴展層和壓縮層被實現(xiàn)為完全連接層，而LocalViT使用卷積層。
最后，本文的體系結(jié)構(gòu)使用h-swish作為激活層，而LocalViT使用h-swish和SE模塊的組合。

作者認為，本文的貢獻是重要的，并帶來了更高效的架構(gòu)。

2.2、Image size-based curriculum learning

傳統(tǒng)上，訓(xùn)練ViT是通過使用從訓(xùn)練數(shù)據(jù)中均勻采樣的224×224 RGB圖像的小批量來完成的。每個圖像通常被分解為非重疊的16×16塊，因此ViT的輸入通常是196個扁平Patch的序列。由于注意力機制，普通ViT架構(gòu)的復(fù)雜性與序列長度（即patch數(shù)）成二次關(guān)系。在本節(jié)中探索了一種減少序列長度（即patch數(shù)）以加速訓(xùn)練的方法。作者開發(fā)了一種基于小到大圖像尺寸的課程學習策略，其中在訓(xùn)練開始時使用較短的patch序列。

課程學習的關(guān)鍵思想是從小處開始，學習任務(wù)中更容易的方面，然后逐漸提高難度。使用課程學習有不同的方法，但一種流行的方法是從簡單的例子開始訓(xùn)練，然后逐漸添加更難的例子。

作者使用圖像大小作為圖像難度的代表。在訓(xùn)練開始時，使用低分辨率圖像對ViT模型進行訓(xùn)練，然后每隔幾個Epoch逐漸提高圖像分辨率。通過調(diào)整輸入圖像的大小來實現(xiàn)這一點。圖1顯示了給定圖像的不同圖像大?。凑n程學習步驟）。在每個Epoch中，所有圖像都具有相同的大小，但圖像大小可以在Epoch之間增加。然后，一個關(guān)鍵問題是如何設(shè)計一個好的策略來增加圖像大小。首先，重要的是定義初始圖像大小，即第一個Epoch的圖像大小。然后，重要的是控制圖像大小何時增大。這里使用線性規(guī)則，每N個時期將圖像大小增加M個像素。在實驗部分，分析了這些超參數(shù)的影響。

通過構(gòu)造，vision Transformer架構(gòu)中的所有層（位置嵌入除外）都可以自動適應(yīng)多個序列長度。在每次圖像尺寸增加之后，通過插值來更新位置嵌入。為了避免處理局部塊，只使用可以分解為16×16塊的圖像大小。在訓(xùn)練期間使用多個圖像大小也有助于學習更好的比例不變表示。

3、實驗

你可以添加微信17775983565為好友，注明：公司+姓名，拉進RT-Thread官方微信交流群！

愛我就給我點在看

點擊閱讀原文進入官網(wǎng)

原文標題：【AI簡報20221125】高通驍龍8Gen2 VS聯(lián)發(fā)科天璣9200、瑞薩入局RISC-V

文章出處：【微信公眾號：RTThread 物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

RT-Thread

RT-Thread

+關(guān)注

關(guān)注
31

文章
1285

瀏覽量
40081

原文標題：【AI簡報20221125】高通驍龍8Gen2 VS聯(lián)發(fā)科天璣9200、瑞薩入局RISC-V

文章出處：【微信號：RTThread，微信公眾號：RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

聯(lián)發(fā)科天璣8400亮相,搭載首發(fā)Cortex-A725全大核架構(gòu)

10月31日，據(jù)數(shù)碼閑聊站博主透露，聯(lián)發(fā)科即將推出的天璣84000芯片將采用臺積電4nm工藝制造，并首次搭載全新的Cortex-A725全大

發(fā)表于 11-01 11:22 ?440次閱讀

瑞薩RISC-V出了幾個產(chǎn)品了

看到瑞薩也入手RISC-V，我只了解到了R9A02G021已經(jīng)出了，不知道瑞薩還有繼續(xù)出強一點的產(chǎn)品嗎？

發(fā)表于 05-30 07:35

瑞薩電子推出業(yè)界首款自研通用型32位RISC-V MCU內(nèi)核

近期，瑞薩隆重推出基于RISC-V架構(gòu)的通用型32位微控制器，標志著公司首款采用自研RISC-V CPU內(nèi)核的商用MCU產(chǎn)品落地。

發(fā)表于 05-17 18:11 ?1227次閱讀

<b class='flag-5'>瑞</b><b class='flag-5'>薩</b>電子推出業(yè)界首款自研通用型32位<b class='flag-5'>RISC-V</b> MCU內(nèi)核

聯(lián)發(fā)科發(fā)布天璣AI開發(fā)套件，賦能終端生成式AI應(yīng)用

聯(lián)發(fā)科近日推出了全新的天璣AI開發(fā)套件，旨在為合作伙伴打造一站式解決方案，以加速終端生成式

發(fā)表于 05-10 11:19 ?590次閱讀

聯(lián)發(fā)科天璣9300+登場，端側(cè)生成式AI刷新業(yè)界最高速

近日，在深圳舉辦的天璣開發(fā)者大會2024（MDDC 2024）掀起了一股技術(shù)風暴。本次盛會上，聯(lián)發(fā)科攜旗下備受期待的旗艦5G生成式

發(fā)表于 05-08 21:24 ?1118次閱讀

<b class='flag-5'>聯(lián)</b><b class='flag-5'>發(fā)</b><b class='flag-5'>科</b><b class='flag-5'>天</b><b class='flag-5'>璣</b>9300+登場，端側(cè)生成式<b class='flag-5'>AI</b>刷新業(yè)界最高速

聯(lián)發(fā)科發(fā)布天璣9300+旗艦5G AI移動芯片

聯(lián)發(fā)科重磅發(fā)布旗艦新品——天璣9300+ 5G生成式AI移動芯片，這款芯片在性能上邁出了嶄新的一

發(fā)表于 05-08 11:37 ?922次閱讀

聯(lián)發(fā)科發(fā)布天璣9300+芯片

聯(lián)發(fā)科重磅推出全新旗艦芯片——天璣9300+，這款芯片以其卓越的全大核CPU架構(gòu)吸引了業(yè)界關(guān)注。天

發(fā)表于 05-08 09:36 ?970次閱讀

iQOO Pad2 Pro 平板本月發(fā)售，搭載聯(lián)發(fā)科天璣 9300+芯片

聯(lián)發(fā)科昨日正式發(fā)布天璣 9300+，可視為天璣 93

發(fā)表于 05-07 14:48 ?705次閱讀

IAR率先支持瑞薩首款通用RISC-V MCU，樹立行業(yè)新標準

來源：IAR IAR率先支持瑞薩首款通用RISC-V MCU，樹立行業(yè)新標準近日，全球領(lǐng)先的嵌入式系統(tǒng)開發(fā)軟件解決方案供應(yīng)商IAR自豪地宣布：公司備受全球數(shù)百萬開發(fā)者青睞的開發(fā)環(huán)境再次升級，已率先

發(fā)表于 04-03 17:00 ?474次閱讀

瑞薩電子推出采用自研RISC-V CPU內(nèi)核的通用32位MCU

2024 年 3 月 26 日，中國北京訊 - 全球半導(dǎo)體解決方案供應(yīng)商瑞薩電子（TSE：6723）今日宣布率先在業(yè)內(nèi)推出基于內(nèi)部自研CPU內(nèi)核構(gòu)建的通用32位RISC-V微控制器（MCU

發(fā)表于 03-30 22:08

瑞薩推出采用自研CPU內(nèi)核的通用32位RISC-V MCU 加強RISC-V生態(tài)系統(tǒng)布局

瑞薩推出采用自研CPU內(nèi)核的通用32位RISC-V MCU 加強RISC-V生態(tài)系統(tǒng)布局 RISC-V MCU為開發(fā)人員帶來低功耗、高性能的

發(fā)表于 03-28 19:00 ?576次閱讀

聯(lián)發(fā)科天璣1200雙5G

芯片聯(lián)發(fā)科

jf_87063710
發(fā)布于 :2024年03月21日 10:28:02

高通驍龍8 Gen 4即將發(fā)布，采用定制“Phoenix”核心，人工智能不受影響

據(jù)了解，高通驍龍8Gen 4芯片將搭載獨家Phoenix核心和“2+6”的多核架構(gòu)，以及創(chuàng)新的Slice GPU架構(gòu)。值得注意的是，

發(fā)表于 02-29 09:59 ?698次閱讀

驍龍,麒麟,天璣哪個好

驍龍、麒麟和天璣各有優(yōu)勢，無法給出最準確的回答，它們是三個知名的移動芯片品牌，它們在手機和其他智能設(shè)備中被廣泛使用。在選擇購買手機時，芯片的性能往往是一個重要的考量因素。下面是關(guān)于

發(fā)表于 01-16 13:59 ?6046次閱讀

歌爾聯(lián)合高通推出驍龍XR2 Gen 2和XR2+Gen 2 MR參考設(shè)計

1月8日，歌爾聯(lián)合高通公司推出了基于驍龍XR2 Gen 2

發(fā)表于 01-08 09:15 ?918次閱讀

RM新时代网站-首页

搜索歷史

【AI簡報20221125】高通驍龍8Gen2 VS聯(lián)發(fā)科天璣9200、瑞薩入局RISC-V

嵌入式 AI

1. 能逆襲蘋果A16芯片嗎？高通驍龍8Gen2 VS聯(lián)發(fā)科天璣9200，誰能成為2023年智能手機高端芯片霸主？

2. IBM全新AIU芯片：5nm工藝，230億晶體管！深度學習處理性能強勁！

3. 索尼、瑞薩入局，談?wù)勅毡镜?a target="_blank">RISC-V生態(tài)

4. 一句話生成3D模型：AI擴散模型的突破，讓建模師慌了

5. 如何讓AI具有通用能力？新研究：讓它睡覺

6. 如何用單個GPU在不到24小時的時間內(nèi)從零開始訓(xùn)練ViT模型？

（1）ViT architecture

（2）Locality in ViT architecture

（3）Connection with existing works

評論

聯(lián)發(fā)科天璣8400亮相,搭載首發(fā)Cortex-A725全大核架構(gòu)

瑞薩RISC-V出了幾個產(chǎn)品了

瑞薩電子推出業(yè)界首款自研通用型32位RISC-V MCU內(nèi)核

聯(lián)發(fā)科發(fā)布天璣AI開發(fā)套件，賦能終端生成式AI應(yīng)用

聯(lián)發(fā)科天璣9300+登場，端側(cè)生成式AI刷新業(yè)界最高速

聯(lián)發(fā)科發(fā)布天璣9300+旗艦5G AI移動芯片

聯(lián)發(fā)科發(fā)布天璣9300+芯片

iQOO Pad2 Pro 平板本月發(fā)售，搭載聯(lián)發(fā)科天璣 9300+芯片

IAR率先支持瑞薩首款通用RISC-V MCU，樹立行業(yè)新標準

瑞薩電子推出采用自研RISC-V CPU內(nèi)核的通用32位MCU

瑞薩推出采用自研CPU內(nèi)核的通用32位RISC-V MCU 加強RISC-V生態(tài)系統(tǒng)布局

聯(lián)發(fā)科天璣1200雙5G

高通驍龍8 Gen 4即將發(fā)布，采用定制“Phoenix”核心，人工智能不受影響

驍龍,麒麟,天璣哪個好

歌爾聯(lián)合高通推出驍龍XR2 Gen 2和XR2+Gen 2 MR參考設(shè)計

搜索歷史

【AI簡報20221125】高通驍龍8Gen2 VS聯(lián)發(fā)科天璣9200、瑞薩入局RISC-V

1. 能逆襲蘋果A16芯片嗎？高通驍龍8Gen2 VS聯(lián)發(fā)科天璣9200，誰能成為2023年智能手機高端芯片霸主？

2. IBM全新AIU芯片：5nm工藝，230億晶體管！深度學習處理性能強勁！

3. 索尼、瑞薩入局，談?wù)勅毡镜?a target="_blank">RISC-V生態(tài)

4. 一句話生成3D模型：AI擴散模型的突破，讓建模師慌了

5. 如何讓AI具有通用能力？新研究：讓它睡覺

6. 如何用單個GPU在不到24小時的時間內(nèi)從零開始訓(xùn)練ViT模型？

（1）ViT architecture

（2）Locality in ViT architecture

（3）Connection with existing works

評論

【AI簡報20221125】高通驍龍8Gen2 VS聯(lián)發(fā)科天璣9200、瑞薩入局RISC-V

1. 能逆襲蘋果A16芯片嗎？高通驍龍8Gen2 VS聯(lián)發(fā)科天璣9200，誰能成為2023年智能手機高端芯片霸主？

2. IBM全新AIU芯片：5nm工藝，230億晶體管！深度學習處理性能強勁！

3. 索尼、瑞薩入局，談?wù)勅毡镜?a target="_blank">RISC-V生態(tài)

4. 一句話生成3D模型：AI擴散模型的突破，讓建模師慌了

6. 如何用單個GPU在不到24小時的時間內(nèi)從零開始訓(xùn)練ViT模型？