RM新时代官网网址,rm新世界

電子發(fā)燒友網(wǎng)報(bào)道（文/李彎彎）大模型在端側(cè)部署是指將大型神經(jīng)網(wǎng)絡(luò)模型部署在移動(dòng)終端設(shè)備上，使這些設(shè)備能夠直接運(yùn)行這些模型，從而執(zhí)行各種人工智能任務(wù)，如圖像識(shí)別、語音識(shí)別、自然語言處理等。隨著大模型小型化、場(chǎng)景化需求的增加，推理逐步從云端擴(kuò)展向端側(cè)。這種趨勢(shì)在PC和手機(jī)等終端產(chǎn)品上尤為明顯。

大模型在端側(cè)部署加速

大模型在端側(cè)部署的過程通常包括幾個(gè)階段，首先是模型訓(xùn)練階段，在這個(gè)階段，使用大量的標(biāo)注數(shù)據(jù)訓(xùn)練出對(duì)應(yīng)的模型文件。訓(xùn)練時(shí)需要考慮模型的大小和計(jì)算量，以便適應(yīng)端側(cè)設(shè)備的硬件條件。

接著是模型壓縮，為了降低模型在端側(cè)設(shè)備上的存儲(chǔ)和運(yùn)行壓力，通常需要對(duì)模型進(jìn)行壓縮。這可以通過剪枝、量化等手段來實(shí)現(xiàn)，以減小模型的大小和降低計(jì)算復(fù)雜度。

再就是模型部署，在這個(gè)階段，將壓縮后的模型部署到端側(cè)設(shè)備上。這包括將模型文件傳輸?shù)皆O(shè)備上，在設(shè)備上安裝必要的推理引擎和運(yùn)行時(shí)環(huán)境等步驟。

最后，在模型部署完成后，端側(cè)設(shè)備就可以使用這些模型進(jìn)行推理計(jì)算了。這通常包括加載模型、輸入數(shù)據(jù)預(yù)處理、模型計(jì)算、結(jié)果輸出等步驟。

在大模型端側(cè)部署過程中，需要考慮一些技術(shù)挑戰(zhàn)和限制。例如，端側(cè)設(shè)備的硬件條件通常比云端服務(wù)器要差很多，因此需要在模型設(shè)計(jì)和壓縮階段充分考慮這些因素。此外，端側(cè)設(shè)備的網(wǎng)絡(luò)帶寬和延遲也可能對(duì)模型推理的實(shí)時(shí)性和準(zhǔn)確性產(chǎn)生影響。

為了克服這些挑戰(zhàn)和限制，一些技術(shù)工具和平臺(tái)被開發(fā)出來，如MLflow、Ray Serve、Kubeflow、Seldon Core、BentoML和ONNX Runtime等。這些工具可以幫助用戶更方便地構(gòu)建、部署和管理機(jī)器學(xué)習(xí)模型，從而提高模型在端側(cè)設(shè)備上的性能和可用性。

現(xiàn)如今，大模型在端側(cè)的部署正在加速。在PC領(lǐng)域，繼英特爾推出首個(gè)AI PC處理器后，聯(lián)想集團(tuán)、惠普、宏碁等廠商相繼發(fā)布多款A(yù)I PC新品。據(jù)報(bào)道，已有超過10款筆記本可以本地運(yùn)行AI大模型，并且還有一批新品將陸續(xù)上市。

在手機(jī)領(lǐng)域，從2023年下半年開始，小米、OPPO、vivo等手機(jī)廠商紛紛在新系統(tǒng)中增加大模型能力。到2024年1月，中國(guó)手機(jī)市場(chǎng)Top5中，除蘋果之外，已經(jīng)全數(shù)發(fā)布自有端側(cè)大模型產(chǎn)品。

大模型在端側(cè)部署的優(yōu)勢(shì)也日益凸顯。一方面，端側(cè)部署可以降低數(shù)據(jù)傳輸延遲和帶寬限制，提高實(shí)時(shí)性和響應(yīng)速度。另一方面，端側(cè)部署可以更好地保護(hù)用戶隱私和數(shù)據(jù)安全，因?yàn)閿?shù)據(jù)可以在本地進(jìn)行處理，而無需傳輸?shù)皆贫恕?br />
國(guó)內(nèi)外廠商推出支持大模型端側(cè)部署芯片

大模型要在端側(cè)部署離不開芯片的支持，英特爾、高通、聯(lián)發(fā)科等都推出了針對(duì)大模型在PC、手機(jī)等移動(dòng)端部署所需的芯片。英特爾推出了首款基于Intel 4制程的酷睿Ultra系列處理器第一代產(chǎn)品Mete or Lake，這款處理器首次在客戶端CPU中采用了Chiplet（芯粒）設(shè)計(jì)和自家的Foveros先進(jìn)封裝技術(shù)，集成了NPU（神經(jīng)網(wǎng)絡(luò)處理單元），可以本地運(yùn)行200億參數(shù)大模型，無需聯(lián)網(wǎng)即可秒級(jí)生成高質(zhì)量多模態(tài)數(shù)據(jù)。

高通發(fā)布的第三代驍龍8移動(dòng)平臺(tái)，是其首個(gè)專為生成式AI打造的移動(dòng)平臺(tái)。該平臺(tái)支持在終端側(cè)運(yùn)行100億參數(shù)的模型，并面向70億參數(shù)大預(yù)言模型每秒生成高達(dá)20個(gè)token，且能夠在終端側(cè)通過Stable Diffusion生成圖片。

此外，高通還推出了AI Hub，這是一個(gè)為開發(fā)者提供的AI模型庫，包括傳統(tǒng)AI模型和生成式AI模型，能夠支持在驍龍和高通平臺(tái)上進(jìn)行部署。這個(gè)模型庫支持超過75個(gè)AI模型，如Whisper、ControlNet、Stable Diffusion和Baichuan-7B等，開發(fā)者可以輕松地獲取這些模型并將其集成到應(yīng)用程序中。

聯(lián)發(fā)科與阿里云展開深度合作，在天璣9300和天璣8300移動(dòng)平臺(tái)上實(shí)現(xiàn)了通義千問大模型的端側(cè)部署。聯(lián)發(fā)科的天璣系列移動(dòng)芯片，如天璣9300和天璣8300，都是高性能、高能效的移動(dòng)計(jì)算平臺(tái)。這些芯片不僅具有強(qiáng)大的處理能力，還支持先進(jìn)的5G技術(shù)和生成式AI技術(shù)，為端側(cè)大模型部署提供了堅(jiān)實(shí)的基礎(chǔ)。

另外，國(guó)內(nèi)的愛芯元智、芯動(dòng)力科技等公司也針對(duì)大模型在端側(cè)的部署優(yōu)化產(chǎn)品。愛芯元智的AX650N芯片在大模型端側(cè)部署方面就展現(xiàn)出了顯著的優(yōu)勢(shì)。

具體來說，AX650N在部署Swin Transformer這類大型視覺模型時(shí)，能夠保持高精度和高效率。由于大部分端側(cè)AI芯片在架構(gòu)上對(duì)于MHA（Multi-Head Attention）結(jié)構(gòu)沒有過多優(yōu)化，因此部署大型模型時(shí)往往需要進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)的修改，這可能導(dǎo)致精度下降和重訓(xùn)的麻煩。然而，AX650N通過其獨(dú)特的架構(gòu)和優(yōu)化，能夠直接支持原版Swin Transformer的部署，從測(cè)試板到demo復(fù)現(xiàn)只需要5分鐘，私有模型在私有環(huán)境中運(yùn)行也僅需1小時(shí)。

此外，AX650N還具備32路視頻解碼/視頻結(jié)構(gòu)化處理、被動(dòng)散熱、支持低延時(shí)編解碼、HDMI輸出和USB 3.0等特性，這些特性使得它非常適合用于各種視覺感知和邊緣計(jì)算的應(yīng)用場(chǎng)景。在大模型端側(cè)部署方面，AX650N不僅提供了強(qiáng)大的計(jì)算能力，還通過其易部署和低功耗的特點(diǎn)，為實(shí)際應(yīng)用落地提供了更多的可能性。

芯動(dòng)力科技是一家清華系的AI芯片創(chuàng)企，他們面向大模型推出了AzureBlade L系列M.2加速卡。這款加速卡具有強(qiáng)大的性能，能夠順利運(yùn)行大模型系統(tǒng)，并且其大小僅為80mm（長(zhǎng)）x22mm（寬），非常適合在PC等端側(cè)設(shè)備上部署。

AzureBlade L系列M.2加速卡已經(jīng)實(shí)現(xiàn)了與Llama 2、Stable Diffusion等模型的適配，成為助推大模型在端側(cè)設(shè)備上部署的加速器。這種具備體積小、性能強(qiáng)，且有通用接口的M.2加速卡，能夠突破端側(cè)設(shè)備有限的計(jì)算和存儲(chǔ)能力，為大模型在端側(cè)的落地提供了機(jī)會(huì)。

寫在最后

大模型在端側(cè)部署是一個(gè)復(fù)雜的過程，需要考慮多種因素和技術(shù)挑戰(zhàn)。但是通過合理的模型設(shè)計(jì)、壓縮和優(yōu)化以及使用適當(dāng)?shù)墓ぞ吆推脚_(tái)，就可以讓端側(cè)設(shè)備具備更強(qiáng)的人工智能能力。如今，在產(chǎn)業(yè)鏈各環(huán)節(jié)的努力下，大模型在端側(cè)部署的現(xiàn)狀呈現(xiàn)出加速的趨勢(shì)，預(yù)計(jì)，未來隨著技術(shù)的不斷進(jìn)步和優(yōu)化，大模型在端側(cè)部署的應(yīng)用將會(huì)越來越廣泛。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4771

瀏覽量
100713
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2423

瀏覽量
2640

評(píng)論

相關(guān)推薦

AI模型部署邊緣設(shè)備的奇妙之旅：目標(biāo)檢測(cè)模型

以及邊緣計(jì)算能力的增強(qiáng)，越來越多的目標(biāo)檢測(cè)應(yīng)用開始直接在靠近數(shù)據(jù)源的邊緣設(shè)備上運(yùn)行。這不僅減少了數(shù)據(jù)傳輸延遲，保護(hù)了用戶隱私，同時(shí)也減輕了云端服務(wù)器的壓力。然而，在邊緣端部署高效且準(zhǔn)確的目標(biāo)檢測(cè)模型

發(fā)表于 12-19 14:33

AI模型部署邊緣設(shè)備的奇妙之旅：如何實(shí)現(xiàn)手寫數(shù)字識(shí)別

更適合生產(chǎn)環(huán)境的框架來部署。此外，許多推理引擎和硬件加速器也支持ONNX格式，從而進(jìn)一步加快了模型部署的速度。在凌智視覺模塊中

發(fā)表于 12-06 17:20

黑芝麻智能端到端算法參考模型公布

黑芝麻智能計(jì)劃推出支持華山及武當(dāng)系列芯片的端到端算法參考方案。該方案采用One Model架構(gòu)，并在決策規(guī)劃單元引入了VLM視覺語言大模型和

發(fā)表于 12-03 12:30 ?267次閱讀

黑芝麻智能<b class='flag-5'>端</b>到<b class='flag-5'>端</b>算法參考<b class='flag-5'>模型</b>公布

智譜推出四個(gè)全新端側(cè)模型攜英特爾按下AI普及加速鍵

隨著AI的發(fā)展，端側(cè)AI模型越來越受到廣大客戶及廠商的關(guān)注，業(yè)界領(lǐng)先的大模型公司智譜于近日推出了四個(gè)全新的端側(cè)模型，

發(fā)表于 12-02 17:13 ?196次閱讀

智譜推出四個(gè)全新<b class='flag-5'>端</b>側(cè)<b class='flag-5'>模型</b> 攜英特爾按下AI普及<b class='flag-5'>加速</b>鍵

高通與智譜推動(dòng)多模態(tài)生成式AI體驗(yàn)的終端側(cè)部署

此前，驍龍峰會(huì)首日，智譜與高通技術(shù)公司宣布合作將GLM-4V端側(cè)視覺大模型，面向驍龍8至尊版進(jìn)行深度適配和推理優(yōu)化，支持豐富的多模態(tài)交互方式，進(jìn)一步推動(dòng)多模態(tài)生成式AI在終端側(cè)的部署和

發(fā)表于 11-08 09:55 ?172次閱讀

大模型向邊端側(cè)部署，AI加速卡朝高算力、小體積發(fā)展

電子發(fā)燒友網(wǎng)報(bào)道（文/李彎彎）AI加速卡是專門用于處理人工智能應(yīng)用中的大量計(jì)算任務(wù)的模塊。它集成了高性能的計(jì)算核心和大量的內(nèi)存，旨在加速機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等算法的計(jì)算過程。當(dāng)前，AI加速卡市場(chǎng)呈現(xiàn)出

發(fā)表于 09-17 00:18 ?3214次閱讀

基于AX650N/AX630C部署端側(cè)大語言模型Qwen2

本文將分享如何將最新的端側(cè)大語言模型部署到超高性價(jià)比SoC上，向業(yè)界對(duì)端側(cè)大模型部署的開發(fā)者提供

發(fā)表于 07-06 17:43 ?3510次閱讀

基于AX650N/AX630C<b class='flag-5'>部署</b><b class='flag-5'>端</b>側(cè)大語言<b class='flag-5'>模型</b>Qwen2

后摩智能引領(lǐng)AI芯片革命,推出邊端大模型AI芯片M30

在人工智能（AI）技術(shù)飛速發(fā)展的今天，AI大模型的部署需求正迅速從云端向端側(cè)和邊緣側(cè)設(shè)備遷移。這一轉(zhuǎn)變對(duì)AI芯片的性能、功耗和響應(yīng)速度提出了前所未有的挑戰(zhàn)。正是在這樣的背景下，后摩智能

發(fā)表于 06-28 15:13 ?679次閱讀

支持大模型部署和運(yùn)行的邊緣計(jì)算SoC芯片

電子發(fā)燒友網(wǎng)報(bào)道（文/李彎彎）如今，AI在邊緣側(cè)的應(yīng)用越來越廣泛，這其中少不了AI SoC芯片的支持，邊緣計(jì)算AI SoC是一種集成了人工智能（AI）和邊緣計(jì)算能力的系統(tǒng)級(jí)芯片。這種芯片

發(fā)表于 05-27 08:00 ?3393次閱讀

聯(lián)發(fā)科旗艦芯片部署阿里云大模型

全球智能手機(jī)芯片出貨量領(lǐng)先的半導(dǎo)體公司聯(lián)發(fā)科近日宣布，已成功在天璣9300等旗艦芯片上集成阿里云通義千問大模型，實(shí)現(xiàn)了大模型在手機(jī)芯片

發(fā)表于 03-28 13:59 ?493次閱讀

牽手NVIDIA 元戎啟行端到端模型將搭載 DRIVE Thor芯片

NVIDIA的DRIVE Thor芯片適配公司的端到端智能駕駛模型。據(jù)悉，元戎啟行是業(yè)內(nèi)首批能用 DRIVE Thor芯片適配

發(fā)表于 03-25 11:49 ?331次閱讀

使用CUBEAI部署tflite模型到STM32F0中，模型創(chuàng)建失敗怎么解決？

看到CUBE_AI已經(jīng)支持到STM32F0系列芯片，就想拿來入門嵌入式AI。生成的模型很小，是可以部署到F0上的，但是一直無法創(chuàng)建成功。查閱CUBE AI文檔說在調(diào)用create

發(fā)表于 03-15 08:10

人工智能十大趨勢(shì)預(yù)測(cè)：更多多模態(tài)、大模型端側(cè)部署加速！智能化應(yīng)用呈爆發(fā)式增長(zhǎng)

。 ? 而2024年被認(rèn)為是大模型的應(yīng)用之年，不難看到，人工智能將會(huì)呈現(xiàn)一些明顯趨勢(shì)。如：無論是在消費(fèi)級(jí)還是垂直行業(yè)領(lǐng)域，大模型的應(yīng)用都會(huì)加速；在市場(chǎng)應(yīng)用的驅(qū)動(dòng)下，無論是算力、數(shù)據(jù)，還是多模態(tài)大

發(fā)表于 02-18 00:03 ?3881次閱讀

Meta計(jì)劃今年部署自研定制芯片，以加速AI研發(fā)

Meta公司近日宣布計(jì)劃在今年內(nèi)為其數(shù)據(jù)中心部署一款自研定制芯片，以支持其人工智能（AI）的研發(fā)工作。這一舉措旨在提高M(jìn)eta在AI領(lǐng)域的競(jìng)爭(zhēng)力，并加速其技術(shù)發(fā)展。

發(fā)表于 02-03 10:48 ?644次閱讀

邊緣側(cè)部署大模型優(yōu)勢(shì)多！模型量化解決邊緣設(shè)備資源限制問題

設(shè)備上，可以減少數(shù)據(jù)傳輸?shù)难舆t和帶寬需求，提高模型的實(shí)時(shí)性和響應(yīng)速度。 ? 邊緣端部署大模型的優(yōu)勢(shì) ? 邊緣側(cè)部署大

發(fā)表于 01-05 00:06 ?3514次閱讀

RM新时代网站-首页

搜索歷史

大模型端側(cè)部署加速，都有哪些芯片可支持？

評(píng)論

AI模型部署邊緣設(shè)備的奇妙之旅：目標(biāo)檢測(cè)模型

AI模型部署邊緣設(shè)備的奇妙之旅：如何實(shí)現(xiàn)手寫數(shù)字識(shí)別

黑芝麻智能端到端算法參考模型公布

智譜推出四個(gè)全新端側(cè)模型攜英特爾按下AI普及加速鍵

高通與智譜推動(dòng)多模態(tài)生成式AI體驗(yàn)的終端側(cè)部署

大模型向邊端側(cè)部署，AI加速卡朝高算力、小體積發(fā)展

基于AX650N/AX630C部署端側(cè)大語言模型Qwen2

后摩智能引領(lǐng)AI芯片革命,推出邊端大模型AI芯片M30

支持大模型部署和運(yùn)行的邊緣計(jì)算SoC芯片

聯(lián)發(fā)科旗艦芯片部署阿里云大模型

牽手NVIDIA 元戎啟行端到端模型將搭載 DRIVE Thor芯片

使用CUBEAI部署tflite模型到STM32F0中，模型創(chuàng)建失敗怎么解決？

人工智能十大趨勢(shì)預(yù)測(cè)：更多多模態(tài)、大模型端側(cè)部署加速！智能化應(yīng)用呈爆發(fā)式增長(zhǎng)

Meta計(jì)劃今年部署自研定制芯片，以加速AI研發(fā)

邊緣側(cè)部署大模型優(yōu)勢(shì)多！模型量化解決邊緣設(shè)備資源限制問題

搜索歷史

大模型端側(cè)部署加速，都有哪些芯片可支持？

評(píng)論

大模型端側(cè)部署加速，都有哪些芯片可支持？