RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

只能跑Transformer的AI芯片,卻號(hào)稱全球最快?

E4Life ? 來源:電子發(fā)燒友 ? 作者:周凱揚(yáng) ? 2024-07-01 09:03 ? 次閱讀

電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))近日,一家由哈佛輟學(xué)生成立的初創(chuàng)公司Etched,宣布了他們?cè)诖蛟斓囊豢睢皩S谩?a href="http://hljzzgx.com/tags/ai/" target="_blank">AI芯片Sohu。據(jù)其聲稱該芯片的速度將是英偉達(dá)H100的20倍,但只能跑transformer架構(gòu)的模型。

Sohu,比H100快上20倍

之所以打算Sohu這一自研ASIC AI芯片,是因?yàn)镋tched認(rèn)為GPU在性能升級(jí)上的速度太慢了。如果以H100的單位面積算力和交期作為參考,那么從2022年到2025年,英偉達(dá)的H100迭代至B200,2.5年的時(shí)間內(nèi)性能只有15%的提升。所以要想有效提高性能的方式,只有走特化的ASIC芯片一途。

現(xiàn)在發(fā)布的任何AI芯片,在提到性能時(shí),無疑都會(huì)把英偉達(dá)的H100作為對(duì)比參照,Etched的Sohu也不例外。根據(jù)Etched提供的數(shù)據(jù),單個(gè)Sohu服務(wù)器運(yùn)行Llama 70B時(shí)可以做到50萬Tokens每秒,這一速度是單個(gè)H100服務(wù)器的20倍以上,也是單個(gè)B200服務(wù)器的10倍以上。

在服務(wù)器的配置上,Sohu服務(wù)器和H100服務(wù)器均采用的8卡的配置,所以Etched強(qiáng)調(diào)一個(gè)8xSohu的服務(wù)器就可以替換掉至少160個(gè)H100,大大降低成本的同時(shí),也不會(huì)有性能損失。

由于Sohu僅支持一種算法,所以絕大多數(shù)的控制流模塊都可以被剔除,芯片可以集成更多的數(shù)學(xué)計(jì)算單元,在算力利用率上可以達(dá)到90%以上,而GPU卻只能做到30%。這也是因?yàn)樵贕PU的電路設(shè)計(jì)上,用于矩陣乘法的晶體管數(shù)量甚至沒有占到10%。不過Etched對(duì)于英偉達(dá)的設(shè)計(jì)還是相當(dāng)佩服的,指出如果同時(shí)想支持CNN、LSTM、SSM等其他模型,確實(shí)很難做得比英偉達(dá)更好。

當(dāng)然了,這里的測(cè)試條件也必須做一個(gè)說明,測(cè)試標(biāo)準(zhǔn)為FP8精度的Llama 70B,無稀疏,其中H100是基于最新版本的TensorRT-LLM測(cè)試的,而B200由于還未交付,所以其性能是預(yù)估的。

為何專攻Transformer模型

市面上的AI芯片和GPU產(chǎn)品為了覆蓋更靈活的客戶需求,盡管不少都采用了ASIC的設(shè)計(jì)方案,但支持的模型卻不會(huì)局限在一類。Etched也在其官網(wǎng)列出了市面上一些競(jìng)品方案,包括英偉達(dá)的GPU、谷歌的TPU、亞馬遜的Trainium、Graphcore的IPU、Tenstorrent的Grayskull和英特爾的Gaudi等等,這些方案無一不對(duì)廣泛的AI模型提供了支持。

但我們從市面上頭部的模型來看,幾乎占據(jù)主導(dǎo)地位的都是transformer架構(gòu)的模型,比如GPT、Sora、Gemini和Stable Diffusion。Etched很大方地表示,如果哪一天transformer被SSM、RWKV或其他新的架構(gòu)替代了,他們的芯片將變得一無是處,對(duì)于千變?nèi)f化的AI市場(chǎng)而言,絕大多數(shù)廠商都不敢沒法做出這樣的預(yù)測(cè)。

而Etched從2022年底,就賭transformer模型將會(huì)統(tǒng)治整個(gè)市場(chǎng)。這在當(dāng)時(shí)還沒有ChatGPT的年代,是一個(gè)大膽的預(yù)測(cè),畢竟當(dāng)時(shí)圖像生成還有基于CNN的U-Net,不少自動(dòng)駕駛的視覺處理也還在廣泛使用CNN。而且對(duì)于一個(gè)規(guī)模不算大的設(shè)計(jì)團(tuán)隊(duì)而言,維護(hù)單一架構(gòu)的軟件棧明顯壓力更小一些,他們只需要為transformer編寫驅(qū)動(dòng)、內(nèi)核即可。

寫在最后

至于Etched的這場(chǎng)豪賭是否能成功,還得看芯片的成品表現(xiàn)如何。雖然他們嘗試的這條路線沒人走過,但財(cái)力和研發(fā)能力均在他們之上的廠商也沒能打造出超過英偉達(dá)GPU的競(jìng)品,硅谷的VC們能否造出新神,依然不能過早下定論。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    143

    瀏覽量

    5995
  • AI芯片
    +關(guān)注

    關(guān)注

    17

    文章

    1879

    瀏覽量

    34988
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    Transformer模型的具體應(yīng)用

    如果想在 AI 領(lǐng)域引領(lǐng)一輪新浪潮,就需要使用到 Transformer。
    的頭像 發(fā)表于 11-20 09:28 ?409次閱讀
    <b class='flag-5'>Transformer</b>模型的具體應(yīng)用

    Transformer模型能夠做什么

    盡管名為 Transformer,但它們不是電視銀幕上的變形金剛,也不是電線桿上垃圾桶大小的變壓器。
    的頭像 發(fā)表于 11-20 09:27 ?282次閱讀
    <b class='flag-5'>Transformer</b>模型能夠做什么

    北京見 | 賽昉科技邀您參加2024全球AI芯片峰會(huì)

    9月6-7日,2024全球AI芯片峰會(huì)(GACS2024)將在北京遼寧大廈盛大舉辦。全球AI芯片
    的頭像 發(fā)表于 09-04 08:03 ?360次閱讀
    北京見 | 賽昉科技邀您參加2024<b class='flag-5'>全球</b><b class='flag-5'>AI</b><b class='flag-5'>芯片</b>峰會(huì)

    使用PyTorch搭建Transformer模型

    Transformer模型自其問世以來,在自然語言處理(NLP)領(lǐng)域取得了巨大的成功,并成為了許多先進(jìn)模型(如BERT、GPT等)的基礎(chǔ)。本文將深入解讀如何使用PyTorch框架搭建Transformer模型,包括模型的結(jié)構(gòu)、訓(xùn)練過程、關(guān)鍵組件以及實(shí)現(xiàn)細(xì)節(jié)。
    的頭像 發(fā)表于 07-02 11:41 ?1588次閱讀

    2024年全球AI芯片收入將達(dá)712.52億美元

    市場(chǎng)調(diào)查機(jī)構(gòu)Gartner近日發(fā)布了一份關(guān)于全球AI芯片市場(chǎng)的收入預(yù)測(cè)報(bào)告。據(jù)該機(jī)構(gòu)分析,到2024年,全球AI
    的頭像 發(fā)表于 06-03 14:26 ?705次閱讀

    AI芯片哪里買?

    AI芯片
    芯廣場(chǎng)
    發(fā)布于 :2024年05月31日 16:58:19

    全球AI芯片市場(chǎng)收入預(yù)計(jì)持續(xù)增長(zhǎng)

    根據(jù)市場(chǎng)調(diào)查機(jī)構(gòu)Gartner的最新報(bào)告,全球AI芯片市場(chǎng)展現(xiàn)出強(qiáng)勁的增長(zhǎng)勢(shì)頭。預(yù)計(jì)2024年,全球AI
    的頭像 發(fā)表于 05-31 10:26 ?538次閱讀

    安霸發(fā)布兩款用于車隊(duì)遠(yuǎn)程監(jiān)控及信息處理系統(tǒng)的最新一代AI芯片

    兩款新型 5nm 芯片提供業(yè)界領(lǐng)先的每瓦 AI 性能、支持獨(dú)特的小巧外形設(shè)計(jì)、單盒集成視覺 Transformer 和 VLM 分析功能。
    的頭像 發(fā)表于 05-22 09:09 ?481次閱讀

    risc-v多核芯片AI方面的應(yīng)用

    RISC-V多核芯片AI方面的應(yīng)用主要體現(xiàn)在其低功耗、低成本、靈活可擴(kuò)展以及能夠更好地適應(yīng)AI算法的不同需求等特點(diǎn)上。 首先,RISC-V適合用于高效設(shè)計(jì)實(shí)現(xiàn),其內(nèi)核面積更小,功耗更低,使得它能
    發(fā)表于 04-28 09:20

    請(qǐng)問STM32mp750能跑LINUX嗎?

    STM32mp750能跑LINUX嗎?
    發(fā)表于 04-09 06:49

    號(hào)稱全球最強(qiáng)開源AI模型DBRX登場(chǎng)

    洞見分析
    電子發(fā)燒友網(wǎng)官方
    發(fā)布于 :2024年03月28日 11:10:51

    最強(qiáng)AI芯片發(fā)布,Cerebras推出性能翻倍的WSE-3 AI芯片

    近日,芯片行業(yè)的領(lǐng)軍企業(yè)Cerebras Systems宣布推出其革命性的產(chǎn)品——Wafer Scale Engine 3,該產(chǎn)品成功將現(xiàn)有最快AI芯片的世界紀(jì)錄提升了一倍。
    的頭像 發(fā)表于 03-19 09:31 ?1079次閱讀
    最強(qiáng)<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>發(fā)布,Cerebras推出性能翻倍的WSE-3 <b class='flag-5'>AI</b><b class='flag-5'>芯片</b>

    蘋果M3芯片MacBook Air被譽(yù)為全球最佳消費(fèi)級(jí)AI產(chǎn)品

    蘋果在推文中說:“全新Mac Airliness利用Apple芯片的力量,將Mac變?yōu)槔硐氲?b class='flag-5'>AI平臺(tái)。M3芯片融入速度敏銳的16核神經(jīng)網(wǎng)絡(luò)引擎,提升設(shè)備端機(jī)器學(xué)習(xí)速率,讓MacBook Air成為了
    的頭像 發(fā)表于 03-05 11:36 ?888次閱讀

    英偉達(dá)將用AI設(shè)計(jì)AI芯片

    AI芯片行業(yè)資訊
    深圳市浮思特科技有限公司
    發(fā)布于 :2024年02月19日 17:54:43

    全球芯片巨頭暴漲6萬億 引發(fā)芯片產(chǎn)業(yè)熱潮

    隨著全球領(lǐng)先的芯片公司阿斯麥、AMD、英特爾和高通等迎來新的AI浪潮,市場(chǎng)對(duì)AI技術(shù)的需求呈現(xiàn)爆發(fā)性增長(zhǎng)。
    的頭像 發(fā)表于 01-26 16:42 ?1426次閱讀
    RM新时代网站-首页