RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

人工智能的第三支柱:數(shù)據(jù)存儲

焦點訊 ? 來源:焦點訊 ? 作者:焦點訊 ? 2024-09-06 10:45 ? 次閱讀

借助人工智能數(shù)據(jù)周期(AI Data Cycle)存儲框架,釋放數(shù)據(jù)的AI力量

西部數(shù)據(jù)公司副總裁兼中國區(qū)總經(jīng)理 蔡耀祥

wKgZombabN2ALlDIAALxbYA5q2g982.png

西部數(shù)據(jù)公司副總裁兼中國區(qū)總經(jīng)理蔡耀祥

如今,AI無處不在。各個行業(yè)正通過對基礎設施進行大量投資,來支持創(chuàng)新的應用和用例。我們大都對于時下GPU、CPU和內(nèi)存這類以計算為主的基礎設施有所耳聞,而數(shù)據(jù)存儲作為AI的“第三支柱”,也正對AI起到更為關鍵的作用。

對于文本的AI訓練相對簡單,但當轉(zhuǎn)向音頻、圖像以及視頻時,所生成的數(shù)據(jù)量將會呈現(xiàn)指數(shù)級增長,對存儲的需求自然而然會有很快的攀升。而且隨著時間的推移,數(shù)據(jù)的總量也在持續(xù)增長。IDC預計截至2028年,每年產(chǎn)生的數(shù)據(jù)總量將接近400 ZB(澤字節(jié),Zettabyte)。

在數(shù)據(jù)生成量不斷增長的趨勢下,數(shù)據(jù)存儲技術(shù)對于人工智能數(shù)據(jù)周期(AI Data Cycle)中不同階段基礎設施和工作負載的容量、性能、能耗效益以及成本效益都至關重要。AI系統(tǒng)在處理和分析現(xiàn)有數(shù)據(jù)的同時也會產(chǎn)生新數(shù)據(jù),其中很多數(shù)據(jù)會因其功能性或娛樂性被保存。新型AI用例和更先進的模型令現(xiàn)有數(shù)據(jù)資源庫和額外數(shù)據(jù)源對模型上下文和訓練的價值更甚。數(shù)據(jù)的不斷生成促成了更多的數(shù)據(jù)存儲,而更多的數(shù)據(jù)存儲又進一步推動數(shù)據(jù)生成,一個良性循環(huán)的人工智能數(shù)據(jù)周期就此誕生。

西部數(shù)據(jù)在今年6月正式發(fā)布了人工智能數(shù)據(jù)周期存儲框架,該框架闡明了在大型AI工作負載的六個階段中每一階段的存儲重點,幫助企業(yè)級數(shù)據(jù)中心規(guī)劃者厘清AI和數(shù)據(jù)存儲之間的動態(tài)關系。西部數(shù)據(jù)也正積極調(diào)整產(chǎn)品路線圖,以滿足在AI驅(qū)動下不斷升級的需求,更大限度地提升性能和容量并降低能耗和TCO(總體擁有成本,Total Cost of Ownership)。

人工智能數(shù)據(jù)周期的六大階段

西部數(shù)據(jù)通過人工智能數(shù)據(jù)周期,詳細解讀了AI管道六個階段中數(shù)據(jù)從收集、訓練到推理的存儲細節(jié)。

<人工智能數(shù)據(jù)周期>

讓我們簡單了解一下人工智能數(shù)據(jù)周期的各個階段。

原始數(shù)據(jù)存檔,內(nèi)容存儲:從各種來源安全高效地收集并存儲原始數(shù)據(jù),以用于訓練模型。所收集數(shù)據(jù)的質(zhì)量和多樣性至關重要,為后續(xù)的所有階段奠定了基礎。

在此階段,查找并收集數(shù)據(jù)集需要大容量存儲,通常來說會用到大容量企業(yè)級HDD(eHDD)。由于企業(yè)級HDD可以經(jīng)濟高效地存儲巨量規(guī)模化數(shù)據(jù),且擁有更低的TCO,被視作是建立深度內(nèi)容資源庫的理想選擇。全球線上和可訪問的冷數(shù)據(jù)及溫數(shù)據(jù)都主要通過它來保存。具體來說,選用單盤容量點更高的HDD能夠幫助云和企業(yè)級用戶提升存儲密度,實現(xiàn)數(shù)據(jù)中心的規(guī)?;瘮U展,滿足不斷增長的容量需求。

數(shù)據(jù)準備和轉(zhuǎn)換:在該階段,數(shù)據(jù)會被處理、清洗和轉(zhuǎn)換,以供模型訓練使用。在AI場景下,這一階段需要執(zhí)行的操作很復雜,并且對性能的要求也更高。數(shù)據(jù)需要首先被轉(zhuǎn)化為AI模型可以使用的信息,包括對文本、圖片、視頻以及所有輸入AI模型的內(nèi)容進行矢量化處理。這也是AI管道中對各方面需求都更高的階段,對計算和存儲基礎設施的要求也更加苛刻。

這是一個對性能要求很高且存儲密集的階段,該階段的存儲選擇從HDD轉(zhuǎn)向了SSD,從而建立高速數(shù)據(jù)湖以支持數(shù)據(jù)準備和轉(zhuǎn)換。在該階段,用戶會部署采用大容量企業(yè)級SSD(eSSD)的全閃存存儲系統(tǒng),以增強現(xiàn)有的基于HDD的資源庫,或用于新的全閃存存儲層。

AI模型訓練:AI模型會在該階段進行反復訓練,從而基于訓練數(shù)據(jù)做出準確的預測。具體來說,模型是在高性能超級計算機上進行訓練的,而訓練效率在很大程度上取決于最大化GPU利用率和專門的高性能存儲。

從數(shù)據(jù)中心的角度來看,這一階段的工作負載對計算性能的要求極高,所以需要我們再次轉(zhuǎn)變存儲策略。這一階段理想的SSD是高性能、低容量、以計算為目的企業(yè)級SSD,確保向GPU集成系統(tǒng)輸入數(shù)據(jù)的環(huán)節(jié)不會因存儲性能不足而受到影響。此外,在該過程中還有很多復雜的操作,如檢驗點、歸檔等,可能會根據(jù)計算狀態(tài),將整個數(shù)據(jù)集寫回數(shù)據(jù)湖或進行檢索。因此,計算密集型存儲和基于閃存的數(shù)據(jù)湖在該階段有時會混合應用。

界面交互:這一階段涉及為AI模型建立用戶友好型界面,包括各類應用程序接口(API)、儀表板和工具等,使得上下文的特定數(shù)據(jù)和終端用戶的提示可以結(jié)合起來。AI模型會被整合到現(xiàn)有的互聯(lián)網(wǎng)和客戶端應用程序中,在不取代現(xiàn)有系統(tǒng)的情況下增強其功能,進一步推動了存儲需求。

這一階段的存儲重點在終端,比如在客戶端設備、移動設備以及物聯(lián)網(wǎng)設備。這些都是真正執(zhí)行推理的地方。這里不僅有較高的性能需求來應對推理過程,也有更大的容量需求來應對新數(shù)據(jù)的產(chǎn)生。

兼顧性能和容量的客戶端存儲設備填補了這些需求。最終這些內(nèi)容會回到基于HDD的長期內(nèi)容存儲系統(tǒng)中,無論是歸檔或云端的。換言之,PC和筆記本電腦需要容量更大、性能更強的客戶端SSD(cSSD),手機、物聯(lián)網(wǎng)系統(tǒng)和汽車會需要容量更大的嵌入式閃存設備,以在邊緣已有的應用中增強AI。

AI推理引擎:第五階段是奇跡實時發(fā)生的地方。在這個階段,訓練好的模型被部署到數(shù)據(jù)生產(chǎn)環(huán)境中,對新的數(shù)據(jù)進行分析并提供實時的預測或者生成新的內(nèi)容。推理引擎的效率將直接影響AI響應的及時性和準確性。

這一階段需要用于緩存的高性能eSSD、用于高速數(shù)據(jù)湖的大容量eSSD、大容量cSSD以及用于AI驅(qū)動邊緣設備的嵌入式閃存。

新內(nèi)容生成:最后一個階段是新內(nèi)容誕生的地方。AI模型所帶來的洞察分析經(jīng)常會產(chǎn)生新的數(shù)據(jù),這些數(shù)據(jù)因其價值或趣味性而被存儲。盡管這一階段標志著循環(huán)的結(jié)束,但與此同時生成的新數(shù)據(jù)又會被反饋到數(shù)據(jù)周期中,通過不斷提升數(shù)據(jù)價值以用于未來模型的訓練和分析,實現(xiàn)持續(xù)的改進和創(chuàng)新。

生成的內(nèi)容將被存儲到大容量eHDD中,在數(shù)據(jù)中心實現(xiàn)大容量存儲、備份和歸檔。同時,大容量cSSD和嵌入式閃存設備也將用于存儲邊緣設備中額外由AI驅(qū)動的數(shù)據(jù)。

合理的存儲產(chǎn)品組合,進一步優(yōu)化AI領域投資效益

上述每個階段都有著不同的基礎設施需求、計算需求、存儲需求以及不同的工作負載特性,但每個階段都是整個人工智能數(shù)據(jù)周期中不可分割的一部分。針對不同階段差異化的存儲需求,企業(yè)可以通過優(yōu)化存儲組合來應對大規(guī)模AI運算負載,搭建更為先進的存儲基礎架構(gòu),進而提高AI工作流的效率并降低TCO,進一步優(yōu)化在AI領域的投資效益。

西部數(shù)據(jù)已戰(zhàn)略性地調(diào)整閃存和HDD產(chǎn)品和技術(shù)路線圖,幫助應對人工智能數(shù)據(jù)周期中每個關鍵環(huán)節(jié)的數(shù)據(jù)存儲需求。

西部數(shù)據(jù)現(xiàn)已正式向指定客戶出樣具備行業(yè)領先容量的32TB 企業(yè)級ePMR HDD。全新的大容量Ultrastar DC HC690 UltraSMR HDD專為超大規(guī)模云和企業(yè)級數(shù)據(jù)中心的巨量數(shù)據(jù)存儲需求設計。在人工智能工作流這類對大規(guī)模數(shù)據(jù)存儲和低TCO有嚴格要求的應用場景下,該產(chǎn)品可發(fā)揮重要作用。此外,憑借先進的ePMR技術(shù)和OptiNAND技術(shù)、長遠的產(chǎn)品規(guī)劃和可預見的容量提升,西部數(shù)據(jù)可以幫助用戶充分應對當前乃至未來AI應用對存儲日益增長的需求。

wKgZombabN2ALVlTAAPCk4HZR5o278.png

<西部數(shù)據(jù)Ultrastar DC HC690 UltraSMR HDD>

為滿足市場對大容量SSD的需求,西部數(shù)據(jù)全新的企業(yè)級SSD將容量提升到了32TB和64TB,并針對人工智能數(shù)據(jù)周期中第二階段的高性能存儲需求和其他大容量性能存儲需求著重優(yōu)化。全新Ultrastar DC SN655+企業(yè)級SSD采用PCIe Gen 4接口,并集成了多項用于服務AI用例的軟件特性和功能。

wKgaombabN6AULxiAAIPRM-AnUI813.png

<西部數(shù)據(jù)Ultrastar DC SN655+ 企業(yè)級SSD>

針對人工智能數(shù)據(jù)周期第三、四、五階段的高性能存儲需求,西部數(shù)據(jù)推出了旗下首款企業(yè)級PCIe Gen 5.0解決方案——Ultrastar DC SN861 SSD,擁有市場領先的隨機讀寫表現(xiàn),容量高達16TB,隨機讀取性能相比上一代產(chǎn)品提升約3倍,超低的延遲和非凡的響應速度尤其適用于大語言模型(Large Language Model, LLM)的訓練、推理和AI服務部署。此外,更低的能耗能夠提供更高的每瓦特IOPS(IOPS/Watt),有助于企業(yè)進一步降低TCO。PCIe Gen 5帶來的帶寬提升滿足了AI行業(yè)計算密集型工作環(huán)境對高速計算和低時延的需求。

wKgZombabN6AbU50AAIJKc_ZsIs663.png

< 西部數(shù)據(jù)Ultrastar DC SN861企業(yè)級SSD – U.2 >

wKgaombabN-AdU3rAAC4koxRKv4849.png

< 西部數(shù)據(jù)Ultrastar DC SN861企業(yè)級SSD – E1.S >

AI提速內(nèi)容增長,數(shù)據(jù)存儲未來可期

在數(shù)據(jù)中心,預計未來五年內(nèi),HDD 和企業(yè)級SSD 都有顯著的 EB 級增長機會。

為滿足市場對大容量SSD的需求,西部數(shù)據(jù)全新的企業(yè)級SSD將容量提升到了32TB和64TB,并針對人工智能數(shù)據(jù)周期中第二階段的高性能存儲需求和其他大容量性能存儲需求著重優(yōu)化。全新Ultrastar DC SN655+企業(yè)級SSD采用PCIe Gen 4接口,并集成了多項用于服務AI用例的軟件特性和功能

在客戶端,無論是移動設備還是PC市場上,越來越多的支持AI以及AI驅(qū)動的PC和移動設備正在涌現(xiàn)。這些設備對性能的要求更高,同時由于需要處理和存儲的數(shù)據(jù)量正不斷增加,對大容量的存儲需求也在上升。這些趨勢共同推動了存儲需求的大幅度增長,西部數(shù)據(jù)預計在未來五年內(nèi),PC和筆記本電腦市場的cSSD需求會出現(xiàn)25%到35%的增長,智能手機的閃存需求會出現(xiàn)40%到50%的增長。

人工智能數(shù)據(jù)周期展示了這一持續(xù)生成數(shù)據(jù)和使用數(shù)據(jù)的循環(huán),并闡述了這一循環(huán)是如何加速對高性能且可擴展的存儲技術(shù)的需求。存儲對管理大型AI數(shù)據(jù)集、高效重構(gòu)復雜數(shù)據(jù)并推動進一步創(chuàng)新來說至關重要。西部數(shù)據(jù)深刻理解AI和數(shù)據(jù)存儲之間的動態(tài)關系,在不斷提供更大容量產(chǎn)品的基礎上,為下一代AI工作負載所需要的極致性能和耐用性提供量身打造的存儲解決方案。憑借持續(xù)豐富擴展的產(chǎn)品組合、長遠的技術(shù)路線和不懈突破創(chuàng)新,西部數(shù)據(jù)將幫助用戶釋放AI的革新力量,創(chuàng)造更多價值。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)存儲

    關注

    5

    文章

    970

    瀏覽量

    50894
  • AI
    AI
    +關注

    關注

    87

    文章

    30728

    瀏覽量

    268880
  • 人工智能
    +關注

    關注

    1791

    文章

    47183

    瀏覽量

    238235
  • 西部數(shù)據(jù)

    關注

    5

    文章

    528

    瀏覽量

    46142
收藏 人收藏

    評論

    相關推薦

    嵌入式和人工智能究竟是什么關系?

    應用場景。例如,在智能家居領域,嵌入式系統(tǒng)可以控制各種智能設備,如智能燈泡、智能空調(diào)等,而人工智能則可以實現(xiàn)對這些設備的
    發(fā)表于 11-14 16:39

    智能網(wǎng)聯(lián)汽車仿真測試標準體系研究

    當前,基于場景的智能網(wǎng)聯(lián)汽車“三支柱”安全測試評估方法[1]已成為廣泛的行業(yè)共識,模擬仿真測試是其重要手段之一[2]。
    的頭像 發(fā)表于 11-07 10:34 ?286次閱讀
    <b class='flag-5'>智能</b>網(wǎng)聯(lián)汽車仿真測試標準體系研究

    《AI for Science:人工智能驅(qū)動科學創(chuàng)新》第6章人AI與能源科學讀后感

    、優(yōu)化等方面的應用有了更清晰的認識。特別是書中提到的基于大數(shù)據(jù)和機器學習的能源管理系統(tǒng),通過實時監(jiān)測和分析能源數(shù)據(jù),實現(xiàn)了能源的高效利用和智能化管理。 其次,第6章通過多個案例展示了人工智能
    發(fā)表于 10-14 09:27

    AI for Science:人工智能驅(qū)動科學創(chuàng)新》第4章-AI與生命科學讀后感

    閱讀這一章后,我深感人工智能與生命科學的結(jié)合正引領著一場前所未有的科學革命,以下是我個人的讀后感: 1. 技術(shù)革新與生命科學進步 這一章詳細闡述了人工智能如何通過其強大的數(shù)據(jù)處理和分析能力,加速生命科學
    發(fā)表于 10-14 09:21

    《AI for Science:人工智能驅(qū)動科學創(chuàng)新》第一章人工智能驅(qū)動的科學創(chuàng)新學習心得

    人工智能:科學研究的加速器 第一章清晰地闡述了人工智能作為科學研究工具的強大功能。通過機器學習、深度學習等先進技術(shù),AI能夠處理和分析海量數(shù)據(jù),發(fā)現(xiàn)傳統(tǒng)方法難以捕捉的模式和規(guī)律。這不僅極大地提高了
    發(fā)表于 10-14 09:12

    risc-v在人工智能圖像處理應用前景分析

    長時間運行或電池供電的設備尤為重要。 高性能 : 盡管RISC-V架構(gòu)以低功耗著稱,但其高性能也不容忽視。通過優(yōu)化指令集和處理器設計,RISC-V可以在處理復雜的人工智能圖像處理任務時表現(xiàn)出色。
    發(fā)表于 09-28 11:00

    人工智能ai 數(shù)電 模電 模擬集成電路原理 電路分析

    人工智能ai 數(shù)電 模電 模擬集成電路原理 電路分析 想問下哪些比較容易學 不過好像都是要學的
    發(fā)表于 09-26 15:24

    人工智能ai4s試讀申請

    目前人工智能在繪畫對話等大模型領域應用廣闊,ai4s也是方興未艾。但是如何有效利用ai4s工具助力科研是個需要研究的課題,本書對ai4s基本原理和原則,方法進行描訴,有利于總結(jié)經(jīng)驗,擬按照要求準備相關體會材料??茨芊裼兄谌腴T和提高ss
    發(fā)表于 09-09 15:36

    名單公布!【書籍評測活動NO.44】AI for Science:人工智能驅(qū)動科學創(chuàng)新

    大力發(fā)展AI for Science的原因。 第2章從科學研究底層的理論模式與主要困境,以及人工智能要素(數(shù)據(jù)、算法、算力)出發(fā),對AI for Science的技術(shù)支撐進行解讀。 第3章介紹了在
    發(fā)表于 09-09 13:54

    報名開啟!深圳(國際)通用人工智能大會將啟幕,國內(nèi)外大咖齊聚話AI

    8月28日至30日,2024深圳(國際)通用人工智能大會暨深圳(國際)通用人工智能產(chǎn)業(yè)博覽會將在深圳國際會展中心(寶安)舉辦。大會以“魅力AI·無限未來”為主題,致力于打造全球通用人工智能領域集產(chǎn)品
    發(fā)表于 08-22 15:00

    FPGA在人工智能中的應用有哪些?

    FPGA(現(xiàn)場可編程門陣列)在人工智能領域的應用非常廣泛,主要體現(xiàn)在以下幾個方面: 一、深度學習加速 訓練和推理過程加速:FPGA可以用來加速深度學習的訓練和推理過程。由于其高并行性和低延遲特性
    發(fā)表于 07-29 17:05

    西部數(shù)據(jù)發(fā)布全新人工智能數(shù)據(jù)周期存儲框架,助力用戶發(fā)掘人工智能價值

    公司持續(xù)拓展旗下企業(yè)級SSD和HDD產(chǎn)品組合,應對全新人工智能數(shù)據(jù)周期中的關鍵工作負載 2024年6月7日,上海- 西部數(shù)據(jù)公司(NASDAQ:WDC)于今日正式發(fā)布了人工智能
    的頭像 發(fā)表于 06-11 10:57 ?402次閱讀

    5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開發(fā)(SC171開發(fā)套件V2)

    5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開發(fā)(SC171開發(fā)套件V2) 課程類別 課程名稱 視頻課程時長 視頻課程鏈接 課件鏈接 人工智能 參賽基礎知識指引 14分50秒 https
    發(fā)表于 05-10 16:46

    5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開發(fā)(SC171開發(fā)套件V1)

    課程類別 課程名稱 視頻課程時長 視頻課程鏈接 課件鏈接 人工智能 參賽基礎知識指引 14分50秒 https://t.elecfans.com/v/25508.html *附件:參賽基礎知識指引
    發(fā)表于 04-01 10:40

    嵌入式人工智能的就業(yè)方向有哪些?

    嵌入式人工智能的就業(yè)方向有哪些? 在新一輪科技革命與產(chǎn)業(yè)變革的時代背景下,嵌入式人工智能成為國家新型基礎建設與傳統(tǒng)產(chǎn)業(yè)升級的核心驅(qū)動力。同時在此背景驅(qū)動下,眾多名企也紛紛在嵌入式人工智能領域布局
    發(fā)表于 02-26 10:17
    RM新时代网站-首页