PLASTER是一個(gè)與深度學(xué)習(xí)有關(guān)的框架,為致力于開發(fā)和部署基于 AI 的服務(wù)的人士提供了全方位指導(dǎo)。本文介紹了每個(gè)框架元素的測(cè)量方式,以幫助您應(yīng)對(duì)諸多 AI 挑戰(zhàn)。
目前,業(yè)界對(duì)深度學(xué)習(xí)的性能存在很多疑惑。在今年早些時(shí)候的GPU技術(shù)大會(huì)上,黃仁勛先生曾表示,“超大規(guī)模數(shù)據(jù)中心是世界上有史以來(lái)最復(fù)雜的計(jì)算機(jī)”。
那么,我們?cè)撊绾螌?duì)深度學(xué)習(xí)的性能進(jìn)行評(píng)估呢?標(biāo)準(zhǔn)又有哪些?
對(duì)此,我們的答案是:PLASTER。這是一個(gè)與深度學(xué)習(xí)性能有關(guān)的框架,涵蓋了每一個(gè)驅(qū)動(dòng)深度學(xué)習(xí)性能發(fā)展的要素。
機(jī)器學(xué)習(xí)正在經(jīng)歷爆炸式發(fā)展,這不僅體現(xiàn)在模型的大小和復(fù)雜性上,還體現(xiàn)在迅速涌現(xiàn)的多種神經(jīng)網(wǎng)絡(luò)架構(gòu)上。因此,甚至連專家也難以深入了解模型選項(xiàng),然后選出合適的模型來(lái)解決他們的 AI 業(yè)務(wù)問(wèn)題。
完成深度學(xué)習(xí)模型的編碼和訓(xùn)練之后,要針對(duì)特定的運(yùn)行時(shí)推理環(huán)境優(yōu)化模型。NVIDIA 開發(fā)出兩個(gè)重要工具,解決了訓(xùn)練和推理難題——CUDA和TensorRT(NVIDIA 可編程推理加速器)。此外,NVIDIA 的深度學(xué)習(xí)平臺(tái)能加快所有深度學(xué)習(xí)框架的訓(xùn)練和推理速度。
PLASTER——Latency 延遲
人和機(jī)器都需要對(duì)象反應(yīng)才能作出決策和采取行動(dòng)。延遲是指提出請(qǐng)求與收到反應(yīng)之間經(jīng)過(guò)的時(shí)間。
就大多數(shù)面向人類的軟件系統(tǒng)而言,延遲時(shí)間通常以毫秒計(jì)算。
消費(fèi)者和客戶服務(wù)應(yīng)用對(duì)數(shù)字助理的需求很廣泛。但是,在人嘗試與數(shù)字助理交互時(shí),即使是短短幾秒的延遲也會(huì)開始讓人感到不自然。
PLASTER——Accuracy 準(zhǔn)確性
準(zhǔn)確性在各行各業(yè)都很重要,尤其是在醫(yī)療保健業(yè)。過(guò)去數(shù)十年里,醫(yī)學(xué)成像技術(shù)取得了長(zhǎng)足發(fā)展,這意味著需要將大量數(shù)據(jù)從醫(yī)療設(shè)備傳輸給醫(yī)療專家進(jìn)行分析。
一直以來(lái),無(wú)非通過(guò)兩種方式解決此數(shù)據(jù)量問(wèn)題:在高延遲的情況下傳輸完整的信息,或者數(shù)據(jù)取樣和重建,但相關(guān)技術(shù)可能導(dǎo)致重建和診斷不準(zhǔn)確。
深度學(xué)習(xí)的一個(gè)優(yōu)點(diǎn)是高精度訓(xùn)練和低精度實(shí)施。
PLASTER——Size of Model 模型大小
深度學(xué)習(xí)網(wǎng)絡(luò)模型的數(shù)量正在激增,其大小和復(fù)雜性也在相應(yīng)增長(zhǎng),這推動(dòng)著我們對(duì)功能更強(qiáng)大的訓(xùn)練系統(tǒng)的需求。在深度學(xué)習(xí)模型中,計(jì)算能力和物理網(wǎng)絡(luò)擴(kuò)展的推動(dòng)因素包括:
? 層數(shù)
? 每層節(jié)點(diǎn)數(shù)(神經(jīng)元數(shù))
? 每層的計(jì)算復(fù)雜度
? 某層的某個(gè)節(jié)點(diǎn)與鄰近層的節(jié)點(diǎn)之間的連接數(shù)
PLASTER——Throughput 吞吐量
開發(fā)者正在指定的延遲閾值內(nèi)逐漸優(yōu)化推理性能。延遲限定可確保良好的客戶體驗(yàn),在該限值內(nèi)最大化吞吐量對(duì)最大程度提高數(shù)據(jù)中心效率和營(yíng)收至關(guān)重要。
一直以來(lái),業(yè)界都傾向于將吞吐量用作唯一的性能指標(biāo),原因是每秒計(jì)算次數(shù)越高,其他方面的性能通常也越好。但是,如果系統(tǒng)未能按照指定的延遲要求、功耗預(yù)算或服務(wù)器節(jié)點(diǎn)數(shù)提供足夠的吞吐量,最終將無(wú)法很好地滿足應(yīng)用場(chǎng)合的推理需求。如果未能在吞吐量和延遲之間取得適當(dāng)?shù)钠胶猓赡軙?huì)導(dǎo)致客戶服務(wù)水平低下、未達(dá)到服務(wù)水平協(xié)議 (SLA) 的要求和服務(wù)遭遇失敗。
PLASTER——Energy Efficiency 能效
隨著深度學(xué)習(xí)加速器的性能不斷提升,它的功耗也越來(lái)越高。功耗可能會(huì)迅速增加向客戶提供服務(wù)的成本,因此,關(guān)注設(shè)備和系統(tǒng)的能效變得更有必要。
在某些場(chǎng)合下,需要密集地處理數(shù)據(jù)以便用自然的聲音智能地回答問(wèn)題,而語(yǔ)音處理恰好就是這樣一種解決方案。能實(shí)時(shí)處理語(yǔ)音的數(shù)據(jù)中心推理功能無(wú)疑需要使用許多個(gè)機(jī)架的計(jì)算機(jī),從而影響到公司的總體擁有成本。因此,業(yè)界開始使用每瓦特推理次數(shù)來(lái)衡量運(yùn)營(yíng)成效。超大規(guī)模數(shù)據(jù)中心正設(shè)法最大程度地提高能效,即在固定的功耗預(yù)算下提供盡可能多的推理次數(shù)。
PLASTER——Rate of Learning 學(xué)習(xí)頻率
“AI”由兩個(gè)詞組成,其中一個(gè)是智能 (Intelligence)。因此,用戶將希望神經(jīng)網(wǎng)絡(luò)能在合理的期限內(nèi)學(xué)習(xí)和適應(yīng)。要使復(fù)雜的深度學(xué)習(xí)系統(tǒng)獲得商業(yè)界的青睞,軟件工具開發(fā)者必須支持“開發(fā)與運(yùn)維” (DevOps) 行動(dòng)。
各類組織正不斷試驗(yàn)深度學(xué)習(xí)技術(shù)和神經(jīng)網(wǎng)絡(luò),同時(shí)學(xué)習(xí)如何更有效地構(gòu)建和實(shí)施深度學(xué)習(xí)系統(tǒng)。由于推理服務(wù)會(huì)收集新的數(shù)據(jù),并且會(huì)不斷發(fā)展和變化,因此必須定期重新訓(xùn)練模型。所以,IT 組織和軟件開發(fā)者必須提升模型接收新數(shù)據(jù)和重新訓(xùn)練的頻率。
-
AI
+關(guān)注
關(guān)注
87文章
30728瀏覽量
268874 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5500瀏覽量
121109
原文標(biāo)題:PLASTER:一個(gè)與深度學(xué)習(xí)性能有關(guān)的框架 | 內(nèi)含白皮書下載鏈接
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論