RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

任意模型都能蒸餾!華為諾亞提出異構模型的知識蒸餾方法

CVer ? 來源:CVer ? 2023-11-01 16:18 ? 次閱讀

自知識蒸餾方法在2014年被首次提出以來,其開始廣泛被應用于模型壓縮領域。在更強大教師模型輔助監(jiān)督信息的幫助下,學生模型往往能夠實現(xiàn)比直接訓練更高的精度。然而,現(xiàn)有的知識蒸餾相關研究只考慮了同架構模型的蒸餾方法,而忽略了教師模型與學生模型異構的情形。例如,最先進的MLP模型在ImageNet上僅能達到83%的精度,無法獲取精度更高的同架構教師模型以使用知識蒸餾方法進一步提高MLP模型的精度。因此,對異構模型知識蒸餾的研究具有實際應用意義。

本文的研究者們分析了針對異構模型(CNN,ViT,MLP)特征的差異性,指出特征中模型架構相關的信息會阻礙知識蒸餾的過程?;诖擞^察,研究者們提出了名為OFAKD異構模型知識蒸餾方法:該方法將特征映射到架構無關的統(tǒng)一空間進行異構模型蒸餾,并使用一種能夠自適應增強目標類別信息的損失函數(shù)。在CIFAR-100和ImageNet數(shù)據(jù)集上,該方法實現(xiàn)了對現(xiàn)有同架構知識蒸餾方法的超越。

異構模型間的特征差異

018b8992-785d-11ee-939d-92fbcf53809c.jpg

圖1 異構模型學習到的特征對比

相比于僅使用logits的蒸餾方法,同步使用模型中間層特征進行蒸餾的方法通常能取得更好的性能。然而在異構模型的情況下,由于不同架構模型對特征的不同學習偏好,它們的中間層特征往往具有較大的差異,直接將針對同架構模型涉及的蒸餾方法遷移到異構模型會導致性能下降。

通用的異構模型蒸餾方法

019747dc-785d-11ee-939d-92fbcf53809c.jpg

圖2 異構模型的知識蒸餾方法

為了在異構模型蒸餾過程中利用中間層特征,需要排除特征中模型架構相關信息的干擾,僅保留任務相關信息。基于此,研究者們提出通過將學生模型的中間層特征映射到logits空間,實現(xiàn)對模型架構相關信息的過濾。此外通過在原始基于KL散度的蒸餾損失函數(shù)中引入一項額外的調節(jié)系數(shù),修正后的損失函數(shù)能夠實現(xiàn)對目標類別信息的自適應增強,進一步減緩異構模型蒸餾時無關信息的干擾。

01a4a6ac-785d-11ee-939d-92fbcf53809c.jpg

圖3 原始蒸餾損失與改進后蒸餾損失的對比

實驗結果

01aeca88-785d-11ee-939d-92fbcf53809c.jpg

圖4 在ImageNet上的異構模型蒸餾結果

上表展示了在ImageNet上的異構蒸餾結果。在所有架構的六種可能異構組合中,本文OFAKD方法都得到了超越現(xiàn)有方法結果。

01c946ec-785d-11ee-939d-92fbcf53809c.jpg

圖5 不同值對結果的影響

上表在ImageNet上比較了不同的值設置對結果的影響??梢钥闯?,通過選取合適的值設置,改進后的蒸餾損失函數(shù)能得到超越原始蒸餾損失函數(shù)的結果。

01d7e062-785d-11ee-939d-92fbcf53809c.png

圖6 在ImageNet上的同構模型蒸餾結果

本文在ImageNet上與傳統(tǒng)同構模型蒸餾方法進行了對比。在常見的ResNet34和ResNet18同構教師學生模型組合上,OFAKD也具有與現(xiàn)有SOTA方法相當?shù)谋憩F(xiàn)。

01e2a902-785d-11ee-939d-92fbcf53809c.jpg

圖7 MLP學生模型的蒸餾結果

最后,本文比較了文首提到的MLP作為學生模型時的蒸餾結果。通過選用ViT架構的BEiT v2-base作為教師模型,僅中等尺寸的CycleMLP-B3就刷新了MLP模型在ImageNet上的最佳結果。

結論

本文研究了異構模型之間的知識蒸餾方法,通過將學生模型中間層特征映射到logits空間來擬合教師模型最終輸出,并使用在原始知識蒸餾損失函數(shù)基礎上改進而來的自適應目標信息增強損失,提出的OFAKD方法在多種數(shù)據(jù)集和教師學生模型組合上實現(xiàn)了對現(xiàn)有方法的超越,擴展了知識蒸餾的應用范圍。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3226

    瀏覽量

    48807
  • 架構
    +關注

    關注

    1

    文章

    513

    瀏覽量

    25468

原文標題:NeurIPS 2023 | 任意模型都能蒸餾!華為諾亞提出異構模型的知識蒸餾方法

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于云計算的架構模型研究

    為了構建有效、穩(wěn)定的云計算平臺環(huán)境并對其應用性能進行研究,采用理論分析和實踐設計的方法,研究了云計算的關鍵技術,包括云數(shù)據(jù)中心串聯(lián)、云數(shù)據(jù)存儲管理技術和云編程模型,提出了- 一個通用的云計算架
    發(fā)表于 10-11 16:25 ?4次下載
    基于云計算的架<b class='flag-5'>構模型</b>研究

    異構模型的配電網(wǎng)信息交互

    為消除模型異構、跟進系統(tǒng)更新和提高信息交互能力,實現(xiàn)智能配電網(wǎng)異構系統(tǒng)間的信息集成,從模型提出異構
    發(fā)表于 01-23 10:48 ?4次下載
    <b class='flag-5'>異構模型</b>的配電網(wǎng)信息交互

    微軟亞洲研究院的研究員們提出了一種模型壓縮的新思路

    近日,來自微軟亞洲研究院自然語言計算組的研究員們提出了一種與顯式地利用蒸餾損失函數(shù)來最小化教師模型與學生模型距離的知識
    的頭像 發(fā)表于 11-24 09:48 ?1651次閱讀

    深度學習:知識蒸餾的全過程

    知識蒸餾的核心思想是通過遷移知識,從而通過訓練好的大模型得到更加適合推理的小模型。本文作者介紹了知識
    的頭像 發(fā)表于 01-07 14:36 ?6120次閱讀

    針對遙感圖像場景分類的多粒度特征蒸餾方法

    嵌入式設備上的應用。提出一種針對遙感圖像場景分類的多粒度特征蒸餾方法,將深度網(wǎng)絡不同階段的特征與最終的類別概率同時作為淺層模型的監(jiān)督信號,使得淺層
    發(fā)表于 03-11 17:18 ?20次下載
    針對遙感圖像場景分類的多粒度特征<b class='flag-5'>蒸餾</b><b class='flag-5'>方法</b>

    基于知識蒸餾的惡意代碼家族檢測方法研究綜述

    近年來,惡意代碼變種層出不窮,惡意軟件更具隱蔽性和持久性,亟需快速有效的檢測方法來識別惡意樣本。針對現(xiàn)文中提出了一種基于知識蒸餾的惡意代碼家族檢測
    發(fā)表于 04-20 14:49 ?9次下載
    基于<b class='flag-5'>知識</b><b class='flag-5'>蒸餾</b>的惡意代碼家族檢測<b class='flag-5'>方法</b>研究綜述

    電池修復技術:做蒸餾水的方法是怎樣的

    許多年前,該村經(jīng)常停電,應急燈也很流行。 每個人都在玩電池逆變器。 電池和應急燈必須充滿蒸餾水。 如果您不愿購買它們,請使用以下本機方法: 這個方法很好。 用這種蒸餾
    發(fā)表于 05-18 17:15 ?2299次閱讀
    電池修復技術:做<b class='flag-5'>蒸餾</b>水的<b class='flag-5'>方法</b>是怎樣的

    若干蒸餾方法之間的細節(jié)以及差異

    以往的知識蒸餾雖然可以有效的壓縮模型尺寸,但很難將teacher模型的能力蒸餾到一個更小詞表的student
    的頭像 發(fā)表于 05-12 11:39 ?1438次閱讀

    關于快速知識蒸餾的視覺框架

    知識蒸餾框架包含了一個預訓練好的 teacher 模型蒸餾過程權重固定),和一個待學習的 student 模型, teacher 用來產生
    的頭像 發(fā)表于 08-31 10:13 ?899次閱讀

    用于NAT的選擇性知識蒸餾框架

    盡管NAT在擁有許多潛在的優(yōu)勢,目前的工作中這類模型仍然在很大程度上依賴于句子級別的知識蒸餾(sequence-level knowledge distillation, KD)[2]。由于需要并行預測所有token,NAT對單
    的頭像 發(fā)表于 12-06 14:44 ?720次閱讀

    南開/南理工/曠視提出CTKD:動態(tài)溫度超參蒸餾方法

    一直保持靜態(tài)固定的溫度超參對學生模型來說不是最優(yōu)的。基于課程學習的思想,人類在學習過程中都是由簡單到困難的學習知識。那么在蒸餾的過程中,我們也會希望模型一開始
    的頭像 發(fā)表于 01-04 14:49 ?821次閱讀

    如何度量知識蒸餾中不同數(shù)據(jù)增強方法的好壞?

    知識蒸餾(knowledge distillation,KD)是一種通用神經(jīng)網(wǎng)絡訓練方法,它使用大的teacher模型來 “教” student模型
    的頭像 發(fā)表于 02-25 15:41 ?919次閱讀

    蒸餾也能Step-by-Step:新方法讓小模型也能媲美2000倍體量大模型

    為了解決大型模型的這個問題,部署者往往采用小一些的特定模型來替代。這些小一點的模型用常見范式 —— 微調或是蒸餾來進行訓練。微調使用下游的人類注釋數(shù)據(jù)升級一個預訓練過的小
    的頭像 發(fā)表于 05-15 09:35 ?591次閱讀
    <b class='flag-5'>蒸餾</b>也能Step-by-Step:新<b class='flag-5'>方法</b>讓小<b class='flag-5'>模型</b>也能媲美2000倍體量大<b class='flag-5'>模型</b>

    如何將ChatGPT的能力蒸餾到另一個大模型

    Language Model》 提出了一個將知識從一個復雜的、閉源的大型語言模型(LLM)轉移到一個緊湊的、開源的LLM的做法,其中加入了數(shù)據(jù)反饋的
    的頭像 發(fā)表于 06-12 15:06 ?903次閱讀
    如何將ChatGPT的能力<b class='flag-5'>蒸餾</b>到另一個大<b class='flag-5'>模型</b>

    TPAMI 2023 | 用于視覺識別的相互對比學習在線知識蒸餾

    representation learning [1] 的擴展版本,論文講解鏈接為: https://zhuanlan.zhihu.com/p/574701719 摘要: 無需教師的在線知識蒸餾聯(lián)合地訓練多個學生模型并且相互地
    的頭像 發(fā)表于 09-19 10:00 ?813次閱讀
    TPAMI 2023 | 用于視覺識別的相互對比學習在線<b class='flag-5'>知識</b><b class='flag-5'>蒸餾</b>
    RM新时代网站-首页