RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

融合強(qiáng)化注意力機(jī)制和序列優(yōu)化的圖像題注方法

h1654155972.5709 ? 2018-05-01 21:08 ? 次閱讀

圖像題注旨在為輸入圖像自動(dòng)生成自然語(yǔ)言的描述語(yǔ)句,可用于輔助視覺(jué)障礙者感知周圍環(huán)境和幫助人們更便捷地處理大量非結(jié)構(gòu)化視覺(jué)信息等場(chǎng)景。當(dāng)前的主流方法主要是基于深度編碼器-解碼器框架作端到端的訓(xùn)練優(yōu)化,但由于視覺(jué)概念和語(yǔ)義實(shí)體之間對(duì)應(yīng)的偏差,導(dǎo)致在題注中對(duì)于圖像細(xì)粒度語(yǔ)義的識(shí)別和理解不足。本文針對(duì)此問(wèn)題,提出了基于檢測(cè)特征和蒙特卡羅采樣的注意力機(jī)制和基于改進(jìn)策略梯度的序列優(yōu)化(Sequence Optimization)方法,并將二者融合成一個(gè)用于圖像題注的整體框架。

在我們的方法中,為了更好地提取圖像的強(qiáng)語(yǔ)義特征,首先用Faster R-CNN取代一般的卷積網(wǎng)絡(luò)作為編碼器;在此基礎(chǔ)上,基于蒙特卡羅采樣設(shè)計(jì)一個(gè)強(qiáng)化注意力機(jī)制(Reinforce Attention),以篩選出當(dāng)前時(shí)刻值得關(guān)注的視覺(jué)概念,實(shí)現(xiàn)更精準(zhǔn)的語(yǔ)義引導(dǎo)。在序列優(yōu)化階段,我們利用折扣因子和詞頻-逆文檔頻率(TF-IDF)因子改進(jìn)了策略梯度的評(píng)估函數(shù),使得生成題注時(shí)具有更強(qiáng)語(yǔ)義性的單詞有更大的獎(jiǎng)賞值,從而貢獻(xiàn)更多的梯度信息,更好地引導(dǎo)序列優(yōu)化。我們主要在MS COCO數(shù)據(jù)集上進(jìn)行訓(xùn)練和評(píng)測(cè),模型在當(dāng)前所有權(quán)威的度量指標(biāo)得分上都取得了顯著的提升。以CIDEr指標(biāo)為例,和當(dāng)前比較代表性的方法[5]和[7]相比,我們的模型在最終得分上分別提升了8.0%和4.1%。

圖像題注旨在為一幅輸入圖像生成相匹配的自然語(yǔ)言描述,其工作流程如下圖1(a)所示。

融合強(qiáng)化注意力機(jī)制和序列優(yōu)化的圖像題注方法

圖1(a) 模型前向計(jì)算流程

開放域的圖像題注是一項(xiàng)頗具挑戰(zhàn)的任務(wù),因?yàn)樗坏枰獙?duì)圖像中的所有局部和全局實(shí)體作實(shí)現(xiàn)細(xì)粒度語(yǔ)義理解,而且還需要生成這些實(shí)體間的屬性和聯(lián)系。從學(xué)術(shù)價(jià)值上來(lái)看,圖像題注領(lǐng)域的研究極大地激發(fā)著關(guān)于計(jì)算機(jī)視覺(jué)(CV)和自然語(yǔ)言處理(NLP)兩大領(lǐng)域如何更好地交叉融合;而在現(xiàn)實(shí)應(yīng)用的維度上,圖像題注的進(jìn)展對(duì)于構(gòu)建一個(gè)更好的AI交互系統(tǒng)來(lái)說(shuō)至關(guān)重要,尤其是在輔助視覺(jué)障礙者更好地感知世界,以及更全面地協(xié)助人們更加便捷地組織和理解海量的非結(jié)構(gòu)化視覺(jué)信息等方面,有很大的價(jià)值。

圖像題注領(lǐng)域的研究進(jìn)展非???,近期產(chǎn)生了很多標(biāo)志性的工作。目前基于深度編碼器-解碼器框架(Encoder-Decoder)的視覺(jué)注意力模型(Attention Models),在圖像題注的各個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上都取得了較好的成績(jī)。視覺(jué)注意力模型主要用于提取空間顯著區(qū)域,以更好地映射到待生成詞匯?;诖搜苌舜罅康母倪M(jìn)工作,最近有部分研究工作致力于將自底向上(Bottom-up)的物體檢測(cè)和屬性預(yù)測(cè)方法(Object Detection&Attribute Prediction)和注意力機(jī)制融合到一起,在評(píng)價(jià)指標(biāo)得分上取得了不錯(cuò)的提升。但所有的這些工作,都采用的是Word-Level的訓(xùn)練和優(yōu)化方法,這導(dǎo)致了如下兩個(gè)問(wèn)題:第一個(gè)是“Exposure Bias”,是指模型在訓(xùn)練中根據(jù)給定的真實(shí)(Ground-Truth)單詞去計(jì)算下一個(gè)單詞的最大似然,而在測(cè)試中卻需要根據(jù)實(shí)際的生成(Generation)來(lái)預(yù)測(cè)下一個(gè)單詞;第二個(gè)問(wèn)題是模型在訓(xùn)練和評(píng)估中目標(biāo)的不一致(Inconsistency),因?yàn)樵谟?xùn)練時(shí)采用交叉熵?fù)p失函數(shù),而在評(píng)估模型生成的題注(Generated Captions)時(shí),卻采用的是針對(duì)NLP領(lǐng)域?qū)S玫囊恍┎豢晌⒌亩攘糠椒?,比如BLEU[11],ROUGE,METEOR和CIDEr等。

為了解決上述問(wèn)題,最近的一些工作創(chuàng)新性地引入了基于強(qiáng)化學(xué)習(xí)的優(yōu)化方法。借助策略梯度和基準(zhǔn)函數(shù)(Baseline Function)將原先的單詞級(jí)別(Word-Level)的訓(xùn)練改進(jìn)成序列化(Sequence-Level)的模式,極大地彌補(bǔ)了原先方案的不足,提升了圖像題注的性能。然而,這些方法也存在一些局限,比如在[5]和[10]中,通過(guò)一次序列采樣生成一句完整題注,得到一個(gè)獎(jiǎng)賞值(Reward),而后默認(rèn)所有的單詞在梯度優(yōu)化時(shí)共享這一個(gè)值。顯然,在多數(shù)情況下這樣是不合理的,因?yàn)椴煌膯卧~詞性不同、語(yǔ)義有側(cè)重、隱含的信息量顯著差異,應(yīng)該被區(qū)分為不同的語(yǔ)言實(shí)體(Linguistic Entity),在訓(xùn)練中對(duì)應(yīng)不同的視覺(jué)概念(Visual Concepts)。為了解決這些問(wèn)題,我們提出了如下的融合強(qiáng)化注意力機(jī)制和序列優(yōu)化的圖像題注方法。

在我們的方法中,首先用Faster R-CNN取代一般的卷積網(wǎng)絡(luò)作為編碼器,對(duì)輸入圖像抽取基于物體檢測(cè)和屬性預(yù)測(cè)的強(qiáng)語(yǔ)義特征向量(Semantic Features)。之后,我們基于蒙特卡羅采樣設(shè)計(jì)一個(gè)強(qiáng)化注意力機(jī)制(Reinforce Attention),以篩選出當(dāng)前時(shí)刻值得關(guān)注的視覺(jué)概念,實(shí)現(xiàn)更精準(zhǔn)的語(yǔ)義實(shí)體引導(dǎo)。在序列優(yōu)化(Sequence Optimization)階段,我們采用策略梯度方法計(jì)算序列的近似梯度。而在計(jì)算每個(gè)采樣單詞的獎(jiǎng)賞值時(shí),我們利用折扣因子和詞頻-逆文檔頻率(TF-IDF)因子改進(jìn)了原始的策略梯度函數(shù),使得生成題注時(shí)具有更強(qiáng)語(yǔ)義性的單詞有更大的獎(jiǎng)賞值,從而為訓(xùn)練貢獻(xiàn)更多的梯度信息,以更好地引導(dǎo)序列優(yōu)化。在實(shí)驗(yàn)中,我們?cè)贛S COCO數(shù)據(jù)集上的各項(xiàng)性能指標(biāo)得分均超過(guò)了當(dāng)前的基線方法,證明了方法設(shè)計(jì)的有效性。

圖像題注方法

總體上,圖像題注的方法可以被分為兩大類:一類是基于模板的(template-based),另一類是基于神經(jīng)網(wǎng)絡(luò)的(neural network-based)。前者主要通過(guò)一個(gè)模板來(lái)完成題注生成,而這個(gè)模板的填充需要基于對(duì)象檢測(cè)、屬性預(yù)測(cè)和場(chǎng)景理解的輸出。而本文中提出的方法采用的是跟后者一致的框架,所以下面我們主要介紹基于神經(jīng)網(wǎng)絡(luò)做圖像題注的相關(guān)工作。

近些年,加載了視覺(jué)注意力機(jī)制的深度編碼器-解碼器的一系列工作,在圖像題注任務(wù)的各個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上都取得了非常不錯(cuò)的結(jié)果。此類方法的核心機(jī)制在于:融合了視覺(jué)注意力機(jī)制的卷積網(wǎng)絡(luò)和循環(huán)網(wǎng)絡(luò),能夠更好地挖掘隱含的上下文視覺(jué)信息,并在端到端地訓(xùn)練充分融合局部和全局的實(shí)體信息,從而為題注生成提供更強(qiáng)的泛化能力。之后的很多工作從此出發(fā):一方面是繼續(xù)強(qiáng)化和改善注意力機(jī)制的功效,提出了一些新的計(jì)算模塊或網(wǎng)絡(luò)架構(gòu);另一方面,部分工作致力于將基于檢測(cè)框架的特征提取和表征方法與注意力機(jī)制融合到一起,以獲得更好地實(shí)體捕捉能力。

但是目前基于視覺(jué)注意力的方法使用交叉熵的純單詞級(jí)別(Word-Level)訓(xùn)練模式存在兩個(gè)顯著的缺陷:Exposure Bias和Inconsistency。為了更好地解決這兩個(gè)問(wèn)題,基于強(qiáng)化學(xué)習(xí)的優(yōu)化方法被引入圖像題注任務(wù)中。其中尤為代表性的工作是[10],他們將問(wèn)題重新建模為一個(gè)策略梯度優(yōu)化問(wèn)題,并采用REINFORCE算法進(jìn)行優(yōu)化;為了減小方差、提升訓(xùn)練穩(wěn)定性,[10]提出了一個(gè)混合增量式的訓(xùn)練方法。隨后[5][15]等工作基于此做了不同的改進(jìn),他們主要是提出了更好的基準(zhǔn)函數(shù)(Baseline Function),以更大限度地、更高效地提升序列優(yōu)化的效果。但是當(dāng)前的這些方法存在的一個(gè)顯著的局限性是:在對(duì)序列梯度進(jìn)行采樣逼近時(shí),默認(rèn)一句話中的所有單詞享有共同的獎(jiǎng)賞值。而這顯然是不合理的。為了彌補(bǔ)這個(gè)缺陷,我們引入了兩種優(yōu)化策略:第一,從強(qiáng)化學(xué)習(xí)中評(píng)估函數(shù)的計(jì)算出發(fā),引入折扣因子,更精準(zhǔn)地計(jì)算每一個(gè)單詞采樣回傳的梯度值;第二,是從直接度量驅(qū)動(dòng)(Metric-Driven)的初衷出發(fā),將TF-IDF因子引入了獎(jiǎng)賞計(jì)算中,以更好地發(fā)揮強(qiáng)語(yǔ)言實(shí)體對(duì)于序列整體優(yōu)化的驅(qū)動(dòng)作用。

方法

我們的模型整體工作框架如圖1所示,其中(a)是一個(gè)從輸入到輸出的前向計(jì)算流程,(b)為基于強(qiáng)化學(xué)習(xí)的序列優(yōu)化過(guò)程。下面我們將從語(yǔ)義特征提取,題注生成器和序列優(yōu)化三個(gè)方面,依次遞進(jìn)地介紹我們的方法細(xì)節(jié)。

融合強(qiáng)化注意力機(jī)制和序列優(yōu)化的圖像題注方法

圖1(a) 模型前向計(jì)算流程

融合強(qiáng)化注意力機(jī)制和序列優(yōu)化的圖像題注方法

圖1(b) 基于強(qiáng)化學(xué)習(xí)的序列優(yōu)化過(guò)程

1、語(yǔ)義特征(Semantic Features)

對(duì)于輸入圖像,與常用做法不同的是,我們并非提取卷積特征向量,而是基于物體檢測(cè)和屬性預(yù)測(cè)提取圖像的語(yǔ)義特征向量,使得在訓(xùn)練過(guò)程中可以更好地與真實(shí)題注語(yǔ)句中的語(yǔ)言實(shí)體相匹配。在本文中,我們用Faster R-CNN[33]作為圖像題注模型中的視覺(jué)編碼器。給定輸入圖片Ⅰ,需要輸出的語(yǔ)義特征記為:

我們對(duì)Faster R-CNN最后的輸出做一個(gè)非極大值抑制(Non-maximum Suppression),對(duì)于每一個(gè)選中的候選區(qū)域

2、題注生成器(Caption Generator)

(1)模型結(jié)構(gòu)和目標(biāo)函數(shù)

給定一幅圖像Ⅰ以及相應(yīng)的語(yǔ)義特征向量

其中

其中,

融合強(qiáng)化注意力機(jī)制和序列優(yōu)化的圖像題注方法

和之前所有Encoder-Decoder框架一樣,這里采用交叉熵(XENT)損失函數(shù)來(lái)訓(xùn)練和優(yōu)化整個(gè)網(wǎng)絡(luò),也就是求如下目標(biāo)函數(shù)的極小值:

(2)強(qiáng)化注意力機(jī)制(Reinforce Attention)

下面我們介紹兩層LSTM輸入向量

在每一步計(jì)算中,第一層的輸入

其中

得到第一層的輸出

在實(shí)際計(jì)算中,我們對(duì)該分布進(jìn)行蒙特卡羅采樣(MC Sampling)以得到

最后我們?cè)俅尾捎么?lián)運(yùn)算

由于上述公式(6)中我們運(yùn)用了不可微的蒙特卡羅采樣,因此我們需要重新定義一個(gè)和公式(4)稍有區(qū)別的新目標(biāo)函數(shù)。借鑒[19][29]中的工作,我們引入原目標(biāo)函數(shù)

這里我們采用REINFORCE算法[30]來(lái)近似計(jì)算的

融合強(qiáng)化注意力機(jī)制和序列優(yōu)化的圖像題注方法

其中

3、序列優(yōu)化(Sequence-Level Optimization)

為了更直接地優(yōu)化NLP度量指標(biāo),并很好地解決Exposure Bias的問(wèn)題,我們將圖像題注重新建模成一個(gè)基于強(qiáng)化學(xué)習(xí)的序列決策問(wèn)題。我們可以將上文所述的生成模型視為一個(gè)智能體(Agent),與由圖像和詞匯構(gòu)成的外部環(huán)境(Environment)實(shí)時(shí)交互。我們定義狀態(tài)(state)為:

對(duì)于圖像題注任務(wù),該目標(biāo)可以公式化為求負(fù)的期望累積獎(jiǎng)賞的最小值:

這里

融合強(qiáng)化注意力機(jī)制和序列優(yōu)化的圖像題注方法

其中

融合強(qiáng)化注意力機(jī)制和序列優(yōu)化的圖像題注方法

但正如我們?cè)趯?dǎo)言中提及的那樣,這種計(jì)算方式忽視了不同語(yǔ)言實(shí)體對(duì)于整個(gè)序列獎(jiǎng)賞值的貢獻(xiàn)差異,因此我們提出如下兩個(gè)改進(jìn):(1)我們引入一個(gè)折扣因子

融合強(qiáng)化注意力機(jī)制和序列優(yōu)化的圖像題注方法

實(shí)驗(yàn)

1、數(shù)據(jù)集(Datasets)

我們?cè)诋?dāng)前圖像題注領(lǐng)域最通用的數(shù)據(jù)集MS COCO[31]上來(lái)評(píng)測(cè)我們提出的方法。該數(shù)據(jù)集總計(jì)有123287張圖片,每張圖片有5句人工標(biāo)注的題注作為真實(shí)值(Ground Truth),其中劃分出訓(xùn)練集82783張和驗(yàn)證集40504張。而測(cè)試集是另外的40775張圖片,專門用作在線系統(tǒng)測(cè)評(píng)(Online),官方不公開與之對(duì)應(yīng)的題注真實(shí)值。因此,當(dāng)模型需要在本地(Offline)驗(yàn)證和調(diào)試時(shí),我們采用另外的數(shù)據(jù)集劃分標(biāo)準(zhǔn),從123297張圖片集中劃分出分別包含5000張圖片的驗(yàn)證集和測(cè)試集。對(duì)于所有題注語(yǔ)句數(shù)據(jù)的預(yù)處理,包括分詞和詞典生成等,我們采用目前公用的開源代碼[https://github.com/karpathy/neuraltalk],去掉不常用的詞匯,生成一個(gè)包含9487個(gè)不同單詞的詞典(即

2、實(shí)施細(xì)節(jié)(Implementation Details)

特征提取在提取語(yǔ)義特征時(shí),我們采用的是一個(gè)基于ResNet-101[32]的Faster R-CNN網(wǎng)絡(luò)。我們?cè)O(shè)置IoU閾值為0.7用于區(qū)域候選框抑制(Suppression),0.3用于物體類別抑制。為了選取顯著性圖像區(qū)域,我們?cè)O(shè)置了一個(gè)0.2檢測(cè)的檢測(cè)置信度。在實(shí)驗(yàn)中,我們發(fā)現(xiàn)每幅圖片最多選取到36個(gè)顯著語(yǔ)義區(qū)域,即

訓(xùn)練部署每一層LSTM隱藏單元

3、結(jié)果分析

在本地評(píng)測(cè)中,我們主要將模型在MS COCO數(shù)據(jù)集上的結(jié)果,和如下三個(gè)比較新的代表性模型進(jìn)行比較:(1)Adaptive Attention[6],標(biāo)記為AdaAtt;(2)Self-Critical Sequence Training[5],標(biāo)記為SCST;(3)Bottom up and Top Down Attention[7],標(biāo)記為BU-Att。比較的結(jié)果如表1所示:

融合強(qiáng)化注意力機(jī)制和序列優(yōu)化的圖像題注方法

表1和其他代表性方法的性能對(duì)比

這里我們主要記錄了5項(xiàng)度量指標(biāo),包括CIDEr,METEOR(標(biāo)記為MET),ROUGLE(標(biāo)記為ROU),BLEU-4(標(biāo)記為B-4)和BLEU-1(標(biāo)記為B-1)。從中我們可以得到如下的結(jié)論:(1)我們提出的方法,在圖像題注各項(xiàng)評(píng)測(cè)指標(biāo)上的得分,都顯著性地高于其他三種;(2)四種方法在各項(xiàng)指標(biāo)上的得分增幅,都基本保持一致。以CIDEr得分為例,我們發(fā)現(xiàn)從AdaAtt到BU-Att,再到我們的方法,每一次改進(jìn)都實(shí)現(xiàn)了約5個(gè)點(diǎn)的提升。這一定程度上可以說(shuō)明,我們的這種改進(jìn)思路,對(duì)于圖像題注任務(wù)更進(jìn)一步的進(jìn)展,是具有借鑒意義的。

除此之外,我們分別分析了所提出方法的不同組件(Components)對(duì)圖像題注性能提升的貢獻(xiàn):(1)首先我們考察只使用Reinforce Attention組件(標(biāo)記為Reinforce)的性能增益;(2)之后單獨(dú)考察我們提出的序列優(yōu)化改進(jìn)因子,即

融合強(qiáng)化注意力機(jī)制和序列優(yōu)化的圖像題注方法

表2針對(duì)模型不同組件的性能分析表

從中我們可以看出:我們改進(jìn)的兩個(gè)組件,都分別在BU-Att的基礎(chǔ)上實(shí)現(xiàn)了各項(xiàng)評(píng)測(cè)指標(biāo)得分的顯著提升,其中

融合強(qiáng)化注意力機(jī)制和序列優(yōu)化的圖像題注方法

圖2圖像題注結(jié)果可視化

(其中,圖片中的綠框表示Reinforce Attention的結(jié)果,語(yǔ)句中的綠框是生成的對(duì)應(yīng)的單詞)

結(jié)論

本文中,我們提出了一個(gè)融合強(qiáng)化注意力機(jī)制和序列優(yōu)化的圖像題注方法。首先,我們基于Faster R-CNN檢測(cè)特征和蒙特卡羅采樣設(shè)計(jì)出強(qiáng)化注意力機(jī)制;之后在序列優(yōu)化階段,引入折扣因子和TF-IDF因子改進(jìn)策略梯度的評(píng)估函數(shù),使得生成題注時(shí)具有更強(qiáng)語(yǔ)義性的單詞有更大的獎(jiǎng)賞值,從而貢獻(xiàn)出更多的梯度信息,更好地引導(dǎo)序列優(yōu)化??傮w上,我們的方法實(shí)現(xiàn)了圖像和語(yǔ)句之間更好的細(xì)粒度語(yǔ)義匹配。通過(guò)在MS COCO上的實(shí)驗(yàn),我們驗(yàn)證了方法設(shè)計(jì)的有效性。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3638

    瀏覽量

    134426
  • 序列
    +關(guān)注

    關(guān)注

    0

    文章

    70

    瀏覽量

    19555
  • 蒙特卡羅
    +關(guān)注

    關(guān)注

    0

    文章

    11

    瀏覽量

    21184

原文標(biāo)題:一種基于強(qiáng)化注意力機(jī)制和序列優(yōu)化的自動(dòng)化圖像題注方法

文章出處:【微信號(hào):SRA2009,微信公眾號(hào):深圳市機(jī)器人協(xié)會(huì)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    深度分析NLP中的注意力機(jī)制

    注意力機(jī)制越發(fā)頻繁的出現(xiàn)在文獻(xiàn)中,因此對(duì)注意力機(jī)制的學(xué)習(xí)、掌握與應(yīng)用顯得十分重要。本文便對(duì)注意力機(jī)制
    的頭像 發(fā)表于 02-17 09:18 ?3854次閱讀

    注意力機(jī)制的誕生、方法及幾種常見(jiàn)模型

    簡(jiǎn)而言之,深度學(xué)習(xí)中的注意力機(jī)制可以被廣義地定義為一個(gè)描述重要性的權(quán)重向量:通過(guò)這個(gè)權(quán)重向量為了預(yù)測(cè)或者推斷一個(gè)元素,比如圖像中的某個(gè)像素或句子中的某個(gè)單詞,我們使用注意力向量定量地估
    的頭像 發(fā)表于 03-12 09:49 ?4.1w次閱讀

    注意力機(jī)制或?qū)⑹俏磥?lái)機(jī)器學(xué)習(xí)的核心要素

    目前注意力機(jī)制已是深度學(xué)習(xí)里的大殺器,無(wú)論是圖像處理、語(yǔ)音識(shí)別還是自然語(yǔ)言處理的各種不同類型的任務(wù)中,都很容易遇到注意力模型的身影。
    發(fā)表于 05-07 09:37 ?1305次閱讀

    基于注意力機(jī)制的深度學(xué)習(xí)模型AT-DPCNN

    情感分析是自然語(yǔ)言處理領(lǐng)域的一個(gè)重要分支,卷積神經(jīng)網(wǎng)絡(luò)(CNN)在文本情感分析方面取得了較好的效果,但其未充分提取文本信息中的關(guān)鍵情感信息。為此,建立一種基于注意力機(jī)制的深度學(xué)習(xí)模型AT-
    發(fā)表于 03-17 09:53 ?12次下載
    基于<b class='flag-5'>注意力</b><b class='flag-5'>機(jī)制</b>的深度學(xué)習(xí)模型AT-DPCNN

    基于注意力機(jī)制和多尺度特征融合的網(wǎng)絡(luò)結(jié)構(gòu)

    目前多數(shù)利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像超分辨率重建的方法忽視對(duì)自然圖像固有屬性的捕捉,并且僅在單一尺度下提取特征。針對(duì)該問(wèn)題,提出一種基于注意力機(jī)制
    發(fā)表于 03-22 11:18 ?16次下載
    基于<b class='flag-5'>注意力</b><b class='flag-5'>機(jī)制</b>和多尺度特征<b class='flag-5'>融合</b>的網(wǎng)絡(luò)結(jié)構(gòu)

    基于空間/通道注意力機(jī)制的化學(xué)結(jié)構(gòu)圖像識(shí)別方法

    基于傳統(tǒng)圖像處理技術(shù)與流水線方式的化學(xué)結(jié)構(gòu)圖像識(shí)別方法通常依賴于人工設(shè)計(jì)的特征,導(dǎo)致識(shí)別準(zhǔn)確率較低。針對(duì)該問(wèn)題,提岀一種基于空間注意力機(jī)制與通道注意
    發(fā)表于 03-22 15:20 ?7次下載
    基于空間/通道<b class='flag-5'>注意力</b><b class='flag-5'>機(jī)制</b>的化學(xué)結(jié)構(gòu)<b class='flag-5'>圖像識(shí)別方法</b>

    融合雙層多頭自注意力與CNN的回歸模型

    針對(duì)現(xiàn)有文本情感分析方法存在的無(wú)法高效捕捉相關(guān)文本情感特征從而造成情感分析效果不佳的問(wèn)題提出一種融合雙層多頭自注意力與卷積神經(jīng)網(wǎng)絡(luò)(CNN)的回歸模型 DLMA-CNN。采用多頭自注意力
    發(fā)表于 03-25 15:16 ?6次下載
    <b class='flag-5'>融合</b>雙層多頭自<b class='flag-5'>注意力</b>與CNN的回歸模型

    基于層次注意力機(jī)制的多模態(tài)圍堵情感識(shí)別模型

    識(shí)別模型。在音頻模態(tài)中加人頻率注意力機(jī)制學(xué)習(xí)頻域上下文信息,利用多模態(tài)注意力機(jī)制將視頻特征與音頻特征進(jìn)行融合,依據(jù)改進(jìn)的損失函數(shù)對(duì)模態(tài)缺失問(wèn)
    發(fā)表于 04-01 11:20 ?9次下載
    基于層次<b class='flag-5'>注意力</b><b class='flag-5'>機(jī)制</b>的多模態(tài)圍堵情感識(shí)別模型

    結(jié)合注意力機(jī)制的跨域服裝檢索方法

    針對(duì)跨域服裝檢索中服裝商品圖像拍攝嚴(yán)格約束光照、背景等條件,而用戶圖像源自復(fù)雜多變的日常生活場(chǎng)景,難以避免背景干擾以及視角、姿態(tài)引起的服裝形變等問(wèn)題。提出一種結(jié)合注意力機(jī)制的跨域服裝檢
    發(fā)表于 05-12 14:19 ?2次下載

    基于注意力機(jī)制等的社交網(wǎng)絡(luò)熱度預(yù)測(cè)模型

    基于注意力機(jī)制等的社交網(wǎng)絡(luò)熱度預(yù)測(cè)模型
    發(fā)表于 06-07 15:12 ?14次下載

    基于多通道自注意力機(jī)制的電子病歷架構(gòu)

    基于多通道自注意力機(jī)制的電子病歷架構(gòu)
    發(fā)表于 06-24 16:19 ?75次下載

    基于注意力機(jī)制的跨域服裝檢索方法綜述

    基于注意力機(jī)制的跨域服裝檢索方法綜述
    發(fā)表于 06-27 10:33 ?2次下載

    基于注意力機(jī)制的新聞文本分類模型

    基于注意力機(jī)制的新聞文本分類模型
    發(fā)表于 06-27 15:32 ?30次下載

    基于非對(duì)稱注意力機(jī)制殘差網(wǎng)絡(luò)的圖像檢測(cè)

    基于非對(duì)稱注意力機(jī)制殘差網(wǎng)絡(luò)的圖像檢測(cè)
    發(fā)表于 07-05 15:29 ?9次下載

    計(jì)算機(jī)視覺(jué)中的注意力機(jī)制

    計(jì)算機(jī)視覺(jué)中的注意力機(jī)制 卷積神經(jīng)網(wǎng)絡(luò)中常用的Attention 參考 注意力機(jī)制簡(jiǎn)介與分類 注意力機(jī)
    發(fā)表于 05-22 09:46 ?0次下載
    計(jì)算機(jī)視覺(jué)中的<b class='flag-5'>注意力</b><b class='flag-5'>機(jī)制</b>
    RM新时代网站-首页