RM平台,rm体育平台

引言

之前的文章和大家詳細的介紹了靜態(tài)的詞向量表示word2vec理論加實戰(zhàn)，但是word2vec存在一個很大的問題，由于是靜態(tài)詞向量所以無法表示一詞多義，對于每個詞只能有一個固定的向量表示，今天我們來介紹一個給NLP領域帶來革新的預訓練語言大模型Bert，對比word2vec和Glove詞向量模型，Bert是一個動態(tài)的詞向量語言模型，接下來將帶領大家一起來聊聊Bert的前世今生，感受一下Bert在自然語言處理領域的魅力吧。

1 預訓練的演化史

NLP里面的Word Embedding預訓練技術(shù)的演化史，從最初的靜態(tài)詞向量word2vec，到動態(tài)預訓練詞向量ELMO和GPT,再到今天的主角Bert預訓練模型，這個演變過程也是整個NLP技術(shù)的發(fā)展歷程，Bert的橫空問世直接刷新了NLP領域11項基本任務的最佳成績，成為最受NLP算法工程師青睞的算法模型。

1.1 onehot編碼

one-hot編碼顧名思義，又稱為獨熱編碼表示，之前的文章中有對onehot詞向量做詳細的介紹：

【NLP修煉系列之詞向量（一）】詳解one-hot編碼&實戰(zhàn)

1.2 word2vec詞向量

word2vec是一種靜態(tài)的詞向量表示，word2vec存在最大的問題就是由于它是靜態(tài)詞向量表示導致不能表示一詞多義的情況，之前的文章有對word2vec原理和實戰(zhàn)做詳解，想了解的小伙伴可以回顧一下：

【NLP修煉系列之詞向量（二）】詳解Word2Vec原理篇

1.3 ELMO預訓練模型

對比word2vec靜態(tài)詞向量的缺點，為了解決這種靜態(tài)詞向量一詞多義問題，2018年NAACL上發(fā)表了paper《Deep contextualized word representations》提出了ELMO預訓練語言模型。

ELMO模型結(jié)構(gòu)：

ELMO的核心思想：使用兩層BiLSTM模型來學習文本深度學習層次表示，最后針對每個單詞輸出三個向量，針對于下游任務可以使用加權(quán)的方式來表征文本，一定程度上解決了一詞多義的問題。

1.4 GPT預訓練模型

GPT的全稱是"Generative Pre-Traingng Transformer"的簡稱，是一個生成式預訓練模型，由論文《Deep contextualized word representations》提出。

GPT模型結(jié)構(gòu)圖：

GPT的核心思想：通過二段式的訓練，第一個階段是利用語言模型進行預訓練（無監(jiān)督形式），第二階段通過 Fine-tuning 的模式解決下游任務（監(jiān)督模式下）。

圖（左）文章中使用的 Transformer 架構(gòu)和訓練目標。（右）用于微調(diào)不同任務的輸入轉(zhuǎn)換，將所有結(jié)構(gòu)化輸入轉(zhuǎn)換為令牌序列，由預訓練模型處理，然后是線性+softmax 層。

GPT和ELMO模型一樣都是兩階段的預訓練模型，但是不同的是，GPT特征抽取器不是用的RNN，而是用的transformer，它的特征抽取能力要強于RNN，其次GPT的預訓練雖然仍然是以語言模型作為目標任務，但是采用的是自回歸模型，單向的transformer結(jié)構(gòu)，只會根據(jù)上文信息來表示W(wǎng)ord Embedding，是一個生成式模型。

1.4 Bert預訓練模型

BERT和ELMO、GPT有密切關系，三者直接有著共同點和不同點，先給出模型結(jié)構(gòu)，后面我們詳細的介紹一下今天的主角Bert預訓練語言模型。

總結(jié)一下預訓練的幾個演變模型的關系：

one-hot編碼是離散的向量表示，離散編碼存在諸多的問題，例如無法衡量相似數(shù)據(jù)之間的相似關系等。

word2vec是靜態(tài)的的詞向量表示，靜態(tài)詞向量之前也說明了存在著很多的問題，其中最大的缺點就是不能解決一詞多義的問題。

相比較word2vec而言ELMO，Bert，GPT都是動態(tài)的詞向量表示，其中ELMO不僅使用了詞向量表示詞，還加入了句法特征向量和語義特征向量三層embedding組合來表示詞，ELMO主要特點是使用了LSTM的特征提取器，自左到右和自右到左雙向的使用上下文來語義表示，如果ELMO將LSTM改成Transformer特征提取器就變成了Bert結(jié)構(gòu)了。

GPT使用的特征提取器是Transformer，但是是自左到右單向僅僅使用上文語義的自回歸生成模型，如果GPT也是使用自左到右和自右到左的雙向提取上下文語義就變成了Bert結(jié)構(gòu)了。

那么這么看來Bert的結(jié)構(gòu)就比較清晰了，Bert綜合了以上左右模型的“優(yōu)點”吧，動態(tài)的詞向量語義表示，使用了強大的Transformer特征提取器，同時是自左到右和自右到左雙向的使用上下文來語義表示，可以說Bert是集大成者。

2 Bert概述

Bert全稱是“Bidirectional Encoder Representations from Transformers”，Bert是一種預訓練語言模型（pre-trained language model, PLM）。Google團隊在2018年發(fā)表文章《BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding》提出了Bert預訓練語言模型，可以說Bert的出現(xiàn)轟動了整個NLP領域，自然語言處理領域開始進入一個新的階段。

Bert和ELMO，GPT都一樣是兩階段的任務（預訓練+微調(diào)）：

預訓練階段(pre-training)：模型將使用大量的無標簽數(shù)據(jù)訓練。

微調(diào)階段(fine-tuning)：BERT模型將用預訓練模型初始化所有參數(shù)，這些參數(shù)將針對于下游任務，比如文本分類，序列標注任務等，微調(diào)階段需要使用有標簽的數(shù)據(jù)進行模型訓練，不同的下游任務可以訓練出不同的模型，但是每次都會使用同一個預訓練模型進行初始化。

2.1 BERT的結(jié)構(gòu)

Bert是基于Transformer實現(xiàn)的，主要是Transformer的Encoder部分，完整架構(gòu)如下：

論文中提到的Bert主要有兩種大小，bert-base和bert-large兩個size，base版一共有110M參數(shù)，large版有340M的參數(shù)，總之Bert有上億的參數(shù)量。

BERT_BASE:L=12,H=768,A=12,TotalParameters=110M.

BERT_LARGE:L=24,H=1024,A=16,TotalParameters=340M.

其中 L：Transformer blocks 層數(shù)；H：hidden size；A：the number of self-attention heads

2.2 Bert的輸入輸出形式

Bert的Embedding層由3個子層求和得到，分別是詞向量層Token Embedings，句子層Segment Embeddings以及位置編碼層Position Embeddings。

Embedding的組成：

Token Embeddings字向量：用來表征不同的詞，以及特殊的tokens，第一個單詞是CLS標志，主要用于之后的分類任務。

Segment Embeddings文本向量：用來區(qū)別兩個句子，來表征這個詞是屬于哪一個句子，作用于兩個句子為輸入的分類任務。

Position Embeddings位置向量：由于出現(xiàn)在文本不同位置的字/詞所攜帶的語義信息存在差異，對不同位置的字/詞分別附加一個不同的向量以作區(qū)分，是隨機初始化訓練出來的結(jié)果。

Bert輸出:

主要輸出各字對應的融合全文語義信息后的向量表示。

3 Bert的預訓練方式

預訓練：預訓練是通過大量無標注的語言文本進行語言模型的訓練，得到一套模型參數(shù)，利用這套參數(shù)對模型進行初始化，再根據(jù)具體任務在現(xiàn)有語言模型的基礎上進行精調(diào)。

預訓練主要分為兩大分支，一支是自編碼語言模型（Autoencoder Language Model），自回歸語言模型（Autoregressive Language Model）。

?自回歸語言模型：?是根據(jù)上文內(nèi)容預測下一個可能的單詞，就是常說的自左向右的語言模型任務，或者反過來也行，就是根據(jù)下文預測前面的單詞。GPT 就是典型的自回歸語言模型。

自編碼語言模型：是對輸入的句子隨機Mask其中的單詞，然后預訓練過程的主要任務之一是根據(jù)上下文單詞來預測這些被Mask掉的單詞，那些被Mask掉的單詞就是在輸入側(cè)加入的噪音。BERT就是典型的自編碼類語言模型。

3.1 MLM掩碼語言模型（Mask Language Model）

因為Bert就是采用自編碼的預訓練模型，MLM就是我們理解的完形填空的問題，隨機掩蓋掉每一個句子中15%的詞，用其上下文來去預測掩蓋的詞，但是在下游任務做微調(diào)的過程中不會出現(xiàn)mask情況，為了解決這一問題論文中提到了一些替換策略：

80%的時間是采用[mask]，mydogishairy→mydogis[MASK]

10%的時間是隨機取一個詞來代替mask的詞，mydogishairy->mydogisapple

10%的時間保持不變，mydogishairy->mydogishairy

3.2 NSP預訓練任務 (Next Sentence Prediction)

NSP任務主要是判斷兩個句子的關系，判斷兩個句子是否是前后句關系，然后用一些特殊的tokens做區(qū)分（在句子開頭加一個 [CLS]，在兩句話之間和句末加 [SEP]）。輸入形式是，開頭是一個特殊符號[CLS]，然后兩個句子之間用[SEP]隔斷。

正樣例：50%的句子B是真是的A后面的句子。

負樣例：50%的句子B是從語料中隨機選取的句子。

4 Bert的微調(diào)

Bert的4個經(jīng)典任務：句子（文本）對匹配、句子（文本）分類、問答系統(tǒng)、序列標注。

（1）句對分類（Sentence Pair Classification tasks）

預測下一句、語義相似度等任務，輸入是兩個句子A和B，中間用[SEP]分隔，最終得到的class label就表示是否下一句或者是否是語義相似的。

（2）單句分類（Single Sentence Classification tasks）

文本分類、情感分析等。輸入就是一個單獨的句子，最終的class label就是表示句子屬于哪一類。

（3）文本問答（Question Answering tasks）

問答任務，輸入是一個問題和問題對應的段落，用[SEP]分隔，這里輸出的結(jié)果就不是某個class label而是答案在給定段落的開始和終止位置，主要用于閱讀理解任務。

（4）序列標注任務（Single Sentence Tagging Tasks）

常見的命名實體識別任務，輸入就是一個單獨的句子，輸出是句子中每個token對應的類別標注。

5 總結(jié)

Bert模型取得這么驚人的效果的前提是用到了強大的Transformer特征提取器，其次是用到了雙向的上下文語義表示，BERT之后衍生了各類改進版BERT，其中改善訓練方式、優(yōu)化模型結(jié)構(gòu)、模型小型化等方法去優(yōu)化Bert，比較典型的有Roberta，AlBert，distilBert等更好，更快，更小的模型。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

GPT

GPT

+關注

關注
0

文章
352

瀏覽量
15342
ELMOS

ELMOS

+關注

關注
8

文章
33

瀏覽量
28825
Transformer

Transformer

+關注

關注
0

文章
143

瀏覽量
5995
自然語言處理

自然語言處理

+關注

關注
1

文章
618

瀏覽量
13552
nlp

nlp

+關注

關注
1

文章
488

瀏覽量
22033
大模型

大模型

+關注

關注
2

文章
2423

瀏覽量
2640

原文標題：【NLP修煉系列之Bert（一）】Bert的前世今生-理論篇

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉(zhuǎn)載請注明出處。

一文詳解知識增強的語言預訓練模型

，在實際應用場景中效果不好。為了解決這個問題，將知識注入到PLMs中已經(jīng)成為一個非?；钴S的研究領域。本次分享將介紹三篇知識增強的預訓練

發(fā)表于 04-02 17:21 ?9608次閱讀

【大語言模型：原理與工程實踐】大語言模型的基礎技術(shù)

特定任務對模型進行微調(diào)。這種方法的成功不僅是自然語言處理發(fā)展的一個轉(zhuǎn)折點，還為許多現(xiàn)實世界的應用場帶來了前所未有的性能提升。從廣為人知的GP

發(fā)表于 05-05 12:17

【大語言模型：原理與工程實踐】大語言模型的預訓練

訓練數(shù)據(jù)時，數(shù)量、質(zhì)量和多樣性三者缺一不可。數(shù)據(jù)的多樣性對于大語言模型至關重要，這主要體現(xiàn)在數(shù)據(jù)的類別和來源兩個方面。豐富的數(shù)據(jù)類別能夠

發(fā)表于 05-07 17:10

用圖解的方式，生動易懂地講解了BERT和ELMo等模型

最新的一個里程碑是BERT的發(fā)布，這一事件被描述為NLP新時代的開始。BERT是

發(fā)表于 12-16 10:17 ?1.1w次閱讀

圖解BERT預訓練模型！

BERT的發(fā)布是這個領域發(fā)展的最新的里程碑之一，這個事件標志著NLP 新時代的開始。BERT模型

發(fā)表于 11-24 10:08 ?3658次閱讀

基于BERT的中文科技NLP預訓練模型

深度學習模型應用于自然語言處理任務時依賴大型、高質(zhì)量的人工標注數(shù)據(jù)集。為降低深度學習模型對大型數(shù)據(jù)集的依賴，提出一種基于BERT的中文科技自

發(fā)表于 05-07 10:08 ?14次下載

如何向大規(guī)模預訓練語言模型中融入知識？

本文關注于向大規(guī)模預訓練語言模型（如RoBERTa、BERT等）中融入知識。

發(fā)表于 06-23 15:07 ?4228次閱讀

如何向大規(guī)模<b class='flag-5'>預</b><b class='flag-5'>訓練</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>中融入知識？

2021 OPPO開發(fā)者大會：NLP預訓練大模型

2021 OPPO開發(fā)者大會：NLP預訓練大模型 2021 OPPO開發(fā)者大會上介紹了融合知識的NLP預

發(fā)表于 10-27 14:18 ?1753次閱讀

如何實現(xiàn)更綠色、經(jīng)濟的NLP預訓練模型遷移

NLP中，預訓練大模型Finetune是一種非常常見的解決問題的范式。利用在海量文本上預

發(fā)表于 03-21 15:33 ?2194次閱讀

Multilingual多語言預訓練語言模型的套路

Facebook在Crosslingual language model pretraining（NIPS 2019）一文中提出XLM預訓練多語言模

發(fā)表于 05-05 15:23 ?2971次閱讀

一種基于亂序語言模型的預訓練模型-PERT

由于亂序語言模型不使用[MASK]標記，減輕了預訓練任務與微調(diào)任務之間的gap，并由于預測空間大小為輸入序列長度，使得計算效率高于掩碼語言

發(fā)表于 05-10 15:01 ?1539次閱讀

NLP入門之Bert的前世今生

對于每個詞只能有一個固定的向量表示，今天我們來介紹一個給NLP

發(fā)表于 02-22 10:29 ?931次閱讀

PyTorch教程-15.9。預訓練 BERT 的數(shù)據(jù)集

實驗室在 SageMaker Studio Lab 中打開筆記本為了預訓練第 15.8 節(jié)中實現(xiàn)的 BERT 模型，我們需要以理想的格式生成數(shù)據(jù)集，以促進兩項

發(fā)表于 06-05 15:44 ?798次閱讀

預訓練模型的基本原理和應用

預訓練模型（Pre-trained Model）是深度學習和機器學習領域中的一個重要概念，尤其是

發(fā)表于 07-03 18:20 ?2761次閱讀

大語言模型的預訓練

能力，逐漸成為NLP領域的研究熱點。大語言模型的預訓練是這一

發(fā)表于 07-11 10:11 ?417次閱讀

RM新时代网站-首页

搜索歷史

一個給NLP領域帶來革新的預訓練語言大模型Bert

評論

一文詳解知識增強的語言預訓練模型

【大語言模型：原理與工程實踐】大語言模型的基礎技術(shù)

【大語言模型：原理與工程實踐】大語言模型的預訓練

用圖解的方式，生動易懂地講解了BERT和ELMo等模型

圖解BERT預訓練模型！

基于BERT的中文科技NLP預訓練模型

如何向大規(guī)模預訓練語言模型中融入知識？

2021 OPPO開發(fā)者大會：NLP預訓練大模型

如何實現(xiàn)更綠色、經(jīng)濟的NLP預訓練模型遷移

Multilingual多語言預訓練語言模型的套路

一種基于亂序語言模型的預訓練模型-PERT

NLP入門之Bert的前世今生

PyTorch教程-15.9。預訓練 BERT 的數(shù)據(jù)集

預訓練模型的基本原理和應用

大語言模型的預訓練