1
LLama
[GPT3] 使用RMSNorm(即Root Mean square Layer Normalization)對輸入數(shù)據(jù)進行標(biāo)準化,RMSNorm可以參考論文:Root mean square layer normalization。
[PaLM]使用激活函數(shù)SwiGLU, 該函數(shù)可以參考PALM論文:Glu variants improve transformer。
[GPTNeo]使用Rotary Embeddings進行位置編碼,該編碼可以參考論文 Roformer: Enhanced transformer with rotary position embedding。
使用了AdamW優(yōu)化器,并使用cosine learning rate schedule,
使用因果多頭注意的有效實現(xiàn)來減少內(nèi)存使用和運行時間。該實現(xiàn)可在xformers
2
Palm
采用SwiGLU激活函數(shù):用于 MLP 中間激活,采用SwiGLU激活函數(shù):用于 MLP 中間激活,因為與標(biāo)準 ReLU、GELU 或 Swish 激活相比,《GLU Variants Improve Transformer》論文里提到:SwiGLU 已被證明可以顯著提高模型效果
提出Parallel Layers:每個 Transformer 結(jié)構(gòu)中的“并行”公式:與 GPT-J-6B 中一樣,使用的是標(biāo)準“序列化”公式。并行公式使大規(guī)模訓(xùn)練速度提高了大約 15%。消融實驗顯示在 8B 參數(shù)量下模型效果下降很小,但在 62B 參數(shù)量下沒有模型效果下降的現(xiàn)象。
Multi-Query Attention:每個頭共享鍵/值的映射,即“key”和“value”被投影到 [1, h],但“query”仍被投影到形狀 [k, h],這種操作對模型質(zhì)量和訓(xùn)練速度沒有影響,但在自回歸解碼時間上有效節(jié)省了成本。
使用RoPE embeddings:使用的不是絕對或相對位置嵌入,而是RoPE,是因為 RoPE 嵌入在長文本上具有更好的性能 ,
采用Shared Input-Output Embeddings:輸入和輸出embedding矩陣是共享的,這個我理解類似于word2vec的輸入W和輸出W':
3
GLM
Layer Normalization的順序和殘差連接被重新排列,
用于輸出標(biāo)記預(yù)測的單個線性層;
ReLU s替換為GELU s
二維位置編碼
4
BLOOM
使用 ALiBi 位置嵌入,它根據(jù)鍵和查詢的距離直接衰減注意力分數(shù)。與原始的 Transformer 和 Rotary 嵌入相比,它可以帶來更流暢的訓(xùn)練和更好的下游性能。ALiBi不會在詞嵌入中添加位置嵌入;相反,它會使用與其距離成比例的懲罰來偏向查詢鍵的注意力評分。
Embedding Layer Norm 在第一個嵌入層之后立即使用,以避免訓(xùn)練不穩(wěn)定。
使用了 25 萬個標(biāo)記的詞匯表。使用字節(jié)級 BPE。這樣,標(biāo)記化永遠不會產(chǎn)生未知標(biāo)記
兩個全連接層:
5
GPT
GPT 使用 Transformer 的 Decoder 結(jié)構(gòu),并對 Transformer Decoder 進行了一些改動,原本的 Decoder 包含了兩個 Multi-Head Attention 結(jié)構(gòu),GPT 只保留了 Mask Multi-Head Attention,如下圖所示:
審核編輯:劉清
-
電源優(yōu)化器
+關(guān)注
關(guān)注
0文章
11瀏覽量
5407 -
GPT
+關(guān)注
關(guān)注
0文章
352瀏覽量
15342 -
BPEKF算法
+關(guān)注
關(guān)注
0文章
2瀏覽量
1046 -
MLP
+關(guān)注
關(guān)注
0文章
57瀏覽量
4241 -
LLM
+關(guān)注
關(guān)注
0文章
286瀏覽量
327
原文標(biāo)題:LLM底座模型:LLaMA、Palm、GLM、BLOOM、GPT結(jié)構(gòu)對比
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論