從理論分析入手把握大規(guī)模神經(jīng)網(wǎng)絡(luò)優(yōu)化的規(guī)律,可以指導(dǎo)實(shí)踐中的超參數(shù)選擇。反過(guò)來(lái),實(shí)踐中的超參數(shù)選擇也可以指導(dǎo)理論分析。本篇文章聚焦于大語(yǔ)言模型,介紹從 GPT 以來(lái)大家普遍使用的訓(xùn)練超參數(shù)的變化。
規(guī)模律研究的是隨著神經(jīng)網(wǎng)絡(luò)規(guī)模的增大,超參數(shù)、性能是如何改變的。規(guī)模律是對(duì)模型、數(shù)據(jù)、優(yōu)化器關(guān)系的深刻刻畫(huà),揭示大模型優(yōu)化時(shí)的普遍規(guī)律。通過(guò)規(guī)模律,我們可以用少量成本在小模型上驗(yàn)證超參數(shù)的選擇和性能的變化情況,繼而外推到大模型上。
在 LLM 中規(guī)模性常常變換模型大小和數(shù)據(jù)規(guī)模,進(jìn)行大量調(diào)參而保持優(yōu)化器不變。故對(duì)于大模型優(yōu)化器而言,規(guī)模性是其性能很好的展現(xiàn)(性能上限)。設(shè)計(jì)更好的優(yōu)化器(用更少的數(shù)據(jù)達(dá)到相同的性能)就是在挑戰(zhàn)現(xiàn)有的規(guī)模律。
神經(jīng)網(wǎng)絡(luò)規(guī)模律
大語(yǔ)言模型規(guī)模律
對(duì)不同的 沒(méi)有嘗試使用不同的學(xué)習(xí)率調(diào)整策略(正確的學(xué)習(xí)率調(diào)整策略對(duì)訓(xùn)練影響很大) [KMH+20] 使用的 較小。規(guī)模性存在曲率,導(dǎo)致用太小的得到的結(jié)論不準(zhǔn)確。(規(guī)模性存在曲率也說(shuō)明了最終該規(guī)律會(huì)失效)
5. 模型的遷移泛化能力與在訓(xùn)練數(shù)據(jù)集上的泛化能力正相關(guān)。
6. 更大的模型收斂更快(更少的數(shù)據(jù)量達(dá)到相同的損失)
大語(yǔ)言模型規(guī)模律拾遺
3.1 涌現(xiàn)是指標(biāo)選擇的結(jié)果,連續(xù)指標(biāo)與參數(shù)規(guī)模符合冪律分布
3.2 大模型需要更小的學(xué)習(xí)率
通過(guò)上文中的大模型參數(shù)經(jīng)驗(yàn),我們很容易就發(fā)現(xiàn)大模型需要更小的學(xué)習(xí)率。[YHB+22] 在下左圖中展示了這點(diǎn)。其認(rèn)為這是為了控制總方差在一定值(方差隨參數(shù)量以 增大)。對(duì)于這點(diǎn)筆者暫未找到詳細(xì)的理論解釋。[YHB+22] 中還提出了一種新的初始化和參數(shù)設(shè)置方法以保證不同規(guī)模的模型可以使用相同的學(xué)習(xí)率,這里不再展開(kāi)。
3.3 使用重復(fù)數(shù)據(jù)訓(xùn)練時(shí)(multi-epoch),應(yīng)該用更多的輪次訓(xùn)練較小的模型
3.4 使用重復(fù)數(shù)據(jù)訓(xùn)練對(duì)訓(xùn)練幫助很小
3.5 訓(xùn)練比 Chinchilla 規(guī)模律更小的模型
Chinchilla 規(guī)模律的出發(fā)點(diǎn)是給定計(jì)算量,通過(guò)分配參數(shù)量和數(shù)據(jù)量最小化損失值。換言之,給定要達(dá)到的損失值,最小化計(jì)算量。然而在實(shí)際中,訓(xùn)練一個(gè)小模型能帶來(lái)計(jì)算量(代表訓(xùn)練開(kāi)銷(xiāo))以外的收益:
小模型部署后進(jìn)行推理成本更小 小模型訓(xùn)練所需的集群數(shù)量更少
訓(xùn)練所需的數(shù)據(jù)量不夠(正如 [XFZ+23] 指出的,我們正在用盡互聯(lián)網(wǎng)上所有的 tokens)。 小集群上訓(xùn)練小模型需要更長(zhǎng)的訓(xùn)練時(shí)間(Llama2 500k its);如果使用大集群訓(xùn)練則更困難(比如要使用更大的批量大小才能提高效率)。
LLM 的超參選擇
4.1 GPT(117M):
Adam lr:2.5e-4 sch: warmup linear 2k, cosine decay to 0 bs: 32k=64x512 its: 3M (100e) L2: 0.01 init: N(0, 0.02)
Adam(0.9,0.999) lr: 1e-4 sch: warmup 10k, linear decay to 0 bs: 128k=256x512 its: 1M (40e) L2: 0.01 dropout: 0.1
4.3 Megatron-LM(GPT2 8.3B & Bert 3.9B):
Adam lr: 1.5e-4 sch: warmup 2k, cosine decay to 1e-5 bs: 512k=512x1024 its: 300k L2: 0.01 dropout: 0.1 gradient norm clipping: 1.0
AdaFactor lr: 1e-2 sch: warmup constant 10k, sqrt decay bs: 65k=128x512 its: 500k (1e)
Adam(0.9, 0.95, eps=1e-8) lr & final bs: sch: warmup linear 375m tokens, cosine decay to 0.1xlr 260b tokens, continue training with 0.1xlr bs sch: 32k to final bs gradually in 4-12B tokens seq length: 2048 data: 680B gradient norm clipping: 1.0
Adam (Adafactor unstable beyond 7.1B) lr & final bs: sch: warmup 1.5k, cosine decay to 0.1xlr gradient norm clipping: 0.25 for 7.1B & 280B, 1.0 for the rest
AdamW lr: 1e-4 bs: 1.5M to 3M others follow Gopher
Adam(0.9, 0.95) (SGD plateau quickly) lr & bs: sch: warmup linear 2k, decay to 0.1xlr L2: 0.1 dropout: 0.1 gradient norm clipping: 1.0 init: N(0, 0.006), output layer N(0, 0.006*)
Adafactor(0.9, 1-) lr 1e-2
bs: 1M (<50k), 2M (<115k), 4M (<255k)
dropout: 0.1 gradient norm clipping: 1.0 its: 255k init: N(0, embedding N(0,1)
AdamW(0.9, 0.95) lr & bs: sch: warmup 2k, decay to 0.1xlr L2: 0.1 gradient norm clipping: 1.0
AdamW(0.9, 0.95, eps=1e-5) lr sch: warmup 2k, decay to 0.1xlr L2: 0.1 gradient norm clipping: 1.0
參考文獻(xiàn)
[ADV+23] Why do we need weight decay in modern deep learning?
[CGR+23] Broken neural scaling laws
[HBM+22] Training Compute-Optimal Large Language Models
[KMH+20] Scaling Laws for Neural Language Models
[SMK23] Are Emergent Abilities of Large Language Models a Mirage?
[YHB+22] Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer
[MRB+23] Scaling Data-Constrained Language Models
[XFZ+23] To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis
[H23]Go smol or go home
原文標(biāo)題:大規(guī)模神經(jīng)網(wǎng)絡(luò)優(yōu)化:超參最佳實(shí)踐與規(guī)模律
文章出處:【微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
物聯(lián)網(wǎng)
+關(guān)注
關(guān)注
2909文章
44534瀏覽量
372690
原文標(biāo)題:大規(guī)模神經(jīng)網(wǎng)絡(luò)優(yōu)化:超參最佳實(shí)踐與規(guī)模律
文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論