資料內容:
1. 如果想要在某個模型基礎上做全參數(shù)微調,究竟需要多少顯
存?
一般 n B的模型,最低需要 16-20 n G的顯存。(cpu offload基本不開的情況下)
vicuna-7B為例,官方樣例配置為 4*A100 40G,測試了一下確實能占滿顯存。(global batch size
128,max length 2048)當然訓練時用了FSDP、梯度累積、梯度檢查點等方式降顯存。
2. 為什么SFT之后感覺LLM傻了?
• 原版答案:
SFT的重點在于激發(fā)大模型的能力,SFT的數(shù)據(jù)量一般也就是萬惡之源alpaca數(shù)據(jù)集的52k量級,
相比于預訓練的數(shù)據(jù)還是太少了。
如果抱著灌注領域知識而不是激發(fā)能力的想法,去做SFT的話,可能確實容易把LLM弄傻。
• 新版答案:
指令微調是為了增強(或解鎖)大語言模型的能力。
其真正作用:
指令微調后,大語言模型展現(xiàn)出泛化到未見過任務的卓越能力,即使在多語言場景下也能有不錯表
現(xiàn) 。