Python知識分享網(wǎng) - 專業(yè)的Python學習網(wǎng)站 學Python,上Python222
大模型(LLMs)訓練集面 PDF 下載
匿名網(wǎng)友發(fā)布于:2025-04-25 09:47:02
(侵權(quán)舉報)
(假如點擊沒反應,多刷新兩次就OK!)

大模型(LLMs)訓練集面 PDF 下載 圖1

 

 

資料內(nèi)容:

 

 

1. SFT(有監(jiān)督微調(diào))的數(shù)據(jù)集格式?
一問一答
 
2. RM(獎勵模型)的數(shù)據(jù)格式?
一個問題 + 一條好回答樣例 + 一條差回答樣例
 
3. PPO(強化學習)的數(shù)據(jù)格式?
理論上來說,不需要新增數(shù)據(jù)。需要提供一些prompt,可以直接用sft階段的問。另外,需要限制
模型不要偏離原模型太遠(ptx loss),也可以直接用sft的數(shù)據(jù)。
 
4. 找數(shù)據(jù)集哪里找?
推薦Alpaca-COT,數(shù)據(jù)集整理的非常全,眼花繚亂。
 
5. 微調(diào)需要多少條數(shù)據(jù)?
取決于預訓練數(shù)據(jù)和微調(diào)任務的數(shù)據(jù)分布是否一致,分布一致,100條就夠,分布差異大就需要多
些數(shù)據(jù),千條或者萬條以上為佳。
自己的任務復雜或者下游任務行業(yè)比較冷門,如藥品名稱識別任務,則需要較多監(jiān)督數(shù)據(jù)。還有微
調(diào)大模型時,一遍是記不住的。100條的微調(diào)數(shù)據(jù),epochs=20才能穩(wěn)定擬合任務要求。
 
6. 有哪些大模型的訓練集?
預訓練數(shù)據(jù)集togethercomputer/RedPajama-Data-1T「紅睡衣」開源計劃總共包括三部分:
預訓練數(shù)據(jù)集RedPajama-Data-1T已開源,包括七個子集,經(jīng)過預處理后得到的token數(shù)量大致可
以匹配Meta在原始LLaMA論文中報告的數(shù)量,并且數(shù)據(jù)預處理相關腳本也已開源。
完整的RedPajama-Data-1T數(shù)據(jù)集需要的存儲容量為壓縮后3TB,解壓后5TB。
CoT微調(diào)數(shù)據(jù)集:Alpaca-CoT 里面包括常用的alpacaCoT等數(shù)據(jù)集,有中文的。
 
7. 進行領域大模型預訓練應用哪些數(shù)據(jù)集比較好?
通過分析發(fā)現(xiàn)現(xiàn)有的開源大模型進行預訓練的過程中會加入數(shù)據(jù)、論文等數(shù)據(jù)。主要是因為這些數(shù)
據(jù)的數(shù)據(jù)質(zhì)量較高,領域相關性比較強,知識覆蓋率(密度)較大,可以讓模型更適應考試。給我
高質(zhì)量、大規(guī)模、高覆蓋度的預訓練數(shù)據(jù)集;
在預訓練數(shù)據(jù)集上訓練出的基礎模型;
指令調(diào)優(yōu)數(shù)據(jù)集和模型,比基本模型更安全、可靠。
掃碼加
查看更多們自己進行大模型預訓練的時候提供了一個參考。同時領域相關的網(wǎng)站內(nèi)容、新聞內(nèi)容也是比較重
要的數(shù)據(jù)。