Python知識分享網(wǎng) - 專業(yè)的Python學(xué)習(xí)網(wǎng)站 學(xué)Python,上Python222
大模型(LLMs)進階面 PDF 下載
匿名網(wǎng)友發(fā)布于:2025-03-28 07:59:53
(侵權(quán)舉報)
(假如點擊沒反應(yīng),多刷新兩次就OK!)

 

一、什么是生成式大模型?
生成式大模型(一般簡稱大模型LLMs)是指能用于創(chuàng)作新內(nèi)容,例如文本、圖片、音頻以及視頻的一類深度學(xué)
習(xí)模型。相比普通深度學(xué)習(xí)模型,主要有兩點不同:
二、大模型是怎么讓生成的文本豐富而不單調(diào)的呢?
大模型(LLMs)進階面
一、什么是生成式大模型?
二、大模型是怎么讓生成的文本豐富而不單調(diào)的呢?
三、LLMs 復(fù)讀機問題
3.1 什么是 LLMs 復(fù)讀機問題?
3.2 為什么會出現(xiàn) LLMs 復(fù)讀機問題?
3.3 如何緩解 LLMs 復(fù)讀機問題?
3.3.1 Unlikelihood Training
3.3.2 引入噪聲
3.3.3 Repetition Penalty
3.3.4 Contrastive Search
3.3.5 Beam Search
3.3.6 TopK sampling
3.3.7 Nucleus sampler
3.3.8 Temperature
3.3.9 No repeat ngram size
3.3.10 重復(fù)率指標檢測
3.3.11 后處理和過濾
3.3.12 人工干預(yù)和控制
四、llama 系列問題
4.1 llama 輸入句子長度理論上可以無限長嗎?
五、什么情況用Bert模型,什么情況用LLaMAChatGLM類大模型,咋選?
六、各個專業(yè)領(lǐng)域是否需要各自的大模型來服務(wù)?
七、如何讓大模型處理更長的文本?
致謝
1. 模型參數(shù)量更大,參數(shù)量都在Billion級別;
2. 可通過條件或上下文引導(dǎo),產(chǎn)生生成式的內(nèi)容(所謂的prompt engineer就是由此而來)。
1. 從訓(xùn)練角度來看:
a. 基于Transformer的模型參數(shù)量巨大,有助于模型學(xué)習(xí)到多樣化的語言模式與結(jié)構(gòu);
b. 各種模型微調(diào)技術(shù)的出現(xiàn),例如P-Tuning、Lora,讓大模型微調(diào)成本更低,也可以讓模型在垂直領(lǐng)域
有更強的生成能力;
掃碼加
查看更多c. 在訓(xùn)練過程中加入一些設(shè)計好的loss,也可以更好地抑制模型生成單調(diào)內(nèi)容;
2. 從推理角度來看:
a. 基于Transformer的模型可以通過引入各種參數(shù)與策略,例如temperature,nucleus samlper來改變每
次生成的內(nèi)容。
三、LLMs 復(fù)讀機問題
3.1 什么是 LLMs 復(fù)讀機問題?
LLMs 復(fù)讀機問題:
1. 字符級別重復(fù),指大模型針對一個字或一個詞重復(fù)不斷的生成
例如在電商翻譯場景上,會出現(xiàn)“steckdose steckdose steckdose steckdose steckdose steckdose steckdose
steckdose...”;
1. 語句級別重復(fù),大模型針對一句話重復(fù)不斷的生成
例如在多模態(tài)大模型圖片理解上,生成的結(jié)果可能會不斷重復(fù)圖片的部分內(nèi)容,比如這是一個杯子,這是一個
杯子...”;
1. 章節(jié)級別重復(fù),多次相同的prompt輸出完全相同或十分近似的內(nèi)容,沒有一點創(chuàng)新性的內(nèi)容
比如你讓大模型給你寫一篇關(guān)于春天的小作文,結(jié)果發(fā)現(xiàn)大模型的生成結(jié)果千篇一律,甚至近乎一摸一樣。
1. 大模型針對不同的prompt也可能會生成類似的內(nèi)容,且有效信息很少、信息熵偏低