一、什么是生成式大模型?
生成式大模型(一般簡稱大模型LLMs)是指能用于創(chuàng)作新內(nèi)容,例如文本、圖片、音頻以及視頻的一類深度學(xué)
習(xí)模型。相比普通深度學(xué)習(xí)模型,主要有兩點不同:
二、大模型是怎么讓生成的文本豐富而不單調(diào)的呢?
• 大模型(LLMs)進階面
• 一、什么是生成式大模型?
• 二、大模型是怎么讓生成的文本豐富而不單調(diào)的呢?
• 三、LLMs 復(fù)讀機問題
• 3.1 什么是 LLMs 復(fù)讀機問題?
• 3.2 為什么會出現(xiàn) LLMs 復(fù)讀機問題?
• 3.3 如何緩解 LLMs 復(fù)讀機問題?
• 3.3.1 Unlikelihood Training
• 3.3.2 引入噪聲
• 3.3.3 Repetition Penalty
• 3.3.4 Contrastive Search
• 3.3.5 Beam Search
• 3.3.6 TopK sampling
• 3.3.7 Nucleus sampler
• 3.3.8 Temperature
• 3.3.9 No repeat ngram size
• 3.3.10 重復(fù)率指標檢測
• 3.3.11 后處理和過濾
• 3.3.12 人工干預(yù)和控制
• 四、llama 系列問題
• 4.1 llama 輸入句子長度理論上可以無限長嗎?
• 五、什么情況用Bert模型,什么情況用LLaMA、ChatGLM類大模型,咋選?
• 六、各個專業(yè)領(lǐng)域是否需要各自的大模型來服務(wù)?
• 七、如何讓大模型處理更長的文本?
• 致謝
1. 模型參數(shù)量更大,參數(shù)量都在Billion級別;
2. 可通過條件或上下文引導(dǎo),產(chǎn)生生成式的內(nèi)容(所謂的prompt engineer就是由此而來)。
1. 從訓(xùn)練角度來看:
a. 基于Transformer的模型參數(shù)量巨大,有助于模型學(xué)習(xí)到多樣化的語言模式與結(jié)構(gòu);
b. 各種模型微調(diào)技術(shù)的出現(xiàn),例如P-Tuning、Lora,讓大模型微調(diào)成本更低,也可以讓模型在垂直領(lǐng)域
有更強的生成能力;
掃碼加
查看更多c. 在訓(xùn)練過程中加入一些設(shè)計好的loss,也可以更好地抑制模型生成單調(diào)內(nèi)容;
2. 從推理角度來看:
a. 基于Transformer的模型可以通過引入各種參數(shù)與策略,例如temperature,nucleus samlper來改變每
次生成的內(nèi)容。
三、LLMs 復(fù)讀機問題
3.1 什么是 LLMs 復(fù)讀機問題?
LLMs 復(fù)讀機問題:
1. 字符級別重復(fù),指大模型針對一個字或一個詞重復(fù)不斷的生成
例如在電商翻譯場景上,會出現(xiàn)“steckdose steckdose steckdose steckdose steckdose steckdose steckdose
steckdose...”;
1. 語句級別重復(fù),大模型針對一句話重復(fù)不斷的生成
例如在多模態(tài)大模型圖片理解上,生成的結(jié)果可能會不斷重復(fù)圖片的部分內(nèi)容,比如“這是一個杯子,這是一個
杯子...”;
1. 章節(jié)級別重復(fù),多次相同的prompt輸出完全相同或十分近似的內(nèi)容,沒有一點創(chuàng)新性的內(nèi)容
比如你讓大模型給你寫一篇關(guān)于春天的小作文,結(jié)果發(fā)現(xiàn)大模型的生成結(jié)果千篇一律,甚至近乎一摸一樣。
1. 大模型針對不同的prompt也可能會生成類似的內(nèi)容,且有效信息很少、信息熵偏低