Python知識(shí)分享網(wǎng) - 專業(yè)的Python學(xué)習(xí)網(wǎng)站 學(xué)Python,上Python222
大模型(LLMs)強(qiáng)化學(xué)習(xí)—— PPO 面 PDF 下載
匿名網(wǎng)友發(fā)布于:2025-04-21 09:46:43
(侵權(quán)舉報(bào))
(假如點(diǎn)擊沒反應(yīng),多刷新兩次就OK!)

大模型(LLMs)強(qiáng)化學(xué)習(xí)—— PPO 面 PDF 下載 圖1

 

 

資料內(nèi)容:

 

 

一、大語言模型RLHF中的PPO主要分哪些步驟?
大語言模型RLHF中的PPO 分為:
對(duì)應(yīng)的實(shí)現(xiàn)邏輯如下:

 

二、舉例描述一下 大語言模型的RLHF?
大語言模型的RLHF,實(shí)際上是模型先試錯(cuò)再學(xué)習(xí)的過程。
大語言模型的RLHF 好比是:老師與學(xué)生的角色
 
我們扮演著老師的角色,給出有趣的問題。模型則會(huì)像小學(xué)生一樣,不斷嘗試給出答案。
模型會(huì)根據(jù)我們給出的問題,寫出它覺得正確的答案,但是這些答案不一定是真的答案,需要我們結(jié)合正確
答案進(jìn)行打分。如果它表現(xiàn)得好,就會(huì)給予它高聲贊揚(yáng);如果它表現(xiàn)不佳,我們則會(huì)給予它耐心的指導(dǎo)和反
饋,幫助它不斷改進(jìn),直到達(dá)到令人滿意的水平。