對于 LLM 以及對應(yīng)的 RL,我還是很陌生的。借著這個(gè)機(jī)會寫點(diǎn)筆記學(xué)習(xí)一下。
先整理一下 R1 的整個(gè) Pipeline。整個(gè) R1 報(bào)告發(fā)布了三組模型:1)DeepSeek-R1-Zero;2)DeepSeek-R1;3)DeepSeek-R1-Distill。三者的訓(xùn)練 Pipeline 如下所示:
其中,用于 R1 本體以及后續(xù)蒸餾模型的 “Combined SFT Data” 的構(gòu)建 Pipeline 如下:
轉(zhuǎn)載請注明來自阿拉善凱拓戶外,本文標(biāo)題:《DeepSeek R1 筆記》