国产成av人片在线观看天堂无码,伊人免费视频在线,另类在线欧美图片,亚洲国产中文字幕乱,绝世天君txt下载,家有囍事小说,斗罗小说网

萬(wàn)字詳解DeepSeek-R1,引爆AI圈的又一力作,大模型爆發(fā)勢(shì)不可擋!

萬(wàn)字詳解DeepSeek-R1,引爆AI圈的又一力作,大模型爆發(fā)勢(shì)不可擋!

guoyuwei 2025-03-03 親子研學(xué) 110 次瀏覽 0個(gè)評(píng)論


4.1 整體概述

以往研究多依賴大量監(jiān)督數(shù)據(jù)提升模型性能,本研究表明,大規(guī)模RL可顯著提升推理能力,即便不使用SFT作為冷啟動(dòng)。

少量冷啟動(dòng)數(shù)據(jù)的加入還能進(jìn)一步提升性能。具體介紹了以下三方面內(nèi)容:

DeepSeek-R1-Zero:直接對(duì)基礎(chǔ)模型應(yīng)用強(qiáng)化學(xué)習(xí),不使用任何 SFT 數(shù)據(jù)。

DeepSeek-R1:從用數(shù)千個(gè)長(zhǎng)思維鏈?zhǔn)纠⒄{(diào)后的檢查點(diǎn)開始應(yīng)用強(qiáng)化學(xué)習(xí)。

模型蒸餾:將 DeepSeek-R1 的推理能力蒸餾到小型稠密模型中。

4.2 DeepSeek-R1-Zero:基礎(chǔ)模型上的強(qiáng)化學(xué)習(xí)

4.2.1 強(qiáng)化學(xué)習(xí)算法

采用GRPO算法以節(jié)省強(qiáng)化學(xué)習(xí)的訓(xùn)練成本。

該算法舍棄了通常與策略模型大小相同的價(jià)值網(wǎng)絡(luò),從組得分中估計(jì)基線。

對(duì)于每個(gè)問題,GRPO 從舊策略中采樣一組輸出

 

然后通過最大化以下目標(biāo)來(lái)優(yōu)化策略模型


其中,是超參數(shù),是優(yōu)勢(shì)

通過每組輸出對(duì)應(yīng)的一組獎(jiǎng)勵(lì)計(jì)算得出:

4.2.2 獎(jiǎng)勵(lì)建模

采用基于規(guī)則的獎(jiǎng)勵(lì)系統(tǒng),主要包含兩種獎(jiǎng)勵(lì)類型:

準(zhǔn)確率獎(jiǎng)勵(lì):評(píng)估模型的回答是否正確。如在數(shù)學(xué)問題中,要求模型按指定格式給出最終答案,以便基于規(guī)則可靠地驗(yàn)證正確性。

在 LeetCode 問題中,可使用編譯器根據(jù)預(yù)定義測(cè)試用例生成反饋。

格式獎(jiǎng)勵(lì):促使模型將思考過程置于‘<think>’和‘</think>’標(biāo)簽之間。

不使用結(jié)果或過程神經(jīng)獎(jiǎng)勵(lì)模型,因?yàn)槠湓诖笠?guī)模強(qiáng)化學(xué)習(xí)過程中可能遭受獎(jiǎng)勵(lì)篡改,重新訓(xùn)練獎(jiǎng)勵(lì)模型需要額外資源,還會(huì)使整個(gè)訓(xùn)練流程復(fù)雜化。

4.2.3 訓(xùn)練模板

設(shè)計(jì)簡(jiǎn)單模板引導(dǎo)基礎(chǔ)模型遵循指定指令,要求 DeepSeek-R1-Zero 先產(chǎn)生推理過程,再給出最終答案。

僅對(duì)結(jié)構(gòu)格式進(jìn)行限制,避免內(nèi)容特定偏差,以準(zhǔn)確觀察模型在強(qiáng)化學(xué)習(xí)過程中的自然發(fā)展。

4.2.4 性能、自我進(jìn)化過程和頓悟時(shí)刻

性能:在 AIME 2024 基準(zhǔn)測(cè)試中,DeepSeek-R1-Zero 的性能隨強(qiáng)化學(xué)習(xí)訓(xùn)練穩(wěn)步提升

平均單次通過率(pass@1)得分從初始的 15.6% 顯著提高到 71.0%,達(dá)到與 OpenAI-o1-0912 相當(dāng)?shù)乃健?/span>

通過多數(shù)投票,其在 AIME 基準(zhǔn)測(cè)試上的性能可從 71.0% 提升到 86.7%,超過 OpenAI-o1-0912。(相關(guān)性能數(shù)據(jù)對(duì)比見圖 2 和表 2)

自我進(jìn)化過程:訓(xùn)練過程中,DeepSeek-R1-Zero 的思考時(shí)間不斷改善

自然地獲得了利用更長(zhǎng)測(cè)試時(shí)間計(jì)算來(lái)解決日益復(fù)雜推理任務(wù)的能力,能夠生成數(shù)百到數(shù)千個(gè)推理tokens,探索和完善其思維過程。

隨著測(cè)試時(shí)間計(jì)算的增加,還出現(xiàn)了反思和探索替代解題方法等復(fù)雜行為。(自我進(jìn)化過程中平均響應(yīng)長(zhǎng)度變化見圖 3)

頓悟時(shí)刻:訓(xùn)練過程中出現(xiàn) “頓悟時(shí)刻”,模型學(xué)會(huì)重新評(píng)估初始方法,為問題分配更多思考時(shí)間。

這不僅體現(xiàn)了模型推理能力的提升,也展示了強(qiáng)化學(xué)習(xí)可帶來(lái)意想不到的復(fù)雜結(jié)果。

“頓悟時(shí)刻” 示例見表 3,展示了 DeepSeek-R1-Zero 中間版本的一個(gè)有趣 “頓悟時(shí)刻”,模型學(xué)會(huì)用擬人化語(yǔ)氣重新思考。

缺點(diǎn):DeepSeek-R1-Zero 存在可讀性差和語(yǔ)言混雜等問題,為解決這些問題并使推理過程更易讀,研究團(tuán)隊(duì)探索了 DeepSeek-R1 方法。

4.3 DeepSeek-R1:冷啟動(dòng)的強(qiáng)化學(xué)習(xí)

4.3.1 冷啟動(dòng)

為避免強(qiáng)化學(xué)習(xí)訓(xùn)練早期不穩(wěn)定,構(gòu)建并收集少量長(zhǎng) CoT 數(shù)據(jù)對(duì) DeepSeek-V3-Base 模型進(jìn)行微調(diào),作為初始 RL 智能體。

收集數(shù)據(jù)的方法包括使用長(zhǎng) CoT 示例進(jìn)行少樣本提示、直接提示模型生成帶反思和驗(yàn)證的詳細(xì)答案、收集 DeepSeek-R1-Zero 的可讀格式輸出并由人工標(biāo)注后處理優(yōu)化結(jié)果等。

冷啟動(dòng)數(shù)據(jù)的優(yōu)勢(shì)在于提高了可讀性,通過設(shè)計(jì)包含推理過程總結(jié)的輸出格式,并過濾掉不友好的輸出;

利用人類先驗(yàn)設(shè)計(jì)冷啟動(dòng)數(shù)據(jù)模式,其性能優(yōu)于 DeepSeek-R1-Zero,迭代訓(xùn)練更適合推理模型。

4.3.2 面向推理的強(qiáng)化學(xué)習(xí)

在冷啟動(dòng)數(shù)據(jù)上微調(diào) DeepSeek-V3-Base 后,采用與 DeepSeek-R1-Zero 相同的大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練過程。

該階段聚焦提升模型在編碼、數(shù)學(xué)、科學(xué)和邏輯推理等推理稠密型任務(wù)中的能力。

訓(xùn)練中發(fā)現(xiàn) CoT 存在語(yǔ)言混雜問題,為此引入語(yǔ)言一致性獎(jiǎng)勵(lì),計(jì)算 CoT 中目標(biāo)語(yǔ)言單詞的比例。

雖然消融實(shí)驗(yàn)表明這種調(diào)整會(huì)使模型性能略有下降,但符合人類偏好,使推理過程更易讀。

最終,將推理任務(wù)的準(zhǔn)確率和語(yǔ)言一致性獎(jiǎng)勵(lì)直接相加形成最終獎(jiǎng)勵(lì),對(duì)微調(diào)后的模型進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,直至推理任務(wù)收斂。

4.3.3 拒絕采樣和監(jiān)督微調(diào)

當(dāng)面向推理的 RL 收斂后,利用所得檢查點(diǎn)收集 SFT 數(shù)據(jù)用于后續(xù)輪次訓(xùn)練。

此階段的數(shù)據(jù)收集與初始冷啟動(dòng)數(shù)據(jù)不同,除推理數(shù)據(jù)外,還納入其他領(lǐng)域數(shù)據(jù)以增強(qiáng)模型在寫作、角色扮演和其他通用任務(wù)中的能力。

推理數(shù)據(jù):精心策劃推理提示,通過對(duì)上述 RL 訓(xùn)練的檢查點(diǎn)進(jìn)行拒絕采樣生成推理軌跡。

擴(kuò)展數(shù)據(jù)集,納入部分使用生成式獎(jiǎng)勵(lì)模型的數(shù)據(jù),通過將真實(shí)答案和模型預(yù)測(cè)輸入 DeepSeek-V3 進(jìn)行判斷。

過濾掉語(yǔ)言混雜、長(zhǎng)段落和代碼塊的思維鏈,為每個(gè)提示采樣多個(gè)響應(yīng)并僅保留正確的,共收集約 60 萬(wàn)個(gè)推理相關(guān)訓(xùn)練樣本。

非推理數(shù)據(jù):對(duì)于寫作、事實(shí)性問答、自我認(rèn)知和翻譯等非推理數(shù)據(jù),采用 DeepSeek-V3 的流程并復(fù)用部分其 SFT 數(shù)據(jù)集。

對(duì)于某些非推理任務(wù),在回答問題前調(diào)用 DeepSeek-V3 生成潛在的思維鏈;

對(duì)于簡(jiǎn)單查詢,如 “hello”,則不提供思維鏈。

最終共收集約 20 萬(wàn)個(gè)與推理無(wú)關(guān)的訓(xùn)練樣本。

使用約 80 萬(wàn)個(gè)樣本的數(shù)據(jù)集對(duì) DeepSeek-V3-Base 進(jìn)行兩輪微調(diào)。

4.3.4 所有場(chǎng)景的強(qiáng)化學(xué)習(xí)

為使模型更符合人類偏好,實(shí)施二次強(qiáng)化學(xué)習(xí)階段,旨在提高模型的有用性和無(wú)害性,同時(shí)優(yōu)化其推理能力。

使用獎(jiǎng)勵(lì)信號(hào)和多樣化提示分布訓(xùn)練模型,對(duì)于推理數(shù)據(jù),遵循 DeepSeek-R1-Zero 中基于規(guī)則的獎(jiǎng)勵(lì)方法指導(dǎo)學(xué)習(xí);

對(duì)于通用數(shù)據(jù),借助獎(jiǎng)勵(lì)模型捕捉復(fù)雜場(chǎng)景中的人類偏好。

萬(wàn)字詳解DeepSeek-R1,引爆AI圈的又一力作,大模型爆發(fā)勢(shì)不可擋!

基于 DeepSeek-V3 的流程,采用類似的偏好對(duì)和訓(xùn)練提示分布。

評(píng)估有用性時(shí),僅關(guān)注最終總結(jié),確保評(píng)估強(qiáng)調(diào)響應(yīng)對(duì)用戶的實(shí)用性和相關(guān)性,同時(shí)盡量減少對(duì)底層推理過程的干擾;

評(píng)估無(wú)害性時(shí),評(píng)估模型的整個(gè)響應(yīng),包括推理過程和總結(jié),識(shí)別并減輕生成過程中可能出現(xiàn)的潛在風(fēng)險(xiǎn)、偏差或有害內(nèi)容。

通過整合獎(jiǎng)勵(lì)信號(hào)和多樣化數(shù)據(jù)分布,訓(xùn)練出在推理方面表現(xiàn)出色,同時(shí)注重有用性和無(wú)害性的模型。

4.4 蒸餾:賦予小模型推理能力

為使更高效的小模型具備類似 DeepSeek-R1 的推理能力,使用為 DeepSeek-R1 精心整理的 80 萬(wàn)個(gè)樣本,直接對(duì) Qwen 和 Llama 等開源模型進(jìn)行微調(diào)。

結(jié)果表明,這種簡(jiǎn)單的蒸餾方法可顯著提升小模型的推理能力。

使用的基礎(chǔ)模型包括 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B 和 Llama-3.3-70B-Instruct。

對(duì)于蒸餾后的模型,僅應(yīng)用 SFT,不包含 RL 階段,目的是展示蒸餾技術(shù)的有效性,將 RL 階段的探索留給更廣泛的研究社區(qū)。


轉(zhuǎn)載請(qǐng)注明來(lái)自阿拉善凱拓戶外,本文標(biāo)題:《萬(wàn)字詳解DeepSeek-R1,引爆AI圈的又一力作,大模型爆發(fā)勢(shì)不可擋!》

百度分享代碼,如果開啟HTTPS請(qǐng)參考李洋個(gè)人博客
每一天,每一秒,你所做的決定都會(huì)改變你的人生!
Top