您現(xiàn)在的位置：首頁醉美胡楊回答長度對比：原版DeepSeek-R1-distill-32B（淺藍(lán)）vs自適應(yīng)版（深藍(lán)）

回答長度對比：原版DeepSeek-R1-distill-32B（淺藍(lán)）vs自適應(yīng)版（深藍(lán)）

linxinyi 2025-02-28 醉美胡楊 129 次瀏覽 0個評論

財(cái)聯(lián)社2月26日訊，中國聯(lián)通近日宣布，繼1月開源元景“自適應(yīng)慢思考”思維鏈大模型后，又針對DeepSeek系列模型進(jìn)行了“自適應(yīng)慢思考”優(yōu)化升級，平均可節(jié)省約30%的推理計(jì)算量，現(xiàn)已開源。這也是目前業(yè)界首個對DeepSeek系列思維鏈模型做“自適應(yīng)慢思考”優(yōu)化升級的工作。

“以我為主，為我所用”的開放創(chuàng)新

元景思維鏈大模型具備多學(xué)科、多場景通用推理能力，且能在確保慢思考能力不打折的情況下，做到針對不同任務(wù)和難度的自適應(yīng)慢思考，大幅降低了資源消耗，實(shí)現(xiàn)了大模型“慢思考”能力高性價(jià)比落地應(yīng)用。

元景思維鏈大模型接入DeepSeek-R1并非簡單的“拿來主義”，而是“從其善，優(yōu)其不善”，對DeepSeek-R1版本進(jìn)行了調(diào)整，最大程度規(guī)避了其面對簡單問題“過度思考”的現(xiàn)象，使模型具備了“自適應(yīng)”能力。即在面向難度較高問題時使用慢思考模式生成長思維鏈，面向簡單問題時則傾向于生成簡潔的思維鏈，迅速準(zhǔn)確的輸出相關(guān)答案。這樣避免了答案的冗余、資源的浪費(fèi)以及減少用戶等待時間，提升用戶體驗(yàn)。

調(diào)整步驟完整分享

難度自適應(yīng)微調(diào)：為實(shí)現(xiàn)模型推理的難度自適應(yīng)，中國聯(lián)通利用DeepSeek-R1滿血版模型采樣生成數(shù)據(jù)，通過復(fù)雜度量化模塊構(gòu)造長度偏好數(shù)據(jù)集，對于簡單問題從采樣答案中挑選長度較短的答案，對困難問題挑選長度較長的答案，使得答案長度與當(dāng)前問題復(fù)雜度相匹配。在此基礎(chǔ)上對DeepSeek-R1進(jìn)行微調(diào)，使得微調(diào)后的模型具備對不同難度題目的自適應(yīng)慢思考能力。

二次蒸餾：針對DeepSeek-R1的系列蒸餾模型，由于其使用的蒸餾數(shù)據(jù)來自訓(xùn)練滿血版R1時使用的訓(xùn)練數(shù)據(jù)，而非由性能更好的R1滿血版自身生成的數(shù)據(jù)，這會導(dǎo)致得到的蒸餾模型未能充分學(xué)習(xí)R1滿血版的能力，蒸餾效果大打折扣。為解決這個問題，中國聯(lián)通使用了二次蒸餾的策略，即利用DeepSeek-R1滿血版將已積累的高質(zhì)量數(shù)據(jù)轉(zhuǎn)化為包括深度思考過程的長思維鏈格式數(shù)據(jù)，在DeepSeek-R1蒸餾系列模型基礎(chǔ)上再進(jìn)行一次微調(diào)，使模型具備更強(qiáng)的推理能力。

難度自適應(yīng)強(qiáng)化學(xué)習(xí)：在對模型進(jìn)行二次蒸餾后，中國聯(lián)通進(jìn)一步借鑒DeepSeek-R1的構(gòu)建思路，在GRPO算法基礎(chǔ)上提出了一種難度自適應(yīng)強(qiáng)化學(xué)習(xí)算法DA-GRPO（Difficulty Adaptive GRPO），對二次蒸餾模型進(jìn)行難度自適應(yīng)的強(qiáng)化學(xué)習(xí)訓(xùn)練，進(jìn)一步提升其推理效果。除了使用傳統(tǒng)的基于規(guī)則的正確性獎勵、格式獎勵、語言一致性獎勵外，DA-GRPO還基于每個問題的復(fù)雜程度和生成答案的長度對獎勵得分進(jìn)行校準(zhǔn)。具體而言，如果模型對一個簡單問題輸出較長的答案，則對獎勵分?jǐn)?shù)進(jìn)行相應(yīng)的懲罰。同時，若模型對困難的問題輸出較長的答案，則給予其更高的獎勵分?jǐn)?shù)，以鼓勵其進(jìn)行更充分的思考。這樣，通過提高樣本答案獎勵得分的區(qū)分度，使模型具備根據(jù)問題難度輸出相應(yīng)長度答案的能力，在保證推理準(zhǔn)確率的前提下顯著減少了答案冗余和資源消耗，從而實(shí)現(xiàn)對不同難度問題的自適應(yīng)慢思考。

推理計(jì)算量節(jié)省約30%

中國聯(lián)通以DeepSeek-R1-distill-32B模型為例，對上述方法的效果進(jìn)行了驗(yàn)證。通過在數(shù)學(xué)任務(wù)測評集（MATH500）上對比以及具體實(shí)驗(yàn)可以看到，經(jīng)過難度自適應(yīng)改造后的模型在不同難度等級問題上生成的回答長度較原版均明顯下降，并且對于最高難度（Level 5）輸出的回答長度降幅最大，體現(xiàn)了模型對不同難度等級問題具備自適應(yīng)慢思考能力。經(jīng)過測評，這種創(chuàng)新的自適應(yīng)慢思考方法，平均可節(jié)省約30%的推理計(jì)算量，冗余輸出大幅減少，用戶體驗(yàn)得到有效提升。

轉(zhuǎn)載請注明來自阿拉善凱拓戶外，本文標(biāo)題：《回答長度對比：原版DeepSeek-R1-distill-32B（淺藍(lán)）vs自適應(yīng)版（深藍(lán)）》

linxinyi 382篇文章站點(diǎn) 微博

每一天，每一秒，你所做的決定都會改變你的人生！

? 2025年4月 ?
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

国产成av人片在线观看天堂无码,伊人免费视频在线,另类在线欧美图片,亚洲国产中文字幕乱,绝世天君txt下载,家有囍事小说,斗罗小说网

yangyuting管理員

最新文章

網(wǎng)站收藏

回答長度對比：原版DeepSeek-R1-distill-32B（淺藍(lán)）vs自適應(yīng)版（深藍(lán)）

最近發(fā)表

友情鏈接

文章目錄

国产成av人片在线观看天堂无码,伊人免费视频在线,另类在线欧美图片,亚洲国产中文字幕乱,绝世天君txt下载,家有囍事小说,斗罗小说网

yangyuting管理員

最新文章

網(wǎng)站收藏

回答長度對比：原版DeepSeek-R1-distill-32B（淺藍(lán)）vs自適應(yīng)版（深藍(lán)）

西安的最新疫情數(shù)據(jù)報(bào)告，西安最新疫情數(shù)據(jù)報(bào)告發(fā)布

洞庭碧螺春最新消息，傳承與創(chuàng)新的融合，展現(xiàn)新茶時代風(fēng)采，洞庭碧螺春，傳承與創(chuàng)新融合，展現(xiàn)新茶時代風(fēng)采

波音737最新航班信息，波音737最新航班動態(tài)一覽

關(guān)于回汝州的最新通告信息，汝州返鄉(xiāng)政策更新及動態(tài)解讀，汝州返鄉(xiāng)政策更新解讀與最新通告信息匯總

雁城區(qū)復(fù)工的最新通告是，雁城區(qū)復(fù)工最新通告發(fā)布

金鷹萬佳最新招聘信息揭曉，職位豐富，福利優(yōu)厚，誠邀精英加入！，金鷹萬佳誠邀精英，豐厚福利職位等你來挑戰(zhàn)！

龍文章沙盤最新消息，龍文章沙盤最新動態(tài)報(bào)道

廣西中山市招工信息最新，廣西中山市招工信息更新匯總

“2025年正版資料免費(fèi)大全”·即時追蹤_阿拉善凱拓戶外

“二四六香港資料期期中”·快速解讀_阿拉善凱拓戶外

“7777788888免費(fèi)精準(zhǔn)4肖”·一直探尋_阿拉善凱拓戶外

“2025新奧資料正版大全”·持續(xù)緊盯_阿拉善凱拓戶外

“22324comr濠江論壇”·即時快訊_阿拉善凱拓戶外

“2024新澳門正版免費(fèi)掛牌燈牌”·全程跟進(jìn)_阿拉善凱拓戶外

“2025年新澳正版資料查詢方法”·瞬間洞悉_阿拉善凱拓戶外

“新澳2025精準(zhǔn)正版”·全程督查_阿拉善凱拓戶外

最近發(fā)表

友情鏈接

文章目錄

西安的最新疫情數(shù)據(jù)報(bào)告，西安最新疫情數(shù)據(jù)報(bào)告發(fā)布

洞庭碧螺春最新消息，傳承與創(chuàng)新的融合，展現(xiàn)新茶時代風(fēng)采，洞庭碧螺春，傳承與創(chuàng)新融合，展現(xiàn)新茶時代風(fēng)采

波音737最新航班信息，波音737最新航班動態(tài)一覽

關(guān)于回汝州的最新通告信息，汝州返鄉(xiāng)政策更新及動態(tài)解讀，汝州返鄉(xiāng)政策更新解讀與最新通告信息匯總

雁城區(qū)復(fù)工的最新通告是，雁城區(qū)復(fù)工最新通告發(fā)布

金鷹萬佳最新招聘信息揭曉，職位豐富，福利優(yōu)厚，誠邀精英加入！，金鷹萬佳誠邀精英，豐厚福利職位等你來挑戰(zhàn)！

龍文章沙盤最新消息，龍文章沙盤最新動態(tài)報(bào)道

廣西中山市招工信息最新，廣西中山市招工信息更新匯總