国产成av人片在线观看天堂无码,伊人免费视频在线,另类在线欧美图片,亚洲国产中文字幕乱,绝世天君txt下载,家有囍事小说,斗罗小说网

DeepSeek-V3 關(guān)鍵點(diǎn)解讀:架構(gòu)篇

DeepSeek-V3 關(guān)鍵點(diǎn)解讀:架構(gòu)篇

yunxin 2025-03-28 沙漠戈壁 5 次瀏覽 0個(gè)評(píng)論

原創(chuàng) 曾天真的算法世界 ?2024年12月27日 17:40 浙江

與傳統(tǒng)的效率優(yōu)先不同,Deepseek系列更看重“成本”與“效率“的平衡。

如上表所示,在預(yù)訓(xùn)練階段,訓(xùn)練DeepSeek-V3每萬億tokens僅需要180K H800 GPU小時(shí),即在我們的2048個(gè)H800 GPU集群上3.7天。因此,我們的預(yù)訓(xùn)練階段在不到兩個(gè)月的時(shí)間內(nèi)完成,耗時(shí)2664K GPU小時(shí)。加上119K GPU小時(shí)用于上下文長度擴(kuò)展和5K GPU小時(shí)用于后訓(xùn)練,DeepSeek-V3的完整訓(xùn)練僅需要2.788M GPU小時(shí)。假設(shè)H800 GPU的租賃價(jià)格為每GPU小時(shí)2美元,我們的總訓(xùn)練成本僅為557.6萬美元。

模型設(shè)計(jì):

架構(gòu)部分:

DeepSeek-V3繼續(xù)采用(1)Multi-head Latent Attention(MLA)以實(shí)現(xiàn)高效的推理,以及(2)DeepSeekMoE 以實(shí)現(xiàn)成本效益的訓(xùn)練,這兩種架構(gòu)在DeepSeek-V2中已經(jīng)得到了驗(yàn)證。

Multi-Head Latent Attention (MLA):

MLA的核心在于通過低秩聯(lián)合壓縮來減少注意力鍵(keys)和值(values)在推理過程中的緩存,從而提高推理效率:

對(duì)于Query,也執(zhí)行相似的操作:

最終的注意力輸出 ut 是通過將Query qt 與Key kt 進(jìn)行softmax歸一化后的點(diǎn)積,再乘以值 vt 來獲得:

無輔助損失負(fù)載平衡的DeepSeekMoE:

在混合專家(MoE)模型中,專家負(fù)載的不平衡會(huì)導(dǎo)致路由崩潰或增加計(jì)算開銷。傳統(tǒng)的方法通常采用輔助損失來鼓勵(lì)負(fù)載平衡,但過大的輔助損失會(huì)引入不可忽視的干擾梯度,從而損害模型性能。為了避免在訓(xùn)練過程中產(chǎn)生不良梯度,我們提出了一種無輔助損失的負(fù)載平衡策略(Loss-Free Balancing),通過動(dòng)態(tài)調(diào)整每個(gè)專家的偏差來控制負(fù)載平衡,而不引入干擾梯度。

首先我們回顧一下DeepSeekMoE的基本流程:

針對(duì)專家負(fù)載不均衡的問題,我們?yōu)槊總€(gè)專家引入了一個(gè)偏置項(xiàng) bi,并將其加到的親和力得分 si,t 上:

需要注意的是,偏置項(xiàng)僅用于路由。與FFN輸出相乘的門控值仍然來源于原始得分 ?s_{i,t} 。在訓(xùn)練過程中,我們持續(xù)監(jiān)控每個(gè)訓(xùn)練步驟中整個(gè)批次的專家負(fù)載。在每個(gè)步驟的末尾,如果相應(yīng)的專家過載,我們將減少偏置項(xiàng) ??;如果相應(yīng)的專家欠載,我們將增加偏置項(xiàng) ??,其中 ??是一個(gè)稱為偏置更新速度的超參數(shù)。通過動(dòng)態(tài)調(diào)整,DeepSeek-V3 在訓(xùn)練期間保持專家負(fù)載平衡,并比通過純輔助損失鼓勵(lì)負(fù)載平衡的模型實(shí)現(xiàn)了更好的性能。

互補(bǔ)序列級(jí)輔助損失:

為了防止任何單個(gè)序列內(nèi)的極端不平衡,我們還采用了互補(bǔ)的序列級(jí)輔助損失。這種損失鼓勵(lì)每個(gè)序列中的專家負(fù)載保持平衡。

節(jié)點(diǎn)限制路由:

像DeepSeek-V2使用的設(shè)備限制路由一樣,DeepSeek-V3也采用了一種受限的路由機(jī)制來限制訓(xùn)練過程中的通信成本。簡而言之,我們確保每個(gè)token最多被發(fā)送到M個(gè)節(jié)點(diǎn),這些節(jié)點(diǎn)是根據(jù)每個(gè)節(jié)點(diǎn)上分布的專家的最高Tr個(gè)親和分?jǐn)?shù)之和來選擇的。

無Token丟棄:

由于有效的負(fù)載平衡策略,DeepSeek-V3在完整的訓(xùn)練過程中保持了良好的負(fù)載平衡。因此,在訓(xùn)練期間,DeepSeek-V3不會(huì)丟棄任何token。此外,我們還實(shí)施了特定的部署策略以確保推理時(shí)的負(fù)載平衡,所以DeepSeek-V3在推理期間也不會(huì)丟棄token。

多Token預(yù)測(Multi-Token Prediction/MTP):

具體來說,我們的Multi-Token Prediction / MTP實(shí)現(xiàn)使用K個(gè)順序模塊來預(yù)測K個(gè)額外的Token。第i個(gè)MTP模塊包括一個(gè)共享的特征層Emb(·),一個(gè)共享的輸出頭OutHead(·),一個(gè)Transformer塊TRMi(·),以及一個(gè)投影矩陣Wi∈Rd×2d。對(duì)于第i個(gè)輸入Tokenti,在第i個(gè)預(yù)測深度,我們首先結(jié)合第(i-1)深度的第i個(gè)Token的表示hi-1∈Rd和第(i+1)個(gè)Token的嵌入d(ti+1)∈Rd,通過線性投影:

需要注意的是,對(duì)于每個(gè)MTP模塊,其嵌入層與主模型共享。結(jié)合后的h'i作為第i深度的Transformer塊的輸入,產(chǎn)生當(dāng)前深度的輸出表示hi:

其中d表示輸入序列長度,i:表示切片操作(包括左右邊界)。最后,以hi為輸入,共享的輸出頭將計(jì)算第i個(gè)額外預(yù)測Token的概率分布:

輸出頭OutHead(·)將表示線性映射到logits,然后應(yīng)用Softmax(·)函數(shù)計(jì)算第i個(gè)額外Token的預(yù)測概率。同時(shí),對(duì)于每個(gè)MTP模塊,其輸出頭與主模型共享。

MTP訓(xùn)練目標(biāo):

我們計(jì)算一個(gè)交叉熵?fù)p失LiMTP:

其中d表示輸入序列長度,ti表示第i個(gè)位置的ground-truth Token,P(ti)[ti]表示第i個(gè)MTP模塊給出的ti的相應(yīng)預(yù)測概率。最后,我們計(jì)算所有深度的MTP損失的平均值,并乘以一個(gè)權(quán)重因子ε,得到整體MTP損失LMTP,它作為DeepSeek-V3的額外訓(xùn)練目標(biāo):

推理中的MTP:

我們的MTP策略主要旨在提高主模型的性能,因此在推理過程中,我們可以直接丟棄MTP模塊,主模型可以獨(dú)立且正常地工作。此外,我們還可以將這些MTP模塊重新用于推測性解碼,以進(jìn)一步改善生成延遲。

實(shí)驗(yàn)部分:

多benchmark的對(duì)比:

DeepSeek-V3 關(guān)鍵點(diǎn)解讀:架構(gòu)篇

多token預(yù)測的消融實(shí)驗(yàn):

消融研究的結(jié)果表明,MTP策略在大多數(shù)評(píng)估基準(zhǔn)上一致地提升了模型性能。這證明了MTP目標(biāo)不僅能夠提高模型的數(shù)據(jù)效率,還能夠增強(qiáng)模型對(duì)未來Token的預(yù)測能力,從而在各種任務(wù)中提高模型的整體性能。

無輔助損失負(fù)載平衡策略的消融實(shí)驗(yàn):

我們在不同規(guī)模的兩個(gè)基線模型上驗(yàn)證了這一策略。在小規(guī)模數(shù)據(jù)量上,我們訓(xùn)練了一個(gè)包含15.7B總參數(shù)的基線MoE模型,并在1.33T tokens上進(jìn)行訓(xùn)練。在大規(guī)模數(shù)據(jù)量上,我們訓(xùn)練了一個(gè)包含228.7B總參數(shù)的基線MoE模型,并在578B tokens上進(jìn)行訓(xùn)練。這兩個(gè)基線模型純粹使用輔助損失來鼓勵(lì)負(fù)載平衡,并使用帶有top-K親和力歸一化的sigmoid門控函數(shù)。它們控制輔助損失強(qiáng)度的超參數(shù)分別與DeepSeek-V2-Lite和DeepSeek-V2相同。在這兩個(gè)基線模型的基礎(chǔ)上,保持訓(xùn)練數(shù)據(jù)和其他架構(gòu)不變,我們移除了所有輔助損失,并引入了無輔助損失平衡策略進(jìn)行比較。從表格中我們可以觀察到,無輔助損失策略在大多數(shù)評(píng)估基準(zhǔn)上一致地實(shí)現(xiàn)了更好的模型性能。

【-END-】

轉(zhuǎn)載請注明來自阿拉善凱拓戶外,本文標(biāo)題:《DeepSeek-V3 關(guān)鍵點(diǎn)解讀:架構(gòu)篇》

百度分享代碼,如果開啟HTTPS請參考李洋個(gè)人博客
每一天,每一秒,你所做的決定都會(huì)改變你的人生!
Top
 360借殼最新信息下載  瀘州鉆工最新招聘信息  郁南店鋪出租最新信息  秦皇島地產(chǎn)最新行情信息  郴州最新加強(qiáng)針預(yù)約信息  青鳥藥企招聘信息最新  松溪租房貼吧最新信息  桓昌公司最新動(dòng)態(tài)信息  世紀(jì)佳園最新樓價(jià)信息  重慶彈子石最新頭條信息  臺(tái)山拜租最新通知信息  廣元邦泰招聘最新信息  襄城農(nóng)村房出租最新信息  中衛(wèi)刨工最新招聘信息  滄州大運(yùn)河發(fā)布信息最新  杭州星豪最新報(bào)價(jià)信息  伊通最新疫情信息查詢  香榭制衣招聘信息最新  延慶協(xié)警招聘最新信息  杭州九旺最新動(dòng)態(tài)信息  東陽面點(diǎn)招聘信息最新  信息披露會(huì)計(jì)準(zhǔn)則最新  梁山最新招小車司機(jī)信息  廣信區(qū)城西最新拆遷信息  漯河65歲招工信息最新  泥坡小區(qū)招聘信息最新  山東奕鮮招聘信息最新