国产成av人片在线观看天堂无码,伊人免费视频在线,另类在线欧美图片,亚洲国产中文字幕乱,绝世天君txt下载,家有囍事小说,斗罗小说网

通義千問Qwen 2大模型的預(yù)訓(xùn)練和后訓(xùn)練范式解析

通義千問Qwen 2大模型的預(yù)訓(xùn)練和后訓(xùn)練范式解析

linjunyuan 2025-03-30 企業(yè)團(tuán)建 41 次瀏覽 0個評論

LLMs,也就是大型語言模型,現(xiàn)在已經(jīng)發(fā)展得挺厲害的。記得最開始的時候,我們只有GPT這樣的模型,但現(xiàn)在,我們有了一些更復(fù)雜的、開放權(quán)重的模型。以前,訓(xùn)練這些模型的時候,我們主要就是做預(yù)訓(xùn)練,但現(xiàn)在不一樣了,我們還會加上后訓(xùn)練這個階段。

咱們今天就以通義千問Qwen 2這個模型為例,來好好分析一下Qwen 2的預(yù)訓(xùn)練和后訓(xùn)練都是怎么搞的。它在大型語言模型界里算是挺能打的。不過,雖然它很強(qiáng),但可能因為一些原因,它還沒有像國外Meta AI、Microsoft和Google的那些模型那么火。

Qwen 2模型基本情況

通義千問Qwen 2大模型的預(yù)訓(xùn)練和后訓(xùn)練范式解析

Qwen 2有五種不同的規(guī)格,就像手機(jī)有不同內(nèi)存大小一樣。它有四個常規(guī)的模型,參數(shù)量分別是5億、15億、70億和720億。參數(shù)就像是模型的大腦細(xì)胞,參數(shù)越多,模型能處理的信息就越多。除了這些,還有一個專家混合模型,這個模型有57億參數(shù),其中有14億是同時工作的。

Qwen 2的一個亮點是它在30種語言上都表現(xiàn)得很好,這就像是個多語言的天才。它還有一個特別大的詞匯表,有151,642個標(biāo)記(tokens)。這比很多其他模型的詞匯表都要大,比如Llama 2有32k個標(biāo)記,Llama 3.1有128k個標(biāo)記。詞匯表越大,模型處理信息的時候就越靈活,尤其是在處理多種語言的時候。

再來看看Qwen 2和其他一些模型在MMLU基準(zhǔn)測試上的分?jǐn)?shù)。MMLU是個多項選擇題的測試,雖然它有局限性,但大家還是挺喜歡用它來衡量模型的表現(xiàn)的。咱們稍后會詳細(xì)看看這些分?jǐn)?shù)。

最新開放權(quán)重模型的MMLU基準(zhǔn)測試分?jǐn)?shù)(較高的值更好)

Qwen 2的預(yù)訓(xùn)練過程

Qwen 2團(tuán)隊在7萬億個訓(xùn)練標(biāo)記上訓(xùn)練了15億、70億和720億參數(shù)的模型。這個訓(xùn)練量聽起來是不是挺嚇人的?對比一下,Llama 2模型只用了2萬億個標(biāo)記(tokens)來訓(xùn)練,而Llama 3.1模型則用了15萬億個標(biāo)記。

但是,Qwen 2的5億參數(shù)模型訓(xùn)練得更狠,用了12萬億個標(biāo)記。研究人員沒在更大的數(shù)據(jù)集上訓(xùn)練其他模型,因為他們發(fā)現(xiàn)這樣訓(xùn)練效果提升不大,而且計算成本太高,不劃算。

在預(yù)訓(xùn)練的時候,他們特別注重提高數(shù)據(jù)質(zhì)量,比如過濾掉那些質(zhì)量不高的數(shù)據(jù),還有增加數(shù)據(jù)的多樣性。這都是為了確保模型能學(xué)到更多有用的東西。

他們還用了一種挺聰明的方法,就是用Qwen模型自己生成一些預(yù)訓(xùn)練數(shù)據(jù)。這樣可以讓模型更好地理解上下文,以及如何根據(jù)指令來做出反應(yīng)。

訓(xùn)練過程是分兩個階段的。先是常規(guī)的預(yù)訓(xùn)練,然后是長上下文訓(xùn)練。長上下文訓(xùn)練是在預(yù)訓(xùn)練快結(jié)束的時候進(jìn)行的,用的是高質(zhì)量的、長的數(shù)據(jù)。這個過程可以把模型處理上下文的能力從4,096個標(biāo)記提高到32,768個標(biāo)記,這就像是讓模型的記憶力變得更強(qiáng)了。

Qwen 2預(yù)訓(xùn)練技術(shù),“持續(xù)預(yù)訓(xùn)練”指的是兩階段預(yù)訓(xùn)練,研究人員從常規(guī)預(yù)訓(xùn)練開始,然后進(jìn)行了長上下文持續(xù)預(yù)訓(xùn)練

Qwen 2的后訓(xùn)練過程

Qwen 2團(tuán)隊用了一種流行的兩階段后訓(xùn)練方法。

第一階段是監(jiān)督指令微調(diào)(SFT),他們在500,000個示例上進(jìn)行了2個周期的訓(xùn)練。這個階段的目標(biāo)是讓模型在特定場景下給出更準(zhǔn)確的回答。

?

第二階段,他們用直接偏好優(yōu)化(DPO)來讓模型更符合人類的偏好。SFT加上DPO的方法因為操作簡便,比其他方法(比如帶PPO的RLHF)更受歡迎。更多關(guān)于DPO的詳情,可參見:《LLM?直接偏好優(yōu)化(DPO)的一些研究》。關(guān)于PPO與DPO的對比,可以參見:《大模型對齊:DPO vs PPO》

對齊階段也分兩步走。首先是在現(xiàn)有的數(shù)據(jù)集上用DPO進(jìn)行離線訓(xùn)練。然后是在線階段,模型在訓(xùn)練時生成多個回答,獎勵模型在訓(xùn)練過程中實時選擇最優(yōu)的回答。這個過程也叫做“拒絕采樣”。

在構(gòu)建數(shù)據(jù)集時,他們用了現(xiàn)有的語料庫,并且加上了人工標(biāo)注,來確定SFT的目標(biāo)回答,以及識別DPO需要的偏好和拒絕回答。研究人員還自己合成了一些人工標(biāo)注的數(shù)據(jù)。

此外,團(tuán)隊還用LLM生成了專門針對“高質(zhì)量文學(xué)數(shù)據(jù)”的問答對,這樣就能創(chuàng)建出用于訓(xùn)練的高質(zhì)量Q&A對。這樣可以讓模型在處理文學(xué)類問題時表現(xiàn)得更好。

Qwen 2后訓(xùn)練技術(shù)

現(xiàn)在我們來總結(jié)一下,其實Qwen 2這個模型挺有兩把刷子的。它和之前的Qwen模型一樣,在2023年12月的NeurIPS LLM效率挑戰(zhàn)賽上,很多獲勝的方法都用了Qwen模型。

說到Qwen 2的訓(xùn)練流程,一個亮點就是他們用合成數(shù)據(jù)來預(yù)訓(xùn)練和后訓(xùn)練。這就像是用模型自己生成的練習(xí)題來提高自己的能力。

另外,他們特別注重數(shù)據(jù)集的質(zhì)量,而不是一味地追求數(shù)據(jù)量。這意味著,他們更看重數(shù)據(jù)的質(zhì)量而不是數(shù)量。在訓(xùn)練模型的時候,他們認(rèn)為,數(shù)據(jù)不僅要多,更要精,只有高質(zhì)量的數(shù)據(jù)才能幫助模型更好地學(xué)習(xí)。

所以,Qwen 2的訓(xùn)練團(tuán)隊在這方面做得挺到位的,他們知道怎么用有限的資源來達(dá)到最好的效果。這種注重質(zhì)量的訓(xùn)練方法,值得其他模型訓(xùn)練團(tuán)隊學(xué)習(xí)。

轉(zhuǎn)載請注明來自阿拉善凱拓戶外,本文標(biāo)題:《通義千問Qwen 2大模型的預(yù)訓(xùn)練和后訓(xùn)練范式解析》

百度分享代碼,如果開啟HTTPS請參考李洋個人博客
每一天,每一秒,你所做的決定都會改變你的人生!
Top