国产成av人片在线观看天堂无码,伊人免费视频在线,另类在线欧美图片,亚洲国产中文字幕乱,绝世天君txt下载,家有囍事小说,斗罗小说网

國(guó)產(chǎn)大模型崛起后,算力缺口如何解決?

國(guó)產(chǎn)大模型崛起后,算力缺口如何解決?

linhuijia 2025-03-04 醉美胡楊 570 次瀏覽 0個(gè)評(píng)論

DeepSeek有多少算力這個(gè)顯然無法得知,但從“DeepSeek-V3模型在訓(xùn)練過程中使用了2048張H800 GPU,這些GPU的總計(jì)算能力為3.97 exaFLOPs(3.97百億億FLOPs)”“DeepSeek母公司幻方量化作為國(guó)內(nèi)的私募資產(chǎn)管理巨頭,早在2021年便儲(chǔ)備了超過1萬塊英偉達(dá)A100/H100 GPU集群”等新聞線索中,可大致推測(cè)DeepSeek手上的算力。

成本方面則可以參考“前輩”豆包,機(jī)構(gòu)預(yù)計(jì)豆包在2025年的MAU有望接近ChatGPT達(dá)到2億,并針對(duì)這個(gè)用戶量對(duì)豆包大模型算力需求(非字節(jié)全部業(yè)務(wù)算力需求)對(duì)應(yīng)產(chǎn)業(yè)鏈各環(huán)節(jié)需求進(jìn)行了測(cè)算。

國(guó)產(chǎn)大模型崛起后,算力缺口如何解決?

豆包背后有字節(jié)跳動(dòng)支持,DeepSeek作為一家初創(chuàng)企業(yè),面對(duì)這樣的成本,顯然需要時(shí)間來獲得融資和成長(zhǎng)。

點(diǎn)評(píng):DeepSeek-R1的驚艷之處是通過重新設(shè)計(jì)訓(xùn)練流程、以少量SFT數(shù)據(jù)+多輪強(qiáng)化學(xué)習(xí)的辦法,在提高了模型準(zhǔn)確性的同時(shí),也顯著降低了內(nèi)存占用和計(jì)算開銷。Deepseek-R1提供了一種低成本訓(xùn)練的方法,而不是說只能通過低成本來進(jìn)行訓(xùn)練。從這個(gè)角度看,“成本創(chuàng)新”≠“削減算力”,DeepSeek強(qiáng)調(diào)的始終是“性價(jià)比”的訓(xùn)練路徑,算法創(chuàng)新在AI大模型發(fā)展過程中的比重或話語權(quán)變重了而已。

03

多管齊下填補(bǔ)缺口

早期,DeepSeek主要依賴自建數(shù)據(jù)中心,與ChatGPT背后的微軟Azure云服務(wù)相比,算力儲(chǔ)備存在明顯差距,其特殊模型架構(gòu)(如MOE架構(gòu))在推理階段需要更高算力,但上線前的優(yōu)化準(zhǔn)備不足,導(dǎo)致資源占用過高。

短期來看,DeepSeek聯(lián)合云服務(wù)商(如華為昇騰云、騰訊云)提供算力支持等方式緩解壓力是最快速有效的辦法。華為云作為官方唯一合作伙伴,不僅提供大規(guī)模算力支持,還協(xié)助優(yōu)化網(wǎng)絡(luò)攻擊防御和用戶需求響應(yīng)。

除了直接租賃算力外,DeepSeek可以與云服務(wù)商進(jìn)行聯(lián)合研發(fā),針對(duì)DeepSeek的特定需求進(jìn)行算力資源的優(yōu)化和定制。這有助于提升算力資源的利用效率,同時(shí)降低算力成本。

而長(zhǎng)遠(yuǎn)來看,技術(shù)突破才是解決算力缺口最有效的手段。DeepSeek可以與云服務(wù)商進(jìn)行聯(lián)合研發(fā),DeepSeek可以與云服務(wù)商進(jìn)行聯(lián)合研發(fā),借助云計(jì)算的彈性擴(kuò)展能力,DeepSeek在用戶訪問激增時(shí)動(dòng)態(tài)調(diào)配算力,從而實(shí)現(xiàn)針對(duì)DeepSeek的特定需求進(jìn)行算力資源的優(yōu)化和定制。

前不久,清華大學(xué)KVCache.AI團(tuán)隊(duì)聯(lián)合趨境科技發(fā)布的KTransformers開源項(xiàng)目公布更新: 一塊24G顯存的4090D就可以在本地運(yùn)行DeepSeek-R1、V3的671B“滿血版”。預(yù)處理速度最高達(dá)到286 tokens/s,推理生成速度最高能達(dá)到14 tokens/s。KTransformers的更新發(fā)布后,不少開發(fā)者也紛紛在自己的設(shè)備上進(jìn)行測(cè)試。他們驚喜地發(fā)現(xiàn),本地運(yùn)行完全沒有問題,顯存消耗甚至比github里的技術(shù)文檔中提到的還要少,實(shí)際內(nèi)存占用約380G,顯存占用約14G。

點(diǎn)評(píng):從云計(jì)算到本地部署,相信多種途徑并行一定可以解決DeepSeek算力缺口問題,而反過來,DeepSeek開源策略降低了云廠商的部署門檻,使其能夠快速整合模型能力。金山云、優(yōu)刻得等通過開源模型輕松部署“殺手級(jí)應(yīng)用”,同時(shí)反哺DeepSeek的算力需求。國(guó)產(chǎn)算力廠商(如華為昇騰)與DeepSeek適配,最終推動(dòng)“國(guó)產(chǎn)算力+國(guó)產(chǎn)大模型”的閉環(huán)生態(tài),加速云計(jì)算國(guó)產(chǎn)化進(jìn)程。

轉(zhuǎn)載請(qǐng)注明來自阿拉善凱拓戶外,本文標(biāo)題:《國(guó)產(chǎn)大模型崛起后,算力缺口如何解決?》

百度分享代碼,如果開啟HTTPS請(qǐng)參考李洋個(gè)人博客
每一天,每一秒,你所做的決定都會(huì)改變你的人生!
Top
 一界設(shè)計(jì)招聘信息最新  杭州淘小鋪?zhàn)钚滦畔⒁曨l  佛山區(qū)疫情最新信息消息  淮濱招聘快遞員最新信息  東航客機(jī)最新更新信息  遼陽人才最新招聘信息  民和找工作招聘信息最新  溧水自然堂招聘信息最新  茶藝師最新招聘信息  寧德疫苗接種點(diǎn)最新信息  西峰房貸利率最新信息  青島振昌招聘信息最新  梧州焊工招聘最新信息群  高明大道最新價(jià)格信息  黃埠幫工招聘最新信息  臺(tái)山拜租最新通知信息  景縣最新租房信息網(wǎng)  西昌副船長(zhǎng)招聘信息最新  許昌禹州最新情況信息  友促會(huì) 招聘信息最新  豐寧烘焙師招聘信息最新  隆泉酒廠招聘信息最新  幸福的理由最新信息在線  上海宇翼通最新信息  武漢客勤招聘最新信息  佛山最新限行信息圖片  武漢健康碼最新調(diào)整信息  華東賽區(qū)最新招聘信息  思盾包裝招聘信息最新  寶雞老區(qū)房出售最新信息