來源:雪球App,作者: 在看什么_,(https://xueqiu.com/6157001146/322103121)
(轉(zhuǎn))深度分析下 DeepSeek-R1 用華為昇騰,推理集群大概多大?
重磅消息,昨天的新聞,DeepSeek-R1 真的能在華為的昇騰AI加速卡上跑了。我們來深度分析下硬件性能真的能跟得上嗎?
根據(jù)華為官方,Atlas(昇騰) 300I Pro 推理卡單卡擁有 140 TOPS INT8 和 70 TFLOPS FP16,這個(gè)性能足夠推理用,但關(guān)鍵的內(nèi)存則使用了LPDDR4X 24 GB,總帶寬204.8 GB/s。這意味著運(yùn)行原生的FP8版本的DeepSeek-R1大概單卡(先不考慮裝不下的問題, R1激活量是37B)是 4 token/s.
然后還有2合一型號 Atlas 300I Duo(一塊PCB焊了2個(gè)核心),內(nèi)存翻倍,LPDDR4X 96GB或48GB,總帶寬408GB/s。
那么我們計(jì)算一下如果能裝下DeepSeek-R1(FP8 按照800GB計(jì)算), 大概是 8.3 ~= 9 塊卡。推理速度來到了 72 token/s 。這么看如果裝得下速度其實(shí)夠用(先不考慮并發(fā))
但是裝顯卡的服務(wù)器 Atlas 800 推理服務(wù)器是個(gè)8卡服務(wù)器(RAID卡還有個(gè)PCIe 4.0 ,但8卡應(yīng)該是極限,因?yàn)檫€要聯(lián)網(wǎng)),那么至少應(yīng)該是個(gè)雙機(jī),16卡的架構(gòu)才能達(dá)到最低標(biāo)準(zhǔn)。推理內(nèi)存達(dá)到 1.5TB 左右. 推理速度在128 token/s
然后華為的昇騰集群單柜應(yīng)該是16臺的Atlas 800,因此單柜性能在12TB推理內(nèi)存, 推理速度極限是1024 token/s,如果每個(gè)用戶給60 token/s, 那么理論上單柜并發(fā)量在17左右。(單柜最大功率50.5kW)
那么我們來估算點(diǎn)更有意思的,假設(shè)有日均 1000 萬用戶要用DeepSeek-R1, 大概需要多少服務(wù)器?
假設(shè)每個(gè)用戶的平均 token 輸出量是 500(不考慮輸入token處理),那么60 token/s 的單用戶限制應(yīng)該需要 8.3s才能結(jié)束生成。我們繼續(xù)假設(shè)1000萬用戶請求平均集中在8小時(shí)內(nèi),那么每秒鐘請求平均值是 10000000/(8*3600)=347.2 即每秒鐘要承受348并發(fā).
我們再來計(jì)算單臺服務(wù)器的QPS, 17并發(fā)/8.3s ~= 2.048. 那么最終就可以得出, 需要的服務(wù)器量為 347.2/2.048 ~=169.5 即170臺服務(wù)器,約11個(gè)柜就可以!總功率來到了550kW.
如果換更好的卡昇騰 910b 呢? 單個(gè)卡使用HBM2e 達(dá)到了 1.2TB的顯存帶寬, 單卡 64GB. 單機(jī)也是8卡, 那么只需要大概30臺服務(wù)器就可以。大概也就4個(gè)柜。(4U機(jī)器,單柜8臺)
(注意,這只是基礎(chǔ)估算, 實(shí)際為了頂住峰值請求, 可能要乘以個(gè)3-5倍,當(dāng)然云服務(wù)的好處就是直接購買服務(wù)彈性伸縮就好了)