国产成av人片在线观看天堂无码,伊人免费视频在线,另类在线欧美图片,亚洲国产中文字幕乱,绝世天君txt下载,家有囍事小说,斗罗小说网

XPU:AI時(shí)代與異構(gòu)計(jì)算

XPU:AI時(shí)代與異構(gòu)計(jì)算

chenjiarong 2025-02-28 沙漠戈壁 322 次瀏覽 0個(gè)評(píng)論

目錄

一、引言

二、CPU

2.1 AI爆發(fā),推動(dòng)CPU需求提升

2.2 CPU指令集架構(gòu)之爭(zhēng)

2.3主要國(guó)產(chǎn)CPU廠商

三、GPU

3.1英偉達(dá)與CUDA生態(tài)

3.2國(guó)內(nèi)GPU廠商快速發(fā)展

3.3兼容與自建生態(tài)之路

四、FPGA

4.1低時(shí)延與靈活性優(yōu)勢(shì)

XPU:AI時(shí)代與異構(gòu)計(jì)算

4.2 AI成增速最快下游應(yīng)用市場(chǎng)

4.3國(guó)產(chǎn)FPGA仍處于0-1階段

五、ASIC

5.1 TPU:谷歌定制,能效比突出

5.2 DPU:CPU和GPU之后的“第三顆主力芯片”

5.3 NPU:專為AI應(yīng)用而生

六、AI算力產(chǎn)業(yè)趨勢(shì)展望

七、結(jié)語(yǔ)


正文

一、引言

AI大模型對(duì)算力的需求正以指數(shù)級(jí)速度增長(zhǎng),推動(dòng)AI算力平臺(tái)從單一的單機(jī)計(jì)算向集群計(jì)算轉(zhuǎn)變。

作為算力的主要載體,AI芯片在AI時(shí)代呈現(xiàn)出強(qiáng)勁的增長(zhǎng)勢(shì)頭。

AI 芯片的定義為“專門(mén)針對(duì)AI算法做了特殊加速設(shè)計(jì)的芯片”,按技術(shù)架構(gòu)可以分為通用圖形處理器(GPU)、中央處理器(CPU)、專用集成電路芯片(ASIC)以及現(xiàn)場(chǎng)可編程門(mén)陣列(FPGA)等,根據(jù)場(chǎng)景可以分為云端和端側(cè)。

目前,以GPU為代表的AI計(jì)算芯片市場(chǎng)規(guī)模正快速增長(zhǎng)。據(jù)Gartner,2023年全球AI GPU芯片市場(chǎng)規(guī)模約為534億美元,預(yù)計(jì)2024年同比增速將達(dá)25.7%。

由于AI芯片架構(gòu)眾多,異構(gòu)計(jì)算成為AI時(shí)代豐富算力需求下的必然選擇。異構(gòu)計(jì)算是通過(guò)在單一系統(tǒng)中利用不同類型的處理器,如CPU、GPU、ASIC、FPGA等協(xié)同工作,執(zhí)行特定任務(wù),以優(yōu)化性能和效率,更高效地利用不同類型的計(jì)算資源,滿足不同的計(jì)算需求。

目前,異構(gòu)計(jì)算主要分為三大類:CPU+GPU、CPU+FPGA、CPU+ASIC,其中CPU可執(zhí)行通用AI計(jì)算,但其通用架構(gòu)設(shè)計(jì)使運(yùn)行效率受限,因此需要GPU等協(xié)處理器進(jìn)行大規(guī)模并行計(jì)算。GPU是目前商用最廣泛的AI芯片,IDC數(shù)據(jù)顯示,在中國(guó)AI芯片市場(chǎng),GPU占有超過(guò)80%的市場(chǎng)份額。

本報(bào)告聚焦構(gòu)成AI算力底座的核心芯片,將從CPU、GPU、FPGA和TPU、NPU、DPU等AISC芯片分別展開(kāi),梳理國(guó)內(nèi)AI芯片產(chǎn)業(yè)的發(fā)展現(xiàn)狀并探尋各細(xì)分領(lǐng)域投資機(jī)會(huì)。

二、CPU

CPU,即中央處理器,常由控制單元、算術(shù)邏輯單元(ALU)和寄存器組成,負(fù)責(zé)指令讀取、譯碼與執(zhí)行,對(duì)研發(fā)技術(shù)和生態(tài)構(gòu)建具有很高要求,對(duì)計(jì)算機(jī)的性能和運(yùn)行效率具有重要影響。

作為計(jì)算機(jī)的運(yùn)算和控制中心,在AI發(fā)展浪潮下,我國(guó)計(jì)算機(jī)CPU行業(yè)發(fā)展進(jìn)入“快車(chē)道”:智算中心的建設(shè)拉動(dòng)了服務(wù)器需求,AIPC的更新?lián)Q代也在推動(dòng)需求增長(zhǎng)。

2.1 AI爆發(fā),推動(dòng)CPU需求提升

CPU作為服務(wù)器的核心部件,其性能和功耗直接影響著服務(wù)器的整體表現(xiàn)。AI大模型快速發(fā)展背景下下,智能算力需求爆發(fā),AI服務(wù)器出貨量的增長(zhǎng)將帶動(dòng)云端CPU需求。

根據(jù)TrendForce數(shù)據(jù),2023年全球AI服務(wù)器(包含搭載GPU、FPGA、ASIC等)出貨量近120萬(wàn)臺(tái),年增38.4%,占整體服務(wù)器出貨量近9%,預(yù)計(jì)至2026年將占15%,2022~2026年全球AI服務(wù)器(包含搭載AI訓(xùn)練、推論用的GPU、FPGA、ASIC等加速芯片)出貨量年復(fù)合增長(zhǎng)率預(yù)計(jì)達(dá)29%。

在PC市場(chǎng),2024年是公認(rèn)的AIPC元年,AIPC有望帶動(dòng)新一輪換機(jī)潮。業(yè)內(nèi)認(rèn)為,當(dāng)前AIPC的發(fā)展,類似早期Windows系統(tǒng)的發(fā)展,未來(lái)有望復(fù)制Windows系統(tǒng)的成功。

Canalys預(yù)計(jì),2024年全球PC出貨量為2.67億臺(tái),同比增長(zhǎng)7.6%,其中AIPC出貨量在2000萬(wàn)臺(tái)左右;2027年,將有60%的電腦具備AI處理能力,AIPC出貨量將超過(guò)1.75億臺(tái)。

根據(jù)中商產(chǎn)業(yè)研究院數(shù)據(jù),2024年中國(guó)CPU市場(chǎng)規(guī)模約為2326億元。而大模型掀起的AI浪潮,不僅拉動(dòng)了CPU的需求增長(zhǎng),也對(duì)CPU的功能提出了更高的要求。

“很多AI應(yīng)用其實(shí)可以用不同的XPU處理單元進(jìn)行計(jì)算,CPU的編程更靈活,算子加速可以通過(guò)通用的編譯器處理,相比NPU更通用、更靈活。”此芯科技生態(tài)戰(zhàn)略總經(jīng)理周杰此前告訴第一財(cái)經(jīng),此芯科技的Armv9 CPU包含向量擴(kuò)展指令加速,能夠更好地幫助在端側(cè)運(yùn)行大語(yǔ)言模型,最新的iPhone 16系列也對(duì)CPU進(jìn)行了升級(jí),包含了矩陣運(yùn)算指令加速,以更好地支持那些基于CPU的Apple Intelligence應(yīng)用。”

2.2 CPU指令集架構(gòu)之爭(zhēng)

芯片架構(gòu)是設(shè)計(jì)和構(gòu)建微處理器或其他集成電路的基礎(chǔ),定義了芯片的組織結(jié)構(gòu)、功能單元、數(shù)據(jù)流以及指令集等關(guān)鍵特性。指令集架構(gòu)則是芯片架構(gòu)中最頂層的設(shè)計(jì),定義了計(jì)算機(jī)硬件能夠執(zhí)行的所有指令的集合,是計(jì)算機(jī)系統(tǒng)設(shè)計(jì)中的核心部分,對(duì)上層軟件和下層硬件都具有重要影響。

根據(jù)設(shè)計(jì)原則的不同,指令集架構(gòu)主要分為兩大陣營(yíng):復(fù)雜指令集計(jì)算(CISC)和精簡(jiǎn)指令集計(jì)算(RISC),并由此衍生出x86、ARM、RISC-V等指令集架構(gòu)。

X86由Intel推出,屬于CISC設(shè)計(jì),擁有豐富的指令集,支持多種尋址模式和復(fù)雜的操作。目前搭載x86架構(gòu)指令集的處理器主要應(yīng)用在PC和服務(wù)器上。由于Intel嚴(yán)格把控專利授權(quán),因此x86市場(chǎng)基本被Intel壟斷。

在服務(wù)器市場(chǎng),x86是CPU的主流架構(gòu)。根據(jù)IDC數(shù)據(jù),2023年x86架構(gòu)服務(wù)器市場(chǎng)份額為88%,中國(guó)x86服務(wù)器市場(chǎng)出貨量為362萬(wàn)臺(tái),預(yù)計(jì)2024年還將增長(zhǎng)5.7%。

Arm架構(gòu)基于RISC設(shè)計(jì),Arm內(nèi)核微架構(gòu)IP選擇多樣、設(shè)計(jì)精簡(jiǎn)可靠、在低功耗領(lǐng)域表現(xiàn)優(yōu)異。Arm的商業(yè)模式是專注處理器內(nèi)核架構(gòu)的授權(quán),而不直接設(shè)計(jì)、制造芯片,中立的地位使得Arm通過(guò)授權(quán)廣泛推廣了生態(tài)系統(tǒng)。據(jù)悉,目前Arm架構(gòu)在以移動(dòng)終端芯片(手機(jī)平板等)、機(jī)頂盒、視頻監(jiān)控等為代表的移動(dòng)智能領(lǐng)域獲得廣泛應(yīng)用。

整體看,目前云端服務(wù)器多采用X86架構(gòu),邊緣側(cè)采用Arm架構(gòu),但近年來(lái)格局也在發(fā)生改變,Arm架構(gòu)逐漸向服務(wù)器領(lǐng)域滲透。“現(xiàn)在全球很多互聯(lián)網(wǎng)廠商都開(kāi)始用Arm架構(gòu)來(lái)設(shè)計(jì)自己的服務(wù)器芯片,比如亞馬遜、谷歌、微軟等,以及國(guó)內(nèi)的阿里。”周杰對(duì)第一財(cái)經(jīng)表示。此外,AIPC搭載NPU,Arm架構(gòu)或更具優(yōu)勢(shì)。Arm CEO Rene Haas在COMPUTEX 2024上表示,Arm預(yù)計(jì)將五年內(nèi)拿下Windows PC市場(chǎng)50%以上的份額。

開(kāi)放精簡(jiǎn)指令集架構(gòu)RISC-V近年來(lái)也開(kāi)始興起。RISC-V完全開(kāi)源,采用寬松的BSD協(xié)議,企業(yè)可以完全自由免費(fèi)使用,同時(shí)也允許企業(yè)添加自有指令集,而不必開(kāi)放共享,以支持差異化發(fā)展;同時(shí)架構(gòu)簡(jiǎn)單,短小精悍,不同的部分還能以模塊化的方式組成在一起,從而通過(guò)一套統(tǒng)一架構(gòu)滿足各種不同應(yīng)用場(chǎng)景。據(jù)了解,目前國(guó)內(nèi)多家初創(chuàng)企業(yè)開(kāi)始用RISC-V進(jìn)行芯片設(shè)計(jì)。SHD Group預(yù)計(jì),2030年基于RISC-V的SoC營(yíng)收有望高達(dá)920億美元,2021-2030年復(fù)合年增長(zhǎng)率高達(dá)47%。

“RISC-V架構(gòu)目前更多應(yīng)用在一些固定場(chǎng)景,比如IoT設(shè)備等,但它對(duì)于通用生態(tài)的支持,比如PC、服務(wù)器領(lǐng)域,需要更多的資源投入和研發(fā)支持。”周杰告訴第一財(cái)經(jīng)。

此外,也有部分企業(yè)自研指令集。龍芯中科(688047.SH)2023年在MIPS架構(gòu)的基礎(chǔ)上,宣布獨(dú)立研發(fā)出具有完全自主產(chǎn)權(quán)的Loong Arch架構(gòu),申威基于Alpha架構(gòu)研發(fā)出SW64架構(gòu)。

“生態(tài)是一個(gè)很重要的問(wèn)題,X86的生態(tài)無(wú)疑是最成熟的,Arm架構(gòu)生態(tài)也越來(lái)越成熟。”周杰表示,“自研架構(gòu)的生態(tài)相比X86和Arm架構(gòu)生態(tài),會(huì)有一定的差距。如果需要支持更通用的生態(tài),整個(gè)產(chǎn)業(yè)鏈上下游就需要很多投入,比如各個(gè)軟件廠商需要去適配自研架構(gòu),并進(jìn)行相關(guān)軟件優(yōu)化。”

2.3主要國(guó)產(chǎn)CPU廠商

市場(chǎng)格局來(lái)看,目前Intel、AMD領(lǐng)跑通用CPU市場(chǎng)。

根據(jù)CPU市場(chǎng)追蹤機(jī)構(gòu)Mercury Research的報(bào)告,2024年第二季度,Intel在全球PC市場(chǎng)占據(jù)78.9%的市場(chǎng)份額,AMD市占率為占據(jù)21.1%;在服務(wù)器CPU市場(chǎng),Intel市占率高達(dá)75.9%,AMD為24.1%。

國(guó)產(chǎn)CPU廠商分為三大流派:一是自研架構(gòu),如前文所述的龍芯和申威;二是使用Arm架構(gòu),如中國(guó)長(zhǎng)城(000066.SZ)子公司飛騰、華為海思;三是使用X86架構(gòu),上海兆芯和海光信息(688041.SH)均使用X86架構(gòu)。

與GPU相比,國(guó)內(nèi)CPU的發(fā)展則更為成熟。根據(jù)頭豹研究院數(shù)據(jù),2022年中國(guó)CPU國(guó)產(chǎn)化率為30%-40%。同時(shí),中國(guó)CPU國(guó)產(chǎn)化率還在不斷提升,在最近的運(yùn)營(yíng)商集采中,國(guó)產(chǎn)CPU比例接近70%。

隨著信創(chuàng)的持續(xù)推進(jìn),國(guó)產(chǎn)CPU或?qū)@得較大的增長(zhǎng)空間。Canalys數(shù)據(jù)顯示,2023年中國(guó)政府及教育部門(mén)的PC采購(gòu)量達(dá)到272萬(wàn)臺(tái),占到全國(guó)出貨量的6%。2024年3月,中央政府采購(gòu)網(wǎng)發(fā)布公告稱,在采購(gòu)計(jì)算機(jī)時(shí)應(yīng)當(dāng)將CPU、操作系統(tǒng)符合安全可靠測(cè)評(píng)要求納入采購(gòu)需求。Canalys認(rèn)為,上述六家都屬于符合該公告中國(guó)產(chǎn)CPU條件的品牌。

“產(chǎn)業(yè)正在努力推進(jìn)先進(jìn)制造工藝和上游EDA工具發(fā)展,這些都對(duì)芯片產(chǎn)品的競(jìng)爭(zhēng)力產(chǎn)生很大影響。”周杰稱,“結(jié)合國(guó)內(nèi)目前的產(chǎn)業(yè)現(xiàn)狀,設(shè)計(jì)出一款芯片問(wèn)題不大,關(guān)鍵是設(shè)計(jì)出來(lái)之后,一是怎么生產(chǎn),二是如何建立一個(gè)好的生態(tài),幫助開(kāi)發(fā)者和終端用戶比較好地用起來(lái),這一點(diǎn)尤為重要,也是公司核心能力的體現(xiàn)。”

三、GPU

GPU,即圖形處理單元,是計(jì)算機(jī)顯卡的核心。

與CPU相比,GPU的邏輯運(yùn)算單元較少,單個(gè)運(yùn)算單元(ALU)處理能力更弱,但能夠?qū)崿F(xiàn)多個(gè)ALU并行計(jì)算。同樣運(yùn)行3000次的簡(jiǎn)單運(yùn)算,CPU由于串行計(jì)算,需要3000個(gè)時(shí)鐘周期,而配有3000個(gè)ALU的GPU運(yùn)行只需要1個(gè)時(shí)鐘周期。

不過(guò),GPU處理并行計(jì)算并不是作為一個(gè)獨(dú)立的計(jì)算平臺(tái),而是與CPU通過(guò)PCIe總線連接在一起來(lái)協(xié)同工作,可視為CPU的協(xié)處理器。

作為計(jì)算機(jī)的圖形處理以及并行計(jì)算內(nèi)核,GPU最基本的功能是圖形顯示和分擔(dān)CPU的計(jì)算量,主要可以分為圖形圖像渲染計(jì)算GPU和運(yùn)算協(xié)作處理器GPGPU(通用計(jì)算圖形處理器),后者去掉或減弱GPU的圖形顯示能力,將其余部分全部投入通用計(jì)算,實(shí)現(xiàn)處理人工智能、專業(yè)計(jì)算等加速應(yīng)用。本報(bào)告主要討論的也是后者。

由于GPU擁有數(shù)千個(gè)ALU,能夠并行執(zhí)行數(shù)百萬(wàn)個(gè)數(shù)學(xué)運(yùn)算,因此GPU與深度學(xué)習(xí)技術(shù)完美契合,使用GPU做輔助計(jì)算,能夠更快地提高AI的性能。CPU+GPU成為了目前應(yīng)用最廣泛的算力底座。

根據(jù)中商產(chǎn)業(yè)研究院數(shù)據(jù),2023年中國(guó)GPU市場(chǎng)規(guī)模為807億元,同比增長(zhǎng)32.78%,預(yù)計(jì)2024年將增至1073億元,2020-2024年復(fù)合增長(zhǎng)率(CAGR)達(dá)32.8%。而據(jù)智研咨詢,全球人工智能GPU市場(chǎng)2020-2024年CAGR也將達(dá)到30.73%。

3.1英偉達(dá)與CUDA生態(tài)

“GPU的核心競(jìng)爭(zhēng)力在于架構(gòu)等因素決定的性能先進(jìn)性和計(jì)算生態(tài)壁壘。”華安嘉業(yè)相關(guān)負(fù)責(zé)人此前告訴第一財(cái)經(jīng)。

一方面,性能先進(jìn)性體現(xiàn)在高精度浮點(diǎn)計(jì)算能力。訓(xùn)練需要密集的計(jì)算得到模型,沒(méi)有訓(xùn)練,就不可能會(huì)有推理。而訓(xùn)練需要更高的精度,一般來(lái)說(shuō)需要float型,如FP32,32位的浮點(diǎn)型來(lái)處理數(shù)據(jù)。

另一方面,生態(tài)也是GPU發(fā)展需要解決的問(wèn)題。

根據(jù)調(diào)研機(jī)構(gòu)TechInsights數(shù)據(jù),2023年全球數(shù)據(jù)中心GPU總出貨量達(dá)到了385萬(wàn)顆,相比2022年的267萬(wàn)顆增長(zhǎng)了44.2%。其中,英偉達(dá)以98%的市場(chǎng)份額穩(wěn)居第一,出貨量達(dá)376萬(wàn)塊,銷(xiāo)售額同比增長(zhǎng)超42%。

眾所周知,英偉達(dá)憑借先發(fā)優(yōu)勢(shì),以及大幅降低開(kāi)發(fā)門(mén)檻的CUDA架構(gòu),穩(wěn)穩(wěn)圈住了大批用戶,不僅使GPU在通用計(jì)算中逐漸成為主角,也成就了自身的護(hù)城河。

2007年,英偉達(dá)首次推出通用并行計(jì)算架構(gòu)CUDA(Compute Unified Device Architecture,統(tǒng)一計(jì)算設(shè)備架構(gòu)),使GPU成為通用并行數(shù)據(jù)處理加速器,即GPGPU。CUDA 支持 Windows、Linux、MacOS 三種主流操作系統(tǒng),支持CUDA C語(yǔ)言和OpenCL及CUDA Fortran語(yǔ)言。

CUDA 架構(gòu)不用再像過(guò)去GPU架構(gòu)那樣將通用計(jì)算映射到圖形API(應(yīng)用程序編程接口)中,大大降低了CUDA 的開(kāi)發(fā)門(mén)檻。因此,CUDA推出后發(fā)展迅速,廣泛應(yīng)用于石油勘測(cè)、天文計(jì)算、流體力學(xué)模擬、分子動(dòng)力學(xué)仿真、生物計(jì)算、圖像處理、音視頻編解碼等領(lǐng)域。

這為英偉達(dá)拿下GPU過(guò)半市場(chǎng)份額奠定了基礎(chǔ)。此后,英偉達(dá)通用計(jì)算架構(gòu)持續(xù)升級(jí)迭代,2010年發(fā)布Fermi架構(gòu),2012年發(fā)布Kepler架構(gòu),GPU在通用計(jì)算中逐漸成為主角。

AI 芯片應(yīng)用生態(tài)非長(zhǎng)期研發(fā)和迭代更新不能解決。英偉達(dá)早在CUDA問(wèn)世之初就開(kāi)始生態(tài)建設(shè),AMD和Intel也推出了自研生態(tài)ROCm和one API,但CUDA憑借先發(fā)優(yōu)勢(shì)早已站穩(wěn)腳跟。為解決應(yīng)用問(wèn)題,AMD和Intel通過(guò)工具將CUDA代碼轉(zhuǎn)換成自己的編程模型,從而實(shí)現(xiàn)針對(duì) CUDA 環(huán)境的代碼編譯。

但中信證券表示,由于CUDA的閉源特性,以及快速的更新,后來(lái)者很難通過(guò)指令翻譯等方式完美兼容,即使部分兼容也會(huì)有較大的性能損失,導(dǎo)致在性價(jià)比上持續(xù)落后英偉達(dá)。同時(shí),CUDA畢竟是英偉達(dá)的專屬軟件棧,包含了許多英偉達(dá)GPU硬件的專有特性,這部分在其他廠商的芯片上并不能得到體現(xiàn)。

這正是國(guó)內(nèi)廠商面臨的困境。2024年初,英偉達(dá)宣布禁止在其他GPU上通過(guò)轉(zhuǎn)譯層運(yùn)行CUDA軟件的消息引起業(yè)內(nèi)廣泛討論。“在工具鏈層面兼容CUDA的GPU廠商會(huì)受到影響,但影響本身在技術(shù)層面還是比較復(fù)雜的。英偉達(dá)其實(shí)發(fā)出了一個(gè)非常強(qiáng)烈的信號(hào),就是他正在扎緊自己生態(tài)的籬笆。”某GPU業(yè)內(nèi)人士對(duì)第一財(cái)經(jīng)表示。

3.2國(guó)內(nèi)GPU廠商加速發(fā)展

當(dāng)前國(guó)內(nèi)GPU廠商紛紛大力投入研發(fā)迭代架構(gòu),謀求構(gòu)建自主軟硬件生態(tài)。

華為可謂國(guó)內(nèi)GPU產(chǎn)業(yè)發(fā)展的引領(lǐng)者,近年來(lái)華為在昇騰AI系列芯片迭代、自主可控產(chǎn)能提升方面取得了長(zhǎng)足進(jìn)展。根據(jù)《2023智能算力發(fā)展白皮書(shū)》,假設(shè)到2025年我國(guó)智能算力規(guī)模至少要達(dá)到900EFlops,預(yù)計(jì)昇騰市占率將達(dá)到30%,昇騰910B算力相當(dāng)于A100(FP16約300Tflops),平均價(jià)格為12萬(wàn)元,開(kāi)源證券保守估計(jì)昇騰910B累計(jì)市場(chǎng)空間為1080億元。

海光信息(688041.SH)的DCU也屬于GPU的一種,其DCU協(xié)處理器全面兼容ROCm GPU計(jì)算生態(tài)。據(jù)悉,ROCm和CUDA在生態(tài)、編程環(huán)境等方面高度相似,CUDA用戶可以以較低代價(jià)快速遷移至ROCm平臺(tái),因此ROCm也被稱為“類CUDA”,主要部署在服務(wù)器集群或數(shù)據(jù)中心,為應(yīng)用程序提供高性能、高能效比的算力,支撐高復(fù)雜度和高吞吐量的數(shù)據(jù)處理任務(wù)。

根據(jù)官網(wǎng)描述,寒武紀(jì)(688256.SH)首款云端訓(xùn)練芯片思元290實(shí)現(xiàn)了INT8算力512TOPS,而在研的第五代智能處理器微架構(gòu)對(duì)推薦系統(tǒng)和大語(yǔ)言模型訓(xùn)練推理場(chǎng)景進(jìn)行了重點(diǎn)優(yōu)化,在編程靈活性、能效、功耗、面積等方面大幅提升了產(chǎn)品競(jìng)爭(zhēng)力。

半導(dǎo)體初創(chuàng)企業(yè)中,燧原科技、芯瞳半導(dǎo)體、芯動(dòng)科技、摩爾線程、天數(shù)智芯、壁仞科技等均已陸續(xù)推出產(chǎn)品。據(jù)悉,2020年開(kāi)始,國(guó)內(nèi)GPU行業(yè)融資環(huán)境有較大改善,初創(chuàng)公司遍地開(kāi)花。

摩爾線程成立于2020年,是一家以全功能GPU芯片設(shè)計(jì)為主的集成電路企業(yè)。該公司推出了全面對(duì)標(biāo)CUDA的MUSA架構(gòu),用戶能夠?qū)UDA寫(xiě)的應(yīng)用程序通過(guò)摩爾線程的編譯器重新編譯成MUSA的應(yīng)用,從而實(shí)現(xiàn)接近零成本遷移,同時(shí)也能夠通過(guò)標(biāo)準(zhǔn)編程語(yǔ)言開(kāi)發(fā)新的應(yīng)用。“MUSA本身是一套獨(dú)立自主的生態(tài),同時(shí)也是個(gè)開(kāi)放的、可以吸收現(xiàn)有生態(tài)的全新生態(tài)。”摩爾線程CTO張鈺勃告訴第一財(cái)經(jīng)。

燧原科技專注于人工智能領(lǐng)域云端和邊緣算力產(chǎn)品,致力于為通用人工智能打造算力底座,提供原始創(chuàng)新、具備自主知識(shí)產(chǎn)權(quán)的AI加速卡、系統(tǒng)集群和軟硬件解決方案。

3.3兼容與自建生態(tài)之路

國(guó)產(chǎn)算力芯片如果從“能用”變成“好用”,仍需投入大量研發(fā)成本和時(shí)間。華安嘉業(yè)上述負(fù)責(zé)人對(duì)第一財(cái)經(jīng)表示,國(guó)產(chǎn)GPU在起步階段兼容現(xiàn)有生態(tài)更容易發(fā)展,但長(zhǎng)期還是要擺脫兼容思路,發(fā)展自有核心技術(shù)。

“我們經(jīng)常講兼容,但兼容不代表要和英偉達(dá)做得完全一樣,而是說(shuō)你做的東西可以去承載所有技術(shù)的生態(tài),可以把英偉達(dá)的生態(tài)吸收過(guò)來(lái)、直接利用。但要做功能全面對(duì)標(biāo)英偉達(dá)的GPU芯片難度很大,目前大多數(shù)廠商采取的策略是僅實(shí)現(xiàn)英偉達(dá)GPU人工智能加速的部分功能。”張鈺勃表示。

“獨(dú)立自主和開(kāi)放兼容并不矛盾。我們一方面可以獨(dú)立自主發(fā)展實(shí)現(xiàn)可控,一方面也可以開(kāi)放兼容現(xiàn)有CUDA優(yōu)勢(shì)。”張鈺勃告訴第一財(cái)經(jīng),“只有硬件功能完全對(duì)標(biāo),才能夠有效地把CUDA生態(tài)的應(yīng)用吸收過(guò)來(lái)。如果沒(méi)有辦法吸收現(xiàn)有生態(tài),另建一個(gè)新生態(tài),真要建成也是十幾二十年的事。”

客戶遷移成本是推動(dòng)國(guó)產(chǎn)GPU廠商加速生態(tài)建設(shè)的重要因素之一。目前,國(guó)內(nèi)也存在一些堅(jiān)持“難而正確”理念的廠商,選擇了自建生態(tài)、不兼容的道路,燧原科技就是其一。

對(duì)于這類算力廠商來(lái)說(shuō),客戶遷移成本始終存在,因此需要尋找志同道合的客戶。“燧原希望與產(chǎn)業(yè)合作伙伴一起構(gòu)建一個(gè)開(kāi)放開(kāi)源的生態(tài)系統(tǒng),我們的客戶也愿意跟那些有長(zhǎng)期主義的合作伙伴一起去打磨產(chǎn)品。”燧原科技首席生態(tài)官李星宇此前告訴第一財(cái)經(jīng)。

據(jù)悉,隨著技術(shù)的發(fā)展,國(guó)內(nèi)廠商的自建生態(tài)之路有望越走越寬。

“技術(shù)生態(tài)的范式轉(zhuǎn)移,給像燧原這樣的初創(chuàng)公司自建生態(tài)帶來(lái)一個(gè)新的契機(jī)。”李星宇認(rèn)為,隨著大模型時(shí)代的到來(lái),模型的架構(gòu)底座趨向于一致,即Transformer,這收斂了對(duì)于硬件的需求,讓硬件設(shè)計(jì)的方向更加聚焦和明確,減輕了碎片化程度;與此同時(shí),越來(lái)越流行的開(kāi)源框架和編程語(yǔ)言,讓芯片公司有更好的基礎(chǔ)去適配不同模型,讓開(kāi)發(fā)者更容易在開(kāi)發(fā)工具層面去適配不同的硬件。

“客戶的遷移成本取決于很多因素,但整體的趨勢(shì)是越來(lái)越便捷。”李星宇表示,“比如說(shuō)我們兼容PyTorch的主流算子,采用這些主流算子的模型理論上可以直接遷移而不需要改源代碼。同時(shí)未來(lái)我們也會(huì)支持更多主流的開(kāi)源編程語(yǔ)言,讓客戶開(kāi)發(fā)新的模型時(shí),也會(huì)變得更加容易。”

雖然目前國(guó)內(nèi)有多家AI芯片廠商選擇自建生態(tài),但并未形成統(tǒng)一生態(tài),各家正處于跑馬圈地、各自發(fā)展的時(shí)期。誠(chéng)然,在技術(shù)發(fā)展的早期和技術(shù)快速迭代的時(shí)期,很難制定一套統(tǒng)一的標(biāo)準(zhǔn)。正如海外GPU發(fā)展的早期,行業(yè)存在四十多家企業(yè),但大浪淘沙后,僅留存幾家企業(yè)做大做強(qiáng)。在快速變化的技術(shù)趨勢(shì)面前,每個(gè)人都有自己不同的理解,讓市場(chǎng)去選擇,讓客戶去選擇,可能是一個(gè)更好的方式。

“技術(shù)的提升最終是靠市場(chǎng)和客戶的需求牽引,中國(guó)真正的優(yōu)勢(shì)在于擁有全球最大的市場(chǎng),以及眾多開(kāi)發(fā)者愿意去擁抱新技術(shù)。”李星宇表示。

四、FPGA

FPGA,即現(xiàn)場(chǎng)可編程門(mén)陣列,是在硅片上預(yù)先設(shè)計(jì)實(shí)現(xiàn)的具有可編程特性的集成電路,用戶在使用過(guò)程中可以通過(guò)軟件重新配置芯片內(nèi)部的資源實(shí)現(xiàn)不同功能,因此具有優(yōu)越的靈活性,能夠滿足不同場(chǎng)景的應(yīng)用需求。

4.1低時(shí)延與靈活性優(yōu)勢(shì)

相比CPU,F(xiàn)PGA具備兩大性能優(yōu)勢(shì),一是優(yōu)越的靈活性,二是低時(shí)延處理。

FPGA 芯片類似于集成電路中的積木,用戶可根據(jù)各自的需求和想法,將其拼搭成不同的功能、特性的電路結(jié)構(gòu),以滿足不同場(chǎng)景的應(yīng)用需求。GPU在設(shè)計(jì)完成后無(wú)法改動(dòng)硬件資源,而 FPGA根據(jù)特定應(yīng)用對(duì)硬件進(jìn)行編程,更具靈活性。機(jī)器學(xué)習(xí)使用多條指令平行處理單一數(shù)據(jù),F(xiàn)PGA 的定制化能力更能滿足精確度較低、分散、非常規(guī)深度神經(jīng)網(wǎng)絡(luò)計(jì)算需求。

時(shí)延方面,CPU為了保證最大程度的通用性和復(fù)雜任務(wù)的處理,引入了指令集和對(duì)應(yīng)的取指譯碼操作,而FPGA在設(shè)計(jì)時(shí)就相當(dāng)于預(yù)先指定了指令,無(wú)需像CPU一樣進(jìn)行Fetch(取指)-Decode(譯碼),可以直接進(jìn)入相當(dāng)于CPU的Excecute(執(zhí)行)的環(huán)節(jié)。同時(shí),F(xiàn)PGA采用高并行架構(gòu),數(shù)十萬(wàn)個(gè) CLB 可以同步執(zhí)行?,F(xiàn)代CPU雖然有多個(gè)ALU(核心計(jì)算單元)以完成并行計(jì)算,但在并行度上仍然不如有數(shù)十萬(wàn)個(gè)CLB的FPGA。

此外,對(duì)于現(xiàn)代CPU為了提升并行度增加的模塊,比如BranchPrediction(分支預(yù)測(cè)),Out-of-orderExecution(亂序執(zhí)行),調(diào)度(Scheduler),F(xiàn)PGA都不需要,因此FPGA完成指令所花費(fèi)的時(shí)鐘周期要遠(yuǎn)小于CPU。

在高并行計(jì)算中,F(xiàn)PGA的時(shí)延優(yōu)勢(shì)更突出。比如,在完成雷達(dá)波束賦形這一高并行算法時(shí),使用XilinxVirtex7(FPGA)時(shí)延僅需3.3ms,而且時(shí)鐘頻率僅需125MHz,系統(tǒng)功耗僅為75W,而使用ARMA9(CPU)在667MHz的時(shí)鐘頻率下依然需要250ms才能完成,而且系統(tǒng)功耗高至1400W。

4.2 AI成增速最快下游應(yīng)用市場(chǎng)

低延時(shí)與靈活性優(yōu)勢(shì)造就了FPGA廣闊的下游市場(chǎng)。東興證券研報(bào)稱,2022年FPGA全球市場(chǎng)空間超80億美元,其中大部分需求來(lái)自于電信、工業(yè)、數(shù)據(jù)中心&AI、國(guó)防&航空航天四大領(lǐng)域,2028年將增長(zhǎng)至接近200億美元,2022年~2028年CAGR超15%,由中國(guó)市場(chǎng)引領(lǐng)增長(zhǎng)。

據(jù)Marketsandmarkets數(shù)據(jù),2022年中國(guó)FPGA市場(chǎng)規(guī)模約為16億美元,隨著AI&數(shù)據(jù)中心、電信、國(guó)防&航空航天、汽車(chē)市場(chǎng)對(duì)FPGA的需求日益增長(zhǎng),預(yù)計(jì)2028年規(guī)模約為45億美元,2022年~2028年復(fù)合增速18%,高于全球其他地區(qū)。

FPGA在數(shù)據(jù)中心&AI領(lǐng)域是重要的計(jì)算芯片類別,可以作為異構(gòu)計(jì)算的關(guān)鍵一環(huán),起到加速計(jì)算的作用。根據(jù)東興證券的測(cè)算,2028年FPGA在全球AI領(lǐng)域應(yīng)用的市場(chǎng)規(guī)模將達(dá)到35億美元,占比逾15%,2022年~2028年CAGR為18%,是增速最快的細(xì)分領(lǐng)域。

具體來(lái)看,F(xiàn)PGA 在數(shù)據(jù)中心&AI 的增長(zhǎng)驅(qū)動(dòng)力主要來(lái)自于低時(shí)延推理的需求。

FPGA的高并行、低時(shí)延、低功耗的特性特別適合需要實(shí)時(shí)推理的場(chǎng)景。例如,YOLO(Youonlylookonce)是目前最重要的實(shí)時(shí)目標(biāo)檢測(cè)算法,使用賽靈思(Xilinx)的ZynqUltraScale+MPSoC(某個(gè)FPGA方案),可以在約18ms的時(shí)延完成YOLOv5(第五代YOLO算法),而使用Zynq7100(另一種FPGA方案)則可實(shí)現(xiàn)壓縮后的YOLOv7模型(第七代YOLO算法),在30幀率下實(shí)現(xiàn)小于33ms(15ms)的低時(shí)延推理。此外,F(xiàn)PGA在數(shù)據(jù)中心常用于計(jì)算加速,比如云計(jì)算的加速實(shí)例、金融的高頻/低時(shí)延的交易系統(tǒng)處理。FPGA還廣泛應(yīng)用于數(shù)據(jù)中心的互聯(lián)、存儲(chǔ)控制系統(tǒng)。

4.3國(guó)產(chǎn)FPGA仍處于0-1階段

目前,全球FPGA 市場(chǎng)按制程可大致分為三類:90nm以上,主要用于高可靠的航天應(yīng)用;20-90 nm,主要用于國(guó)防、航空航天、汽車(chē)、消費(fèi)電子等領(lǐng)域;≤16nm以下。其中,14/16nm FPGA 主要應(yīng)用在電信領(lǐng)域的基帶單元和有線網(wǎng)絡(luò),汽車(chē)領(lǐng)域的激光雷達(dá),工業(yè)中的安防和儀器儀表等,7nm FPGA 則主要應(yīng)用在數(shù)據(jù)中心加速計(jì)算。

制程競(jìng)爭(zhēng)是貫穿FPGA發(fā)展歷史的競(jìng)爭(zhēng)主線,制程領(lǐng)先后則具備先發(fā)優(yōu)勢(shì),占據(jù)更多市場(chǎng)份額和盈利空間,是FPGA市場(chǎng)份額最直接的決定因素。因此FPGA市場(chǎng)高度集中,龍頭賽靈思(Xilinx)占據(jù)過(guò)半份額,前四名玩家合計(jì)份額超90%。在數(shù)據(jù)中心和AI加速計(jì)算領(lǐng)域,賽靈思占據(jù)絕對(duì)性份額。

而國(guó)內(nèi)廠商在應(yīng)用于數(shù)據(jù)中心&AI領(lǐng)域的高端FPGA市場(chǎng)仍處在從0到1階段。國(guó)內(nèi)FPGA廠商不僅需要硬件架構(gòu)的創(chuàng)新,還需要EDA軟件和自研IP能力的提升,以及更完善的國(guó)產(chǎn)應(yīng)用生態(tài)培養(yǎng)。

五、ASIC

ASIC,Application Specific Integrated Circuit,即專用集成電路芯片,是一種為了專門(mén)目的或算法而設(shè)計(jì)的芯片。

ASIC芯片的架構(gòu)并不固定,既有較為簡(jiǎn)單的網(wǎng)卡芯片,用于控制網(wǎng)絡(luò)流量,滿足防火墻需求等,也有類似于谷歌TPU等的頂尖AI芯片。只要是為了某一類算法或某一類用戶需求而去專門(mén)設(shè)計(jì)的芯片,都可以稱之為ASIC。

相比能夠運(yùn)行各種應(yīng)用程序的GPU和能夠在制造后重新編程以執(zhí)行不同任務(wù)的FPGA,ASIC需要定制設(shè)計(jì),靈活性較差。但由于ASIC是為了某一類需求和算法而設(shè)計(jì)的芯片,因此其在特定應(yīng)用中表現(xiàn)出色,性能明顯優(yōu)于其他芯片。

2023年,數(shù)據(jù)中心定制加速計(jì)算芯片(ASIC)規(guī)模約66億美元,在AI加速計(jì)算芯片市場(chǎng)占有率較低,為16%。業(yè)內(nèi)預(yù)計(jì),AI ASIC芯片成長(zhǎng)空間廣闊,未來(lái)增速有望超過(guò)通用加速計(jì)算芯片。Marvell稱,2028年定制芯片規(guī)模有望超400億美元,CAGR達(dá)45%,而通用加速計(jì)算芯片2028年預(yù)計(jì)達(dá)到1716億美元市場(chǎng)規(guī)模,CAGR為32%。

目前,ASIC芯片根據(jù)運(yùn)算類型主要分為T(mén)PU、DPU和NPU,分別對(duì)應(yīng)不同的基礎(chǔ)計(jì)算功能。

TPU即為谷歌發(fā)明的AI處理器,主要支持張量計(jì)算,DPU則是用于數(shù)據(jù)中心內(nèi)部的加速計(jì)算,NPU則是對(duì)應(yīng)了上一輪AI熱潮中的CNN神經(jīng)卷積算法,后被大量集成進(jìn)了邊緣設(shè)備的處理芯片中。

5.1 TPU:谷歌定制,能效比突出

TPU,即張量處理單元,屬于ASIC的一種,是谷歌專門(mén)為加速深層神經(jīng)網(wǎng)絡(luò)運(yùn)算能力而研發(fā)的一款芯片,為機(jī)器學(xué)習(xí)領(lǐng)域而定制。

與傳統(tǒng)CPU、GPU架構(gòu)不同,TPU的MXU設(shè)計(jì)采用了脈動(dòng)陣列(systolic array)架構(gòu),數(shù)據(jù)流動(dòng)呈現(xiàn)出周期性的脈沖模式,類似于心臟跳動(dòng)的供血方式。

CPU與GPU在每次運(yùn)算中需要從多個(gè)寄存器中進(jìn)行存??;而TPU的脈動(dòng)陣列將多個(gè)ALU串聯(lián)在一起,復(fù)用從一個(gè)寄存器中讀取的結(jié)果。

相比于CPU、GPU,TPU在機(jī)器學(xué)習(xí)任務(wù)中因高能效脫穎而出,其中TPU v1在神經(jīng)網(wǎng)絡(luò)性能上最大可達(dá)同時(shí)期CPU的71倍、GPU的2.7倍。

華福證券認(rèn)為,與英偉達(dá)GPU相比,在算力上,谷歌TPU目前暫時(shí)落后一代,在性能功耗比上谷歌優(yōu)勢(shì)顯著。

根據(jù)Capvision,谷歌TPU70%-80%的算力用于內(nèi)部業(yè)務(wù)場(chǎng)景使用,剩余20%-30%以租賃方式供外部使用。隨著TPUv4于2021年推出和大型語(yǔ)言模型的出現(xiàn),谷歌芯片業(yè)務(wù)的規(guī)模顯著增加,2023年TPU出貨量已突破200萬(wàn)顆量級(jí)。

5.2 DPU:CPU和GPU之后的“第三顆主力芯片”

DPU,即數(shù)據(jù)處理器,具備強(qiáng)大網(wǎng)絡(luò)處理能力,以及安全、存儲(chǔ)與網(wǎng)絡(luò)卸載功能,可釋放CPU算力,能夠完成CPU所不擅長(zhǎng)的網(wǎng)絡(luò)協(xié)議處理、數(shù)據(jù)加解密、數(shù)據(jù)壓縮等數(shù)據(jù)處理任務(wù),并對(duì)各類資源分別管理、擴(kuò)容、調(diào)度,實(shí)現(xiàn)數(shù)據(jù)中心降本提效。即處理“CPU做不好,GPU做不了”的任務(wù)。

在AI時(shí)代,智算中心需要處理的數(shù)據(jù)量井噴,DPU能夠釋放智算中心的有效算力,能夠解決基礎(chǔ)設(shè)施的降本增效問(wèn)題,重要性和滲透率正逐漸提升。中國(guó)信通院預(yù)計(jì),未來(lái)全球DPU市場(chǎng)規(guī)模仍將保持30%的復(fù)合增速,2025年全球DPU市場(chǎng)規(guī)模將接近150億美元。

5.2.1三U一體,更適配智算時(shí)代的解決方案

“DPU這個(gè)概念是四年前被英偉達(dá)炒作起來(lái)的。在收購(gòu)了以色列公司Mellanox后,英偉達(dá)一躍成為業(yè)界首個(gè)既有CPU、GPU,也有DPU的數(shù)據(jù)中心完整解決方案的供應(yīng)商。”芯啟源創(chuàng)辦人盧笙在接受第一財(cái)經(jīng)專訪時(shí)表示,芯啟源是國(guó)內(nèi)最早一批從事DPU研發(fā)的廠商之一,可以追溯到2018年,那個(gè)時(shí)候還稱為智能網(wǎng)卡Smartnic。

“過(guò)去承載網(wǎng)絡(luò)傳輸功能的是傳統(tǒng)網(wǎng)卡,后來(lái)誕生了智能網(wǎng)卡,四年前逐步演化為DPU。” 專注于智能計(jì)算芯片研發(fā)設(shè)計(jì)的中科馭數(shù)(北京)科技有限公司高級(jí)副總裁張宇告訴第一財(cái)經(jīng)。

2020年,英偉達(dá)發(fā)布的DPU產(chǎn)品戰(zhàn)略中將其定位為數(shù)據(jù)中心繼CPU和GPU之后的“第三顆主力芯片”,自此引爆了DPU概念。

如今,DPU已成為數(shù)據(jù)中心內(nèi)新興的專用處理器,專門(mén)設(shè)計(jì)用于加速數(shù)據(jù)中心中的安全、網(wǎng)絡(luò)和存儲(chǔ)任務(wù),針對(duì)高帶寬、低延遲的數(shù)據(jù)密集型計(jì)算場(chǎng)景提供動(dòng)力。DPU的核心作用是接管原本由CPU處理的網(wǎng)絡(luò)、存儲(chǔ)、安全和管理等任務(wù),從而釋放CPU資源,并加強(qiáng)數(shù)據(jù)安全與隱私保護(hù)。

“英偉達(dá)所做的智算中心的方案,其實(shí)都是三U一體的。英偉達(dá)三年前的DGX A100服務(wù)器、后面的DGX GH200等一系列,都是包含CPU、GPU和DPU的。當(dāng)然DPU里還有像RDMA這種智能網(wǎng)卡,這些其實(shí)都可以歸為DPU,它們本質(zhì)上是一個(gè)東西。所以從這個(gè)角度看,當(dāng)前行業(yè)內(nèi)引領(lǐng)的,或者說(shuō)大家公認(rèn)的方向,是在智算中心里CPU加GPU加DPU三者協(xié)同。”張宇表示,通用數(shù)據(jù) 中心的方案則更多是CPU加存儲(chǔ)加網(wǎng)絡(luò),一些云原生場(chǎng)景里對(duì)低時(shí)延高吞吐的數(shù)據(jù)網(wǎng)絡(luò)處理也是剛需,智算場(chǎng)景對(duì)網(wǎng)絡(luò)處理性能要求更高。

“如果把CPU比喻為大腦,用于整體控制,那么GPU則更像是肌肉,用于提供堅(jiān)實(shí)的充沛的并行計(jì)算的算力,而DPU則更像是血管和神經(jīng),將GPU需要算的數(shù)據(jù),通過(guò)DPU運(yùn)輸?shù)椒?wù)器中,完成控制指令交換和協(xié)議轉(zhuǎn)換。”張宇稱。

“多PU的配合實(shí)際上是整體計(jì)算架構(gòu)的升級(jí),從過(guò)去以通用CPU為主的架構(gòu)走向加速器為主的計(jì)算架構(gòu),通過(guò)CPU、GPU、DPU、NPU等配合來(lái)提升整體計(jì)算方案的性價(jià)比。”張宇表示,“目前在技術(shù)方面,DPU已經(jīng)逐步趨向成熟,邊界也比較成熟。網(wǎng)絡(luò)安全加解密、零信任、網(wǎng)絡(luò)卸載,已經(jīng)基本上成為了DPU穩(wěn)定承載的功能。”

5.2.2減少capex投入和能耗,具有一定性價(jià)比

作為CPU的卸載引擎,DPU最直接的作用是接管網(wǎng)絡(luò)虛擬化、硬件資源池化等基礎(chǔ)設(shè)施層服務(wù),釋放CPU的算力到上層應(yīng)用,因此能夠有效釋放智算中心的算力,提升能效比。

“英偉達(dá)此前承認(rèn)其上一代生成式AI服務(wù)器的算力芯片的效率只有設(shè)計(jì)能力40%,我們測(cè)下來(lái)只有30%多,這意味著大部分算力是被閑置的,究其原因主要是在集群間等待計(jì)算產(chǎn)生的中間變量完成數(shù)據(jù)同步,網(wǎng)絡(luò)通路的能力限制了算力底座的上限,而這恰恰是DPU的真正價(jià)值所在。”盧笙表示,這使得DPU又被推到風(fēng)口浪尖。

在數(shù)據(jù)量爆炸的AI時(shí)代,DPU不僅能夠協(xié)助構(gòu)建兼具低時(shí)延、大帶寬、高速數(shù)據(jù)通路的新型算力底座,還能夠安全高效地調(diào)度、管理、聯(lián)通這些分布式CPU、GPU資源,從而釋放智算中心的有效算力。因此,DPU的部署能夠減少數(shù)據(jù)中心的一次性capex(資本性支出)投入。Cisco(思科)的數(shù)據(jù)顯示,通過(guò)虛擬化技術(shù),企業(yè)可以減少高達(dá)40%的服務(wù)器數(shù)量,同時(shí)提高資源利用率。

另一方面,DPU通過(guò)專用硬件加速網(wǎng)絡(luò)、安全和存儲(chǔ)任務(wù),提高了數(shù)據(jù)中心的能效。

盧笙介紹,以中國(guó)移動(dòng)在浙江省SD-WAN這一個(gè)應(yīng)用場(chǎng)景為例,“通過(guò)芯啟源DPU網(wǎng)卡打造的軟硬件一體化解決方案,實(shí)現(xiàn)了網(wǎng)絡(luò)安全業(yè)務(wù)卸載,相較于傳統(tǒng)純軟件SD-WAN網(wǎng)絡(luò)方案,單機(jī)效率提升了6-8倍,整體項(xiàng)目也節(jié)約了80%的服務(wù)器部署投入和每年的軟件費(fèi)用等,極大降低了CAPEX投入;此外,由于機(jī)器部署減少,數(shù)據(jù)中心的能耗降低,經(jīng)測(cè)算每年可以節(jié)省超300萬(wàn)度電,同時(shí)極大降低了數(shù)據(jù)中心的運(yùn)營(yíng)成本。”

成本方面,第一財(cái)經(jīng)了解到,DPU的研發(fā)和生產(chǎn)成本相對(duì)較高,特別是使用先進(jìn)工藝時(shí),因而價(jià)格較高,但由于部署DPU解決方案,既能夠減少服務(wù)器設(shè)備數(shù)量,也能在后續(xù)運(yùn)行計(jì)算過(guò)程中節(jié)省能耗,因此整體系統(tǒng)成本上仍然具備一定性價(jià)比,但也要根據(jù)具體場(chǎng)景和應(yīng)用情況來(lái)討論。

5.2.3未來(lái)三年是商用落地的關(guān)鍵時(shí)期

不過(guò),目前DPU的滲透率提升仍面臨阻力。

專注于硬科技領(lǐng)域早期投資的創(chuàng)投機(jī)構(gòu)中科創(chuàng)星相關(guān)人士告訴第一財(cái)經(jīng),DPU作為軟硬件協(xié)同的虛擬化架構(gòu),需要與CPU中運(yùn)行的虛擬化軟件棧進(jìn)行有效對(duì)接,同時(shí),DPU的硬件設(shè)計(jì)必須考慮到與現(xiàn)有系統(tǒng)的兼容性和集成性;其次,DPU的架構(gòu)和接口尚未形成統(tǒng)一標(biāo)準(zhǔn),不同廠商的產(chǎn)品存在差異,這給用戶在使用、維護(hù)和升級(jí)時(shí)帶來(lái)挑戰(zhàn);此外,軟件生態(tài)尚未成熟,缺乏完善的開(kāi)發(fā)工具、驅(qū)動(dòng)程序和操作系統(tǒng)支持,“但目前已經(jīng)有公司在做”。

盧笙表示,DPU需要專用的高效指令集,這也是其核心競(jìng)爭(zhēng)力所在,剩下三分之二的工作則是圍繞指令集打造生態(tài),生態(tài)建設(shè)是DPU行業(yè)的核心壁壘,生態(tài)建設(shè)的成熟度決定了產(chǎn)品商業(yè)化落地的速度。

整體來(lái)看,DPU產(chǎn)業(yè)目前仍以國(guó)外企業(yè)為主導(dǎo),三大巨頭英偉達(dá)、博通和英特爾的份額占比較高,亞馬遜、微軟這些科技公司也在跟進(jìn)。國(guó)內(nèi)方面,中國(guó)移動(dòng)、阿里等大企業(yè)也在研發(fā)專用的DPU,初創(chuàng)企業(yè)如芯啟源、中科馭數(shù)、大禹智芯等也取得了相應(yīng)的成果或進(jìn)步。

“國(guó)內(nèi)外的DPU技術(shù)發(fā)展處于同一階段,但國(guó)外企業(yè)積累更深厚一些。在我看來(lái),DPU產(chǎn)業(yè)其實(shí)已經(jīng)逐步走向成熟和快速落地的階段。國(guó)外可能比國(guó)內(nèi)可能走得更早更快一點(diǎn)。”張宇表示。

在DPU商業(yè)化落地方面,目前國(guó)內(nèi)僅有華為、阿里、中興等大型云廠商,以及芯啟源、中科馭數(shù)等少數(shù)DPU新勢(shì)力已實(shí)現(xiàn)商用。信通院預(yù)計(jì),2025年我國(guó)數(shù)據(jù)中心DPU滲透率可達(dá)到12.7%。

張宇認(rèn)為,DPU走到當(dāng)前階段,更重要是與云在IaaS這一層的深度融合,尤其是如何給客戶提供全面、便捷、透明的純軟件的IaaS方案,使他們能夠平滑地遷移到用DPU來(lái)支撐這種高能效比的云方案。

“這塊的遷移需要行業(yè)的共同努力,并且需要持續(xù)很長(zhǎng)時(shí)間,甚至要以年來(lái)計(jì)。”張宇稱,“亞馬遜云就走得比較快,他們研發(fā)實(shí)力比較強(qiáng),已經(jīng)完成了IaaS on DPU的轉(zhuǎn)換,但對(duì)國(guó)內(nèi)大部分企業(yè)來(lái)說(shuō),步伐不會(huì)邁得太大,可能會(huì)從最痛的幾個(gè)點(diǎn)先透明地用起來(lái),比如OVS卸載、網(wǎng)絡(luò)升級(jí)等。”

“DPU的商業(yè)化不僅僅依靠于傳統(tǒng)數(shù)據(jù)中心的IaaS領(lǐng)域,也包括網(wǎng)絡(luò)安全、高性能存儲(chǔ)、集群通信等諸多的行業(yè)和領(lǐng)域。”盧笙表示,芯啟源多年來(lái)深耕“DPU for Security”方向,將DPU應(yīng)用于諸如防火墻、安全網(wǎng)關(guān)等產(chǎn)品,目前已進(jìn)入深信服網(wǎng)安產(chǎn)品線,成為標(biāo)配擴(kuò)展卡,解決了諸如Intel CPU大象流處理能力不足等業(yè)界難題。

“從目前的產(chǎn)業(yè)發(fā)展趨勢(shì)來(lái)看,如果技術(shù)發(fā)展符合預(yù)期,大概2025-2027年會(huì)有一個(gè)爆發(fā)。”上述中科創(chuàng)星相關(guān)人士表示,原因在于,隨著數(shù)字經(jīng)濟(jì)、AI和云計(jì)算產(chǎn)業(yè)的發(fā)展,服務(wù)器市場(chǎng)會(huì)迎來(lái)一個(gè)增長(zhǎng),尤其是在金融、政府和電力用戶領(lǐng)域,不僅需要大量的DPU來(lái)處理數(shù)據(jù),提升計(jì)算效率,還需要DPU發(fā)揮安全性的優(yōu)勢(shì)。

“DPU芯片確實(shí)已經(jīng)大規(guī)模應(yīng)用了,目前的增速在每年20%-30%。但DPU的行業(yè)特質(zhì)就是需要保持穩(wěn)定性,需要穩(wěn)定在集群上運(yùn)行幾個(gè)月再擴(kuò)集群。”張宇表示,更重要的一點(diǎn),結(jié)合國(guó)內(nèi)信創(chuàng)行業(yè)的發(fā)展來(lái)看,這兩三年會(huì)是非常關(guān)鍵的時(shí)期,是每家DPU廠商都需要把握好的關(guān)鍵時(shí)間窗口。

“DPU還不是一個(gè)標(biāo)準(zhǔn)化的產(chǎn)品,商業(yè)化上量的過(guò)程需要結(jié)合市場(chǎng)的需求和不同應(yīng)用場(chǎng)景的深入打磨,需要上下游廠家協(xié)同,從幾百片小規(guī)模試點(diǎn)到上萬(wàn)片的大規(guī)模部署需要積跬步至千里。”盧笙表示,DPU的商業(yè)化需要全行業(yè)伙伴共同努力,加強(qiáng)彼此的生態(tài)互信與合作,在國(guó)產(chǎn)化CPU+GPU+DPU的3U一體商業(yè)化之路攜手前行。

5.2.4國(guó)內(nèi)DPU產(chǎn)業(yè)蓄勢(shì)待發(fā)

“好消息是中國(guó)廠商和國(guó)際廠商都在同一起跑線上。”盧笙表示,隨著需求增長(zhǎng),中國(guó)市場(chǎng)本身體量很大,同時(shí)國(guó)家大力推進(jìn)數(shù)字經(jīng)濟(jì),這都給中國(guó)廠商發(fā)展提供了很好的土壤。

盧笙認(rèn)為,中國(guó)廠商在DPU領(lǐng)域能夠脫穎而出的最大優(yōu)勢(shì)在于中國(guó)數(shù)字經(jīng)濟(jì)的應(yīng)用場(chǎng)景走在世界前列,比如隨處可見(jiàn)的移動(dòng)支付等。

國(guó)內(nèi)DPU產(chǎn)業(yè)亦蓄勢(shì)待發(fā),除了云廠商外,芯啟源、中科馭數(shù)、星云智聯(lián)、大禹智芯等企業(yè)紛紛入局。

5.3 NPU:專為AI應(yīng)用而生

NPU,即神經(jīng)網(wǎng)絡(luò)處理單元,用于高效執(zhí)行神經(jīng)網(wǎng)絡(luò)的計(jì)算,通常具有優(yōu)化的硬件架構(gòu),如向量處理單元、矩陣乘法單元、卷積單元和激活函數(shù)單元等,能夠在硬件級(jí)別上執(zhí)行大規(guī)模矩陣運(yùn)算和卷積運(yùn)算,以提高神經(jīng)網(wǎng)絡(luò)計(jì)算效率。

當(dāng)前各類AI算法主要利用深度神經(jīng)網(wǎng)絡(luò)等算法模擬人類神經(jīng)元和突觸,NPU能夠?qū)崿F(xiàn)更高效率、更低能耗處理人工神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林等機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)模型。如今,多家手機(jī)廠商已搭載NPU,AIPC也將通過(guò)“CPU+NPU+GPU”打造本地混合計(jì)算。

5.3.1 NPU高效能、低功耗、更擅長(zhǎng)推理

“相比于CPU和GPU,NPU的優(yōu)勢(shì)在于高效能、低功耗、易于編程、降低了開(kāi)發(fā)門(mén)檻,同時(shí)支持多種語(yǔ)言和框架方便開(kāi)發(fā)者進(jìn)行模型開(kāi)發(fā)和部署。”IDC中國(guó)分析師杜昀龍告訴第一財(cái)經(jīng)。

NPU采用“數(shù)據(jù)驅(qū)動(dòng)并行計(jì)算”的架構(gòu),在電路層模擬人類神經(jīng)元和突觸,特別擅長(zhǎng)處理視頻、圖像類的海量多媒體數(shù)據(jù)。區(qū)別于CPU、GPU所遵循的馮諾依曼架構(gòu),NPU能夠通過(guò)突觸權(quán)重實(shí)現(xiàn)存儲(chǔ)計(jì)算一體化,提高運(yùn)行效率,因此比GPU更擅長(zhǎng)推理。且NPU芯片設(shè)計(jì)邏輯更為簡(jiǎn)單,在處理推理工作負(fù)載時(shí)具有顯著的能耗節(jié)約優(yōu)勢(shì)。

杜昀龍認(rèn)為,缺少像英偉達(dá)GPU那樣完善的生態(tài)環(huán)境是目前NPU滲透率提升最大的瓶頸。據(jù)IDC數(shù)據(jù),2022年中國(guó)實(shí)現(xiàn)數(shù)據(jù)中心計(jì)算加速仍以GPU為主,NPU占比僅12%,但較以往明顯增長(zhǎng)。

5.3.2 NPU更適合端側(cè)、邊緣側(cè)部署

如今,大模型已進(jìn)入輕量化時(shí)代,端側(cè)AI應(yīng)用正加速落地,商湯(00020.HK)曾在2023年年報(bào)中表示,2024年將是端側(cè)大模型應(yīng)用的爆發(fā)之年。商湯聯(lián)合創(chuàng)始人、首席科學(xué)家王曉剛解釋稱,成本、數(shù)據(jù)傳輸延遲、數(shù)據(jù)安全與隱私等幾個(gè)重要問(wèn)題,都可以通過(guò)端側(cè)AI或云端結(jié)合來(lái)解決。

與云側(cè)不同的是,端側(cè)對(duì)于功耗更加敏感,對(duì)低功耗芯片的需求更明顯。因此,隨著人工智能應(yīng)用場(chǎng)景陸續(xù)落地,NPU易開(kāi)發(fā)、高效能、低功耗等優(yōu)勢(shì)逐漸突顯。業(yè)內(nèi)普遍認(rèn)為,在大算力需求爆發(fā)下,云側(cè)的算力需求將傳遞至端側(cè)。目前,實(shí)現(xiàn)智能終端算力的最常用方式是在SoC芯片中內(nèi)置NPU模塊。

“NPU是專門(mén)為AI應(yīng)用而設(shè)計(jì)的芯片,目前看NPU通常用于邊緣側(cè)和端側(cè)場(chǎng)景更多,比如人臉識(shí)別、人臉解鎖、影像處理等。”杜昀龍表示。

“大模型部署到端側(cè)時(shí),對(duì)芯片的算力、存儲(chǔ)、數(shù)據(jù)傳輸都有明確要求,要求這些芯片能更好地支持Transformer、Diffusion等架構(gòu)。”王曉剛對(duì)第一財(cái)經(jīng)表示。

相比于在云端用GPU部署Transformer大模型,在邊緣側(cè)、端側(cè)部署Transformer的最大挑戰(zhàn)來(lái)自于功耗。因此在端側(cè)和邊緣側(cè),GPU并非最合適的架構(gòu)。

“Transformer是現(xiàn)在所有大模型的基礎(chǔ),它本身的基礎(chǔ)架構(gòu)也是固定的,在這種基礎(chǔ)最原子層架構(gòu)固定的情況下,DSA(專用領(lǐng)域架構(gòu)處理器)架構(gòu)是比GPU更優(yōu)的架構(gòu)。對(duì)于AI推理芯片,尤其是在邊緣側(cè)、端側(cè)部署的推理芯片來(lái)說(shuō),DSA架構(gòu)芯片的運(yùn)算效率、能量消耗優(yōu)于GPU。”國(guó)內(nèi)AI算力公司愛(ài)芯元智創(chuàng)始人、董事長(zhǎng)仇肖莘表示。

NPU就是基于DSA領(lǐng)域?qū)S眉軜?gòu)技術(shù)的處理器,同時(shí)比GPU更擅長(zhǎng)推理,且芯片設(shè)計(jì)邏輯更為簡(jiǎn)單,具有能耗節(jié)約優(yōu)勢(shì),因此NPU可以作為在AI計(jì)算效率和功耗之間的平衡方案。

“NPU跟CPU、GPU一樣,都是整個(gè)計(jì)算架構(gòu)的一部分,是計(jì)算架構(gòu)里邊異構(gòu)的處理器,用以實(shí)現(xiàn)不同的功能。GPU原來(lái)是專門(mén)為圖形渲染做的,更像是張量計(jì)算使用的一個(gè)處理器,而NPU更像是一個(gè)原生的AI計(jì)算處理器,CPU則是另外一個(gè)處理器,這三個(gè)處理器加起來(lái)構(gòu)成了AI的一個(gè)計(jì)算底座。”仇肖莘在接受第一財(cái)經(jīng)專訪時(shí)表示,“實(shí)際上,NPU在GPU的基礎(chǔ)上更近了一步,它的靈活性不如GPU,但它的好處是能效比非常高,更適合邊緣側(cè)、端側(cè)。”

5.3.3 NPU滲透率提升,成本是關(guān)鍵

NPU適合廣泛部署在端側(cè)、邊緣側(cè)的重要原因,也在于端側(cè)與邊緣側(cè)需要性價(jià)比,需要在成本可控的前提下提供AI能力。仇肖莘認(rèn)為,如何以低成本的NPU去實(shí)現(xiàn)AI的價(jià)值,是實(shí)現(xiàn)AI普惠的關(guān)鍵。

“現(xiàn)在自動(dòng)駕駛很火熱,但一個(gè)顯而易見(jiàn)的問(wèn)題是,到底有多少車(chē)能夠用得起這個(gè)功能?如果一套解決方案花費(fèi)在1萬(wàn)元人民幣,可能10萬(wàn)元以下的車(chē)就用不起;如果能夠把它的整個(gè)成本降到5000元以下,或者3000元,占整車(chē)成本的比例就會(huì)低很多,普及也會(huì)更快一些。”仇肖莘稱,現(xiàn)在有一些高端手機(jī)和新出的AIPC已經(jīng)搭載了NPU,但價(jià)格確實(shí)比較貴,要把NPU的成本降下來(lái),需要達(dá)成規(guī)模效應(yīng),現(xiàn)在量沒(méi)有起來(lái)確實(shí)很難降價(jià)。

仇肖莘認(rèn)為,從今年開(kāi)始,NPU的需求,或者說(shuō)端側(cè)AI芯片的需求會(huì)是一個(gè)快速上漲的趨勢(shì)。“從我們自己客戶的需求來(lái)看,他們的預(yù)測(cè)都會(huì)比原來(lái)更高。”

5.3.4國(guó)產(chǎn)芯片廠商大力布局

目前,國(guó)內(nèi)芯片廠商正奮力自研NPU,以迎接AI浪潮。以阿里平頭哥為代表的芯片公司已推出面向數(shù)據(jù)中心AI應(yīng)用的人工智能推理芯片,其N(xiāo)PU含光800已成功應(yīng)用在數(shù)據(jù)中心、邊緣服務(wù)器等場(chǎng)景。

NPU IP方面,芯原股份(688521.SH)2016年通過(guò)對(duì)圖芯美國(guó)的收購(gòu),獲得了圖形處理器(GPU)IP,在此基礎(chǔ)上自主開(kāi)發(fā)出了NPU IP。芯原股份此前告訴第一財(cái)經(jīng),目前,在AIoT領(lǐng)域,公司用于人工智能的神經(jīng)網(wǎng)絡(luò)處理器IP已經(jīng)被50多家客戶的100多款芯片所采用,被用在物聯(lián)網(wǎng)、可穿戴設(shè)備、安防監(jiān)控、服務(wù)器、汽車(chē)電子等10個(gè)應(yīng)用領(lǐng)域。

六、AI算力產(chǎn)業(yè)趨勢(shì)展望

本報(bào)告所討論的CPU、GPU、FPGA、ASIC芯片,提供了當(dāng)前階段的主要AI算力。但AI大算力底座的構(gòu)成并不局限于上述芯片,還包括存儲(chǔ)器等存力芯片、接口芯片等運(yùn)力芯片、服務(wù)器等硬件集成、交換機(jī)等硬件設(shè)備、數(shù)據(jù)中心運(yùn)維、通信網(wǎng)絡(luò)傳輸?shù)?,總之,AI算力發(fā)展需要全產(chǎn)業(yè)鏈的共同進(jìn)步。

第一財(cái)經(jīng)在與產(chǎn)業(yè)人士、機(jī)構(gòu)投資者、第三方分析機(jī)構(gòu)等交流探討上述AI芯片的發(fā)展現(xiàn)狀過(guò)程中,發(fā)現(xiàn)了部分行業(yè)趨勢(shì),主要有以下幾點(diǎn):

第一,AI推理環(huán)節(jié),F(xiàn)PGA和ASIC或能爭(zhēng)奪更多市場(chǎng)。

異構(gòu)計(jì)算趨勢(shì)下,GPU仍是當(dāng)前除CPU外商用最廣泛的AI芯片。這主要是由于CPU難以高效率地勝任多個(gè)復(fù)雜的并行計(jì)算任務(wù),需要GPU等AI芯片輔助完成部分任務(wù)。GPU作為CPU的協(xié)處理器,至今已能夠在性能、成本等方面具備優(yōu)勢(shì),更重要的是,英偉達(dá)打造的CUDA生態(tài),讓其GPU產(chǎn)品擁有較為完善的生態(tài)環(huán)境,這些都推動(dòng)了GPU的商業(yè)化。

相比GPU,F(xiàn)PGA、ASIC在性能和效率上更具優(yōu)勢(shì),但成本更高,尤其是高端FPGA更依賴于先進(jìn)制程,因此廣泛商用仍需一定時(shí)日。

值得注意的是,CPU和GPU都屬于馮諾依曼架構(gòu),計(jì)算和存儲(chǔ)功能分別由芯片和存儲(chǔ)器完成,數(shù)據(jù)從存儲(chǔ)器中獲取,處理完畢后再回到存儲(chǔ)器,從處理單元外的存儲(chǔ)器提取數(shù)據(jù)所需的時(shí)間往往是運(yùn)算時(shí)間的成百上千倍,即存在“存儲(chǔ)墻”限制。而FPGA和ASIC卻沒(méi)有這樣的限制。

因此,GPU不適合用于AI推理。當(dāng)前動(dòng)輒千億參數(shù)的AI大模型需要千卡、萬(wàn)卡集群算力進(jìn)行訓(xùn)練,而在后續(xù)的AI大模型應(yīng)用階段,AI推理將成主戰(zhàn)場(chǎng),F(xiàn)PGA和ASIC或許能獲得更多市場(chǎng)。

第二,存算一體或成為AI時(shí)代新選擇。

FPGA、ASIC類似于GPU的大規(guī)模商用仍待時(shí)日,在此期間,配合GPU的廣泛應(yīng)用,存力與運(yùn)力也在快速發(fā)展。

2024年初,搭載在高端AI服務(wù)器配合GPU的HBM(High Band width Memory,高帶寬存儲(chǔ)器)爆火。HBM擁有超高帶寬,主要緣于其將原本在PCB板上的DDR內(nèi)存顆粒和GPU芯片同時(shí)集成到SiP封裝中,使內(nèi)存更加靠近GPU,即“近存計(jì)算”。隨著存算技術(shù)的發(fā)展,未來(lái)存內(nèi)計(jì)算、存內(nèi)邏輯,即“存算一體”,有望成為AI時(shí)代的新選擇。

存算一體是在存儲(chǔ)器中嵌入計(jì)算能力,以新的運(yùn)算架構(gòu)進(jìn)行二維和三維矩陣乘法/加法運(yùn)算。其中存內(nèi)計(jì)算的計(jì)算操作由位于存儲(chǔ)芯片內(nèi)部的獨(dú)立計(jì)算單元完成,存儲(chǔ)和計(jì)算可以是模擬的也可以是數(shù)字的,一般用于算法固定的場(chǎng)景算法計(jì)算;存內(nèi)邏輯通過(guò)在內(nèi)部存儲(chǔ)中添加計(jì)算邏輯,直接在內(nèi)部存儲(chǔ)執(zhí)行數(shù)據(jù)計(jì)算,這種架構(gòu)數(shù)據(jù)傳輸路徑最短,同時(shí)能滿足大模型的計(jì)算精度要求。

此外,AI服務(wù)器內(nèi)存和硬盤(pán)也在迭代升級(jí),已開(kāi)始搭配最先進(jìn)的DDR5、LPDDR5、SSD等存儲(chǔ)。

第三,異構(gòu)計(jì)算時(shí)代,先進(jìn)封裝戰(zhàn)略地位將突顯。

摩爾定律已逼近物理極限,先進(jìn)封裝成為系統(tǒng)級(jí)解決方案,戰(zhàn)略地位將不斷凸顯。

AI芯片就融合了多種先進(jìn)封裝技術(shù),HBM應(yīng)用TSV堆疊技術(shù)獲得超高帶寬,而為了將HBM和GPU集成,CoWoS封裝技術(shù)被深度開(kāi)發(fā)。CoWoS是英偉達(dá)選擇的主流封裝技術(shù),能夠以合理的成本提供最高的互連密度和最大的封裝尺寸。人工智能加速芯片可能用到的Chiplet技術(shù)也依賴于先進(jìn)封裝。

半導(dǎo)體產(chǎn)業(yè)鏈中,我國(guó)封測(cè)環(huán)節(jié)發(fā)展已較為成熟,長(zhǎng)電科技(600584.SH)、通富微電(002156.SZ)等企業(yè)近年來(lái)不斷加深對(duì)先進(jìn)封裝的布局。

第四,國(guó)產(chǎn)AI芯片廠商亟待構(gòu)筑護(hù)城河。

技術(shù)不斷迭代且流片成本高昂的芯片行業(yè)存在明顯的“二八定律”。

“芯片行業(yè)有一個(gè)非常明顯的特點(diǎn),它會(huì)有一個(gè)體量巨大的老大和一個(gè)還活得不錯(cuò)的老二,剩下的全都會(huì)死。”某AI算法上市公司高管此前告訴第一財(cái)經(jīng),“因?yàn)樾酒闹饕牧鲜巧匙?,難的是工藝。換句話說(shuō),流水線一旦啟動(dòng),造一顆芯片和造100萬(wàn)顆芯片的價(jià)格不會(huì)相差很多,所以出貨量大的企業(yè)才能盈利。很多芯片創(chuàng)業(yè)公司的經(jīng)營(yíng)狀況不好,這是符合市場(chǎng)規(guī)律的,他們需要在殘酷的市場(chǎng)競(jìng)爭(zhēng)中最少變成老二。”

因此,先發(fā)優(yōu)勢(shì)是芯片廠商構(gòu)筑核心壁壘的關(guān)鍵因素之一,在某個(gè)細(xì)分領(lǐng)域站穩(wěn)腳跟后迭代下一代產(chǎn)品,憑借生態(tài)和口碑建立起用戶習(xí)慣,后來(lái)者分羹的難度會(huì)越來(lái)越大,英偉達(dá)就是最好的案例。

近年我國(guó)支持自主可控的氛圍濃厚,無(wú)論是政策端還是產(chǎn)業(yè)下游客戶,都在積極配合半導(dǎo)體產(chǎn)業(yè)鏈上游和中游,國(guó)內(nèi)廠商亟待借力政策和產(chǎn)業(yè)東風(fēng),加速構(gòu)筑自身護(hù)城河。

第五,國(guó)內(nèi)AI芯片生態(tài)構(gòu)建將加速。

正如英偉達(dá)憑借CUDA占據(jù)全球GPU的絕對(duì)份額,英特爾憑借X86的成熟生態(tài)占據(jù)服務(wù)器CPU的絕對(duì)份額,國(guó)內(nèi)AI芯片廠商也在加速自研和生態(tài)構(gòu)建之路,如兼容CUDA的海光信息、摩爾線程等,自研架構(gòu)搭建生態(tài)的華為、燧原科技等。

其中,華為正在通過(guò)CANN和AscendCL構(gòu)建國(guó)產(chǎn)GPU軟件生態(tài)。CANN是華為為AI場(chǎng)景設(shè)計(jì)的異構(gòu)計(jì)算架構(gòu),旨在為開(kāi)發(fā)者提供高效、靈活且易于使用的工具和服務(wù),以便在華為昇騰AI硬件上開(kāi)發(fā)和部署各種人工智能應(yīng)用。CANN對(duì)上支持多種AI框架,對(duì)下服務(wù)AI處理器與編程,這意味著無(wú)論使用哪種AI框架,CANN都能提供支持。

軟件生態(tài)建設(shè)非一日之功。隨著政策支持下國(guó)產(chǎn)硬件數(shù)量的增加,軟件開(kāi)發(fā)商將更積極地為這些平臺(tái)開(kāi)發(fā)應(yīng)用,從而豐富軟件生態(tài),形成硬件發(fā)展與促進(jìn)軟件生態(tài)的良性循環(huán)。

七、結(jié)語(yǔ)

整體來(lái)看,我國(guó)AI芯片產(chǎn)業(yè)發(fā)展仍將面臨多重阻力,一方面,上游EDA工具、IP、晶圓代工廠的制程進(jìn)度等,給AI芯片設(shè)計(jì)廠商帶來(lái)制約;另一方面,國(guó)外企業(yè)憑借先發(fā)優(yōu)勢(shì)、技術(shù)優(yōu)勢(shì)、生態(tài)配套及用戶習(xí)慣已占據(jù)大部分市場(chǎng)份額,國(guó)內(nèi)廠商在打開(kāi)下游市場(chǎng)時(shí)面臨諸多挑戰(zhàn),在產(chǎn)品研發(fā)上也需要考慮兼容路徑。

不過(guò),中國(guó)市場(chǎng)規(guī)模龐大,技術(shù)與生態(tài)百花齊放,且政策扶持力度大,產(chǎn)業(yè)鏈配合積極度高,未來(lái)隨著先進(jìn)封裝、存算一體等技術(shù)的發(fā)展,推理芯片的大規(guī)模運(yùn)用,中國(guó)AI芯片廠商有望走出自己的發(fā)展壯大之路。


本報(bào)告參考資料

[1] AI智算時(shí)代已至,算力芯片加速升級(jí)-中航證券

[2]電子行業(yè)“FPGA五問(wèn)五答”系列報(bào)告三:FPGA在各行業(yè)究竟用在哪里?未來(lái)哪個(gè)下游最有機(jī)會(huì)?-東興證券

[3] TPU:為更專用的AI計(jì)算而生-華福證券

[4]計(jì)算機(jī)行業(yè):重視AI芯片配套的軟件生態(tài)-國(guó)泰君安

[5] FPGA國(guó)產(chǎn)化龍頭,鳳凰天地闊,涅槃終有時(shí)-德邦證券

[6]計(jì)算機(jī)行業(yè)算力知識(shí)普惠系列一:AI芯片的基礎(chǔ)關(guān)鍵參數(shù)-天風(fēng)證券

[7]海外科技行業(yè):算力需求高增,AI ASIC突圍在即-國(guó)泰君安

[8]計(jì)算機(jī)行業(yè)深度研究報(bào)告:業(yè)績(jī)拐點(diǎn)已至,安全可控進(jìn)入新發(fā)展周期-華創(chuàng)證券

數(shù)據(jù)說(shuō)明

數(shù)據(jù)|案例|觀點(diǎn)來(lái)源

如無(wú)特殊說(shuō)明,報(bào)告中數(shù)據(jù)和內(nèi)容均來(lái)自第一財(cái)經(jīng)的調(diào)研、采訪及公開(kāi)資料。

版權(quán)聲明

本報(bào)告頁(yè)面內(nèi)容、頁(yè)面設(shè)計(jì)的所有內(nèi)容(包括但不限于文字、圖片、圖表、標(biāo)志、標(biāo)識(shí)、商標(biāo)、商號(hào)等)版權(quán)均歸上海第一財(cái)經(jīng)傳媒有限公司(以下簡(jiǎn)稱“我司”)所有。凡未經(jīng)我司書(shū)面授權(quán),任何單位或個(gè)人不得復(fù)制、轉(zhuǎn)載、重制、修改、展示;不得以任何形式提供給第三方使用本報(bào)告的部分或全部?jī)?nèi)容。任何單位或個(gè)人違反前述規(guī)定的,均屬于侵犯我司知識(shí)產(chǎn)權(quán)的行為,我司將追究其法律責(zé)任,并根據(jù)實(shí)際情況追究侵權(quán)者賠償責(zé)任。

免責(zé)聲明

本報(bào)告中所載的內(nèi)容、資料及相關(guān)數(shù)據(jù)來(lái)源,均被視為最初發(fā)布當(dāng)日作者的判斷,并不保證本報(bào)告中的內(nèi)容及觀點(diǎn)在將來(lái)不會(huì)發(fā)生任何變更。我們力求但不保證本報(bào)告所涉及信息的準(zhǔn)確性和完整性。報(bào)告中所表述的觀點(diǎn)、信息,在任何情況下、對(duì)任何人不構(gòu)成投資建議。在任何情況下,任何人因使用本報(bào)告中的內(nèi)容所引致的后果應(yīng)自行承擔(dān)責(zé)任。

轉(zhuǎn)載請(qǐng)注明來(lái)自阿拉善凱拓戶外,本文標(biāo)題:《XPU:AI時(shí)代與異構(gòu)計(jì)算》

百度分享代碼,如果開(kāi)啟HTTPS請(qǐng)參考李洋個(gè)人博客
每一天,每一秒,你所做的決定都會(huì)改變你的人生!
Top