2024 / 09 / 13
媒體關(guān)注 | 神州鯤泰構(gòu)建多云異構(gòu)下數(shù)字經(jīng)濟(jì)“綠色化”新路徑

編者按:隨著數(shù)字化程度的深入,異構(gòu)造成的能耗高、兼容性差、管理成本提升就是企業(yè)必須要解決的發(fā)展瓶頸。近日,CCID賽迪《數(shù)字經(jīng)濟(jì)》2024年第8期刊發(fā)封面文章,深度解析神州數(shù)碼的產(chǎn)業(yè)洞見(jiàn)和綠色方案,為多云異構(gòu)背景下數(shù)據(jù)中心建設(shè)運(yùn)營(yíng)、企業(yè)數(shù)字化轉(zhuǎn)型提供綠色發(fā)展的參考路徑。

以下為文章全文:

”近年來(lái),隨著數(shù)字化轉(zhuǎn)型步伐加快、 人工智能產(chǎn)業(yè)發(fā)展迅猛,數(shù)字化底層算力需求迎來(lái)爆發(fā)式增長(zhǎng)。但與之相對(duì)應(yīng)的,大模型 Workload 等帶來(lái)的大量新增的算力需求,疊加 GPU 能耗超過(guò) CPU 兩倍以上的高能耗,正在給數(shù)字經(jīng)濟(jì)的“綠色化”發(fā)展帶來(lái)極大挑戰(zhàn)。MIT 研究表明,未來(lái)人類(lèi)需要為人工智能相關(guān)應(yīng)用新增10% 的能源需求,也就是說(shuō),屆時(shí)“練大模型比煉鋼還費(fèi)電。” 

近期,國(guó)家發(fā)展改革委辦公廳、國(guó)家數(shù)據(jù)局綜合司印發(fā)《數(shù)字經(jīng)濟(jì)2024年工作要點(diǎn)》,再次強(qiáng)調(diào)推進(jìn)綠色數(shù)據(jù)中心建設(shè),降低數(shù)據(jù)中心能耗。圍繞算力生產(chǎn)、供給、運(yùn)營(yíng)、應(yīng)用全過(guò)程,積極推進(jìn)算力設(shè)備、算力載體、算能協(xié)同和算用協(xié)同等多個(gè)環(huán)節(jié)綠色化發(fā)展,已成為綠色算力發(fā)展的必由之路。

但作為發(fā)展綠色算力的布局重點(diǎn),智算中心在建設(shè)和運(yùn)營(yíng)過(guò)程中往往面臨異構(gòu)兼容性差、利用率低、能耗高等痛點(diǎn)難點(diǎn)。面對(duì)智算時(shí)代的現(xiàn)實(shí)痛點(diǎn)和需求,神州數(shù)碼旗下神州鯤泰通過(guò)軟硬件協(xié)同創(chuàng)新,打造多云異構(gòu)時(shí)代下的綠色智算解決方案,為算力基礎(chǔ)設(shè)施建設(shè)提供了性能強(qiáng)、能效高、節(jié)能環(huán)保的新路徑。

痛點(diǎn)解構(gòu), 新架構(gòu)助力異構(gòu)智算質(zhì)效提升

當(dāng)前,我們已迎來(lái)一個(gè)新的異構(gòu)智算的時(shí)代。由于全球產(chǎn)能進(jìn)入瓶頸、供應(yīng)受限、企業(yè)客戶(hù)預(yù)算有限、供應(yīng)鏈安全及信創(chuàng)合規(guī)要求必須達(dá)標(biāo)等現(xiàn)實(shí)問(wèn)題,企業(yè)往往需要面對(duì)智算底層基礎(chǔ)設(shè)施多品牌、多型號(hào)的算力環(huán)境等現(xiàn)狀,異構(gòu)的智算基礎(chǔ)設(shè)施已成為必然選擇。再結(jié)合本身混合云部署的現(xiàn)狀,企業(yè)往往還將面臨極大的算力構(gòu)建選型、部署、運(yùn)維復(fù)雜度和難度的挑戰(zhàn)。我們形象地比喻這是一個(gè)中國(guó)獨(dú)有的“智算攢機(jī)時(shí)代”。

同時(shí),面對(duì)大量的模型訓(xùn)練和推理任務(wù),算力利用率仍存在亟待突破的瓶頸。資料顯示,OpenAI 訓(xùn) 練 GPT-4 的MFU(Model Flops Utility)在32%到36%之間。而目前行業(yè) MFU 利用率的平均水平僅為 30% 至 40%,智算資源利用率尚有很大的提升空間。如何在混合云部署的背景下完成復(fù)雜的算力構(gòu)建選型、部署和運(yùn)維,并最大程度地提高智算資源利用率、降低成本,已是中國(guó)企業(yè)不得不面對(duì)的巨大挑戰(zhàn)。

針對(duì)以上難題,神州數(shù)碼旗下神州鯤泰推出異構(gòu)智算調(diào)度運(yùn)營(yíng)平臺(tái) HISO、異構(gòu)智算加速平臺(tái) HICA,有效解決智算集群間以及集群內(nèi)面臨的復(fù)雜異構(gòu)兼容問(wèn)題,實(shí)現(xiàn)智算資源利用率的顯著提升。

20221210003345.jpg

圖 1 神州鯤泰全液冷整機(jī)柜

其中,異構(gòu)智算調(diào)度運(yùn)營(yíng)平臺(tái) HISO基于云原生技術(shù),整合 GPU 硬分片和虛擬分片技術(shù),能實(shí)現(xiàn) GPU 資源虛擬化或池化,完成跨集群之間的算力調(diào)度。根據(jù)用戶(hù)業(yè)務(wù)需求,該平臺(tái)可以在整個(gè)異構(gòu)智算資源池中匹配優(yōu)選算力組合,提升 GPU 服務(wù)器集群的資源使用率。異構(gòu)智算調(diào)度運(yùn)營(yíng)平臺(tái) HISO 擁有將國(guó)內(nèi)外GPU 資源混合組網(wǎng)、混搭調(diào)度、算力精細(xì)隔離等關(guān)鍵能力,可以“像管理一臺(tái) GPU主機(jī)一樣,管理和調(diào)度多個(gè)集群的 GPU 資源”。通過(guò) GPU 容器直通、IaaS 卸載,該平臺(tái)減少了模型加載時(shí)間,相比傳統(tǒng)方式,模型加載速度提升3倍。同時(shí)還能實(shí)時(shí)收集智算中心全棧、全鏈路指標(biāo),發(fā)現(xiàn)和定位軟硬件故障,實(shí)現(xiàn)算力可觀測(cè)性。

異構(gòu)智算加速平臺(tái) HICA 則著重解決集群內(nèi)部的算力調(diào)度優(yōu)化問(wèn)題,通過(guò)屏蔽集群內(nèi)底層算力生態(tài)差異,突破關(guān)鍵計(jì)算效率瓶頸,有效提升算力利用率與可用性。異構(gòu)智算加速平臺(tái) HICA 通過(guò)自研的服務(wù)層、中間適配層以及調(diào)度編排算法,采用數(shù)據(jù)并行、模型并行等方式,把并行計(jì)算任務(wù)進(jìn)行有效分解,匹配相應(yīng)的軟件棧和算力資源來(lái)承接。當(dāng) GPU資源變化時(shí),該平臺(tái)可以實(shí)時(shí)動(dòng)態(tài)調(diào)度計(jì)算子任務(wù)并調(diào)整模型拓?fù)浜图軜?gòu),以充分聚合各種算力資源。

基于其擁有的“一云多芯”特性,異構(gòu)智算加速平臺(tái) HICA 可實(shí)現(xiàn)在不同品牌、不同型號(hào)芯片組成的智算集群中的混合訓(xùn)練推理,預(yù)計(jì)可降低 20% 的閑置算力。此外,根據(jù)不同模型、不同算子之間集合通信流特點(diǎn),該平臺(tái)還可自適應(yīng)選擇最合適的通信參數(shù),達(dá)到更高的通信效率。在不同模型運(yùn)行過(guò)程中,充分考慮存算比要求的不同,平臺(tái)可以從宏觀到微觀多個(gè)尺度選擇最合適的存算比資源加載模型,使 MFU 提升 10% 至 20%,MBU 提升 5%。企業(yè)能在其支持下有效提升多云異構(gòu)算力資源的利用效率,降低能耗,實(shí)現(xiàn)綠色智算的目標(biāo)。

硅光 + 液冷,技術(shù)創(chuàng)新破解能耗難題

在實(shí)際場(chǎng)景中,我們發(fā)現(xiàn),節(jié)點(diǎn)和節(jié)點(diǎn)間互聯(lián)已成為智算中心的主要能耗來(lái)源。以一個(gè)萬(wàn)卡智算中心為例,采用200G 接口互聯(lián),需要約 80000 個(gè)光模塊,其互聯(lián)所需的能耗則占到總體的 5%。對(duì)于一個(gè)企業(yè)來(lái)說(shuō),每新增一個(gè)用于智算的機(jī)架,其運(yùn)行一年約等于增加 15 萬(wàn)度電,約等于 100 個(gè)家庭的年用電量,約等于 1.5 噸二氧化碳排放量,帶來(lái)巨大減排壓力。

面對(duì)高能耗挑戰(zhàn),神州鯤泰通過(guò)硅光加液冷整機(jī)柜方案,在為智算中心提供強(qiáng)大算力的同時(shí),顯著加強(qiáng)了對(duì)能耗成本的控制。針對(duì)節(jié)點(diǎn)間互聯(lián)的能耗問(wèn)題,神州鯤泰采用硅光技術(shù),通過(guò)單光源多調(diào)制器,降低調(diào)制器電壓,同時(shí)采用分布式反饋激光器等一系列技術(shù),有效降低 25% 的互聯(lián)能耗。與此同時(shí),

針對(duì)節(jié)點(diǎn)的能耗問(wèn)題,神州鯤泰推出液冷服務(wù)器,通過(guò)一體化冷板、智能流量調(diào)節(jié)來(lái)提升系統(tǒng)的散熱效率,采用負(fù)壓管線(xiàn)系統(tǒng),漏液近端探測(cè)技術(shù),并聯(lián)動(dòng)服務(wù)管控系統(tǒng)提升冷卻系統(tǒng)的可靠性,有效降低 30% 的節(jié)點(diǎn)能耗。

需要注意的是,硅光和液冷都是精密的互聯(lián)系統(tǒng)和管路系統(tǒng),接口多,接頭復(fù)雜,現(xiàn)場(chǎng)實(shí)施部署難度極大,并且實(shí)施周期長(zhǎng)。為了幫助客戶(hù)規(guī)避實(shí)施部署中的諸多難題,神州鯤泰推出“KunTaiPod2000 全液冷整機(jī)柜”方案產(chǎn)品,通過(guò)一體化交付方式,有效降低部署和運(yùn)維的復(fù)雜度的同時(shí),實(shí)現(xiàn) 100% 全液冷及高性?xún)r(jià)比液冷方案。在產(chǎn)品支持下,數(shù)據(jù)中心 PUE 可達(dá) 1.15,并憑借 60KW+ 的最大單柜功率,實(shí)現(xiàn) 1.5 倍于行業(yè)平均水平的能效比,助力企業(yè)顯著緩解能耗指標(biāo)緊張、電力成本偏高的壓力,提升整體綠色發(fā)展水平。

釋放綠色智算動(dòng)能, 跑出數(shù)字經(jīng)濟(jì)“加速度”

人工智能是新一輪科技革命和產(chǎn)業(yè)變革的核心驅(qū)動(dòng)力,也是發(fā)展新質(zhì)生產(chǎn)力的重要引擎。隨著技術(shù)的突破與應(yīng)用場(chǎng)景的拓展,“人工智能 +”正給各行業(yè)各領(lǐng)域注入新的發(fā)展動(dòng)力,同時(shí)帶動(dòng)算力服務(wù)需求快速增長(zhǎng)。據(jù)工業(yè)和信息化部統(tǒng)計(jì),截至 2023 年年底,我國(guó)算力總規(guī)模達(dá) 230 EFLOPS(每秒 230 百億億次浮點(diǎn)運(yùn)算),其中智算規(guī)模達(dá)到70EFLOPS(每秒 70 百億億次浮點(diǎn)運(yùn)算),年增速超 70%,被視為人工智能時(shí)代重要的供能中樞。

當(dāng)前,中國(guó)憑借位居全球第二位的算力水平,支撐起了超過(guò) 5000 億元的產(chǎn)業(yè)規(guī)模。要推動(dòng)人工智能產(chǎn)業(yè)高質(zhì)量可持續(xù)發(fā)展,堅(jiān)持低碳理念、打造綠色算力是必然的發(fā)展方向。2023 年 12 月,國(guó)家發(fā)展改革委、國(guó)家數(shù)據(jù)局、中央網(wǎng)信辦、工業(yè)和信息化部、國(guó)家能源局聯(lián)合印發(fā)《關(guān)于深入實(shí)施“東數(shù)西算”工程,加快構(gòu)建全國(guó)一體化算力網(wǎng)的實(shí)施意見(jiàn)》提出要強(qiáng)化綠色低碳技術(shù)推廣應(yīng)用,提升數(shù)據(jù)中心綠電使用比例,增強(qiáng)綠色算力供給水平。在政策與市場(chǎng)的雙輪驅(qū)動(dòng)下,綠色算力有望釋放更大的發(fā)展?jié)摿Α?/p>

面對(duì)新的發(fā)展機(jī)遇,神州鯤泰從智算中心系統(tǒng)整體性能提升出發(fā),提出了走新智算架構(gòu)之路的策略。異構(gòu)智算調(diào)度運(yùn)營(yíng)平臺(tái) HISO 與異構(gòu)智算加速平臺(tái)HICA,回答了如何解決智算集群間以及集群內(nèi)面臨的復(fù)雜異構(gòu)兼容及利用率的問(wèn)題。而硅光技術(shù)加液冷服務(wù)器的一體化解決方案,則有效解決了節(jié)點(diǎn)和節(jié)點(diǎn)間互聯(lián)的能耗問(wèn)題。神州鯤泰建立了高通量、高并行、高效率、低能耗的多樣化智算架構(gòu),通過(guò)軟硬件的融合創(chuàng)新,能幫助客戶(hù)快部署、低投入地突破算力瓶頸,為多云異構(gòu)時(shí)代下綠色算力的快速增長(zhǎng)鋪平了道路。

在新的智算架構(gòu)支撐下,性能更優(yōu)、成本更低、能效更高的智算中心已然在望。未來(lái)隨著智算中心的綠色化升級(jí)步伐加快,綠色算力將像水電一樣泛在普惠,在各行各業(yè)釋放巨大價(jià)值,為數(shù)字經(jīng)濟(jì)發(fā)展提供源源不斷的動(dòng)力。