隨著人工智能大模型參數(shù)規(guī)模從千億邁向萬(wàn)億級(jí),智算集群對(duì)存儲(chǔ)系統(tǒng)的需求正經(jīng)歷顛覆性變革。以GPT-4為例,其1.8萬(wàn)億參數(shù)的模型訓(xùn)練需在2萬(wàn)張A100 GPU上持續(xù)運(yùn)行90天,期間產(chǎn)生的數(shù)據(jù)吞吐量高達(dá)PB級(jí),僅單個(gè)checkpoint文件就達(dá)4TB。這種超大規(guī)模計(jì)算場(chǎng)景下,傳統(tǒng)存儲(chǔ)方案在協(xié)議兼容性、吞吐性能、數(shù)據(jù)管理效率等維度暴露出嚴(yán)重短板,成為制約AI訓(xùn)練效率的關(guān)鍵瓶頸。
在數(shù)據(jù)全生命周期管理中,不同訓(xùn)練階段對(duì)存儲(chǔ)協(xié)議的需求呈現(xiàn)顯著差異。數(shù)據(jù)歸集階段需處理跨地域、跨網(wǎng)絡(luò)的PB級(jí)非結(jié)構(gòu)化數(shù)據(jù),涵蓋文本、圖像、視頻等多元格式,對(duì)象存儲(chǔ)因其跨域傳輸優(yōu)勢(shì)成為首選;預(yù)處理階段則要求對(duì)數(shù)據(jù)進(jìn)行清洗、脫敏和格式轉(zhuǎn)換,S3協(xié)議與NFS協(xié)議需并行工作;模型訓(xùn)練階段對(duì)存儲(chǔ)系統(tǒng)提出更高要求,既要支持訓(xùn)練數(shù)據(jù)的高速讀寫,又要實(shí)現(xiàn)checkpoint的秒級(jí)保存與恢復(fù),文件存儲(chǔ)成為核心載體;模型發(fā)布階段則需通過(guò)對(duì)象存儲(chǔ)實(shí)現(xiàn)廣域網(wǎng)部署。傳統(tǒng)方案采用對(duì)象、文件、塊存儲(chǔ)獨(dú)立集群的模式,導(dǎo)致數(shù)據(jù)在不同系統(tǒng)間反復(fù)遷移,PB級(jí)數(shù)據(jù)拷貝耗時(shí)長(zhǎng)達(dá)數(shù)天,GPU因等待數(shù)據(jù)傳輸產(chǎn)生的空閑時(shí)間超過(guò)15%,直接拉低整體訓(xùn)練效率。
存儲(chǔ)系統(tǒng)面臨的性能挑戰(zhàn)呈現(xiàn)指數(shù)級(jí)增長(zhǎng)。當(dāng)1750億參數(shù)的GPT-3模型進(jìn)行checkpoint保存時(shí),數(shù)萬(wàn)張GPU會(huì)同時(shí)發(fā)起4TB級(jí)數(shù)據(jù)寫入,引發(fā)"寫風(fēng)暴"。這種突發(fā)性I/O洪峰對(duì)存儲(chǔ)集群的聚合帶寬提出嚴(yán)苛要求,而傳統(tǒng)方案受限于故障域約束,集群節(jié)點(diǎn)數(shù)難以突破,導(dǎo)致存儲(chǔ)穩(wěn)定性與性能需求形成尖銳矛盾。更嚴(yán)峻的是,數(shù)據(jù)冷熱狀態(tài)隨訓(xùn)練進(jìn)程動(dòng)態(tài)變化,熱數(shù)據(jù)需駐留在高成本SSD介質(zhì),冷數(shù)據(jù)則應(yīng)遷移至HDD存儲(chǔ)。但傳統(tǒng)方案缺乏自動(dòng)分級(jí)能力,導(dǎo)致高性能存儲(chǔ)長(zhǎng)期被低頻數(shù)據(jù)占用,資源利用率不足40%,同時(shí)需額外投入算力進(jìn)行人工數(shù)據(jù)搬遷。
針對(duì)上述痛點(diǎn),中國(guó)移動(dòng)創(chuàng)新提出多協(xié)議融合存儲(chǔ)架構(gòu),通過(guò)四大核心技術(shù)實(shí)現(xiàn)存儲(chǔ)系統(tǒng)質(zhì)變。在介質(zhì)層構(gòu)建雙池架構(gòu):熱數(shù)據(jù)池采用全閃介質(zhì),溫冷數(shù)據(jù)池采用混閃配置,緩存層部署SSD+HDD混合存儲(chǔ);網(wǎng)絡(luò)層部署雙100Gb RoCE高速互聯(lián),構(gòu)建AI集群與存儲(chǔ)集群間的低時(shí)延數(shù)據(jù)通道;協(xié)議層基于統(tǒng)一元數(shù)據(jù)管理,實(shí)現(xiàn)POSIX、NFS、S3協(xié)議的無(wú)縫互通,訓(xùn)練數(shù)據(jù)無(wú)需跨池拷貝;管理層開發(fā)智能分級(jí)引擎,根據(jù)數(shù)據(jù)訪問(wèn)頻次自動(dòng)在全閃池與混閃池間遷移數(shù)據(jù)。該架構(gòu)在哈爾濱1.8萬(wàn)卡智算中心的實(shí)踐表明,48PB集群可提供6.4TB/s讀帶寬和3.5TB/s寫帶寬,單個(gè)checkpoint保存時(shí)間壓縮至秒級(jí),較傳統(tǒng)方案提升3倍性能。
商業(yè)化部署成效顯著,哈爾濱節(jié)點(diǎn)建設(shè)的150PB融合存儲(chǔ)系統(tǒng)包含60PB全閃存儲(chǔ)和90PB混閃存儲(chǔ),支撐九天千億參數(shù)大模型訓(xùn)練效率提升20%。多協(xié)議融合技術(shù)消除數(shù)據(jù)冗余存儲(chǔ),使混閃存儲(chǔ)容量需求降低40%;高聚合帶寬設(shè)計(jì)避免GPU等待數(shù)據(jù)傳輸,算力利用率提高5%;智能分級(jí)機(jī)制實(shí)現(xiàn)數(shù)據(jù)自動(dòng)流動(dòng),減少20%的全閃空間占用。該創(chuàng)新方案榮獲2024年"華彩杯"算力大賽全國(guó)總決賽一等獎(jiǎng),相關(guān)技術(shù)標(biāo)準(zhǔn)已在中國(guó)通信標(biāo)準(zhǔn)化協(xié)會(huì)立項(xiàng),推動(dòng)行業(yè)存儲(chǔ)架構(gòu)向統(tǒng)一元數(shù)據(jù)、多協(xié)議互通、智能管理方向演進(jìn)。
中國(guó)工程院院士指出,存力、算力、運(yùn)力的均衡發(fā)展是發(fā)揮計(jì)算效能的關(guān)鍵。在智算集群規(guī)模突破萬(wàn)卡級(jí)的新階段,存儲(chǔ)系統(tǒng)正從被動(dòng)支撐轉(zhuǎn)向主動(dòng)賦能,通過(guò)架構(gòu)創(chuàng)新實(shí)現(xiàn)數(shù)據(jù)流動(dòng)效率與計(jì)算資源利用率的雙重提升。這種變革不僅優(yōu)化了AI訓(xùn)練的經(jīng)濟(jì)性,更為超大規(guī)模模型研發(fā)提供了可靠的存儲(chǔ)基礎(chǔ)設(shè)施保障。