隨著人工智能技術(shù)進入爆發(fā)式發(fā)展階段,大模型訓(xùn)練對算力的需求呈現(xiàn)指數(shù)級攀升態(tài)勢,傳統(tǒng)智算基礎(chǔ)設(shè)施在組網(wǎng)效率、通信質(zhì)量及能耗控制等方面遭遇多重瓶頸。中國電信研究院聯(lián)合多家科研機構(gòu)發(fā)布的《基于光電協(xié)同的智算網(wǎng)絡(luò)技術(shù)白皮書》,系統(tǒng)梳理了智算時代網(wǎng)絡(luò)架構(gòu)的革新方向,通過理論創(chuàng)新與實踐驗證,為構(gòu)建新一代智算網(wǎng)絡(luò)提供了完整技術(shù)路線。
研究指出,當(dāng)前智算業(yè)務(wù)發(fā)展呈現(xiàn)三大特征:模型參數(shù)規(guī)模突破萬億級導(dǎo)致算力需求激增,產(chǎn)業(yè)底層架構(gòu)需重構(gòu);入算網(wǎng)絡(luò)需具備毫秒級響應(yīng)能力與TB級吞吐量;算內(nèi)集群通信延遲需壓縮至納秒級,算間跨域傳輸帶寬需突破Pbps量級。然而,現(xiàn)有技術(shù)方案多聚焦單一環(huán)節(jié)優(yōu)化,缺乏從接入到協(xié)同的全鏈條系統(tǒng)設(shè)計,難以滿足智算業(yè)務(wù)對網(wǎng)絡(luò)彈性、可靠性和能效比的嚴(yán)苛要求。
針對上述挑戰(zhàn),白皮書提出"四層三域"立體化架構(gòu)方案。在縱向維度上,網(wǎng)絡(luò)設(shè)施層提供光傳輸與算力硬件的物理支撐,網(wǎng)絡(luò)能力層集成光電混合調(diào)度算法,網(wǎng)絡(luò)管控層實現(xiàn)智能流量預(yù)測與資源分配,業(yè)務(wù)應(yīng)用層則對接具體場景需求。橫向維度中,入算網(wǎng)絡(luò)通過算網(wǎng)感知技術(shù)實現(xiàn)業(yè)務(wù)自動適配,算內(nèi)網(wǎng)絡(luò)采用光電混合互聯(lián)架構(gòu)提升集群并行效率,算間網(wǎng)絡(luò)依托全光傳輸與IP管控融合技術(shù)打破地理限制。這種分層分域的設(shè)計使網(wǎng)絡(luò)具備超高通量傳輸、亞毫秒級時延控制及彈性擴展能力。
核心技術(shù)突破方面,入算環(huán)節(jié)研發(fā)的彈性帶寬分配技術(shù)可將資源利用率提升至90%以上,無損傳輸協(xié)議使數(shù)據(jù)包丟失率降至10^-9量級;算內(nèi)網(wǎng)絡(luò)的光電混合交換架構(gòu)實現(xiàn)單節(jié)點400Tbps交換能力,較傳統(tǒng)方案提升5倍;算間網(wǎng)絡(luò)的光層直連技術(shù)將跨數(shù)據(jù)中心訓(xùn)練效率提高30%。配套開發(fā)的光網(wǎng)算用一體化調(diào)度平臺,通過五層資源抽象模型實現(xiàn)算力、存儲、光網(wǎng)絡(luò)的動態(tài)匹配,調(diào)度響應(yīng)時間縮短至微秒級。
在實踐驗證環(huán)節(jié),中國電信構(gòu)建了覆蓋入算、算內(nèi)、算間的全場景試驗環(huán)境。入算測試中,業(yè)務(wù)開通時間從小時級壓縮至分鐘級,單用戶帶寬達100Gbps且時延穩(wěn)定在20μs以內(nèi);算內(nèi)集群采用光電協(xié)同組網(wǎng)后,千卡規(guī)模訓(xùn)練任務(wù)完成時間縮短22%,模型收斂速度提升18%;算間跨域傳輸測試實現(xiàn)500公里范圍內(nèi)算力資源無感調(diào)用,資源利用率提高40%。這些成果驗證了技術(shù)體系在降低TCO(總擁有成本)35%的同時,將系統(tǒng)能效比(PUE)優(yōu)化至1.2以下。
該技術(shù)體系已形成完整專利布局,涵蓋光電混合調(diào)度算法、全光互聯(lián)協(xié)議等核心領(lǐng)域。通過與國家東數(shù)西算工程深度對接,相關(guān)成果正在京津冀、長三角等算力樞紐節(jié)點規(guī)模化部署,為自動駕駛、生物醫(yī)藥等高算力需求行業(yè)提供基礎(chǔ)設(shè)施支撐。研究團隊表示,下一步將重點突破跨域光網(wǎng)絡(luò)智能運維、量子加密傳輸?shù)惹把丶夹g(shù),推動智算網(wǎng)絡(luò)向"零丟包、零時延、零碳排"目標(biāo)演進。