NVIDIA在近期的一次重大技術(shù)發(fā)布中,隆重推出了NVIDIA Spectrum-XGS以太網(wǎng)技術(shù),這一創(chuàng)新被視為連接未來(lái)AI超級(jí)工廠(chǎng)的橋梁。通過(guò)其獨(dú)特的跨區(qū)域擴(kuò)展(scale-across)能力,該技術(shù)能夠?qū)⒎植荚诓煌乩砦恢玫臄?shù)據(jù)中心整合為一個(gè)龐大的AI運(yùn)算體系,其規(guī)模可達(dá)十億瓦級(jí)別。
NVIDIA Spectrum-XGS以太網(wǎng)不僅繼承了Spectrum-X平臺(tái)的橫向擴(kuò)展架構(gòu)優(yōu)勢(shì),還實(shí)現(xiàn)了跨地域數(shù)據(jù)中心的無(wú)縫連接。它專(zhuān)為AI時(shí)代設(shè)計(jì),能夠迅速將巨量數(shù)據(jù)集傳輸至AI模型中,并有效協(xié)調(diào)各數(shù)據(jù)中心間GPU的通信,極大地提升了數(shù)據(jù)處理的效率。
在即將召開(kāi)的年度芯片及系統(tǒng)架構(gòu)頂級(jí)會(huì)議Hot Chips上,NVIDIA計(jì)劃詳細(xì)介紹這一新技術(shù),以及其在推理和加速計(jì)算領(lǐng)域的最新進(jìn)展,包括NVIDIA網(wǎng)絡(luò)、數(shù)據(jù)中心機(jī)架設(shè)計(jì)、神經(jīng)渲染技術(shù)、GB10超級(jí)芯片、DGX Spark項(xiàng)目,以及集成硅光子學(xué)的共封裝光學(xué)器件(CPO)交換機(jī)等。
隨著AI應(yīng)用的爆發(fā)式增長(zhǎng),傳統(tǒng)數(shù)據(jù)中心在單個(gè)設(shè)施內(nèi)的功率和容量已接近極限。為了繼續(xù)擴(kuò)展數(shù)據(jù)中心的規(guī)模,必須跨越物理建筑的界限,然而現(xiàn)有的商用以太網(wǎng)基礎(chǔ)設(shè)施因延遲高、抖動(dòng)大以及性能不穩(wěn)定等問(wèn)題,難以滿(mǎn)足這一需求。NVIDIA Spectrum-XGS以太網(wǎng)正是為了解決這些問(wèn)題而生,它通過(guò)創(chuàng)新的跨區(qū)域擴(kuò)展技術(shù),打破了現(xiàn)有基礎(chǔ)設(shè)施的限制。
NVIDIA的創(chuàng)始人兼CEO黃仁勛表示:“AI工業(yè)革命已經(jīng)到來(lái),而巨型AI工廠(chǎng)正是這場(chǎng)變革的核心基礎(chǔ)設(shè)施。在縱向擴(kuò)展(scale-up)和橫向擴(kuò)展(scale-out)之后,我們通過(guò)NVIDIA Spectrum-XGS以太網(wǎng)引入了跨區(qū)域擴(kuò)展(scale-across)技術(shù),使得不同城市、國(guó)家甚至大洲的數(shù)據(jù)中心能夠組合成一個(gè)龐大的AI超級(jí)工廠(chǎng)。”
作為AI計(jì)算的“第三大支柱”,跨區(qū)域擴(kuò)展技術(shù)完全集成于Spectrum-X平臺(tái),通過(guò)先進(jìn)的算法動(dòng)態(tài)調(diào)整網(wǎng)絡(luò)和數(shù)據(jù)中心設(shè)施間的距離適配。借助自動(dòng)調(diào)節(jié)的遠(yuǎn)距離擁塞控制、精確的延遲管理以及端到端遙測(cè)技術(shù),NVIDIA Spectrum-XGS以太網(wǎng)將集合通信庫(kù)的性能提升了近一倍,顯著加速了多GPU和多節(jié)點(diǎn)的通信,實(shí)現(xiàn)了異地AI集群性能的可預(yù)測(cè)性。
CoreWeave等超大規(guī)模云提供商已經(jīng)開(kāi)始部署這一新型基礎(chǔ)設(shè)施,其中CoreWeave將成為首批使用NVIDIA Spectrum-XGS以太網(wǎng)連接其數(shù)據(jù)中心的企業(yè)之一。NVIDIA Spectrum-X以太網(wǎng)網(wǎng)絡(luò)平臺(tái)提供的帶寬密度是傳統(tǒng)以太網(wǎng)的1.6倍,由NVIDIA Spectrum-X交換機(jī)和ConnectX-8 SuperNIC組成,為構(gòu)建未來(lái)AI平臺(tái)的企業(yè)提供了無(wú)縫擴(kuò)展、超低延遲和卓越性能。
此次發(fā)布是NVIDIA一系列網(wǎng)絡(luò)創(chuàng)新技術(shù)發(fā)布的延續(xù),包括NVIDIA Spectrum-X和NVIDIA Quantum-X CPO網(wǎng)絡(luò)交換機(jī)等。這些技術(shù)共同協(xié)作,能夠?qū)⑽挥诓煌攸c(diǎn)的數(shù)百萬(wàn)顆GPU整合成強(qiáng)大的AI工廠(chǎng),突破大規(guī)模AI基礎(chǔ)設(shè)施的性能和效率極限,同時(shí)降低能耗和運(yùn)營(yíng)成本。