來(lái)自中國(guó)存儲(chǔ)網(wǎng)2025 年 2 月 6 日消息 ,AI 工廠(chǎng)依賴(lài)的不僅僅是計(jì)算結(jié)構(gòu)。雖然連接 GPU 的東西向網(wǎng)絡(luò)對(duì) AI 應(yīng)用程序性能至關(guān)重要,但連接高速存儲(chǔ)陣列的存儲(chǔ)結(jié)構(gòu)也同樣重要。存儲(chǔ)性能在 AI 生命周期的多個(gè)階段起著關(guān)鍵作用,包括訓(xùn)練檢查點(diǎn)、檢索增強(qiáng)生成 (RAG) 等推理技術(shù)等。
為了滿(mǎn)足這些需求,NVIDIA 和存儲(chǔ)生態(tài)系統(tǒng)正在將 NVIDIA Spectrum-X 網(wǎng)絡(luò)平臺(tái)擴(kuò)展到數(shù)據(jù)存儲(chǔ)結(jié)構(gòu),從而為 AI 帶來(lái)更高的性能和更快的時(shí)間。由于 Spectrum-X 自適應(yīng)路由能夠緩解流沖突并增加有效帶寬,因此存儲(chǔ)性能遠(yuǎn)高于 RoCE v2,后者是大多數(shù)數(shù)據(jù)中心用于 AI 計(jì)算和存儲(chǔ)結(jié)構(gòu)的以太網(wǎng)網(wǎng)絡(luò)協(xié)議。
Spectrum-X 將讀取帶寬提高了 48%,將寫(xiě)入帶寬提高了 41%。這種增加的帶寬轉(zhuǎn)化為更快地完成 AI 工作流的存儲(chǔ)相關(guān)步驟,從而加快作業(yè)完成時(shí)間(在訓(xùn)練的情況下)和更低的令牌間延遲(在推理的情況下)。
主要存儲(chǔ)合作伙伴集成 Spectrum-X
隨著 AI 工作負(fù)載的規(guī)模和復(fù)雜性不斷增長(zhǎng),存儲(chǔ)解決方案必須不斷發(fā)展,以滿(mǎn)足現(xiàn)代 AI 工廠(chǎng)的需求。包括 DDN 、 VAST Data 和 WEKA 在內(nèi)的領(lǐng)先存儲(chǔ)供應(yīng)商正在與 NVIDIA 合作,集成和優(yōu)化其 Spectrum-X 解決方案,為 AI 存儲(chǔ)結(jié)構(gòu)帶來(lái)尖端功能。
使用 Israel-1 超級(jí)計(jì)算機(jī)實(shí)現(xiàn) Spectrum-X 的大規(guī)模影響
NVIDIA 構(gòu)建了生成式 AI 超級(jí)計(jì)算機(jī) Israel-1,以?xún)?yōu)化 Spectrum-X 性能,通過(guò)啟用 AI 結(jié)構(gòu)的預(yù)先測(cè)試和驗(yàn)證藍(lán)圖來(lái)簡(jiǎn)化網(wǎng)絡(luò)部署。這使得 Israel-1 成為 Spectrum-X 如何影響存儲(chǔ)工作負(fù)載的良好試驗(yàn)臺(tái),展示了在實(shí)際超級(jí)計(jì)算機(jī)運(yùn)行條件下網(wǎng)絡(luò)對(duì)存儲(chǔ)性能的影響。
為了了解 Spectrum-X 對(duì)存儲(chǔ)網(wǎng)絡(luò)的影響,Israel-1 團(tuán)隊(duì)測(cè)量了 NVIDIA HGX H100 GPU 服務(wù)器客戶(hù)端訪(fǎng)問(wèn)存儲(chǔ)產(chǎn)生的讀寫(xiě)帶寬。該測(cè)試(使用 Flexible I/O Tester 基準(zhǔn)測(cè)試)在網(wǎng)絡(luò)配置為標(biāo)準(zhǔn) RoCE v2 結(jié)構(gòu)的情況下執(zhí)行一次,然后在 Spectrum-X 的自適應(yīng)路由和擁塞控制打開(kāi)的情況下重新運(yùn)行。
這些測(cè)試使用不同數(shù)量的 GPU 服務(wù)器作為客戶(hù)端運(yùn)行,范圍從 40 個(gè) GPU 到 800 個(gè) GPU。在每種情況下,Spectrum-X 的表現(xiàn)都更好。對(duì)于讀取帶寬,改進(jìn)范圍從 20% 到 48% 不等。對(duì)于寫(xiě)入帶寬,改進(jìn)范圍為 9% 到 41%。這些結(jié)果與合作伙伴生態(tài)系統(tǒng)為 DDN、VAST 和 WEKA 實(shí)現(xiàn)的加速相當(dāng)。
存儲(chǔ)網(wǎng)絡(luò)性能對(duì) AI 性能至關(guān)重要
要了解 Spectrum-X 為何會(huì)帶來(lái)如此大的不同,考慮為什么存儲(chǔ)是 AI 的一個(gè)因素會(huì)有所幫助。AI 性能不僅僅是大型語(yǔ)言模型 (LLM) 步驟完成時(shí)間的函數(shù),還涉及許多其他因素。例如,由于模型訓(xùn)練通常需要數(shù)天、數(shù)周或數(shù)月才能完成,因此在訓(xùn)練過(guò)程中(通常每隔幾個(gè)小時(shí))將部分訓(xùn)練的模型檢查點(diǎn)或保存到存儲(chǔ)中是有意義的。這意味著,在系統(tǒng)中斷的情況下,訓(xùn)練進(jìn)度不會(huì)丟失。
借助十億和萬(wàn)億個(gè)參數(shù)模型,這些檢查點(diǎn)狀態(tài)變得足夠大(對(duì)于當(dāng)今最大的 LLM 來(lái)說(shuō)可達(dá)數(shù) TB 的數(shù)據(jù)),以至于保存或恢復(fù)它們會(huì)產(chǎn)生“大象流”。這些是大量數(shù)據(jù),可能會(huì)使交換機(jī)緩沖區(qū)和鏈路不堪重負(fù),網(wǎng)絡(luò)必須保證為訓(xùn)練工作負(fù)載提供最佳利用率。
RAG 是存儲(chǔ)結(jié)構(gòu)可以決定工作負(fù)載性能的另一個(gè)實(shí)例。借助 RAG,LLM 與不斷增長(zhǎng)的知識(shí)庫(kù)相結(jié)合,為模型添加特定于領(lǐng)域的上下文,以提供更好的響應(yīng),而無(wú)需額外的模型訓(xùn)練或微調(diào)。RAG 的工作原理是獲取額外的內(nèi)容或知識(shí),并將其嵌入到矢量數(shù)據(jù)庫(kù)中,這使其成為可搜索的知識(shí)庫(kù)。
當(dāng)推理提示出現(xiàn)時(shí),將解析(嵌入)提示并搜索數(shù)據(jù)庫(kù),檢索到的內(nèi)容將上下文添加到提示中,以幫助 LLM 制定最佳答案。矢量數(shù)據(jù)庫(kù)是多維的,并且可能非常大,尤其是在由圖像和視頻組成的知識(shí)庫(kù)的情況下。
這些數(shù)據(jù)庫(kù)通過(guò)存儲(chǔ)結(jié)構(gòu)連接到推理節(jié)點(diǎn),網(wǎng)絡(luò)必須提供快速通信以保持延遲最小。這在多租戶(hù)生成式 AI 工廠(chǎng)的情況下尤為重要,因?yàn)槊棵氲牟樵?xún)數(shù)量非常大。
將自適應(yīng)路由和擁塞控制應(yīng)用于存儲(chǔ)
Spectrum-X 平臺(tái)引入了改編自 InfiniBand 的關(guān)鍵創(chuàng)新,例如 RoCE 自適應(yīng)路由和 RoCE 擁塞控制。通過(guò)采用這些創(chuàng)新并將其與存儲(chǔ)結(jié)構(gòu)一起使用, NVIDIA 能夠提高存儲(chǔ)工作負(fù)載的性能和網(wǎng)絡(luò)利用率。
自適應(yīng)路由
為了消除大象流沖突并緩解檢查點(diǎn)期間產(chǎn)生的網(wǎng)絡(luò)流量,采用自適應(yīng)路由在網(wǎng)絡(luò)上逐個(gè)數(shù)據(jù)包動(dòng)態(tài)地對(duì)流進(jìn)行負(fù)載均衡。Spectrum-4 以太網(wǎng)交換機(jī)根據(jù)實(shí)時(shí)擁塞數(shù)據(jù)選擇擁塞最少的路徑。由于數(shù)據(jù)包是通過(guò)網(wǎng)絡(luò)噴射的,因此它們可能會(huì)無(wú)序地到達(dá)目的地,在傳統(tǒng)以太網(wǎng)下,這需要重新傳輸許多數(shù)據(jù)包。
借助 Spectrum-X,目標(biāo)主機(jī)中的 SuperNIC 或數(shù)據(jù)處理單元 (DPU) 知道數(shù)據(jù)包的正確順序,將它們按順序放置在主機(jī)內(nèi)存中,并保持自適應(yīng)路由對(duì)應(yīng)用程序透明。這樣可以提高結(jié)構(gòu)利用率,從而獲得更高的有效帶寬,并為檢查點(diǎn)、數(shù)據(jù)獲取等提供可預(yù)測(cè)、一致的結(jié)果。
擁塞控制
檢查點(diǎn)和其他存儲(chǔ)作通常會(huì)導(dǎo)致 Incast 擁塞,也稱(chēng)為多對(duì)一擁塞。當(dāng)多個(gè)客戶(hù)端嘗試寫(xiě)入單個(gè)存儲(chǔ)節(jié)點(diǎn)時(shí),可能會(huì)發(fā)生這種情況。Spectrum-X 引入了一種基于遙測(cè)的擁塞控制技術(shù),該技術(shù)使用來(lái)自交換機(jī)的基于硬件的遙測(cè)來(lái)通知 SuperNIC 或 DPU 以減慢發(fā)送方數(shù)據(jù)注入速率(即 RDMA 寫(xiě)入和讀取)。這可以防止擁塞熱點(diǎn)的出現(xiàn),擁塞熱點(diǎn)可能會(huì)向后傳播,并導(dǎo)致相鄰的作業(yè)或進(jìn)程受到擁塞的不公平影響。
彈性增強(qiáng)功能
由于 AI 工廠(chǎng)通常由大量交換機(jī)、電纜和收發(fā)器組成,并且任何中斷的鏈路都可能導(dǎo)致網(wǎng)絡(luò)性能大幅下降,因此網(wǎng)絡(luò)彈性對(duì)于維護(hù)健康的基礎(chǔ)設(shè)施至關(guān)重要。Spectrum-X 全局自適應(yīng)路由可在鏈路中斷時(shí)實(shí)現(xiàn)最佳和快速的重新收斂,從而保持存儲(chǔ)結(jié)構(gòu)的良好利用。
與 NVIDIA 堆棧集成
除了 Spectrum-X 為存儲(chǔ)結(jié)構(gòu)帶來(lái)的創(chuàng)新之外,NVIDIA 還提供并建議使用多個(gè) SDK、庫(kù)和軟件產(chǎn)品來(lái)加速存儲(chǔ)到 GPU 的數(shù)據(jù)路徑。這些包括但不限于以下內(nèi)容:
2018-2022 Copyright © Stor.com.cn