發(fā)布時間:2024-07-10
當前,AI技術正在持續(xù)賦能產業(yè)變革。繼文本和圖像之后,Sora的出現讓AI浪潮席卷至視頻領域,推動AI多模態(tài)領域的快速發(fā)展。以AIGC為代表的業(yè)務應用正在重塑人類的學習路徑、工作模式乃至生活節(jié)奏,推動智能化和便捷化的發(fā)展。
AIGC時代,大模型參數量持續(xù)飆升,算力需求也隨之增長,這就要求網絡能夠承載更大規(guī)模的GPU集群。以GPT-4為例,其參數量已躍升至驚人的1.8萬億,訓練所需的算力更是高達4680P,只有萬卡集群能夠提供足夠的算力支持,滿足大模型訓練的需求。
由于GPT-4擴展MoE引入了大量的All to All通信,使機內和機間通信的比例幾乎達到了1:1,機間All to All通信是依靠交換機轉發(fā)進行傳輸,因此網絡通信對GPU利用率的影響越發(fā)明顯。這意味著,交換機需要升級到800G和1.6T的規(guī)格,以滿足大模型訓練過程中的超大帶寬需求。
此外,在構建大規(guī)模訓練集群時,往往配備有數以萬計的高性能GPU,旨在支持并行處理多個復雜的模型訓練任務。這種多任務并行環(huán)境極大地增加了流量的復雜性和動態(tài)性,對網絡系統(tǒng)的負載均衡能力提出了前所未有的挑戰(zhàn)。因此,網絡架構需要具備一定的靈活性和可擴展性,以應對不斷變化的流量需求。
面向下一代AI云服務的智算中心網絡建設,銳捷網絡在去年推出了AI-Fabric智算中心網絡解決方案和AI-FlexiForce智算中心網絡解決方案,以其高吞吐、大帶寬、高可用的特性,可應用于大數據處理、機器學習、AIGC多種業(yè)務場景,助力客戶構建萬卡級別的智算中心網絡,支撐AI業(yè)務快速發(fā)展。
銳捷網絡AI-FlexiForce智算中心網絡解決方案采用NCP+NCF為基礎模塊橫向擴展的三級網絡架構,并基于高性能芯片技術,通過將數據流切分成等長的Cell并負載到所有鏈路,提升網絡帶寬利用率;基于VOQ+Credit的端到端流控機制實現與業(yè)務無關的無損自閉環(huán)網絡,助力業(yè)務算力提升。
AI-FlexiForce方案通過應用鏈路負載和擁塞控制技術,根本性解決網絡中的擁塞沖突問題,提升GPU之間通信和計算效率,加速企業(yè)大模型應用的推出。同時,銳捷網絡打造了分布式OS,意在實現分布式方案架構的統(tǒng)一管理基礎上,最大程度降低系統(tǒng)性風險,提升AI訓練網絡的長期穩(wěn)定運行。

▲銳捷網絡數據中心網絡事業(yè)群高級技術總監(jiān) 權熙哲
為了適應客戶的普適性場景,銳捷網絡在今年創(chuàng)新性地推出了AILB負載均衡解決方案,并從1.0版本持續(xù)迭代升級至2.0版本。憑借其可靠的性能與靈活性,AILB方案實現了多任務環(huán)境下不同模型間的數據通訊。權熙哲指出,“借助AILB方案,客戶可以更好地完成端到端的鏈路選擇,實現端到端的高吞吐。”
基于GPU間有規(guī)律的傳輸流量特征及Leaf/Spine之間1:1收斂的特征,網絡設備以Leaf分組,為Leaf接入地所有網卡,自動預規(guī)劃全局負載均衡路徑;主路由與其它等價路徑形成1主多備,AILB方案的快切技術,實現10ms內完成路徑切換。
據悉,AILB方案可以疊加單級PFC(防止“多打一”)構建無損Fabric,無需ECN端網對接,實現GPU網卡與外部網絡解耦。AILB方案在16節(jié)點PerfTest測試中,帶寬利用率高達97.6%,其快速的Failover切換時間,保障訓練業(yè)務的連續(xù)性。該方案支持智算中心多租戶部署模式,適用于非Mellanox系列網卡。
目前,銳捷網絡智算中心網絡解決方案為跨行業(yè)通用型,不特定于某個單一行業(yè),而是廣泛適用于AI大模型公司、政府行業(yè)、電力能源行業(yè)(如光伏企業(yè))、IDC公司等等,為客戶提供更加專業(yè)的技術服務,助力他們應對市場挑戰(zhàn),實現可持續(xù)發(fā)展。
在MWC2024展區(qū),銳捷網絡展出了RG-S6990-128QC數據中心交換機,以及高密度、低功耗的400G/800G LPO自研光模塊,適用于數據中心、高性能計算網絡、企業(yè)核心分布層,為數據中心服務器和交換機提供經濟高效的高速互聯。

▲400G/800G LPO光模塊
RG-S6990-128QC交換機是銳捷網絡面向高端數據中心和AIGC智算場景推出的新一代高性能、高密度盒式交換機。它采用先進的硬件架構設計,提供128個400GE端口,所有端口均支持線速轉發(fā),轉發(fā)性能達到51.2Tbps,支持冗余可插拔電源和風扇,支持AI-Fabric方案RALB和AILB負載均衡技術,提升AIGC智算場景下流量帶寬,縮短AI訓練時長。
權熙哲指出,“以51.2T芯片為基礎,這款交換機能夠提供128個400GE端口,支持高達1000張GPU卡的通信規(guī)模。同時,高密度的接口設計使得單個交換機能夠連接更多服務器,支持更大規(guī)模的服務器集群,滿足未來不斷增長的數據處理需求。”
400G-QDD-DR4-SM1310模塊設計用于400G光模塊,采用QSFP-DD封裝,MPO-12 APC接頭接口,使用波長1310nm,需配套單模光纖使用,最大傳輸距離為500m,可以實現功耗降低50%,LPO時延下降90%,成本降低15%,無需1分2跳線,規(guī)模增加一倍,仍可維持傳統(tǒng)布線方案。
在成本方面,隨著400G LPO光模塊的DSP芯片量產,其成本占比已從早期的30%以上降至當前的10%左右,提升了產品的性價比。對于更高速率的800G及1.6T光模塊,銳捷雖面臨DSP芯片成本占比較高的挑戰(zhàn),但仍致力于通過技術創(chuàng)新與規(guī)模效應來降低成本。
權熙哲認為,“我們已正式發(fā)布了400G與800G的LPO光模塊,實現了整體功耗降低超過60%的成效。具體而言,傳統(tǒng)光模塊可能消耗高達15瓦的電力,而我們的LPO光模塊僅需4~5瓦,極大提升了能效比。希望通過銳捷的交換機加線性光模塊,給客戶提供一個有競爭力的性價比。”
下半年,銳捷網絡將推出800G及更高密度的交換機產品,同時,1.6T交換機及配套的線性光模塊也在緊鑼密鼓的研發(fā)中,預計在未來兩年內面世。我們相信,通過不懈努力,銳捷能夠克服技術挑戰(zhàn),推動光通信領域向更高速率、更低功耗、更低成本的方向發(fā)展。
轉載來源:IT168
