組網(wǎng)擴展性要求高
不同的金融客戶對GPU算力投入有差異,小規(guī)模起步到規(guī)?;褂靡笾撬憔W(wǎng)絡(luò)具備較高的可擴展性。
網(wǎng)絡(luò)性能要求高
大模型的機間網(wǎng)絡(luò)通信占比大幅提升,帶寬接入能力及帶寬利用率成為影響訓練效率的網(wǎng)絡(luò)關(guān)鍵指標。
訓練連續(xù)性要求高
大模型采用多機多卡集群,機間網(wǎng)絡(luò)一旦出現(xiàn)故障將會導致集群訓練任務(wù)中斷,拉長訓練周期,降低訓練效率,機間網(wǎng)絡(luò)的可靠性對于訓練效率的影響愈發(fā)明顯。
投產(chǎn)運營復雜度高
智算中心建設(shè)投產(chǎn)復雜、業(yè)務(wù)上線慢,大規(guī)模網(wǎng)絡(luò)并行計算導致故障節(jié)點難定位,網(wǎng)絡(luò)設(shè)備、光模塊的高密度部署造成以電力換算力的高成本運行模式。