發(fā)布時(shí)間:2022-09-27


作者:墨染塵香
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,數(shù)據(jù)中心逐步轉(zhuǎn)型為“算力中心”。人工智能、機(jī)器學(xué)習(xí)等高算力應(yīng)用發(fā)展迅猛,無人駕駛汽車、大數(shù)據(jù)推流、興趣電商等多樣化業(yè)務(wù)層出不窮。而作為基礎(chǔ)架構(gòu)支撐人工智能、機(jī)器學(xué)習(xí)這類應(yīng)用的GPU(Graphics Processing Unit,圖形處理器)計(jì)算集群,相比于CPU(central processing unit,中央處理器)通用計(jì)算集群對網(wǎng)絡(luò)傳輸提出了更高要求,這就是我們常說的“業(yè)務(wù)驅(qū)動(dòng)網(wǎng)絡(luò)迭代”的演進(jìn)模式。在該模式下,網(wǎng)絡(luò)迭代在GPU高性能場景先行,滿足塔尖業(yè)務(wù)需求;再逐步賦能到通用場景,充分發(fā)揮技術(shù)價(jià)值紅利。

圖1:數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)示意圖
除了來自業(yè)務(wù)的直接壓力,數(shù)據(jù)中心其他設(shè)施為了滿足功能需求而進(jìn)行的升級,也在無形中“驅(qū)趕”著網(wǎng)絡(luò)設(shè)備的迭代。如搭載下一代H100的GPU服務(wù)器,對網(wǎng)絡(luò)的接入帶寬已上升到400G的要求;下一代CX7的智能網(wǎng)卡,也要求網(wǎng)絡(luò)接入交換機(jī)支持PAM4-112G SerDes(串行/解穿串行器)。
在業(yè)務(wù)和硬件革新的雙重驅(qū)動(dòng)下,數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)升級勢在必行。而要想順利完成迭代,交換芯片、SerDes和光模塊三個(gè)層面的技術(shù)需要協(xié)同演進(jìn),缺一不可。不難想象,這條技術(shù)演進(jìn)之路將會(huì)阻礙重重,其中功耗問題尤其難解。

圖2:驅(qū)動(dòng)數(shù)據(jù)中心網(wǎng)絡(luò)迭代升級的因素及功耗挑戰(zhàn)
先從決定交換機(jī)性能的交換機(jī)芯片來看,隨著交換機(jī)芯片的升級,單Bit(比特)的功耗隨之降低,但因?yàn)榻粨Q帶寬提升,交換機(jī)芯片總功耗在數(shù)據(jù)中心的占比逐年增長。除交換芯片外,SerDes和光模塊也是功耗增加的主要元素。據(jù)數(shù)據(jù)統(tǒng)計(jì), 2022年單交換機(jī)的總體功耗是2010年單交換機(jī)功耗的22倍,其中交換芯片SerDes功耗增長25倍,光模塊的功耗增長26倍。

圖3:2020 Cisco and/or its affiliates. All rights reserved. Cisco Public
聚焦光模塊的演進(jìn)來看,2007年萬兆的光模塊功耗小于1W,但隨著40G、100G到現(xiàn)在的400G,800G甚至未來1.6T光模塊,功耗提升的比例越來越大,甚至快要接近30W,如果是滿載1.6T光模塊的交換機(jī),功耗將不可想象。
因此,傳統(tǒng)可插拔光模塊的技術(shù)演進(jìn)難以支撐數(shù)據(jù)中心的可持續(xù)發(fā)展,主要體現(xiàn)在以下四個(gè)方面:

圖4:傳統(tǒng)可插拔光模塊技術(shù)發(fā)展的瓶頸
首先是SI(電傳輸)的實(shí)現(xiàn)遇到了材料的瓶頸,基于PCB(Printed Circuit Board印制電路板)傳輸高速電信號,在應(yīng)用傳統(tǒng)可插拔光模塊時(shí),信號傳輸距離長,傳輸損失大,對SI實(shí)現(xiàn)挑戰(zhàn)大,更低損耗的可量產(chǎn)PCB材料也面臨諸多技術(shù)困難。其次是功耗問題,滿載1.6T模塊的設(shè)備,整機(jī)功耗巨大,對散熱設(shè)計(jì)包括機(jī)柜供電的挑戰(zhàn)巨大。隨功耗的提升,整機(jī)的設(shè)備成本包括風(fēng)火水電的周邊配套實(shí)施成本也相應(yīng)增加,會(huì)增大網(wǎng)絡(luò)建設(shè)初期的投入。最后是產(chǎn)品設(shè)計(jì)的問題,使用傳統(tǒng)可插拔光模塊的系統(tǒng),支持128個(gè)端口需要非常復(fù)雜的系統(tǒng)設(shè)計(jì),還需要解決諸如高功率光模塊散熱等技術(shù)問題,推高了系統(tǒng)成本。
綜上,從交換芯片、SerDes及光模塊技術(shù)在數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)迭代中遇到的功耗問題出發(fā),銳捷網(wǎng)絡(luò)以建設(shè)下一代綠色節(jié)能可持續(xù)發(fā)展的數(shù)據(jù)中心為目標(biāo),基于客戶業(yè)務(wù)場景和產(chǎn)品實(shí)踐,給出了數(shù)據(jù)中心網(wǎng)絡(luò)可持續(xù)發(fā)展的創(chuàng)新解法及技術(shù)路線建議,具體分三層:
底層是架構(gòu)升級,基于下一代芯片、SerDes及光模塊技術(shù)實(shí)現(xiàn)網(wǎng)絡(luò)架構(gòu)升級迭代去滿足人工智能、機(jī)器學(xué)習(xí)等應(yīng)用對帶寬持續(xù)增大的需求。在架構(gòu)升級基礎(chǔ)上,從網(wǎng)絡(luò)設(shè)備出發(fā),嘗試解決當(dāng)前SerDes及光模塊的功耗難題。但問題并不是只在這一代才發(fā)生,未來的每一代網(wǎng)絡(luò)架構(gòu)都會(huì)面臨相同的問題,因此需要面向未來,探索出一條數(shù)據(jù)中心網(wǎng)絡(luò)低成本、低功耗的可持續(xù)發(fā)展路線。

圖5:下一代綠色節(jié)能可持續(xù)發(fā)展數(shù)據(jù)中心的建設(shè)目標(biāo)
具體這條可持續(xù)發(fā)展的技術(shù)路線,可以從交換機(jī)硅光技術(shù)發(fā)展的兩個(gè)階段實(shí)現(xiàn)。第一階段是NPO(Near packaged optics近封裝光學(xué))技術(shù)階段,可以在CPO(Co-packaged optics,共封裝光學(xué))生態(tài)完備之前,在短時(shí)間內(nèi)享受到低成本、低功耗的收益。第二階段是CPO技術(shù)階段,這是交換機(jī)硅光技術(shù)的最終形態(tài),可以極限降低網(wǎng)絡(luò)的成本和功耗。

圖6:數(shù)據(jù)中心網(wǎng)絡(luò)可持續(xù)發(fā)展技術(shù)路線建議
光引擎承載了交換網(wǎng)絡(luò)的光電轉(zhuǎn)換功能,常見的是Pluggable(可插拔)形態(tài),隨著技術(shù)的演進(jìn),又產(chǎn)生了新的產(chǎn)品形態(tài)。CPO形態(tài)是將交換芯片和光引擎共同裝配在同一個(gè)Socketed(插槽)上,形成芯片和模組的共封裝。NPO形態(tài)則是光引擎與交換芯片解耦,裝配在同一塊系統(tǒng)主版上。雖然兩者都有光電模組,但封裝的位置是不同的,對應(yīng)的走線距離也會(huì)有些差異,相應(yīng)功耗也不同。

圖7:硅光技術(shù)形態(tài)概覽
CPO架構(gòu)是基于硅光技術(shù)實(shí)現(xiàn)高集成度的形態(tài),預(yù)期也能獲得更優(yōu)的成本及功耗收益。CPO架構(gòu)降功耗的核心原理是通過共封裝形式大幅縮短交換芯片和光引擎間的布線距離(走線可控制在50~70mm左右),進(jìn)而降低SerDes的驅(qū)動(dòng)功耗成本,同時(shí)可實(shí)現(xiàn)更高密度的高速端口,提升整機(jī)的帶寬密度,實(shí)現(xiàn)大幅降低功耗。長遠(yuǎn)來看,因?yàn)樾酒凸韫饨M件的共封裝的更高集成及硅光技術(shù)生態(tài)的不完備,從商業(yè)化角度上來看開放性是長期的目標(biāo)。

圖8:CPO架構(gòu)示意圖

圖9:CPO原理圖
交換機(jī)的另一種實(shí)現(xiàn)架構(gòu)是NPO,基于硅光技術(shù)的高集成度和開放的生態(tài),可以獲得成本及功耗的收益。NPO的技術(shù)原理是通過開放的光引擎接口,與交換芯片共同組裝在同一塊主板,以標(biāo)準(zhǔn)化架構(gòu)的方式實(shí)現(xiàn)了光引擎和芯片的解耦,可以靈活對交換芯片和NPO模塊進(jìn)行選型。NPO在收益方面雖然不如CPO架構(gòu)對功耗和成本降低的明顯,但在開放性層面是有所提升的。隨著NPO產(chǎn)業(yè)鏈的日益成熟,預(yù)計(jì)到24年會(huì)有商用的CPO模組。銳捷網(wǎng)絡(luò)作為OIF(光互聯(lián)網(wǎng)OIF論壇)成員之一,也在NPO交換機(jī)方向持續(xù)進(jìn)行探索與實(shí)踐。

圖10:NPO架構(gòu)示意圖
2021年11月,銳捷網(wǎng)絡(luò)應(yīng)邀參加全球OCP峰會(huì)。在峰會(huì)現(xiàn)場,銳捷網(wǎng)絡(luò)正式發(fā)布了25.6T硅光NPO冷板式液冷交換機(jī),滿足數(shù)據(jù)中心和運(yùn)營商網(wǎng)絡(luò)的高可靠性的要求。

圖11:銳捷網(wǎng)絡(luò)25.6T硅光NPO冷板式液冷交換機(jī)
銳捷網(wǎng)絡(luò)25.6T硅光NPO冷板式液冷交換機(jī),基于新的112G Serdes交換芯片,采用64個(gè)連接器,在1RU的空間內(nèi),實(shí)現(xiàn)了64口400G的超高密度端口設(shè)計(jì);由16個(gè)1.6T(4×400G DR4)的NPO模塊組成,支持8個(gè)ELS/RLS(外置激光源模塊),PCB上ASIC到光模塊布線距離縮短60%-70%,高速信號質(zhì)量大幅改善。整機(jī)采用x86 CPU,3+1的風(fēng)扇模塊,1+1 電源模塊冗余,核心區(qū)域采用冷板散熱,使用非導(dǎo)電冷卻液,防止漏液短路風(fēng)險(xiǎn),能很好為數(shù)據(jù)中心網(wǎng)絡(luò)可持續(xù)發(fā)展提供支撐。

圖12:銳捷網(wǎng)絡(luò)25.6T硅光NPO冷板式液冷交換機(jī)
2022年,銳捷網(wǎng)絡(luò)在OFC2022新發(fā)布的51.2T硅光NPO冷板式液冷交換機(jī),是基于51.2T交換機(jī)芯片的800G NPO結(jié)構(gòu)原型機(jī)。同樣是1RU的高度,51.2T 交換機(jī)將NPO模組從1.6T升級到了3.2T,前面板支持64個(gè)800G連接器,每個(gè)連接器還可以分成2個(gè)400G端口,實(shí)現(xiàn)向前兼容。外置光源模塊增加到了16個(gè),由于采用了Blind-mate設(shè)計(jì),避免了高功率激光對人眼的傷害,顯著改善了運(yùn)維人員的安全。散熱方面,交換機(jī)芯片和NPO模塊同樣支持冷板冷卻方式,實(shí)現(xiàn)高效散熱,解決熱流密度高度集中的難題,對比同性能、傳統(tǒng)可插拔光模塊+風(fēng)冷方案的交換機(jī),功耗大幅降低。

圖13:銳捷網(wǎng)絡(luò)51.2T硅光NPO冷板式液冷交換機(jī)
NPO交換機(jī)的應(yīng)用場景非常廣泛,銳捷網(wǎng)絡(luò)研發(fā)的51.2T的NPO交換機(jī)可以應(yīng)用于下一代超大規(guī)模400G網(wǎng)絡(luò),作為Leaf&Spine設(shè)備實(shí)現(xiàn)高速骨干互聯(lián),我們在2023年底可以實(shí)現(xiàn)商業(yè)化發(fā)布,幫助客戶在短時(shí)間內(nèi)享受功耗和成本降低的價(jià)值紅利。

圖14:基于NPO交換機(jī)的下一代網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)
銳捷網(wǎng)絡(luò)現(xiàn)在已經(jīng)走向國際,定期參與硅光相關(guān)工作組全球會(huì)議,力圖為全球的技術(shù)進(jìn)步貢獻(xiàn)一份力量。未來,銳捷網(wǎng)絡(luò)會(huì)在硅光方向上繼續(xù)踐行這條可持續(xù)發(fā)展之路,研發(fā)出更多產(chǎn)品幫助客戶實(shí)現(xiàn)綠色節(jié)能。

圖15:OIF工作組全球會(huì)議現(xiàn)場
