Module optice 400G în rețele moderne

Dec 17, 2025|

 

TheModul optic 400Greprezintă atât un triumf al pragmatismului ingineresc, cât și o sursă de dureri de cap operaționale constante. În esență, face ceva simplu: împinge 400 de miliarde de biți pe secundă prin sticlă folosind lumină. Implementarea se extinde pe mai mulți factori de formă, scheme de modulare, configurații ale lungimii de undă și interpretări ale furnizorilor a ceea ce înseamnă de fapt „compatibil”. Modulația PAM4 a adus industria la acest prag de viteză prin codificarea a doi biți per simbol în loc de unul, dublând efectiv debitul fără a dubla rata de transmisie-dar această decizie are consecințe care se răspândesc prin fiecare strat al stivei de implementare, de la siliciul DSP care arde 12 wați în interiorul modulului până la motoarele FEC de pe platforma gazdă care a corectat erorile cu 4 biți. produce.

31

 

Războaiele cu factor de formă pe care nimeni nu a câștigat

 

QSFP-DD și OSFP au apărut din procesul standardelor ca doi frați care nu au putut fi de acord cu nimic, cu excepția faptului că amândoi își doreau 400G. Industria avea nevoie de opt benzi electrice la 50 Gbps fiecare și două consorții diferite au decis să rezolve această problemă în două moduri diferite.

QSFP-DD a câștigat argumentul de compatibilitate. Se potrivește cuștilor QSFP28 existente dacă strabii suficient de tare și nu te deranjează al doilea rând de știfturi. Compatibilitatea inversă contează atunci când aveți zeci de mii de porturi implementate și un CFO care pune întrebări clare despre activele blocate.

OSFP a câștigat argumentul termic. Carcasa ceva mai mare și radiatorul integrat înseamnă că puteți disipa efectiv cei 15-20 de wați consumați de aceste module fără a găti porturile adiacente. Am văzut plăci de linie în care porturile de colț QSFP-DD sunt în mod constant cu 8 grade mai fierbinți decât cele din mijloc, deoarece designul fluxului de aer presupunea suprafețe de putere de 100G.

Nici unul nu a câștigat cu adevărat. Majoritatea hiperscalerelor au fost QSFP-DD pentru simplitatea inventarului. Majoritatea implementărilor de telecomunicații au fost OSFP, deoarece modulele lor coerente aveau nevoie de spațiu termic. Toți ceilalți au ales orice a livrat furnizorul lor și au trecut mai departe.

Varianta QSFP112 merită menționată pentru că derutează pe toată lumea. Patru benzi la 100G fiecare-același total de 400G, mai puține benzi, SerDes mai noi. Este important pentru conectivitatea NIC acolo unde doriți să conecteze server-la-TOR fără complexitatea cutiei de viteze DSP. Contează mai puțin decât susțin vânzătorii din altă parte.

 

PAM4 a schimbat totul (și a rupt câteva lucruri)

 

Iată ce nu explică nimeni în mod adecvat când vă vând pe 400G: semnalizarea PAM4 schimbă imunitatea la zgomot pentru eficiența lățimii de bandă, iar acest compromis nu este gratuit.

Codarea NRZ a folosit două nivele de semnal. Înalt sau scăzut. Unu sau zero. Receptorul tău trebuia doar să facă distincția între aceste două stări, iar diagrama ochilor îți oferea marje confortabile. PAM4 utilizează patru niveluri-00, 01, 10, 11-, ceea ce înseamnă că receptorul trebuie acum să facă distincția între trei treceri de prag cu o treime din separarea tensiunii. Penalizarea teoretică de 9,54 dB SNR nu este deloc teoretică. Apare în contoarele dumneavoastră pre-FEC BER în fiecare zi.

DSP-ul din interiorul unui modul 400G face o muncă eroică compensând acest lucru. Feed-egalizare înainte, egalizarea feedback-ului de decizie, ceasul și recuperarea datelor-toate rulând la 53,125 GBaud pe bandă. Când funcționează, este invizibil. Când nu funcționează, primești rafale de erori corectabile punctate de erori ocazionale necorectabile și mult noroc în a descoperi dacă problema este modulul tău, fibra ta, gazda sau radiația cosmică de fond.

 

info-500-197

 

Am petrecut două săptămâni anul trecut urmărind o condiție de eroare intermitentă pe o legătură DR4 care s-a dovedit a fi o eroare de firmware DSP care s-a manifestat doar atunci când temperatura ambientală a depășit 31 de grade. Vânzătorul a recunoscut problema la trei luni după ce am deschis cazul. Actualizarea firmware-ului care l-a remediat a rupt, de asemenea, interoperabilitatea cu una dintre platformele noastre mai vechi de comutare.

Situația FEC agravează acest lucru. KP4 FEC-RS(544,514) pentru standardele wonks-poate corecta până la 15 erori de simbol per cuvânt de cod, ceea ce sună generos până când realizați cât de des aveți nevoie de el. Rularea 400G fără FEC nu este doar nerecomandabilă; este imposibil pentru majoritatea cazurilor de utilizare. Câștigul de codare vă oferă aproximativ 7 dB de marjă, pe care PAM4 o consumă prompt.

 

Variante de lungime de undă: mai mult decât doar atingere

 

Specificațiile de acoperire spun doar o parte a poveștii.

400G-SR8 utilizează VCSEL de 850 nm în opt fibre paralele, țintind 100 de metri peste OM4. Este ieftin. Este multimod. Este nevoie de un conector MPO-16 cu opt fibre TX și opt RX. Într-un rafturi sau între rafturi adiacente, acest lucru funcționează bine. În momentul în care cineva întreabă despre rularea acestuia „doar un pic mai departe”, reamintește-i că dispersia modală la 850 nm nu se negociază.

400G-DR4 funcționează la 1310 nm pe patru fibre paralele cu un singur-mod, evaluate pentru 500 de metri. Conectorul MPO-12 folosește cele opt fibre exterioare și lasă patru neutilizate-un fapt care îi încurcă pe instalatorii de cablu aproximativ o dată pe implementare. DR4 a devenit calul de bătaie pentru conectivitatea frunze-coloanei vertebrale în plantele monomode, deoarece 500 de metri acoperă majoritatea geometriilor centrelor de date cu spațiu liber.

400G-FR4 utilizează lungimi de undă CWDM4 (1271, 1291, 1311, 1331nm) multiplexate pe o singură pereche de fibre prin LC duplex. Doi kilometri ajunge. Aici 400G începe să se simtă economic pentru interconexiunile campusului, deoarece nu trageți opt-conexiuni MPO cu fibră între clădiri.

400G-LR4 extinde aceeași abordare CWDM4 până la 10 kilometri, cu o putere de lansare mai mare și receptoare mai bune. Creșterea prețului de la FR4 la LR4 încă surprinde departamentele de achiziții care nu și-au actualizat modelul mental de la prețurile 100G-LR4.

 

Elefantul Coerent

 

400G-ZR merită propria sa secțiune, deoarece reprezintă o tehnologie fundamental diferită, îmbrăcată în același factor de formă.

Tot ceea ce am descris până acum folosește optica de-detecție directă. Lumina intră, fotodioda o convertește, DSP o curăță. Optica coerentă codifică informații atât în ​​amplitudine, cât și în fază pe două polarizări simultan, apoi utilizează un oscilator local și procesare sofisticată a semnalului digital pentru a recupera totul la receptor. Rezultatul: 400 Gbps pe 120+ kilometri de fibră neamplificată într-un modul conectabil.

Standardul OIF 400ZR specifică modulația 16QAM la 60 GBaud cu polarizare dublă. FEC concatenat (soft-decision inner Hamming, hard-decision outer scale) oferă aproximativ 10,8 dB de câștig net de codare. Întregul lucru consumă 15-20 de wați și generează căldură care ar face să plângă un modul QSFP-DD.

Am văzut module ZR instalate în comutatoare care nu au fost proiectate pentru acea sarcină termică. Șasiul comutatorului a raportat temperaturi normale, deoarece senzorii săi de admisie au măsurat aerul rece. Modulul a raportat 73 de grade deoarece a fost prins între alte două module ZR cu un flux de aer inadecvat. Legătura a funcționat-abia-cu corecții FEC ridicate pe care nimeni nu le-a observat până când BER pre-FEC a trecut de pragul și pachetele au început să scadă.

Variantele ZR+ și MZR împing mai departe, cu prețul interoperabilității. Îmbunătățirile specifice ale furnizorului-pentru puterea de lansare, sensibilitatea receptorului și algoritmii FEC pot extinde conexiunile peste 400 km, dar cumpărați o soluție mai degrabă decât o marfă.

 

info-500-253

 

Întrebarea-terțului

 

Am avut această conversație de aproximativ șase sute de ori.

„Putem folosi optica 400G de la terți{0}}?”

Tehnic da. Specificațiile MSA există tocmai pentru a permite interoperabilitatea cu mai mulți-furnizori. Un QSFP-DD compatibil de la producătorul X ar trebui să se comporte identic cu unul de la producătorul Y. Standardele IEEE definesc parametrii optici și electrici. CMIS (Common Management Interface Specification) standardizează modul în care gazda vorbește cu modulul.

Practic, depinde.

Mecanismele de autentificare Cisco au evoluat de la abordarea netă „eroare-dezactivați portul” a platformelor mai vechi la verificarea mai sofisticată a furnizorilor, care înregistrează avertismentele, dar nu dezactivează neapărat funcționalitatea. Comanda transceiver-neacceptată de serviciu rămâne trapa de evacuare. Arista tinde să fie mai permisiv, dar nu va accepta problemele care ar putea decurge din modulele terțe-. Poziția lui Juniper variază în funcție de platformă și versiunea software, în moduri care necesită consultarea matricelor de compatibilitate.

Rulez optica de la terți-în medii de laborator fără ezitare. Pentru căile de producție care transportă trafic de venituri la 2:00 când ceva nu reușește? Vreau să pot apela TAC și să-i fac să ajute efectiv, în loc să devieze imediat la „înlocuirea cu transceiver acceptate”.

Matematica costurilor modifică acest calcul pentru hiperscalerii care cumpără module cu zeci de mii și angajează ingineri optici care pot caracteriza și califica furnizorii în mod independent. Este o matematică diferită pentru întreprinderile care cumpără sute de module prin canale de distribuție cu resurse tehnice limitate.

 

Realitatea termică

 

Un modul 400G QSFP-DD consumă undeva între 10 și 15 wați, în funcție de variantă și de furnizor. Un modul ZR coerent de 400G consumă 15-20 de wați. Un modul 800G QSFP-DD800-deja implementat în clustere AI - consumă 18-25 wați.

Puneți 64 dintre acestea într-un comutator de 2RU și aveți 640 de wați doar din optică înainte de a lua în considerare comutatorul ASIC, memorie, ventilatoare și surse de alimentare. Problema designului termic a trecut de la „adecvat” la „critic” într-o singură generație.

Am urmărit o cameră de termoviziune cum mătura un comutator complet-încărcat pe coloana vertebrală de 400G în timpul unui test de calificare. Cele mai tari module nu au fost cele la care te-ai aștepta. Pozițiile de colț, în josul vântului de evacuare ASIC, au fost mai fierbinți decât modulele centrale-placii frontale care au primit aer proaspăt. Citirile standard de temperatură DDM au arătat o răspândire de 17 grade în porturi care se presupune că erau identice.

Specificațiile modulului promit funcționarea de la 0 la 70 de grade, dar curbele de performanță nu arată la fel la 70 de grade ca și la 25 de grade. Curentul de prag al laserului crește. Eficiența pantei scade. Derivarea lungimii de undă-și pentru sistemele CWDM4 și DWDM, deviația lungimii de undă înseamnă diafonie cu canalele adiacente.

Sistemele-răcite cu aer se apropie de limitele lor. Răcirea lichidă pentru comutatoare rămâne exotică, dar din ce în ce mai necesară pentru clusterele AI/ML unde GPU-urile și optica concurează pentru același buget termic.

 

info-500-246

 

Testarea realităților

 

Standardele IEEE definesc punctele de conformitate. Nu garantează că linkul dvs. specific va funcționa.

TDECQ (Transmitter and Dispersion Eye Closure Quaternary) este echivalentul PAM4 al OMA (Optical Modulation Amplitude), dar mai complicat. Încearcă să caracterizeze calitatea emițătorului într-un mod care prezice performanța receptorului. Măsurarea necesită receptoare de referință și transformări matematice care variază între furnizorii de echipamente de testare în moduri care provoacă dezbateri nesfârșite în comitetul de standarde.

Testarea pre-FEC BER contează mai mult decât oricând. „Amprenta” erorilor de biți-aleatoare versus rafale, distribuite uniform versus concentrate în anumite simboluri PAM4-determină dacă FEC le poate corecta efectiv. Adevăratele erori aleatoare se joacă bine cu codurile Reed-Solomon. Erorile de explozie din problemele de recuperare a ceasului sau comportamentul incorect al DSP pot copleși FEC chiar și atunci când BER brut pare acceptabil.

Am învățat să cer statistici pre-FEC de la fiecare link 400G, nu doar post-FEC. Un link care arată 0,00 post-FEC BER în timp ce rulează pre-FEC BER la 2×10⁻⁴ arată grozav până când îți dai seama că nu mai rămâne aproape nicio marjă. Adăugați un conector ușor murdar sau un laser îmbătrânit și acea legătură se va răsturna peste stânca FEC fără avertisment.

 

Contaminarea conectorului

 

La 400G problema de contaminare devine acută. Ochiul modulat are o marjă mai mică. Particulele care ar fi fost invizibile la viteze mai mici acum atenuează suficient de mult pentru a materie.

Miezurile de fibră cu un singur{0}mod au 9 micrometri. Un conector MTP/MPO-12 transportă opt căi de fibră active (patru TX, patru RX) plus patru neutilizate. Fiecare ciclu de împerechere riscă contaminarea. Fiecare capăt contaminat riscă pierderi de inserție care mănâncă bugetul dvs. de link.

Disciplina necesară de curățare nu este-negociabilă, dar rareori este respectată în mod constant. Produse de curățare cu un-clic, șervețele uscate cu probleme de statică, curățare umedă cu alcool izopropilic care trebuie șters imediat, în loc să se lase să se evapore-fiecare metodă are adepți și critici. Ceea ce toată lumea este de acord: inspectați cu o lunetă de fibră înainte de conectare, iar dacă este murdară, curățați-l și inspectați din nou.

Am urmărit o echipă de implementare care arde o după-amiază întreagă depanând o legătură intermitentă 400G-DR4. Schimbări multiple de module. Recenzii de configurare. În cele din urmă, a dezvăluit domeniul de inspecție și a găsit resturi de construcție pe adaptorul peretelui pe care nimeni nu se gândise să le verifice. Douăzeci de secunde cu un instrument de curățare au remediat ceea ce patru ore de depanare nu au putut.

 

info-500-276

 

Ce înseamnă toate acestea pentru planificare

 

Dacă implementați astăzi o nouă țesătură de centru de date, 400G este linia de bază pentru stratul coloanei vertebrale și din ce în ce mai mult pentru legăturile-coloanei în sus. Costul pe bit a scăzut până la punctul în care breakout 4×100G dintr-un modul 400G este adesea mai ieftin decât modulele individuale 100G. DR4 pentru orice în interiorul unei clădiri de peste 30 de metri. FR4 pentru interconexiunile campusului. LR4 sau ZR dacă ajungeți între site-uri.

Dacă sunteți o întreprindere care are în vedere prima implementare a 400G, platformele de comutare s-au maturizat, lanțul de aprovizionare cu module s-a stabilizat, iar prețurile nu mai necesită aprobare-executiv pentru fiecare comandă de achiziție. Începeți cu o reîmprospătare-coloanei vertebrale, dovedeți că infrastructura dvs. de cablare poate face față toleranței mai stricte la contaminare și înțelegeți că instrumentele dvs. de management trebuie să înceapă să colecteze statistici FEC înainte de a avea nevoie de ele.

Dacă ești un hyperscaler care citește asta, ai trecut deja de 400G pentru clusterele GPU și te întrebi cum se va implementa de fapt 1.6T. Mult succes cu problemele termice; Îți voi citi lucrările peste doi ani.

Modulele în sine au devenit remarcabil de fiabile. Problemele trăiesc peste tot: conectori contaminați, moduri FEC configurate greșit, design-uri termice care au asumat pachetele de putere de ieri și organizațiile de sprijin care încă învață cum să depaneze problemele de integritate a semnalului PAM4. Fundamentele lipsite de farmec-vă curăță conectorii, vă măsoară temperaturile, vă înțelegeți bugetul FEC-contează mai mult decât dezbaterile din fișa de specificații.

 

Trimite anchetă