bytevyte
bytevyte
Language
ai-beats-it

NVIDIA rende Open-Source il protocollo MRC per standardizzare il Networking AI Gigascale

protocollo MRC

NVIDIA ha rilasciato il protocollo Multipath Reliable Connection (MRC) come specifica aperta attraverso l'Open Compute Project (OCP) per affrontare i colli di bottiglia del networking nei cluster AI massivi. Questo MRC protocol è una tecnologia di trasporto RDMA specializzata che consente a una singola connessione dati di utilizzare più percorsi di rete contemporaneamente, prevenendo la congestione comune nelle configurazioni Ethernet tradizionali. Rendendo questa tecnologia aperta, l'azienda mira a stabilire uno standard unificato per l'infrastruttura AI gigascale mentre le organizzazioni scalano verso centinaia di migliaia di GPU.

Il MRC protocol funziona distribuendo il traffico attraverso vari percorsi disponibili all'interno di un fabric di rete, analogamente a come una griglia cittadina previene gli ingorghi offrendo più strade per una singola destinazione. Questo approccio è particolarmente efficace per la generazione Blackwell di cluster GPU, dove l'enorme volume di dati può facilmente sovraccaricare le connessioni a percorso singolo. Il protocollo include funzionalità di bypass dei guasti a livello hardware in grado di identificare e reindirizzare il traffico attorno alle interruzioni di rete in pochi microsecondi, garantendo che i costosi cicli di addestramento AI non vengano interrotti da lievi glitch hardware.

Impatto Strategico sull'Infrastruttura AI

La decisione di rendere open-source il MRC protocol segnala un cambiamento nel modo in cui l'industria gestisce il livello fisico dello sviluppo dell'AI. Mentre in precedenza il networking rappresentava un vantaggio proprietario per specifici fornitori di hardware, il passaggio verso standard aperti suggerisce che l'interoperabilità stia diventando un requisito per la prossima fase di scalabilità dell'AI. I principali attori del settore, tra cui OpenAI, Microsoft e Oracle, hanno già iniziato a implementare questa tecnologia all'interno delle loro AI factory per mantenere un throughput elevato e la disponibilità del sistema.

Per i decisori tecnici, l'adozione del MRC protocol offre un percorso verso architetture di data center più resilienti. Eliminando i rallentamenti legati alla rete che spesso affliggono i cluster con più di 100.000 GPU, le organizzazioni possono massimizzare l'utilizzo delle proprie risorse di calcolo. L'integrazione con l'hardware Ethernet Spectrum-X fornisce una base collaudata per questo protocollo, sebbene il suo stato di specifica OCP significhi che altri produttori di hardware possono ora allineare i propri prodotti a questo standard.

Questo rilascio arriva mentre la domanda di networking gigascale continua a crescere insieme alle dimensioni dei modelli di fondazione. A partire da maggio 2026, l'industria si sta allontanando dai silos proprietari isolati verso un modello di infrastruttura più collaborativo. Il MRC protocol fornisce il framework necessario per questa transizione, garantendo che il livello di networking possa tenere il passo con i rapidi progressi della potenza di elaborazione dell'AI.

Sebbene ci sforziamo per l'accuratezza, bytevyte può commettere errori. Si consiglia agli utenti di verificare tutte le informazioni in modo indipendente. Non accettiamo alcuna responsabilità per errori o omissioni.

✔Human Verified

Share