NVIDIA presenta Nemotron-Labs Diffusion per la generazione d

NVIDIA ha introdotto Nemotron-Labs Diffusion, una nuova famiglia di modelli linguistici che si allontana dalla tradizionale generazione sequenziale di testo per abbracciare l'elaborazione parallela. Questa release, annunciata il 23 maggio 2026, include modelli di testo e vision-language nelle dimensioni da 3B, 8B e 14B parametri. Utilizzando i diffusion language models (DLM), questi sistemi generano più token simultaneamente e li perfezionano attraverso passaggi iterativi, risolvendo i colli di bottiglia dell'efficienza intrinseci alla decodifica autoregressiva standard.

La variante da 8B parametri dimostra i guadagni prestazionali di questa architettura, raggiungendo gli 865 token al secondo sull'hardware Blackwell B200. Nella sua modalità di self-speculation, il modello 8B ottiene un aumento di 6,4 volte nell'efficienza di decodifica dei token rispetto ai metodi standard. NVIDIA riferisce inoltre che questo modello mantiene un'alta qualità, mostrando un vantaggio di accuratezza dell'1,2% rispetto al modello Qwen3 8B. Il processo di addestramento ha coinvolto 1,3 trilioni di token di pre-training e 45 miliardi di token di post-training per garantire capacità di ragionamento competitive.

Generazione parallela e guadagni di efficienza

L'architettura Nemotron-Labs Diffusion offre tre distinte modalità operative per bilanciare velocità e precisione. La modalità autoregressiva standard funziona come i tradizionali LLM, mentre la modalità block-by-block diffusion abilita la generazione parallela. La terza opzione, la self-speculation, consente al modello di prevedere e perfezionare blocchi di testo più ampi in una sola volta. Questa flessibilità è progettata per sfruttare meglio la potenza computazionale delle moderne GPU, che spesso rimangono sottoutilizzate durante il processo "un token alla volta" dei modelli più vecchi.

Per gli sviluppatori enterprise, questi modelli sono ottimizzati per le implementazioni TensorRT e NVIDIA NIM. Il modello 14B è posizionato per compiti di ragionamento più complessi, mentre le versioni più piccole da 3B e 8B si rivolgono ad applicazioni ad alto throughput dove la latenza è una preoccupazione primaria. NVIDIA ha rilasciato questi modelli sotto la NVIDIA Nemotron Open Model License, rendendo i pesi disponibili su Hugging Face per una più ampia integrazione nel settore.

Questo passaggio verso la generazione di testo basata sulla diffusione è una mossa per massimizzare l'efficienza dell'hardware mentre le dimensioni dei modelli continuano a scalare. Consentendo la revisione dei token generati durante il processo di inferenza, Nemotron-Labs Diffusion offre un percorso verso output di IA più veloci e affidabili. Il rilascio segue la tendenza di ottimizzare i modelli open-weights per specifici strumenti di accelerazione hardware al fine di ridurre il costo totale di proprietà per l'infrastruttura IA.

Sebbene ci impegniamo per l'accuratezza, bytevyte può commettere errori. Si consiglia agli utenti di verificare tutte le informazioni in modo indipendente. Non accettiamo alcuna responsabilità per errori o omissioni.

Sources

Towards Speed-of-Light Text Generation with Nemotron-Labs Diffusion Language Models

NVIDIA on Hugging Face

✔Human Verified

Generazione parallela e guadagni di efficienza

Sources

Related Articles