NVIDIA dévoile Nemotron-Labs Diffusion pour une génération d

NVIDIA a introduit Nemotron-Labs Diffusion, une nouvelle famille de modèles de langage qui s'écarte de la génération de texte séquentielle traditionnelle pour adopter le traitement parallèle. Cette version, annoncée le 23 mai 2026, comprend des modèles de texte et de vision-langage en tailles de paramètres 3B, 8B et 14B. En utilisant des modèles de langage par diffusion (DLM), ces systèmes génèrent plusieurs jetons simultanément et les affinent par étapes itératives, s'attaquant ainsi aux goulots d'étranglement d'efficacité inhérents au décodage autorégressif standard.

La variante à 8B paramètres démontre les gains de performance de cette architecture, atteignant 865 jetons par seconde sur le matériel Blackwell B200. Dans son mode d'auto-spéculation, le modèle 8B atteint une augmentation de 6,4x de l'efficacité du décodage de jetons par rapport aux méthodes standard. NVIDIA rapporte également que ce modèle maintient une haute qualité, affichant une avance de 1,2 % en précision par rapport au modèle Qwen3 8B. Le processus d'entraînement a impliqué 1,3 billion de jetons de pré-entraînement et 45 milliards de jetons de post-entraînement pour garantir des capacités de raisonnement compétitives.

Génération parallèle et gains d'efficacité

L'architecture Nemotron-Labs Diffusion propose trois modes opérationnels distincts pour équilibrer vitesse et précision. Le mode autorégressif standard fonctionne comme les LLM traditionnels, tandis que le mode de diffusion bloc par bloc permet une génération parallèle. La troisième option, l'auto-spéculation, permet au modèle de prédire et d'affiner de plus gros morceaux de texte à la fois. Cette flexibilité est conçue pour mieux utiliser la puissance de calcul des GPU modernes, qui restent souvent sous-utilisés lors du processus de génération jeton par jeton des modèles plus anciens.

Pour les développeurs en entreprise, ces modèles sont optimisés pour les déploiements TensorRT et NVIDIA NIM. Le modèle 14B est positionné pour des tâches de raisonnement plus complexes, tandis que les versions plus petites 3B et 8B ciblent les applications à haut débit où la latence est une préoccupation majeure. NVIDIA a publié ces modèles sous la NVIDIA Nemotron Open Model License, rendant les poids disponibles sur Hugging Face pour une intégration plus large dans l'industrie.

Ce passage vers la génération de texte basée sur la diffusion est une initiative visant à maximiser l'efficacité matérielle alors que la taille des modèles continue de croître. En permettant la révision des jetons générés pendant le processus d'inférence, Nemotron-Labs Diffusion offre une voie vers des sorties d'IA plus rapides et plus fiables. Cette sortie suit une tendance d'optimisation des modèles à poids ouverts pour des outils d'accélération matérielle spécifiques afin de réduire le coût total de possession de l'infrastructure d'IA.

Bien que nous nous efforcions d'être précis, bytevyte peut commettre des erreurs. Il est conseillé aux utilisateurs de vérifier toutes les informations de manière indépendante. Nous déclinons toute responsabilité pour les erreurs ou omissions.

Sources

Towards Speed-of-Light Text Generation with Nemotron-Labs Diffusion Language Models

NVIDIA on Hugging Face

✔Human Verified

Génération parallèle et gains d'efficacité

Sources

Related Articles