NVIDIA enthüllt Nemotron-Labs Diffusion für parallele Textge

NVIDIA hat Nemotron-Labs Diffusion vorgestellt, eine neue Familie von Sprachmodellen, die von der traditionellen sequenziellen Textgenerierung abweicht und auf Parallelverarbeitung setzt. Diese am 23. Mai 2026 angekündigte Veröffentlichung umfasst Text- und Vision-Language-Modelle in den Parametergrößen 3B, 8B und 14B. Durch den Einsatz von Diffusion Language Models (DLM) generieren diese Systeme mehrere Token gleichzeitig und verfeinern sie in iterativen Schritten, wodurch die Effizienzengpässe der standardmäßigen autoregressiven Dekodierung behoben werden.

Die 8B-Parametervariante demonstriert die Leistungsgewinne dieser Architektur und erreicht 865 Token pro Sekunde auf Blackwell B200-Hardware. Im Self-Speculation-Modus erzielt das 8B-Modell eine 6,4-fache Steigerung der Token-Dekodierungseffizienz im Vergleich zu Standardmethoden. NVIDIA berichtet zudem, dass dieses Modell eine hohe Qualität beibehält und einen Genauigkeitsvorsprung von 1,2 % gegenüber dem Qwen3 8B-Modell aufweist. Der Trainingsprozess umfasste 1,3 Billionen Pre-Training-Token und 45 Milliarden Post-Training-Token, um wettbewerbsfähige Reasoning-Fähigkeiten zu gewährleisten.

Parallele Generierung und Effizienzgewinne

Die Nemotron-Labs Diffusion-Architektur bietet drei verschiedene Betriebsmodi, um Geschwindigkeit und Genauigkeit auszubalancieren. Der standardmäßige autoregressive Modus funktioniert wie traditionelle LLMs, während der Block-by-Block-Diffusion-Modus die parallele Generierung ermöglicht. Die dritte Option, Self-Speculation, erlaubt es dem Modell, größere Textabschnitte auf einmal vorherzusagen und zu verfeinern. Diese Flexibilität ist darauf ausgelegt, die Rechenleistung moderner GPUs besser auszunutzen, die beim Token-für-Token-Prozess älterer Modelle oft unterauslastet bleiben.

Für Unternehmensentwickler sind diese Modelle für TensorRT- und NVIDIA NIM-Deployments optimiert. Das 14B-Modell ist für komplexere Reasoning-Aufgaben positioniert, während die kleineren 3B- und 8B-Versionen auf High-Throughput-Anwendungen abzielen, bei denen Latenz ein entscheidender Faktor ist. NVIDIA hat diese Modelle unter der NVIDIA Nemotron Open Model License veröffentlicht und stellt die Weights auf Hugging Face für eine breitere Branchenintegration zur Verfügung.

Dieser Wechsel hin zur diffusionsbasierten Textgenerierung ist ein Schritt zur Maximierung der Hardware-Effizienz bei weiter skalierenden Modellgrößen. Durch die Möglichkeit, generierte Token während des Inferenzprozesses zu revidieren, bietet Nemotron-Labs Diffusion einen Weg zu schnelleren und zuverlässigeren KI-Ergebnissen. Die Veröffentlichung folgt dem Trend, Open-Weights-Modelle für spezifische Hardware-Beschleunigungstools zu optimieren, um die Gesamtbetriebskosten für KI-Infrastrukturen zu senken.

Obwohl wir um Genauigkeit bemüht sind, kann bytevyte Fehler machen. Benutzern wird empfohlen, alle Informationen unabhängig zu überprüfen. Wir übernehmen keine Haftung für Fehler oder Auslassungen.

Sources

Towards Speed-of-Light Text Generation with Nemotron-Labs Diffusion Language Models

NVIDIA on Hugging Face

✔Human Verified

Parallele Generierung und Effizienzgewinne

Sources

Related Articles