NVIDIA presenta Nemotron-Labs Diffusion para la generación d

NVIDIA ha presentado Nemotron-Labs Diffusion, una nueva familia de modelos de lenguaje que se aleja de la generación de texto secuencial tradicional para adoptar el procesamiento en paralelo. Este lanzamiento, anunciado el 23 de mayo de 2026, incluye modelos de texto y de visión-lenguaje en tamaños de 3B, 8B y 14B parámetros. Al utilizar modelos de lenguaje de difusión (DLM), estos sistemas generan múltiples tokens simultáneamente y los perfeccionan mediante pasos iterativos, abordando los cuellos de botella de eficiencia inherentes a la decodificación autorregresiva estándar.

La variante de 8B parámetros demuestra las mejoras de rendimiento de esta arquitectura, alcanzando los 865 tokens por segundo en el hardware Blackwell B200. En su modo de auto-especulación, el modelo 8B logra un aumento de 6.4 veces en la eficiencia de decodificación de tokens en comparación con los métodos estándar. NVIDIA también informa que este modelo mantiene una alta calidad, mostrando una ventaja de precisión del 1.2% sobre el modelo Qwen3 8B. El proceso de entrenamiento involucró 1.3 billones de tokens de pre-entrenamiento y 45 mil millones de tokens de post-entrenamiento para garantizar capacidades de razonamiento competitivas.

Generación en paralelo y mejoras de eficiencia

La arquitectura Nemotron-Labs Diffusion proporciona tres modos operativos distintos para equilibrar la velocidad y la precisión. El modo autorregresivo estándar funciona como los LLM tradicionales, mientras que el modo de difusión bloque por bloque permite la generación en paralelo. La tercera opción, la auto-especulación, permite al modelo predecir y refinar fragmentos de texto más grandes a la vez. Esta flexibilidad está diseñada para aprovechar mejor la potencia de cálculo de las GPU modernas, que a menudo permanecen infrautilizadas durante el proceso de un token a la vez de los modelos más antiguos.

Para los desarrolladores empresariales, estos modelos están optimizados para implementaciones en TensorRT y NVIDIA NIM. El modelo 14B está posicionado para tareas de razonamiento más complejas, mientras que las versiones más pequeñas de 3B y 8B se dirigen a aplicaciones de alto rendimiento donde la latencia es una preocupación principal. NVIDIA ha lanzado estos modelos bajo la NVIDIA Nemotron Open Model License, poniendo los pesos a disposición en Hugging Face para una integración más amplia en la industria.

Este cambio hacia la generación de texto basada en difusión es un movimiento para maximizar la eficiencia del hardware a medida que los tamaños de los modelos continúan escalando. Al permitir la revisión de los tokens generados durante el proceso de inferencia, Nemotron-Labs Diffusion ofrece un camino hacia resultados de IA más rápidos y fiables. El lanzamiento sigue una tendencia de optimización de modelos de pesos abiertos para herramientas específicas de aceleración de hardware con el fin de reducir el coste total de propiedad de la infraestructura de IA.

Aunque nos esforzamos por la exactitud, bytevyte puede cometer errores. Se aconseja a los usuarios verificar toda la información de forma independiente. No aceptamos ninguna responsabilidad por errores u omisiones.

Sources

Towards Speed-of-Light Text Generation with Nemotron-Labs Diffusion Language Models

NVIDIA on Hugging Face

✔Human Verified

Generación en paralelo y mejoras de eficiencia

Sources

Related Articles