NVIDIA revela Nemotron-Labs Diffusion para geração paralela

A NVIDIA apresentou o Nemotron-Labs Diffusion, uma nova família de modelos de linguagem que se afasta da tradicional geração sequencial de texto para adotar o processamento paralelo. Este lançamento, anunciado em 23 de maio de 2026, inclui modelos de texto e visão-linguagem em tamanhos de 3B, 8B e 14B parâmetros. Ao utilizar modelos de linguagem de difusão (DLM), esses sistemas geram múltiplos tokens simultaneamente e os refinam por meio de etapas iterativas, resolvendo os gargalos de eficiência inerentes à decodificação autorregressiva padrão.

A variante de 8B parâmetros demonstra os ganhos de desempenho desta arquitetura, alcançando 865 tokens por segundo no hardware Blackwell B200. Em seu modo de autoespeculação, o modelo 8B atinge um aumento de 6,4x na eficiência de decodificação de tokens em comparação com os métodos padrão. A NVIDIA também relata que este modelo mantém alta qualidade, apresentando uma liderança de 1,2% em precisão sobre o modelo Qwen3 8B. O processo de treinamento envolveu 1,3 trilhão de tokens de pré-treinamento e 45 bilhões de tokens de pós-treinamento para garantir capacidades de raciocínio competitivas.

Geração Paralela e Ganhos de Eficiência

A arquitetura Nemotron-Labs Diffusion oferece três modos operacionais distintos para equilibrar velocidade e precisão. O modo autorregressivo padrão funciona como os LLMs tradicionais, enquanto o modo de difusão bloco a bloco permite a geração paralela. A terceira opção, autoespeculação, permite que o modelo preveja e refine grandes blocos de texto de uma só vez. Essa flexibilidade foi projetada para melhor utilizar o poder computacional das GPUs modernas, que frequentemente permanecem subutilizadas durante o processo de um token por vez dos modelos mais antigos.

Para desenvolvedores corporativos, esses modelos são otimizados para implantações em TensorRT e NVIDIA NIM. O modelo 14B é posicionado para tarefas de raciocínio mais complexas, enquanto as versões menores de 3B e 8B visam aplicações de alto rendimento onde a latência é uma preocupação primordial. A NVIDIA lançou esses modelos sob a NVIDIA Nemotron Open Model License, disponibilizando os pesos no Hugging Face para uma integração mais ampla pela indústria.

Essa mudança em direção à geração de texto baseada em difusão é um movimento para maximizar a eficiência do hardware à medida que o tamanho dos modelos continua a escalar. Ao permitir a revisão dos tokens gerados durante o processo de inferência, o Nemotron-Labs Diffusion oferece um caminho para resultados de IA mais rápidos e confiáveis. O lançamento segue uma tendência de otimização de modelos de pesos abertos para ferramentas específicas de aceleração de hardware, visando reduzir o custo total de propriedade para a infraestrutura de IA.

Embora nos esforcemos pela precisão, o bytevyte pode cometer erros. Os usuários são aconselhados a verificar todas as informações de forma independente. Não aceitamos qualquer responsabilidade por erros ou omissões.

Sources

Towards Speed-of-Light Text Generation with Nemotron-Labs Diffusion Language Models

NVIDIA on Hugging Face

✔Human Verified

Geração Paralela e Ganhos de Eficiência

Sources

Related Articles