NVIDIA revela Nemotron-Labs Diffusion para geração paralela de texto em alta velocidade
A NVIDIA apresentou o Nemotron-Labs Diffusion, uma nova família de modelos de linguagem que se afasta da tradicional geração sequencial de texto para adotar o processamento paralelo. Este lançamento, anunciado em 23 de maio de 2026, inclui modelos de texto e visão-linguagem em tamanhos de 3B, 8B e 14B parâmetros. Ao utilizar modelos de linguagem de difusão (DLM), esses sistemas geram múltiplos tokens simultaneamente e os refinam por meio de etapas iterativas, resolvendo os gargalos de eficiência inerentes à decodificação autorregressiva padrão.
A variante de 8B parâmetros demonstra os ganhos de desempenho desta arquitetura, alcançando 865 tokens por segundo no hardware Blackwell B200. Em seu modo de autoespeculação, o modelo 8B atinge um aumento de 6,4x na eficiência de decodificação de tokens em comparação com os métodos padrão. A NVIDIA também relata que este modelo mantém alta qualidade, apresentando uma liderança de 1,2% em precisão sobre o modelo Qwen3 8B. O processo de treinamento envolveu 1,3 trilhão de tokens de pré-treinamento e 45 bilhões de tokens de pós-treinamento para garantir capacidades de raciocínio competitivas.
Geração Paralela e Ganhos de Eficiência
A arquitetura Nemotron-Labs Diffusion oferece três modos operacionais distintos para equilibrar velocidade e precisão. O modo autorregressivo padrão funciona como os LLMs tradicionais, enquanto o modo de difusão bloco a bloco permite a geração paralela. A terceira opção, autoespeculação, permite que o modelo preveja e refine grandes blocos de texto de uma só vez. Essa flexibilidade foi projetada para melhor utilizar o poder computacional das GPUs modernas, que frequentemente permanecem subutilizadas durante o processo de um token por vez dos modelos mais antigos.
Para desenvolvedores corporativos, esses modelos são otimizados para implantações em TensorRT e NVIDIA NIM. O modelo 14B é posicionado para tarefas de raciocínio mais complexas, enquanto as versões menores de 3B e 8B visam aplicações de alto rendimento onde a latência é uma preocupação primordial. A NVIDIA lançou esses modelos sob a NVIDIA Nemotron Open Model License, disponibilizando os pesos no Hugging Face para uma integração mais ampla pela indústria.
Essa mudança em direção à geração de texto baseada em difusão é um movimento para maximizar a eficiência do hardware à medida que o tamanho dos modelos continua a escalar. Ao permitir a revisão dos tokens gerados durante o processo de inferência, o Nemotron-Labs Diffusion oferece um caminho para resultados de IA mais rápidos e confiáveis. O lançamento segue uma tendência de otimização de modelos de pesos abertos para ferramentas específicas de aceleração de hardware, visando reduzir o custo total de propriedade para a infraestrutura de IA.
Embora nos esforcemos pela precisão, o bytevyte pode cometer erros. Os usuários são aconselhados a verificar todas as informações de forma independente. Não aceitamos qualquer responsabilidade por erros ou omissões.
Sources
Towards Speed-of-Light Text Generation with Nemotron-Labs Diffusion Language Models
Related Articles
- NVIDIA revela Nemotron 3 Nano Omni para otimizar fluxos de trabalho de IA multimodal
- Amazon Bedrock integra OpenAI GPT OSS e NVIDIA Nemotron para diversificar opções de IA empresarial
- AWS Lança Instâncias Amazon EC2 P6-B200 com NVIDIA Blackwell para Treinamento de IA
✔Human Verified