Google acelera la inferencia de IA con los drafters de Gemma

Google ha introducido drafters de Multi-Token Prediction (MTP) para su familia de modelos Gemma 4, un avance que aumenta significativamente las velocidades de inferencia para la inteligencia artificial de pesos abiertos. Anunciados esta semana, estos drafters especializados utilizan una arquitectura de decodificación especulativa para proporcionar una aceleración de hasta 3 veces en la generación de tokens. Esta ganancia de eficiencia se produce sin ninguna pérdida en la calidad de los resultados ni en la lógica de razonamiento, abordando uno de los principales cuellos de botella en el despliegue de modelos de lenguaje de gran tamaño (LLM).

La inferencia estándar de los LLM suele estar limitada por el ancho de banda de la memoria más que por la potencia de cálculo bruta. El sistema Gemma 4 multi-token prediction supera esto desacoplando la generación de tokens de su verificación. En esta configuración, un modelo drafter ligero sugiere múltiples tokens potenciales en un solo paso. El modelo objetivo, más grande, verifica entonces estas sugerencias en paralelo. Si las sugerencias son precisas, el sistema procesa múltiples tokens al coste de una sola pasada hacia adelante, reduciendo drásticamente el tiempo requerido para tareas complejas.

Especificaciones técnicas y soporte de modelos

Los nuevos drafters están disponibles para toda la gama Gemma 4, cubriendo tamaños de modelo desde 2B hasta 31B parámetros. Google ha diseñado estos drafters para que sean excepcionalmente pequeños y garantizar que no compitan por los recursos con el modelo principal. Por ejemplo, el drafter para el modelo E2B contiene aproximadamente 77 millones de parámetros. Este diseño ligero permite que los drafters de Gemma 4 multi-token prediction se ejecuten de forma eficiente junto a la arquitectura principal en hardware estándar.

E2B (2 mil millones de parámetros)
E4B (4 mil millones de parámetros)
26B (26 mil millones de parámetros)
31B (31 mil millones de parámetros)

Al proporcionar estas herramientas para toda la familia Gemma 4, Google permite a los desarrolladores desplegar aplicaciones de IA más ágiles. El aumento de rendimiento de 3x es particularmente relevante para aplicaciones en tiempo real, como chats interactivos o asistentes de codificación automatizados, donde la latencia es un factor crítico para la experiencia del usuario. Los drafters de Gemma 4 multi-token prediction garantizan que incluso los modelos más grandes de la familia puedan operar a velocidades anteriormente reservadas para versiones mucho más pequeñas y menos capaces.

Implicaciones estratégicas para el desarrollo de la IA

El lanzamiento de estos drafters destaca un cambio en la estrategia de IA hacia la optimización y la eficiencia. A medida que los modelos crecen en complejidad, el coste y la velocidad de la inferencia se convierten en obstáculos importantes para la adopción empresarial. Al integrar la decodificación especulativa directamente en el ecosistema Gemma 4, Google está reduciendo la barrera para que las organizaciones utilicen modelos abiertos de alto rendimiento en entornos de producción. Este movimiento refuerza la posición competitiva de la familia Gemma frente a otras alternativas de pesos abiertos que pueden carecer de tales herramientas de aceleración integradas.

Para los responsables de la toma de decisiones técnicas, la capacidad de Gemma 4 multi-token prediction ofrece una vía para reducir los costes operativos. Una inferencia más rápida se traduce en una menor utilización de hardware por solicitud, lo que permite un mayor rendimiento en la infraestructura existente. A partir del 2026-05-06, estos drafters son accesibles para los desarrolladores que buscan optimizar sus implementaciones de Gemma 4. El enfoque se traslada ahora a cómo las plataformas de terceros y las variantes ajustadas incorporarán estos drafters para mantener el rendimiento en casos de uso especializados.

Aunque nos esforzamos por la exactitud, bytevyte puede cometer errores. Se aconseja a los usuarios verificar toda la información de forma independiente. No aceptamos ninguna responsabilidad por errores u omisiones.

Sources

Accelerating Gemma 4: faster inference with multi-token prediction drafters

✔Human Verified

Especificaciones técnicas y soporte de modelos

Implicaciones estratégicas para el desarrollo de la IA

Sources

Related Articles