Google accélère l'inférence IA avec les drafters Gemma 4 Multi-Token Prediction
Google a introduit des drafters Multi-Token Prediction (MTP) pour sa famille de modèles Gemma 4, un développement qui augmente considérablement les vitesses d'inférence pour l'intelligence artificielle en open-weights. Annoncés cette semaine, ces drafters spécialisés utilisent une architecture de décodage spéculatif pour offrir une accélération allant jusqu'à 3x dans la génération de tokens. Ce gain d'efficacité se produit sans aucune perte de qualité de sortie ou de logique de raisonnement, s'attaquant à l'un des principaux goulots d'étranglement dans le déploiement des grands modèles de langage (LLM).
L'inférence standard des LLM est généralement limitée par la bande passante mémoire plutôt que par la puissance de calcul brute. Le système Gemma 4 multi-token prediction surmonte ce problème en découplant la génération des tokens de leur vérification. Dans cette configuration, un modèle drafter léger suggère plusieurs tokens potentiels en une seule étape. Le modèle cible plus large vérifie ensuite ces suggestions en parallèle. Si les suggestions sont exactes, le système traite plusieurs tokens pour le coût d'une seule passe avant, réduisant considérablement le temps requis pour les tâches complexes.
Spécifications techniques et support des modèles
Les nouveaux drafters sont disponibles pour l'ensemble de la gamme Gemma 4, couvrant des tailles de modèles allant de 2B à 31B paramètres. Google a conçu ces drafters pour être exceptionnellement petits afin de s'assurer qu'ils ne concurrencent pas le modèle principal pour les ressources. Par exemple, le drafter pour le modèle E2B contient environ 77 millions de paramètres. Cette conception légère permet aux drafters Gemma 4 multi-token prediction de fonctionner efficacement aux côtés de l'architecture principale sur du matériel standard.
- E2B (2 milliards de paramètres)
- E4B (4 milliards de paramètres)
- 26B (26 milliards de paramètres)
- 31B (31 milliards de paramètres)
En fournissant ces outils pour toute la famille Gemma 4, Google permet aux développeurs de déployer des applications d'IA plus réactives. L'augmentation de performance de 3x est particulièrement pertinente pour les applications en temps réel telles que le chat interactif ou les assistants de codage automatisés, où la latence est un facteur critique pour l'expérience utilisateur. Les drafters Gemma 4 multi-token prediction garantissent que même les plus grands modèles de la famille peuvent fonctionner à des vitesses auparavant réservées à des versions beaucoup plus petites et moins performantes.
Implications stratégiques pour le développement de l'IA
La sortie de ces drafters souligne un changement de stratégie en IA vers l'optimisation et l'efficacité. À mesure que les modèles gagnent en complexité, le coût et la vitesse d'inférence deviennent des obstacles majeurs pour l'adoption en entreprise. En intégrant le décodage spéculatif directement dans l'écosystème Gemma 4, Google abaisse la barrière pour les organisations souhaitant utiliser des modèles ouverts de haute performance dans des environnements de production. Cette initiative renforce la position concurrentielle de la famille Gemma face à d'autres alternatives open-weights qui pourraient manquer de tels outils d'accélération intégrés.
Pour les décideurs techniques, la capacité Gemma 4 multi-token prediction offre une voie pour réduire les coûts opérationnels. Une inférence plus rapide se traduit par une utilisation moindre du matériel par requête, permettant un débit plus élevé sur l'infrastructure existante. Depuis le 2026-05-06, ces drafters sont accessibles aux développeurs cherchant à optimiser leurs implémentations Gemma 4. L'attention se porte désormais sur la manière dont les plateformes tierces et les variantes affinées intégreront ces drafters pour maintenir les performances à travers des cas d'utilisation spécialisés.
Bien que nous nous efforcions d'être précis, bytevyte peut commettre des erreurs. Il est conseillé aux utilisateurs de vérifier toutes les informations de manière indépendante. Nous déclinons toute responsabilité pour les erreurs ou omissions.
Sources
Accelerating Gemma 4: faster inference with multi-token prediction drafters
Related Articles
- Google étend Gemini API File Search avec un support multimodal et des citations
- Google lance Deep Research Max pour l'IA autonome
- Google lance Gemini 3.1 Flash TTS pour l'audio par IA
✔Human Verified