Google beschleunigt AI-Inference mit Gemma 4 Multi-Token Prediction Drafters
Google hat Multi-Token Prediction (MTP) Drafters für seine Gemma 4-Modellfamilie eingeführt – eine Entwicklung, die die Inference-Geschwindigkeiten für Open-Weights-KI signifikant erhöht. Diese spezialisierten Drafter, die diese Woche angekündigt wurden, nutzen eine Speculative Decoding-Architektur, um eine bis zu 3-fache Beschleunigung bei der Token-Generierung zu ermöglichen. Dieser Effizienzgewinn erfolgt ohne Einbußen bei der Ausgabequalität oder der Argumentationslogik und adressiert damit einen der primären Engpässe beim Deployment von Large Language Models (LLMs).
Die Standard-LLM-Inference ist in der Regel eher durch die Speicherbandbreite als durch die reine Rechenleistung begrenzt. Das Gemma 4 multi-token prediction-System überwindet dies, indem es die Generierung von Token von deren Verifizierung entkoppelt. In diesem Setup schlägt ein leichtgewichtiges Drafter-Modell mehrere potenzielle Token in einem einzigen Schritt vor. Das größere Zielmodell verifiziert diese Vorschläge anschließend parallel. Wenn die Vorschläge korrekt sind, verarbeitet das System mehrere Token zum Preis eines einzigen Forward-Passes, was die für komplexe Aufgaben benötigte Zeit drastisch reduziert.
Technische Spezifikationen und Modellunterstützung
Die neuen Drafter sind für die gesamte Gemma 4-Reihe verfügbar und decken Modellgrößen von 2B bis 31B Parametern ab. Google hat diese Drafter so konzipiert, dass sie außergewöhnlich klein sind, um sicherzustellen, dass sie nicht mit dem Primärmodell um Ressourcen konkurrieren. Beispielsweise enthält der Drafter für das E2B-Modell etwa 77 Millionen Parameter. Dieses leichtgewichtige Design ermöglicht es den Gemma 4 multi-token prediction-Draftern, effizient neben der Hauptarchitektur auf Standard-Hardware zu laufen.
- E2B (2 Milliarden Parameter)
- E4B (4 Milliarden Parameter)
- 26B (26 Milliarden Parameter)
- 31B (31 Milliarden Parameter)
Durch die Bereitstellung dieser Tools für die gesamte Gemma 4-Familie ermöglicht Google Entwicklern den Einsatz reaktionsschnellerer KI-Anwendungen. Die 3-fache Leistungssteigerung ist besonders relevant für Echtzeitanwendungen wie interaktive Chats oder automatisierte Coding-Assistenten, bei denen die Latenz ein kritischer Faktor für die User Experience ist. Die Gemma 4 multi-token prediction-Drafter stellen sicher, dass selbst die größten Modelle der Familie mit Geschwindigkeiten arbeiten können, die zuvor viel kleineren, weniger leistungsfähigen Versionen vorbehalten waren.
Strategische Implikationen für die KI-Entwicklung
Die Veröffentlichung dieser Drafter unterstreicht einen Strategiewechsel in der KI hin zu Optimierung und Effizienz. Da Modelle an Komplexität gewinnen, werden die Kosten und die Geschwindigkeit der Inference zu großen Hürden für die Einführung in Unternehmen. Durch die direkte Integration von Speculative Decoding in das Gemma 4-Ökosystem senkt Google die Barriere für Organisationen, leistungsstarke Open-Models in Produktionsumgebungen einzusetzen. Dieser Schritt stärkt die Wettbewerbsposition der Gemma-Familie gegenüber anderen Open-Weights-Alternativen, denen solche integrierten Beschleunigungstools fehlen könnten.
Für technische Entscheidungsträger bietet die Gemma 4 multi-token prediction-Funktion einen Weg zur Senkung der Betriebskosten. Eine schnellere Inference führt zu einer geringeren Hardware-Auslastung pro Anfrage, was einen höheren Durchsatz auf bestehender Infrastruktur ermöglicht. Seit dem 06.05.2026 sind diese Drafter für Entwickler zugänglich, die ihre Gemma 4-Implementierungen optimieren möchten. Der Fokus verlagert sich nun darauf, wie Drittanbieter-Plattformen und feinabgestimmte Varianten diese Drafter integrieren werden, um die Performance in spezialisierten Anwendungsfällen aufrechtzuerhalten.
Obwohl wir um Genauigkeit bemüht sind, kann bytevyte Fehler machen. Nutzern wird empfohlen, alle Informationen unabhängig zu überprüfen. Wir übernehmen keine Haftung für Fehler oder Auslassungen.
Sources
Accelerating Gemma 4: faster inference with multi-token prediction drafters
Related Articles
- Google veröffentlicht Gemini 3.1 Flash TTS für AI Audio
- DeepSeek V4 Launch führt Billionen-Parameter Pro- und High-Speed Flash-Modelle ein
- Google veröffentlicht Deep Research Max für autonome KI
✔Human Verified