Google accelera l'inferenza AI con i drafter Gemma 4 Multi-Token Prediction
Google ha introdotto i drafter Multi-Token Prediction (MTP) per la sua famiglia di modelli Gemma 4, uno sviluppo che aumenta significativamente la velocità di inferenza per l'intelligenza artificiale open-weights. Annunciati questa settimana, questi drafter specializzati utilizzano un'architettura di speculative decoding per fornire un'accelerazione fino a 3x nella generazione di token. Questo guadagno di efficienza avviene senza alcuna perdita nella qualità dell'output o nella logica di ragionamento, affrontando uno dei principali colli di bottiglia nel deployment dei large language model (LLM).
L'inferenza standard degli LLM è tipicamente limitata dalla larghezza di banda della memoria piuttosto che dalla potenza di calcolo pura. Il sistema Gemma 4 multi-token prediction supera questo limite separando la generazione dei token dalla loro verifica. In questa configurazione, un modello drafter leggero suggerisce più token potenziali in un unico passaggio. Il modello target più grande verifica quindi questi suggerimenti in parallelo. Se i suggerimenti sono accurati, il sistema elabora più token al costo di un singolo forward pass, riducendo drasticamente il tempo richiesto per compiti complessi.
Specifiche tecniche e supporto ai modelli
I nuovi drafter sono disponibili per l'intera gamma Gemma 4, coprendo dimensioni di modelli da 2B a 31B parametri. Google ha progettato questi drafter per essere eccezionalmente piccoli, garantendo che non competano per le risorse con il modello primario. Ad esempio, il drafter per il modello E2B contiene circa 77 milioni di parametri. Questo design leggero consente ai drafter Gemma 4 multi-token prediction di funzionare in modo efficiente accanto all'architettura principale su hardware standard.
- E2B (2 miliardi di parametri)
- E4B (4 miliardi di parametri)
- 26B (26 miliardi di parametri)
- 31B (31 miliardi di parametri)
Fornendo questi strumenti per l'intera famiglia Gemma 4, Google consente agli sviluppatori di distribuire applicazioni AI più reattive. L'aumento delle prestazioni di 3x è particolarmente rilevante per le applicazioni in tempo reale come le chat interattive o gli assistenti di codifica automatizzati, dove la latenza è un fattore critico per l'esperienza utente. I drafter Gemma 4 multi-token prediction assicurano che anche i modelli più grandi della famiglia possano operare a velocità precedentemente riservate a versioni molto più piccole e meno capaci.
Implicazioni strategiche per lo sviluppo dell'IA
Il rilascio di questi drafter evidenzia un cambiamento nella strategia dell'IA verso l'ottimizzazione e l'efficienza. Man mano che i modelli crescono in complessità, il costo e la velocità di inferenza diventano ostacoli principali per l'adozione aziendale. Integrando lo speculative decoding direttamente nell'ecosistema Gemma 4, Google sta abbassando la barriera per le organizzazioni che desiderano utilizzare modelli open ad alte prestazioni in ambienti di produzione. Questa mossa rafforza la posizione competitiva della famiglia Gemma rispetto ad altre alternative open-weights che potrebbero mancare di tali strumenti di accelerazione integrati.
Per i responsabili delle decisioni tecniche, la funzionalità Gemma 4 multi-token prediction offre un percorso per ridurre i costi operativi. Un'inferenza più rapida si traduce in un minore utilizzo dell'hardware per richiesta, consentendo un throughput più elevato sull'infrastruttura esistente. A partire dal 06-05-2026, questi drafter sono accessibili agli sviluppatori che desiderano ottimizzare le proprie implementazioni Gemma 4. L'attenzione si sposta ora su come le piattaforme di terze parti e le varianti ottimizzate incorporeranno questi drafter per mantenere le prestazioni in casi d'uso specializzati.
Sebbene ci sforziamo di garantire l'accuratezza, bytevyte può commettere errori. Si consiglia agli utenti di verificare tutte le informazioni in modo indipendente. Non accettiamo alcuna responsabilità per errori o omissioni.
Sources
Accelerating Gemma 4: faster inference with multi-token prediction drafters
Related Articles
- Google lancia Deep Research Max per l'IA autonoma
- Google espande Gemini API File Search con supporto multimodale e citazioni
- Il lancio di DeepSeek V4 introduce i modelli Pro da un trilione di parametri e Flash ad alta velocità
✔Human Verified