Databricks lancia le Sketch Functions per snellire la stima dei dati su larga scala
Databricks ha introdotto una nuova suite di sketch functions progettata per fornire risposte rapide e approssimative per dataset nell'ordine dei multi-petabyte. Queste strutture dati probabilistiche consentono ai team di dati di aggirare l'elevata latenza tipicamente associata ai calcoli esatti su enormi archivi di informazioni. Integrando questi strumenti direttamente in Databricks SQL e Spark, l'azienda mira a facilitare un'analisi esplorativa più veloce laddove una stima quasi perfetta è sufficiente per il processo decisionale operativo.
L'implementazione delle sketch functions affronta un collo di bottiglia comune negli ambienti big data: il tempo necessario per scansionare ogni riga di un dataset per ottenere metriche precise. Databricks ha dichiarato questa settimana che queste funzioni possono ridurre la latenza delle query fino al 90%. Questo guadagno prestazionale viene ottenuto utilizzando algoritmi matematici come HyperLogLog per i conteggi distinti, count-min sketches per la stima della frequenza e t-digests per i quantili. Questi metodi forniscono risultati ad alta fedeltà che tipicamente mantengono un tasso di accuratezza del 99%, consumando al contempo significativamente meno risorse computazionali.
Impatto strategico delle Sketch Functions sull'Enterprise Analytics
Per i leader tecnici e gli strateghi, l'arrivo di questi strumenti rappresenta un passaggio verso architetture di dati più efficienti. Mentre i giganti del web-scale utilizzano da tempo strutture probabilistiche personalizzate, Databricks sta ora rendendo queste capacità accessibili a una gamma più ampia di imprese. L'integrazione con Unity Catalog garantisce che questi risultati approssimativi rimangano governati e sicuri, consentendo alle organizzazioni di gestire come e dove le stime vengono utilizzate nelle diverse business unit.
Il caso d'uso principale per questa tecnologia riguarda le dashboard e l'esplorazione iniziale dei dati. Invece di attendere minuti affinché una query restituisca un conteggio esatto di utenti unici attraverso un decennio di log, una query con sketch functions può fornire una cifra quasi identica in pochi secondi. Questa velocità consente agli analisti di iterare più rapidamente e identificare le tendenze senza il sovraccarico di un'elaborazione esaustiva. A partire da aprile 2026, queste funzioni sono disponibili per aiutare i team a bilanciare il compromesso tra precisione assoluta e velocità di analisi.
Sebbene ci impegniamo per l'accuratezza, bytevyte può commettere errori. Si consiglia agli utenti di verificare tutte le informazioni in modo indipendente. Non accettiamo alcuna responsabilità per errori o omissioni.
Related Articles
- Databricks: Memory Scaling for AI Agents è un asse di progettazione chiave
- Databricks lancia l'integrazione Excel no-code per democratizzare l'accesso ai dati del Lakehouse
- Databricks e OpenAI lanciano gli agenti AI GPT-5.5 Enterprise
✔Human Verified