Databricks lance les Sketch Functions pour simplifier l'estimation de données à grande échelle
Databricks a introduit une nouvelle suite de sketch functions conçue pour fournir des réponses rapides et approximatives pour des ensembles de données de plusieurs pétaoctets. Ces structures de données probabilistes permettent aux équipes de données de contourner la latence élevée généralement associée aux calculs exacts sur des stocks d'informations massifs. En intégrant ces outils directement dans Databricks SQL et Spark, l'entreprise vise à faciliter une analyse exploratoire plus rapide lorsqu'une estimation quasi parfaite est suffisante pour la prise de décision opérationnelle.
L'implémentation des sketch functions répond à un goulot d'étranglement courant dans les environnements big data : le temps nécessaire pour scanner chaque ligne d'un jeu de données pour obtenir des métriques précises. Databricks a déclaré cette semaine que ces fonctions peuvent réduire la latence des requêtes jusqu'à 90 %. Ce gain de performance est réalisé en utilisant des algorithmes mathématiques tels que HyperLogLog pour les décomptes distincts, les count-min sketches pour l'estimation de fréquence, et les t-digests pour les quantiles. Ces méthodes fournissent des résultats de haute fidélité qui maintiennent généralement un taux de précision de 99 % tout en consommant nettement moins de ressources informatiques.
Impact stratégique des Sketch Functions sur l'analyse d'entreprise
Pour les leaders techniques et les stratèges, l'arrivée de ces outils représente une transition vers des architectures de données plus efficaces. Alors que les géants du web utilisent depuis longtemps des structures probabilistes personnalisées, Databricks rend désormais ces capacités accessibles à un plus large éventail d'entreprises. L'intégration avec Unity Catalog garantit que ces résultats approximatifs restent gouvernés et sécurisés, permettant aux organisations de gérer comment et où les estimations sont utilisées à travers leurs unités commerciales.
Le cas d'utilisation principal de cette technologie se trouve dans les tableaux de bord et l'exploration initiale des données. Au lieu d'attendre plusieurs minutes qu'une requête renvoie un décompte exact d'utilisateurs uniques sur une décennie de journaux, une requête via sketch functions peut fournir un chiffre presque identique en quelques secondes. Cette rapidité permet aux analystes d'itérer plus vite et d'identifier des tendances sans la lourdeur d'un traitement exhaustif. Depuis avril 2026, ces fonctions sont disponibles pour aider les équipes à équilibrer le compromis entre la précision absolue et la rapidité de l'analyse.
Bien que nous nous efforcions d'être précis, bytevyte peut commettre des erreurs. Il est conseillé aux utilisateurs de vérifier toutes les informations de manière indépendante. Nous déclinons toute responsabilité pour les erreurs ou omissions.
Related Articles
- Databricks : Le memory scaling for AI agents est un axe de conception clé
- Databricks lance le Genie Agent Mode pour l'analyse de données
- Mercedes-Benz : les coûts de cloud egress réduits de 66 % grâce au Data Mesh
✔Human Verified