Dell Technologies, en collaboration avec Starburst, a récemment dévoilé la dernière brique à son offensive généralisée afin de proposer un catalogue dédié à l’IA et l’Analytique le plus complet et intégré possible. Il s’appuie sur Starburst pour proposer Dell Data Lakehouse, une plateforme de données intégrée, construite sur le matériel AI-optimisé de Dell et une suite logicielle complète, alimentée par Starburst Enterprise, le moteur de requêtes de Starburst.

Rebaptisé Dell Data Analytics Engine, ce moteur de requêtes permettrait, selon Dell,
« une accélération de 90 % dans l’obtention d’informations, tout en permettant une réduction substantielle des coûts de 53 %. La promesse d’une telle optimisation des processus analytiques réside dans la fusion d’une infrastructure matérielle optimisée par Dell et d’un logiciel sophistiqué, le tout alimenté par le moteur de requêtes innovant de Starburst ».

Le moteur de requêtes distribué Starburst Enterprise basé sur le projet open source Trino (anciennement PrestoSQL), est conçu pour permettre l’exécution rapide de requêtes SQL sur des volumes de données importants, répartis à travers différentes sources, allant des lacs de données (data lakes) aux entrepôts de données (data warehouses) et aux bases de données SQL ou NoSQL, sans nécessiter le déplacement des données. Il se distingue par l’élimination des silos de données, facilitant ainsi une exploration plus poussée grâce à des requêtes fédérées et sécurisées.  

Fédérer les données éparses sans les déplacer

L’intégration de Starburst permet la fédération des données, facilitant leur accès et traitement sans nécessiter de déplacement, ce qui est un avantage considérable pour les entreprises cherchant à optimiser leur analyse de données et le déploiement d’IA. Cette approche s’avère la plus conforme aux nécessités de l’inférence, car elle a pour effet non seulement d’accélérer le temps d’accès aux données, mais aussi d’encourage une centralisation plus intelligente et efficace au sein du lac de donnée.

Dans un secteur où les données constituent le nerf de la guerre, cette innovation vient compléter les annonces faites récemment par Dell, afin de proposer une pile complète pour l’IA/ML. Le fabricant s’aligne ainsi avec les tendances émergentes d’automatisation, d’analyse en temps réel et d’adoption de l’IA. Son architecture se distingue par son intégration matériel-logiciel et son approche centrée sur l’ouverture et la flexibilité, grâce à l’utilisation de formats de table ouverts comme Apache Iceberg. Cette orientation vers des solutions non propriétaires et modulables permet aux entreprises une plus grande liberté et adaptabilité dans la gestion de leurs données, un avantage distinctif par rapport aux offres plus restrictives du marché.  

Une architecture intégrée

Au niveau de l’infrastructure matérielle, les serveurs PowerEdge de Dell constituent la base sur laquelle repose l’ensemble du système. Ces serveurs sont optimisés pour les charges de travail liées à l’analytique et aux data lakes, offrant des performances améliorées et une gestion efficace des ressources. La couche de stockage repose sur des solutions de stockage objet pour entreposer des données non structurées et semi-structurées, que ce soit sur site ou dans le cloud. L’utilisation de formats de table ouverts comme Apache Iceberg, Delta Lake et Apache Hudi permet d’optimiser la gestion des métadonnées et les performances des requêtes.

La plateforme de gestion de données est orchestrée par Kubernetes, qui automatise le déploiement, la mise à l’échelle et la gestion des applications conteneurisées. Au cœur de l’analyse des données, le moteur Starburst Enterprise, basé sur Trino, permet des requêtes rapides et sécurisées, adaptées aux workloads ELT ad hoc et aux longs batchs, tout en favorisant la création de produits de données et l’alimentation des charges de travail analytiques et d’IA. Il permet d’exécuter rapidement des requêtes SQL sur de vastes ensembles de données dispersées à travers différentes sources, sans nécessiter le déplacement des données. Ce moteur est choisi pour ses performances élevées, sa capacité à réduire les coûts et sa flexibilité dans l’accès et l’analyse des données.