Tables Iceberg : Snowflake lance Polaris Catalog pour Apache Iceberg en open source
L’évolution vers des écosystèmes de données plus ouverts et interopérables est essentielle pour les stratégies de gestion de données distribuées des entreprises. C’est ce qu’essaye de réaliser Snowflake, qui a récemment annoncé, lors de son événement annuel Snowflake Summit 2024, le lancement de Polaris Catalog pour Apache Iceberg, le standard ouvert pour les data lakehouses, datalakes et autres architectures de données. Snowflake renforce ainsi sa stratégie open source en alliant les standards ouverts à ses capacités de gouvernance des données.

Pour rappel, Iceberg est un format de table open source conçu pour de grands ensembles de données analytiques. Initialement développé par Netflix, il a été créé pour surmonter les limitations des formats de stockage traditionnels utilisés dans les lacs de données. Il a été incubé par l’Apache Software Foundation, puis est devenu un projet de haut niveau
en mai 2020.

En intégrant Iceberg, Snowflake facilite l’interopérabilité entre différentes plateformes et moteurs de traitement de données. Cela permet aux utilisateurs d’accéder et de gérer leurs données de manière plus flexible. La stratégie de Snowflake visant à soutenir les formats de données ouverts pourrait ainsi stimuler l’adoption des technologies cloud, en particulier dans les entreprises qui cherchent à maximiser leur flexibilité et leur contrôle sur les données.  

Polaris Catalog sera mis en open source dans 90 jours

Snowflake entend mettre Polaris Catalog en open source dans les 90 prochains jours, proposant aux entreprises et à la communauté Iceberg, outre une plus grande flexibilité, un contrôle accru sur leurs données, une sécurité d’entreprise complète, une interopérabilité avec des plateformes commeAWS, Confluent, Dremio, Google Cloud, Microsoft Azure, Salesforce, entre autres. Polaris Catalog centralise l’accès aux tables Iceberg d’une organisation, utilisant le protocole REST, compatible avec des moteurs comme Apache Flink, Apache Spark, Dremio, Python, Trino, etc.

« Les entreprises recherchent des solutions de stockage ouvertes et des moteurs de requête interopérables sans dépendance, affirme Christian Kleinerman, EVP of Product chez Snowflake. Avec le soutien des leaders de l’industrie, nous simplifions l’accès aux données à travers divers systèmes, en augmentant flexibilité et contrôle. Polaris Catalog renforce l’engagement de Snowflake envers Apache Iceberg en tant que standard ouvert, et souligne l’intention des leaders du secteur de favoriser une interopérabilité accrue. »

Les organisations peuvent ainsi déployer Polaris Catalog sur le Cloud Data IA de Snowflake en quelques minutes, et bientôt pouvoir l’utiliser en avant-première publique, ou l’autohéberger via Docker ou Kubernetes. L’open source de l’implémentation backend permet aux organisations de choisir librement leur infrastructure d’hébergement, éliminant ainsi le verrouillage des fournisseurs.  

Extension du partenariat entre Snowflake et Microsoft

De plus, Snowflake collabore avec l’écosystème Iceberg pour faire évoluer Polaris Catalog, pour répondre à l’évolution des besoins des utilisateurs. Cette initiative suit l’extension du partenariat entre Snowflake et Microsoft, visant à améliorer l’interopérabilité entre Snowflake et Fabric, soutenant les standards ouverts comme Apache Iceberg et Apache Parquet. Ensemble, ils s’engagent à permettre aux utilisateurs d’exploiter leurs données, indépendamment de leur lieu de stockage, pour développer des applications
à l’échelle de l’IA.

« Depuis toujours, Microsoft s’efforce de donner à chaque utilisateur les moyens d’aller plus loin, avec une base de données solide, a déclaré Arun Ulagaratchagan, corporate vice-président Azure Data chez Microsoft. En soutenant les standards ouverts comme Delta Parquet, Apache Iceberg et Apache XTable, nous favorisons l’interopérabilité des données ouvertes. Snowflake reste un partenaire stratégique, et nous sommes ravis de collaborer sur un catalogue ouvert pour la communauté Iceberg. »

Polaris Catalog s’inscrit dans une série d’engagements open source de Snowflake, comme les Iceberg Tables permettant de travailler avec des données stockées au format Apache Iceberg, tout en bénéficiant des performances et de la gouvernance unifiée de Snowflake.

Snowflake a aussi lancé Snowflake Arctic, un grand modèle de langage (LLM) open source, et soutient activement la communauté Streamlit, qui a vu sa base de développeurs actifs mensuels croître de 500 % depuis son acquisition en mars 2022, atteignant plus de
275 000 développeurs actifs et 6 millions de consultations mensuelles d’applications.