Une entreprise sur deux a développé ou est en cours d’implémentation de ses ‘data lakes’, les référentiels de stockage du Big Data. Pour autant, les projets se heurtent à une sorte de barrage naturel inattendu, le cloud !

Au sein du Big Data, Hadoop a connu un succès sans précédent. Et il a créé un marché estimé par Forrester à 800 millions de dollars en 2017. Poussé par les trois acteurs historiques du Big Data, Hortonworks, Cloudera et MapR, Hadoop s’impose. Nous en voulons pour preuve l’explosion des ‘data lakes’, les lacs de données dans lesquels les outils analytiques plongent.

Où en sont les projets de construction d’un data lake dans les entreprises ?

  • 15% - Implémenté, il est en cours d’expansion ;
  • 33% - En cours d’implémentation ;
  • 31% - Planifié dans les 12 prochains mois ;
  • 13% - Intéressées mais pas encore de projet ;
  •   5% - Non intéressées.
48% des entreprises, soit environ 1 sur 2, a déployé un data lake, et elles seront 79%, soit 8 sur 10, à l'avoir fait avant la fin de la décennie.

Changement de stratégie après 10 ans d’Hadoop

Seulement voilà, alors qu’elle va fêter des 10 ans cette année, la communauté Apache Hadoop semble marquer une pause. En cause, le poids élevé de la complexité des projets et technologies associés à Hadoop, mais plus inquiétant les entreprises citent le chevauchement des architectures et des services cloud.

Concrètement, les entreprises font face à la complexité de Hadoop en se tournant vers le cloud public. Les acteurs de ce dernier proposent en effet des solutions qualifiées de ‘serverless’ qui exploitent des requêtes SQL ou qui utilisent directement Spark sans passer par la case Hadoop.

Le monde du Big Data doit donc affronter deux mouvements : Hadoop se présente comme le choix naturel pour exploiter de grands volumes de données ; les entreprises veulent utiliser le cloud public pour la même raison. Mais… Hadoop n’a pas été conçu pour le cloud !

Le dilemme du Big Data, Hadoop ou alternatif ?

C’est ainsi que les entreprises qui portent des projets Big Data se trouvent confrontées à un dilemme : faut-il monter des projets qui reposent sur Hadoop, qui correspondent à leurs attentes malgré un taux de complexité plus élevé, mais qui supportent mal le cloud ; ou faut-t-il intégrer le Big Data dans leurs projets cloud en se tournant vers les offres alternatives proposées en cloud public par Amazon, Google ou IBM ?

Ce qui est étonnant dans cette affaire, c’est que si Hadoop va continuer de creuser son sillon et de s’imposer, les gros systèmes centraux et les entrepôts de données, que d’aucun voyait disparaître, vont continuer de subsister, et probablement d'adopter des stratégies hybrides hors Hadoop. Tout simplement parce que même entré dans l’ère du numérique, l’humain peine à suivre et à avancer au rythme du changement numérique.

Image d’entête 496213580 @ iStock Droganev