Le Big Data – mégadonnées ou données massives - désigne un ensemble volumineux de données qu’il est difficile voire impossible de gérer dans une base de données classique, par l’importance des volumes concernés et/ou par la diversité des formats. Par extension, le Big Data est souvent associé à l’analyse de données de masse, mais c’est une vision erronée, le Big Data est lié au stockage et à l’extraction des données, mais ne fournit pas les outils analytiques.
Que signifie Big Data ?
Aujourd’hui, nous créons quotidiennement plus de données que nous n’en avons créé depuis que le monde existe ! Ce phénomène s’accompagne d’une problématique physique, le stockage des données qui est une riche branche des infrastructures informatiques, et de deux problématiques utilisateurs, comment obtenir une vision globale des données et comment en extraire et traiter les informations qui nous intéressent ? Ces problématiques s’accompagnent de trois difficultés majeures : les volumes de données, leur localisation, et leur interrogation/extraction pour analyse. C’est la mission du Big Data.
Une solution Big Data prend place au-dessus des infrastructures informatiques qui composent la partie physique du stockage des données, les bases de données et les formats de fichiers. Ces derniers se sont multipliés, avec les bases de données classiques, organisées en lignes (les fiches) et en colonnes (les renseignements, nom, prénom, référence, prix, etc.), dites SQL car elles peuvent être exploitées via ce langage d’interrogation ; et les bases dites NoSQL car elles ne peuvent entrer dans des cases, comme les images, les vidéos, les textes, les messages (SMS, messagerie, tweets, etc.). Aujourd’hui, nous produisons 9 fois plus de données NoSQL que SQL.
La technologie Hadoop
La technologie open source Hadoop de la communauté Apache est la base des infrastructures Big Data les plus répandues. Elle repose principalement sur HDFS (Hadoop File System), un système de fichier (file system), comme ceux qui gèrent les disques durs, capable de reconnaître et d’indexer les sources et formats des données SQL et NoSQL, donc d’offrir une vision unique d’un ensemble de données.
La partie utilisateur doit permettre de reconnaître les sources de données, de les interroger, et d’en extraire les données qui nous intéressent. Elle s’appuie sur Hadoop que nous venons d’évoquer ; sur une base forcément NoSQL pour l’exhaustivité qui indexe l’ensemble des sources de données, généralement HBase ; et sur des algorithmes pour gérer le stockage et l’extraction des données. Le plus connu de ces algorithmes est MapReduce, associé à son origine à Hadoop, qui cependant est remplacé progressivement par Sparc, un algorithme plus rapide car il associe un traitement quasi instantané des volumes de données à leur gestion sur disque ou en mémoire, et une meilleure compatibilité avec les clusters (grappes de systèmes de stockages) d’une infrastructure Hadoop.
Vous noterez enfin que nous ne parlons pas des analytiques… Les outils de recherche et d’analyse des données Big Data prennent place au-dessus de ceux que nous venons d’évoquer.
Les 7 meilleurs articles sur le Big Data
Les 10 prédictions suivantes, extraites de l’IDC Futurescape, représentent les tendances attendues qui devraient avoir le plus grand impact potentiel sur les BDA, Big... (suite)
IDC prévoit que les revenus du Big Data et des analytiques en Europe occidentale atteindront 34,1 milliards de dollars en 2017, soit une augmentation... (suite)
Le marché du Big Data s'accélère. Son ancrage au cœur des stratégies des entreprises françaises serait le signe de la maturité. Le marché français du... (suite)
De plus en plus d’entreprises consacrent une partie de leurs activités à l’exploitation de données, sans pour autant disposer en interne des compétences nécessaires... (suite)
Il ne suffit plus d’enregistrer et de générer de plus en plus de données, il faut les comprendre et les exploiter de plus en... (suite)
Si la moitié des organisations reconnaissent l’importance du Big Data, elles ne sont qu’un quart à être capables d’en tirer des gains de productivité... (suite)
Ou plus précisément, les Fintech vont largement embrasser l’intelligence artificielle (IA), en s’appuyant également sur le Big Data et la blockchain, et en cherchant... (suite)