Pour exprimer le big data, c'est souvent l'image des 5 V, ou plus précisément de 4 V à l'origine augmentés plus récemment d'un cinquième V, qui est reprise. De quoi s'agit-il ?
Les 5 V sont les suivants : Volume, Velocity, Variety, Veracity, et Value. Nous nous proposons de vous les décrire :
- Volume
Volume fait bien évidemment référence à la masse des données d'une part auxquelles nous avons accès, mais également que nous générons. Ce volume augmente à un rythme exponentiel, c'est à dire que la création de données ne cesse de s'accélérer. Ainsi du méga octets sommes nous passés au giga octets, puis au peta octets, aujourd'hui au teta octets, demain au zetta octets et bientôt au bronto octets (à chaque appliquer appliquer un facteur x1000 !). Pour bien comprendre le phénomène, rappelons que chaque minute nous créons autant de données que l'homme en a créé entre la préhistoire et 2008 ! Le big data offre les outils pour stocker ou accéder, et surtout analyser les donnée auxquelles nous pouvons avoir accès.
- Velociy
La vélocité fait référence à la vitesse à laquelle la donnée est créée, ainsi qu'à la vitesse à laquelle elle circule. C'est un phénomène qui s'amplifie, d'une part par notre tendance à dupliquer l'information, sur un même support ou en la partageant sur plusieurs devices, ou encore par la viralité des réseaux sociaux. Et le big data se doit d'être performant pour analyser la donnée, même si elle n'est pas dans nos bases de données.
- Variety
La variété fait référence à la diversité des formats des données. Le format classique est celui de la base de données relationnelle, dans laquelle l'information est stockée selon un schéma rigide et organisé, par exemple un tableau. La donnée est alors qualifiée de 'structurée'. Mais aujourd'hui, plus de 80 % (certains analystes évoquent 95 à 99% !) de la donnée est qualifiée de 'non-structurée', c'est à dire qu'elle ne peut entrer dans des cases. Y figurent le texte, le courriel, la photo, la vidéo, la voix, la messagerie, etc. Le big data offre la capacité de réunir toutes ces données et de les analyser.
- Veracity
La véracité fait référence à la faible fiabilité et au désordre qui règnent dans la donnée. Celle-ci manque trop souvent de qualité et de précision, ce qui la rend peu contrôlable. L'une des missions du big data est d'apporter un peu d'ordre à tout cela non pas en organisant la donnée, mais plutôt en organisant son accès et en permettant d'y associer les analytiques qui correspondent aux besoins des utilisateurs.
- Value
La notion de valeur s'est très rapidement associée aux quatre précédents 'V'. Le big data demeure un domaine complexe, encore peu maitrisé – le manque de data scientists en atteste, mais encore faut-il également trouver le statisticien IT qui saura décrypter la culture et les métiers de l'entreprise ! -, et qui nécessite des ressources et des compétences. Dans ces conditions, un projet big data et son accès aux utilisateurs n'a d'intérêt que s'il apporte de la valeur à l'entreprise.
Le big data s'impose en tendance majeure des IT, encore faut-il le comprendre pour qu'un projet devienne un succès. Les 5 dimensions ou 'V' du big data sont une approche initiale simple pour nous aider à en comprendre les enjeux.