Rarement le nombre de données des entreprises aura atteint un tel volume : en 2020, les volumes de données auront atteint 35 Zettabytes* au niveau mondial. Et l’augmentation des environnements virtuels ne fait que compliquer la gestion inhérente à cette croissance.
Cloud computing, Data Center, Gouvernance des données, sécurité des données, gestion des métadonnées, gestion des données de références clients, qualité des données, produits, ou partenaires, gestion des données personnelles au sein de l’entreprise, gestion des données liées à la performance opérationnelle des SI (CMDB) ou métier de l’entreprise (ERP), données hébergées, intégrité de la donnée, stockage de données, conformité réglementaire, restitution des données en information, analyse des données, transformation de la donnée en information et gestion de contenu sont autant de sujets qui agitent nos DSI aujourd’hui.
La gestion des métadonnées ou comment éviter les redondances de structures et de données
Pour les néophytes, la métadonnée est le contenant (ex : client) et la donnée est son contenu (ex : Mr Untel). Un modèle de métadonnées est à un SGBD ce qu’un modèle 3D est à un prototype de voiture, il permet d’organiser les équipes autour d’un langage commun, de vérifier la qualité du modèle avant mise en production et permet l’adaptation de nouveaux composants sans compromettre l’existant. De nombreux véhicules peuvent circuler mais une nouvelle version même mineure, s’effectuera d’abord dans le modèle originel avant de tester l’intégrité de l’édifice global.
De nombreux projets nécessitent d’avoir une cartographie des métadonnées. Généralement une modélisation a bien eu lieu à la création des bases de données, mais il est fortement probable que le modèle d’origine soit éloigné de la réalité si une gestion rigoureuse des changements n’a pas été mise en place. Certaines entreprises considèrent la modélisation de données d’entreprise comme stratégique.
Ainsi lorsqu’une société, souhaite conquérir de nouveaux marchés à l’international, en souhaitant s’adapter aux marché locaux en termes d’offre de services, Elle conçoit généralement un modèle Logique de données représentant le Business Model de l’entreprise, dérivé en modèles Logiques régionaux, plus proches d’un Business Model adapté aux différents pays mais conservant un tronc commun, eux-mêmes dérivés en modèles de données Physiques permettant, au choix, de générer des structures de bases de données DB2, Oracle ou SQL Server,…, selon les ressources de la DSI en place localement. On retrouvera la même méthode en mode Cloud mais les SGBD pourront être situés au même endroit sans être répartis géographiquement si la bande passante le permet.
Dans ce cadre, d’architecture de conception en couche de modèles, un nouveau processus du modèle métier en Top-Down, peut être répercuté rapidement, jusqu’à la base de données locale et un nouveau processus local peut être proposé et être adapté en bottom-up au niveau mondial.
Ce processus de gestion basé sur les modèles de données, mais également sur les modèles de composants applicatifs et les modèles de processus permet une implémentation plus rapide des changements métiers au niveau mondial. Les parties à ne pas omettre étant la formation des utilisateurs finaux et la résistance au changement.
L’avantage de la modélisation graphique de données permettant de créer les structures de bases de données (DDL, Data Definition Language) par rapport à la programmation manuelle de code est caractérisée par l’adoption rapide d’un langage commun d’entreprise, qui permet de définir les données, les relations, les règles, les rôles (pour la modélisation de processus) via des schémas. Pour les données relationnelles, on distinguera différentes couches de modèles de données : Conceptuel, Logique et Physique.
- Le modèle conceptuel donne une vue proche de celles demandées par les urbanistes et architectes dans le cadre d’une cartographie d’entreprise, c’est-à-dire une vue des métadonnées utilisées par les processus, domaines fonctionnels et applications.
- Le modèle Logique correspond à une vue fonctionnelle d’une base de données, compréhensible par les analystes métiers.
- Le modèle Physique correspond à l’implémentation des besoins métiers adaptés aux particularités des bases de données pour des besoins de performance. Un bon outil de modélisation peut aisément générer des dizaines de milliers de ligne de code à partir d’un modèle physique adapté graphiquement à partir du modèle logique.
Les modifications demandées par les métiers sur les modèles logiques, puis physiques dépendent de l’activité des sociétés (nouveaux développement, nouveaux services, prises de marché, fusion, acquisition, implémentation d’ERP, Datawarehouse) et la gestion du changement des schémas de données doit être semi automatisée et contrôlée par une gestion de version, d’où la nécessité pour les outils de modélisation de disposer d’interface de comparaison des changements et de gestion des versions de modèles.
- Les projets qui nécessitent des modèles de données sont en général les suivants :
- Modélisation et de conception de bases de données
- Extraction de données pour alimenter un Data Warehouse
- Projets d’aide à la décision et de business Intelligence
- Gestion des données de références
- Développements logiciels
- Modélisation de processus
- Urbanisation du SI
- Architecture d’entreprise
- Mise en conformité réglementaire du SI (que nous aborderons dans les prochains articles)
Pour évaluer la difficulté de communication entre les utilisateurs métiers et la DSI, si on prend comme exemple SAP, la donnée concernant un client est stockée dans une table nommée CU001 et il peut y avoir jusqu’à 70.000 tables codées de cette façon. Il est donc difficile pour un décisionnaire d’avoir accès à l’information sans passer par un « traducteur » logiciel ou humain.
J’ai personnellement utilisé l’outil Saphir de Silwood Technologies qui m’a satisfait mais il en existe certainement d’autres.
Ces difficultés de communication entre les métiers et la DSI pour comprendre comment sont organisées les données d’entreprise, ont un impact considérable sur la gestion de projets. C’est pourquoi la gestion des métadonnées est essentielle pour en exploiter le contenu de manière fiable, rapide et qualitative. La modélisation de données est également une des étapes importantes dans la création de projets d’architecture d’entreprise, où les métiers souhaitent obtenir l’information sur le lien entre l’application, le processus et la donnée. Cette approche sera critique pour pallier à des problèmes de performance due à des erreurs de normalisation, ou lors des projets de Master Data Management qui imposent d’identifier où se trouvent les données de références (Clients, produits) à quels endroits dans l’entreprise sont mises à jour les informations concernant un client ou un produit et par quel moyen cette gestion pour être centralisée.
Retro-conception des schémas, centres de service partagés : Model as a Service
La technique la plus couramment utilisée pour identifier les métadonnées est la rétro-conception ou reverse engineering.
Cette technique permet de recréer des schémas, en se connectant à des bases de données, des fichiers texte, XML ou des ERP et de les documenter, de visualiser les relations qui existent entre les différentes tables. Cette discipline de documentation centralisée a évolué vers une mise à disposition de modèles pour les autres outils/projets de BI, ETL, Data Warehouse, MDM, Process Modeling, Enterprise Architecture et outils de développement, d’intégration. On peut créer ensuite des centres de services partagés de type MaaS, (Model as a Service), où les différents interlocuteurs peuvent demander en langage métier, des modèles correspondants à leurs besoins. Par exemple des utilisateurs SAP Business Objects, peuvent demander à l’architecte de données, des modèles Logiques/Physique correspondant à une vue Produits/Clients/Région et les implémenter directement dans leur outil, sans effectuer une recherche manuelle dans un SGBD dont les noms sont codifiés.
Très proche des solutions de référentiels d’entreprise, cette technique est nettement moins coûteuse à mettre en œuvre tout en représentant une première approche dans la préparation d’un projet plus conséquent en termes d’efforts, d’outils et de budget. En tous cas, la gestion des métadonnées participe de manière indéniable au succès et à la qualité des projets énoncés plus haut qui sont, pour leur part, nettement plus visibles en entreprise.