Une étude HBR Analytic Services révèle que 73 % des répondants reconnaissent que leur organisation devrait davantage prioriser la qualité des données pour l'IA, et pourtant seules 23 % disposent d'une stratégie données formalisée pour l'adoption de l'IA. Ce décalage entre conscience du problème et capacité d'action définit l'état réel de la préparation des entreprises à l'IA industrielle.
Le rapport, commandité par Cloudera, s'appuie sur les réponses de 231 dirigeants impliqués dans les stratégies données de leur organisation , et issus de grandes organisations, 61 % comptant plus de 1 000 collaborateurs, répartis majoritairement en Amérique du Nord (48 %) et en Europe (23 %), dans des secteurs allant des services financiers à la santé en passant par les administrations publiques. Son périmètre couvre l'ensemble du cycle de vie des données IA : ingestion, gouvernance, pipeline, infrastructure de traitement et émergence de l'IA agentique comme levier de remédiation.
Le premier enseignement de l'étude est la rareté de la préparation complète. Seules 7 % des organisations interrogées considèrent leurs données entièrement prêtes pour l'IA. 51 % se déclarent « partiellement prêtes », formulation qui recouvre des situations très hétérogènes : données partiellement dématérialisées, pipelines non automatisés, silos persistants entre les systèmes métiers. À l'autre extrémité, 27 % admettent que leurs données ne sont pas ou très peu prêtes. Ce spectre de maturité fragmentée coexiste avec un niveau de confiance paradoxalement modéré : seules 42 % des organisations déclarent avoir une haute confiance dans leurs données IA — un indicateur qui, combiné aux 73 % conscients du déficit de qualité, dessine une situation où la connaissance du problème ne suffit pas à enclencher l'action corrective.
La gravité des données reconfigure les architectures
Les obstacles identifiés sont récurrents et bien documentés. La cloisonnement des données et la difficulté d'intégration des sources arrivent en tête (56 %), suivis par l'absence de stratégie données claire (44 %) et les problèmes de qualité ou de biais (41 %). Les contraintes réglementaires sur l'utilisation des données sont citées par 34 % des répondants — un chiffre qui prend une résonance particulière dans le contexte européen, où le RGPD conditionne directement les architectures de traitement. « Les données sont encore désorganisées, encore cloisonnées, encore mal gouvernées, mais il y a tellement de données qui dorment dans les entreprises sans être exploitées », observe Sesh Iyer, directeur général et associé senior au Boston Consulting Group. « Ce qui freine les entreprises aujourd'hui, c'est la disponibilité, l'accessibilité et l'auditabilité des données, ainsi que leur gouvernance. »
Au-delà de la gouvernance, le rapport introduit un concept architectural central pour les DSI européens : la « data gravity », ou gravité des données. Ce phénomène désigne la force d'attraction qu'exercent les grands volumes de données sur les applications et les services qui en dépendent — rendant leur déplacement physiquement coûteux, techniquement risqué et réglementairement contraint. Dans un environnement où 51 % des organisations stockent leurs données IA dans le cloud (public, privé ou multicloud) et où 28 % les répartissent à parts égales entre cloud et infrastructure sur site, la question n'est plus de centraliser les données pour les soumettre aux modèles IA, mais d'amener le traitement IA là où les données résident.
Déplacer l'IA vers les données plutôt que l'inverse
Cette inversion architecturale, porter l'IA vers les données plutôt que l'inverse, est rendue possible par des approches de type « zero copy data access » : des applications containerisées capables d'exécuter des inférences ou des entraînements de modèles directement sur les environnements de stockage existants, sans duplication des jeux de données. Pour les DSI opérant sous contrainte de souveraineté numérique, l'enjeu est limpide.
« Pour des raisons de coût, de souveraineté et de réglementation, il sera plus probable de déplacer un conteneur de traitement IA vers les données que de déplacer les données vers l'application », explique Teresa Tung, responsable mondiale de la pratique données chez Accenture. Cette évolution réduit la latence, les coûts de bande passante et les risques de sécurité liés au transfert de volumes massifs — un argument opérationnel et de conformité simultané pour les équipes IT opérant dans des juridictions à fortes exigences de localisation des données.
L'IA agentique comme réponse aux déficits
Le rapport révèle une tension productive entre le problème de qualité des données et la solution envisagée pour le résoudre. 47 % des répondants estiment que l'IA agentique peut résoudre les problèmes de qualité des données de leur organisation. 65 % anticipent que de nombreux processus métiers seront augmentés ou remplacés par des agents autonomes dans les deux prochaines années. Ces systèmes — capables d'orchestrer des flux de travail complexes sans intervention humaine à chaque étape — sont perçus comme des outils de remédiation potentiels : identification automatique des anomalies, correction des erreurs de pipeline, maintien de la cohérence référentielle à l'échelle.
La tension réside dans le prérequis non dit : les agents autonomes sont d'autant plus efficaces que les fondations de données sur lesquelles ils opèrent sont déjà gouvernées. « Les organisations qui ont investi dans la gouvernance des données, les standards et les exigences de métadonnées comprennent pourquoi ces briques sont nécessaires pour que les agents agissent en leur nom », note Teresa Tung. Sesh Iyer ajoute qu'une implémentation d'IA agentique réussie exige « une équipe solide avec une diversité de compétences », incluant des ingénieurs données expérimentés, des experts métiers et un product owner capable de maintenir la cohérence de l'objectif. Sans ce socle humain et organisationnel, l'IA agentique amplifie les erreurs existantes au lieu de les corriger.
La donnée propriétaire, un actif concurrentiel différenciant
Le rapport converge vers une conclusion stratégique que les DSI et CDO auraient intérêt à porter au niveau du COMEX : dans un environnement où les modèles IA se commoditisent — accessibles via API, interchangeables, de plus en plus comparables en performance —, la source de différenciation durable réside dans la qualité et l'exclusivité des données propriétaires qui les alimentent. Une organisation capable de mobiliser des données client, opérationnelles ou transactionnelles de haute qualité, correctement gouvernées et immédiatement accessibles aux modèles, dispose d'un avantage concurrentiel que ses concurrents ne peuvent pas répliquer en achetant le même modèle de base.
Ce repositionnement a une implication budgétaire directe. « Nous sommes en train de changer la vision descendante selon laquelle la donnée est un centre de coûts, conclut Teresa Tung. Aujourd'hui, les dirigeants veulent voir l'IA partout dans leur organisation, et cela signifie résoudre le problème de leurs données. Jamais cela n'a été une priorité aussi forte qu'aujourd'hui. » Pour les organisations qui peinent encore à franchir le stade du pilote IA, le rapport suggère que le blocage n'est pas technologique, les modèles existent, les infrastructures cloud sont disponibles, le manque est du côté de la stratégique et de la gouvernance, car l'absence de données fiables, accessibles et auditables empêche le passage à l'échelle bien avant que les limites des modèles ne soient atteintes.























