Quatre grandes plateformes d'IA, quatre logiques de citation radicalement distinctes : c'est le constat d'une étude publiée par Yext, qui a passé au crible 17,2 millions de références générées par OpenAI, Gemini, Claude et Perplexity. Pour les entreprises, l'enjeu est la visibilité d'une marque dans les réponses IA. En définitive, celle-ci dépend moins de la qualité de son contenu que du modèle consulté par l'utilisateur. Optimiser pour un agent ne garantit aucune présence dans un autre.
Depuis deux ans, la recherche d'information change de nature. Les requêtes tapées dans un moteur de recherche cèdent progressivement la place à des questions posées à un agent conversationnel, qui agrège, synthétise et cite ses sources selon des règles qui lui sont propres. Pour les organisations, cette évolution repose une question fondamentale : qui décide de ce qui apparaît dans une réponse IA ? Ni l'algorithme de PageRank, ni la logique d'enchères publicitaires ne gouvernent ces mécanismes. Ce sont les politiques de sourcing de chaque modèle, distinctes et opaques, qui déterminent désormais si une marque existe ou non dans l'espace informationnel de l'IA générative.
C'est précisément ce que Yext, plateforme spécialisée dans la visibilité des marques cotée au NYSE, cherche à cartographier depuis 2025. Une première analyse portant sur 6,8 millions de citations avait posé les premières jalons en octobre de la même année. La nouvelle étude, publiée ce 18 mars 2026, porte sur un corpus presque trois fois plus important — 17,2 millions de citations — et constitue à ce jour la radiographie la plus complète des comportements de sourcing des grands modèles d'IA générative. Le périmètre couvre quatre acteurs : OpenAI (ChatGPT), Gemini de Google, Claude d'Anthropic et Perplexity. Ce que l'analyse révèle n'est pas une simple variation de surface, mais des architectures informationnelles distinctes, dont les implications pour les stratégies de présence numérique des organisations sont considérables.
La tendance de fond, avant même d'entrer dans les spécificités par modèle, est sans ambiguïté : entre 2025 et 2026, les sources directement contrôlées par les marques — sites web officiels et fiches d'établissements ou d'annuaires tiers — sont passées de 86 % à 90 % de l'ensemble des citations générées par l'IA. Parallèlement, les citations issues d'avis de consommateurs ont reculé de 8 % à 5,5 %. En deux ans, les actifs numériques propriétaires prennent une place croissante dans les réponses IA, au détriment des contenus indépendants et des forums.
Gemini privilégie les sources structurées et contrôlées par les marques
Parmi les quatre modèles analysés, Gemini est celui qui manifeste la préférence la plus marquée pour les contenus propriétaires et vérifiables. L'étude établit que 93 % de ses citations proviennent de sources que les organisations gèrent ou influencent directement : 51 % de sites web propriétaires et 42 % de fiches d'établissements ou d'annuaires tiers. Les médias d'actualité et les forums y représentent seulement 3 % des sources citées. Cette logique de sourcing s'aligne sur les comportements des moteurs de recherche traditionnels, qui hiérarchisent les informations officielles, structurées et vérifiables. Les réponses générées tendent ainsi à refléter les données de marque faisant autorité, au détriment des témoignages indépendants ou des discussions communautaires.
Pour les équipes marketing et communication des entreprises, la conséquence pratique est directe : Gemini valorise avant tout les structures de données maîtrisées, les schémas de balisage sémantique et la cohérence des fiches entreprise sur les annuaires de référence. Une présence fragmentée ou mal structurée sur ces supports réduit mécaniquement la probabilité d'apparaître dans les réponses du modèle.
Claude intègre davantage les avis et la réputation en ligne
Claude se distingue par une proportion significativement plus élevée de citations issues de contenus générés par les utilisateurs. L'étude indique que 15 % de ses références proviennent d'avis, un ratio deux à quatre fois supérieur à celui de Gemini (3 %), d'OpenAI (3 %) et de Perplexity (7 %). La majorité de ses citations reste ancrée dans les sites web et fiches produit détenus par les marques (81 %), mais le ressenti des consommateurs pèse de manière plus perceptible dans la construction des réponses.
Pour les organisations, cette caractéristique signifie que la réputation en ligne, le volume et la qualité des avis clients, ainsi que les discussions publiées sur des plateformes indépendantes, exercent une influence directe sur la manière dont Claude présente une entreprise ou un produit. La gestion de l'e-réputation cesse d'être un sujet strictement commercial pour rejoindre le périmètre de la stratégie de données.
Perplexity maintient une cohérence sectorielle, pas les autres
Perplexity affiche le comportement de citation le plus stable d'un secteur à l'autre. Les sites web détenus par les marques y représentent entre 37 % et 50 % de ses citations selon les industries, avec un accent constant sur les contenus structurés, référençables et directement attribuables. Là où les autres modèles adaptent leur logique de sourcing aux spécificités de chaque domaine, Perplexity maintient des schémas relativement uniformes. Cette régularité produit des réponses plus prévisibles et fortement appuyées sur des citations explicites — un avantage pour les organisations dont la stratégie de contenu repose sur des publications structurées et vérifiables.
OpenAI adapte son sourcing au contexte sectoriel
OpenAI présente la variabilité la plus forte entre secteurs. La part de ses citations issues de sites web propriétaires oscille entre 28 % dans l'alimentation et les boissons et 44 % pour les organisations à but non lucratif et les institutions religieuses. Dans l'hôtellerie, le modèle cite les sites officiels d'hôtels dans 38 % des cas, soit plus du double de Perplexity (17 %) et un niveau nettement supérieur à celui de Claude et de Gemini (22 % chacun). Cette plasticité sectorielle rend la stratégie de visibilité pour OpenAI plus complexe à définir : une organisation doit adapter ses actifs numériques aux logiques propres à chaque domaine, plutôt qu'appliquer une approche uniforme.
Des stratégies de visibilité à construire modèle par modèle
La conclusion que Sam Davis, vice-président chargé de l'ingénierie des solutions chez Yext, tire de ces travaux est limpide : les sources qui rendent une marque visible dans Gemini ne sont pas celles qui garantissent sa présence dans Claude. L'optimisation pour un modèle ne produit pas d'effet de transfert automatique vers les autres plateformes. « Nous ne pouvons pas considérer la recherche par IA comme une stratégie unique et définitive. Le succès ne repose pas sur un classement général, mais sur la capacité à être cité aux bons endroits », souligne-t-il.
Par conséquent, les référentiels de contenu, les schémas de données et les politiques de publication doivent désormais intégrer la variable « modèle d'IA cible » comme critère de segmentation à part entière. La gouvernance de l'information ne se joue plus seulement sur les moteurs de recherche traditionnels, mais sur des architectures informationnelles dont les logiques de sélection divergent profondément d'un acteur à l'autre. À mesure que les agents conversationnels s'imposent comme des points d'entrée pour la recherche de produits, de prestataires ou d'expertise, la maîtrise de ces mécanismes devient un impératif de compétitivité.























