ElevenLabs et Google Cloud annoncent une extension pluriannuelle de leur collaboration, adossée aux GPU Nvidia RTX PRO 6000 Blackwell via les machines virtuelles G4 de Google Cloud. L'accord élargit l'accès d'ElevenLabs à l'infrastructure de calcul nécessaire pour entraîner et servir ses modèles vocaux à l'échelle, tout en intégrant les modèles Gemini et Veo de Google directement dans ses plateformes. Google renforce son écosystème de partenaires IA sur un segment — la voix en temps réel — qui devient un vecteur d'automatisation critique dans les fonctions client, support et formation.

ElevenLabs, fondée à Londres en 2022, s'est imposée comme l'un des acteurs de référence de la synthèse vocale par IA, avec une couverture de plus de 70 langues et des déploiements actifs dans les services financiers, la distribution et les télécommunications. Son positionnement repose sur deux piliers : la plateforme Agents, dédiée aux agents conversationnels en temps réel, et la plateforme Creative, orientée localisation de contenus, voix de marque et production multimédia. L’accord avec Google Cloud étend les capacités de calcul disponibles pour les deux, en donnant accès à un cluster de GPU Blackwell significativement plus large que lors de la collaboration initiale.

ElevenLabs consolide ainsi sa position d’infrastructure voix pour les agents conversationnels, et Google Cloud renforce son écosystème de partenaires IA sur un segment, la voix en temps réel, qui devient un vecteur d’automatisation décisif dans les fonctions client, support et formation.

L’intégration des modèles Gemini dans la plateforme Agents apporte des capacités de raisonnement et de planification aux agents vocaux d’ElevenLabs, une évolution qui conditionne la viabilité des agents dans des scénarios complexes, comme le support client de niveau 2 ou l’assistance commerciale inbound. L’incorporation du modèle Veo dans la plateforme Creative ouvre quant à elle la production de contenu multimédia combinant audio et vidéo, pour les équipes marketing, formation et communication interne.

Les GPU Blackwell pour le temps réel

La contrainte technique centrale des agents vocaux en entreprise est la latence. Un agent conversationnel qui répond avec un délai perceptible rompt l’expérience naturelle et réduit son taux d’adoption. Les GPU Nvidia RTX PRO 6000 Blackwell, accessibles via les machines virtuelles G4 de Google Cloud, adressent directement cette contrainte. Leur architecture est optimisée pour l’inférence de modèles de grande taille à haut débit, ce qui permet de maintenir des temps de réponse compatibles avec une conversation fluide, même à grande échelle de déploiement.

Ian Buck, vice-président et directeur général de la division Hyperscale et HPC chez Nvidia, précise que « ElevenLabs peut entraîner des modèles plus grands plus rapidement et exécuter l’inférence pour des modèles IA avancés et des services vocaux » grâce à la combinaison des plateformes Google Cloud et Nvidia. Pour les en,treprises qui évaluent des solutions d’agents vocaux, cette architecture matérielle conditionne directement les garanties de niveau de service : débit simultané, disponibilité et prévisibilité des temps de réponse sous charge.

L’accès à un cluster Blackwell élargi permet par ailleurs aux équipes de recherche d’ElevenLabs d’entraîner des modèles multimodaux de dernière génération sans contrainte de capacité de calcul, ce qui accélère le cycle d’amélioration des modèles mis à disposition des clients entreprise.

Google Cloud Marketplace comme levier d’adoption

L’entrée d’ElevenLabs sur le Google Cloud Marketplace constitue la dimension opérationnelle la plus directement pertinente pour les entreprises. Elle permet aux organisations clientes de Google Cloud de provisionner les solutions ElevenLabs via leur compte Google Cloud existant, avec une facturation consolidée et des cadres de conformité simplifiés. Les cas d’usage couverts incluent les agents conversationnels pour le support client, la formation interne et les ventes inbound.

Cette disponibilité sur Marketplace réduit deux obstacles classiques à l’adoption : la complexité contractuelle avec un éditeur tiers, et la validation de conformité d’un nouveau fournisseur. Pour les organisations déjà engagées sur Google Cloud, le processus de déploiement d’un agent vocal ElevenLabs se rapproche d’une activation de service interne plutôt que d’un projet d’intégration. Matt Renner, président et directeur des revenus de Google Cloud, positionne explicitement ce partenariat comme un levier pour « créer des expériences plus naturelles et engageantes pour les clients à l’échelle mondiale ».

Sur le Google Cloud AI Agent Finder, les solutions ElevenLabs sont référencées pour l’automatisation des centres d’appels dans le commerce électronique, la santé et les télécommunications, la production de contenu audio pour les éditeurs et les médias, ainsi que la localisation multilingue pour les équipes de formation et de marketing. Google Cloud affirme que la grille tarifaire d’accès via Marketplace est simple et consolidée dans la facturation existante, sans en préciser les montants ni les paliers par usage ou volume.

Voix, agents et infrastructure multimodale

Pour les directions informatiques, ce partenariat signale une évolution structurelle dans la manière dont les agents conversationnels seront déployés. L’ère des chatbots textuels cède progressivement la place à des agents vocaux capables de gérer des interactions complexes, multilingues et en temps réel. ElevenLabs, en s’appuyant sur l’infrastructure Google Cloud et les modèles Gemini pour le raisonnement, positionne cette capacité comme un composant d’entreprise standardisé — avec les garanties de disponibilité, de conformité et de facturation que cela implique.

Mati Staniszewski, cofondateur d’ElevenLabs, résume l’objectif : « des agents vocaux qui fonctionnent à l’échelle entreprise sans compromis ». La question que les entreprises devront trancher est celle de l’intégration de ces agents dans leurs architectures SI existantes, notamment les CRM, les plateformes de centre de contact et les systèmes de gestion des connaissances, pour que la promesse de l’agent vocal se traduise en réduction mesurable des coûts ou en amélioration vérifiable de l'expérience client.

publicité