Comme annoncé le 25 juin dernier sur X, les équipes d’OpenAI viennent de révéler le lancement de la version alpha de la fonction vocale de ChatGPT. Pour l’heure, cette version parlante est testée par un groupe d’utilisateurs de ChatGPT Plus. Cette fonction permet des conversations plus naturelles et en temps réel, avec la possibilité de les interrompre à tout moment. Elle est également capable de détecter
et de répondre aux émotions.

L'accès à cette fonctionnalité sera progressivement étendu à un plus grand nombre d'utilisateurs de ChatGPT Plus au cours des prochaines semaines, avec l'objectif de la rendre disponible pour tous les utilisateurs de ChatGPT Plus à l'automne prochain. Les utilisateurs de cette version alpha recevront une notification dans l'application ChatGPT et un courriel contenant des instructions sur son utilisation.

D'autres fonctionnalités, comme la vidéo et le partage d'écran, seront lancées ultérieurement. Pour des raisons de sécurité, et pour limiter les possibilités d’abus, l’éditeur de ChatGPT procède à un lancement progressif.

L’outil peut être détourné pour des usages malveillants. Un lancement progressif permet à OpenAI de surveiller de près les performances de la fonction vocale et de détecter rapidement tout problème technique ou de sécurité. Cela permet de corriger les bugs et d'améliorer la qualité de l'expérience utilisateur avant une diffusion plus large.

Un déploiement prudent

En procédant progressivement, OpenAI peut également s'assurer que GPT-4o respecte les lois en vigueur dans différentes régions géographiques, ce qui est crucial pour éviter des litiges juridiques et garantir une utilisation éthique de la technologie. Les ingénieurs d’OpenAI ont ainsi drastiquement « verrouillé » certaines fonctions.

Ils ont travaillé à l'amélioration du modèle pour détecter et refuser certains contenus, par exemple. Pour ce faire, au cours des dix derniers mois, les capacités vocales du modèle ont été évaluées par plus de 100 testeurs externes, parlant 45 langues dans 29 régions géographiques différentes.

À la suite des retours des testeurs et des tests de sécurité conduits en interne, les mesures de sécurité ont été implémentées dans le ChatGPT parlant. Pour respecter la vie privée des utilisateurs, la fonction vocale avancée utilisera quatre voix préconfigurées créées en collaboration avec des acteurs vocaux. Les équipes d’OpenAI se sont assurées que ChatGPT ne puisse pas imiter les voix d’autres personnes, qu’il s’agisse d’individus ou de personnalités publiques, et bloquera les sorties qui diffèrent de ces voix préconfigurées.

Pour respecter les droits d’auteur, de nouveaux filtres ont été intégrés. Ces filtres reconnaîtront et bloqueront toutes les demandes de génération de contenus musicaux et audio protégés par des droits d’auteur. Enfin, les techniques de sécurité appliquées aux textes ont été étendues aux voix, tout en veillant à ce que GPT-4o soit conforme aux lois en vigueur et ne génère pas de contenu nuisible.

Les équipes d’OpenAI publieront au début du mois d’août un rapport détaillé sur l’élaboration de la fonction vocale avancée et les dispositifs mis en place pour une expérience utilisateur plus sûre et plus agréable.