Après avoir proposé une version payante de ChatGPT en février dernier, OpenAI annonce la disponibilité de son API pour les modèles ChatGPT et Whisper. Une offre qui permettra aux clients et aux développeurs d’accéder aux capacités du modèle en matière de traitement du langage et de codage. Rappelons que Whisper est un système de reconnaissance automatique de la parole (ASR), ou speech to text. Il a été entraîné sur 680 000 heures de données supervisées et multilingues collectées sur le web.

Pour inciter les clients à sauter le pas, la famille de modèles ChatGPT commercialisée à cette occasion est GPT-3.5-turbo, le même modèle que celui utilisé dans le produit ChatGPT. Son prix est de 0,002 dollar par mille jetons, « ce qui est dix fois moins cher que les modèles GPT-3.5 existants, affirme l’éditeur. Il s’agit également de notre meilleur modèle pour de nombreux cas d’utilisation non liés au chat : nous avons vu des testeurs précoces passer de text-davinci-003 à gpt-3.5-turbo en n’apportant qu’une petite modification à leurs invites ».  

Des améliorations continues des modèles

OpenAI promet en outre des améliorations continues des modèles et la possibilité de choisir une capacité dédiée pour un meilleur contrôle des modèles. En effet, OpenAI améliore constamment ses modèles. « Les développeurs qui utilisent le modèle GPT-3.5-turbo recevront toujours notre modèle stable recommandé, tout en ayant la possibilité d’opter pour une version spécifique du modèle. Par exemple, nous publions aujourd’hui GPT-3.5-turbo-0301, qui sera pris en charge au moins jusqu’au 1er juin, et nous mettrons à jour gpt-3.5-turbo vers une nouvelle version stable en avril. La page des modèles fournira des mises à jour sur le basculement ».

Par ailleurs, les développeurs peuvent désormais utiliser le modèle opensource Whisper large-v2 dans l’API « avec des résultats beaucoup plus rapides et rentables ». OpenAI appuie son offre sur le modèle large-v2 accessible via la nouvelle APIau prix de 0,006 dollar par minute. L’API Whisper est disponible à travers des points de terminaison transcriptions (transcription dans la langue source) ou traductions, et accepte une variété de formats (m4a, mp3, mp4, mpeg, mpga, wav, webm).  

Choix de la version spécifique du modèle et des performances du système

OpenAI propose également des instances dédiées aux utilisateurs qui souhaitent un contrôle plus approfondi de la version spécifique du modèle et des performances du système. Par défaut, les demandes sont exécutées sur une infrastructure de calcul partagée avec d’autres utilisateurs, qui paient par demande. L’API fonctionne sur Azure et, avec les instances dédiées, les développeurs paient pour une durée d’allocation d’infrastructure de calcul réservée au traitement de leurs demandes. OpenAI leur propose un contrôle total sur la charge de l’instance, ainsi que la possibilité d’activer des fonctions telles que des limites de contexte plus longues et la possibilité d’épingler l’instantané du modèle.

Selon OpenAI, les instances dédiées peuvent être rentables pour les développeurs qui utilisent plus de 450 millions de jetons par jour. En outre, elles permettent d’optimiser directement la charge de travail d’un développeur par rapport aux performances du matériel, ce qui peut réduire les coûts par rapport à une infrastructure partagée.

Avec son offre attractive financièrement et évolutive, OpenAI tente de fidéliser les utilisateurs dans la durée sur un marché naissant et dont les usages sont à défricher. Au vu du succès fulgurant de ChatGPT auprès des utilisateurs dans le monde entier, il aurait été logique qu’OpenAI profite de la vague porteuse pour pousser son avantage et accaparer le marché. Mais dans un secteur où les principaux concurrents n’ont pas encore dévoilé leurs cartes, et où une pléthore de startups développe des modèles d’IA, la « disruption concurrentielle » peut venir de n’importe où. C’est ce qui explique la prudence d’OpenAI à travers cette offre.