Moins de deux semaines après le lancement de GPT-5.4, OpenAI annonce deux déclinaisons compactes : GPT-5.4 mini et GPT-5.4 nano. Plutôt que de concentrer toutes les capacités dans un seul modèle, OpenAI outille désormais les développeurs pour composer des systèmes où un grand modèle pilote la stratégie et des modèles plus petits exécutent les tâches à grande échelle. Cette montée en performance s'accompagne d'une hausse tarifaire significative.

L'annonce du 17 mars 2026 intervient dans un contexte de publication soutenu. GPT-5.4 avait lui-même été lancé deux jours après GPT-5.3, et ces deux nouvelles variantes prolongent la même trajectoire. OpenAI n'attend plus les cycles de version traditionnels : les modèles sont publiés au fil des améliorations, par segments de capacité, selon une logique qui se rapproche davantage du déploiement logiciel continu que de la release produit classique. Pour les équipes IT qui suivent l'évolution de ces outils, ce rythme impose une veille permanente et une réflexion structurée sur l'intégration de modèles hétérogènes dans les architectures applicatives.

GPT-5.4 mini constitue la proposition principale de ce lancement. Le modèle améliore sensiblement ses performances par rapport à GPT-5 mini sur le codage, le raisonnement, la compréhension multimodale et l'utilisation d'outils, tout en fonctionnant plus de deux fois plus vite. Sur SWE-Bench Pro, qui mesure la capacité d'un modèle à corriger de véritables problèmes GitHub, GPT-5.4 mini obtient un score de 54,4 %, contre 45,7 % pour GPT-5 mini et 57,7 % pour GPT-5.4. Sur OSWorld-Verified, qui évalue la capacité d'un modèle à opérer un ordinateur en lisant des captures d'écran, il atteint 72,1 %, contre 42 % pour GPT-5 mini et juste en deçà du 75 % du modèle phare. Cette proximité de performance avec un modèle nettement plus coûteux est le message central de l'annonce.

Une architecture multimodèle pour agents à forte volumétrie

Le cas d'usage mis en avant par OpenAI est l'orchestration agentique par composition de modèles. Dans Codex, un modèle de grande taille comme GPT-5.4 peut gérer la planification, la coordination et le jugement final, tout en déléguant à des sous-agents GPT-5.4 mini les sous-tâches plus courantes en parallèle : recherche dans une base de code, relecture d'un fichier volumineux, traitement de documents de support. Cette architecture en couches n'est pas nouvelle conceptuellement, mais GPT-5.4 mini en améliore la praticité, car là où une latence élevée rendait coûteuse chaque invocation d'un sous-agent, la vitesse de la nouvelle variante rend le modèle économiquement viable pour des pipelines à plusieurs dizaines d'appels simultanés.

GPT-5.4 mini est accessible dès maintenant aux utilisateurs Free et Go de ChatGPT via l'option « Thinking » dans le menu « + ». Les abonnés payants qui atteignent leur limite d'utilisation de GPT-5.4 basculent automatiquement vers mini. GPT-5.4 nano, en revanche, est uniquement accessible via l'API, ce qui reflète son positionnement exclusif comme outil de développeur, conçu pour être intégré dans des flux automatisés à très haut débit plutôt qu'exposé directement aux utilisateurs finaux.

GPT-5.4 nano : classification, extraction et sous-agents au coût le plus bas

GPT-5.4 nano occupe la position la plus basse de la gamme en termes de taille et de coût. OpenAI le recommande pour la classification, l'extraction de données, le classement et les sous-agents de codage chargés de tâches de support plus simples. Sa tarification reflète cet usage : 0,20 dollar par million de jetons en entrée et 1,25 dollar par million de jetons en sortie, soit un niveau qui rend économiquement réaliste le traitement de volumes considérables de requêtes quotidiennes, y compris pour des organisations de taille intermédiaire.

Pour les équipes de développement qui construisent des agents conversationnels, des outils d'analyse documentaire ou des pipelines de traitement de données, nano rest présenté comme un modèle fiable sur des tâches bien bornées, suffisamment bon marché pour ne pas contraindre les architectures par des considérations budgétaires. Ses capacités couvrent le suivi précis des instructions, l'appel de fonctions et d'outils, le support au codage et la compréhension d'images, avec une fenêtre de contexte de 400 000 jetons.

Une hausse tarifaire à intégrer dans les modèles économiques

Les gains de performance ont un prix que les équipes IT ne peuvent pas ignorer. Comparés à leurs prédécesseurs directs dans la gamme compacte d'OpenAI, les nouveaux modèles affichent des tarifs en forte progression. GPT-5.4 mini est facturé 0,75 dollar par million de jetons en entrée, contre 0,25 dollar pour GPT-5 mini, soit une multiplication par trois. En sortie, le passage de 2,00 à 4,50 dollars représente un facteur 2,25. La progression est encore plus marquée sur nano : de 0,05 à 0,20 dollar en entrée (facteur 4) et de 0,40 à 1,25 dollar en sortie (facteur 3,1).

Pour une architecture agentique qui sollicite mini ou nano à haute fréquence, l'impact budgétaire est immédiat et proportionnel aux volumes traités. Les organisations qui avaient dimensionné leurs enveloppes d'exploitation sur les tarifs GPT-5 mini ou nano devront revoir leurs projections. La performance accrue justifie en partie cette évolution, mais la comparaison de segment à segment ne laisse pas de place à l'ambiguïté : le coût d'accès aux modèles compacts d'OpenAI a substantiellement progressé.

La hausse tarifaire doit toutefois être nuancée en fonction de la tâche. Dans une architecture agentique à haute volumétrie, ce qui compte n'est pas le coût par token isolément, mais le coût par tâche accomplie. Un modèle qui résout en un appel une sous-tâche qui en nécessitait deux ou trois avec la génération précédente réduit mécaniquement le coût total à qualité équivalente. La progression de 42 % à 72,1 % sur OSWorld-Verified illustre ce que cette amélioration représente concrètement pour les pipelines de contrôle d'interface et d'interprétation de captures d'écran : la hausse du coût par token est partiellement compensée, sur les tâches complexes, par les gains de performance eux-mêmes.

Un modèle qui résout en un appel une sous-tâche qui en nécessitait deux ou trois avec la génération précédente réduit mécaniquement le coût total à qualité équivalente. La vitesse supérieure réduit également la latence accumulée dans les pipelines multiétapes, ce qui a une valeur économique directe pour les applications où le temps de réponse conditionne l'expérience utilisateur. La progression de 42 % à 72,1 % sur OSWorld-Verified illustre ce que cette amélioration représente concrètement pour les pipelines de contrôle d'interface et d'interprétation de captures d'écran. En revanche, pour les usages répétitifs et bien bornés — classification, extraction, classement — pour lesquels nano était précisément conçu, la qualité de la génération précédente était déjà suffisante : la compensation y est faible, voire nulle, et la hausse tarifaire s'y applique pleinement. Les organisations qui avaient dimensionné leurs enveloppes d'exploitation sur les tarifs GPT-5 mini ou nano devront revoir leurs projections en tenant compte de cette asymétrie selon les usages.

Disponibilité sur Microsoft Foundry et intégration dans Codex

GPT-5.4 mini et GPT-5.4 nano sont disponibles dès aujourd'hui, y compris dans Microsoft Foundry, ce qui permet aux équipes de les évaluer dans le catalogue de modèles et de déployer l'option adaptée à chaque charge de travail. Cette disponibilité simultanée sur Azure constitue un signal important visant l’écosystème Microsoft et l'intégration de modèles OpenAI dans des pipelines Azure AI Foundry.

Les deux modèles sont également intégrés à Codex, l'environnement de développement assisté d'OpenAI, où mini est disponible dans l'application, l'interface en ligne de commande, l'extension IDE et le web. Pour les équipes qui utilisent Codex comme copilote de développement, la disponibilité de mini dans tous les points d'accès réduit les problèmes liés aux changements de modèle selon le contexte de travail. La cadence de publication d'OpenAI soulève néanmoins une question pour les DSI : comment intégrer une stratégie de modèles dans une gouvernance IT cohérente quand les références disponibles évoluent à un rythme hebdomadaire, et quand chaque nouvelle génération implique une réévaluation budgétaire que les cycles de planification annuels ne sont pas conçus pour absorber.