co-localisés dans les Amazon EC2 UltraClusters, qui sont conçus pour des charges de travail ML haute performance. Les clients peuvent utiliser la solution avec des instances P5, alimentées par les derniers GPU Tensor Core H100 de Nvidia, en spécifiant la taille de leur cluster, la date de début future et la durée.
Le nouveau modèle permet aux clients d’aborder certaines demandes temporaires de capacités d’inférence pour leurs charges de travail ML, en particulier celles qui nécessitent de grandes quantités de puissance de calcul, comme l'IA générative, les modèles de fondation (FM) et les grands modèles de langage (LLM). Ces charges de travail nécessitent généralement des grappes de GPU capables de traiter d'énormes ensembles de données et de former des modèles complexes. Cependant, les clients peuvent avoir du mal à trouver des clusters GPU disponibles qui répondent à leurs besoins, ou ils peuvent finir par payer pour une capacité GPU qu'ils n'utilisent pas pleinement ou fréquemment.
Réserver des capacités de calcul pour de courtes durées
Avec EC2 Capacity Blocks, les clients peuvent réserver la quantité de capacité GPU dont ils ont besoin pour de courtes durées, allant de un à 14 jours, jusqu'à huit semaines à l'avance. Ils peuvent également choisir parmi différentes tailles de cluster, de une à64 instances (512 GPU), ce qui leur donne la flexibilité d'exécuter un large éventail de charges de travail ML. Les clients peuvent bénéficier des performances élevées et de l'évolutivité des EC2 UltraClusters, qui sont interconnectés avec le réseau à l'échelle du pétabit de deuxième génération Elastic Fabric Adapter (EFA), offrant une connectivité à faible latence et à haut débit. Les clients peuvent également tirer parti du moteur de transformation dédié sur les GPU H100, qui peut accélérer les grands modèles de langage 30 fois plus rapidement que la génération précédente.
Les EC2 Capacity Blocks sont idéaux pour les clients qui souhaitent terminer la formation et le réglage fin de leurs modèles ML, effectuer de courtes séries d'expérimentations ou gérer des pics temporaires de capacités d'inférence. Une fois qu'un bloc de capacité EC2 est programmé, les clients peuvent planifier leurs déploiements de charges de travail ML avec certitude, sachant qu'ils auront la capacité GPU dont ils ont besoin. Les clients ne paient que pour la quantité de temps qu'ils réservent, et ils peuvent utiliser la console de gestion AWS, l'interface de ligne de commande ou le SDK pour trouver et réserver des blocs de capacité disponibles.
Une offre qui distingue AWS de ses concurrents
Le nouveau modèle est une offre qui distingue AWS de ses concurrents sur le marché du cloud, tels que Google Cloud Platform, Microsoft Azure, IBM Cloud et Oracle Cloud. Ces concurrents proposent également des solutions basées sur GPU pour les charges detravail ML, mais ils ne fournissent pas le même niveau de flexibilité, de prévisibilité et d'efficacité des coûts que les EC2 Capacity Blocks.
En proposant aux clients une nouvelle façon de consommer des capacités de calcul GPU, AWS leur permet d'accélérer leurs projets ML, de réduire leurs coûts et d'atteindre leurs objectifs commerciaux. EC2 Capacity Blocks pour ML est disponible aux États-Unis dans la région AWS US East. AWS n’a pas précisé de date de disponibilité générale.