Selon SnowFlake, son équipe de recherche en IA, en collaboration avec DeepSpeed, Hugging Face, vLLM, et la communauté de l’IA au sens large, « a optimisé Llama 3.1 405B pour l’inférence et l’affinage, supportant une fenêtre de contexte de 128K, tout en permettant une inférence en temps réel avec une latence réduite, jusqu’à trois fois inférieure, et un débit 1,4 fois supérieur aux solutions open source existantes ».
De plus, elle permet l’affinage sur le modèle massif en utilisant un seul nœud GPU, réduisant ainsi les coûts et la complexité pour les développeurs et les utilisateurs, le tout dans Cortex AI.
Réduire la taille des modèles sans perte de performances
Le fine-tuning et l’inférence des grands modèles, tels que Llama 3.1 405B de Meta, posent des défis significatifs en raison de leur taille énorme et de leurs exigences en mémoire. Snowflake a développé une série d’optimisations permettant le fine-tuning de modèles de plus de 400 milliards de paramètres sur de petits clusters multinœuds ou même sur un seul hôte 8 x H100-80Go.Pour surmonter les contraintes de mémoire, Snowflake utilise l’adaptation à faible rang (LoRA) pour réduire la taille des modèles tout en maintenant leur performance. La quantification en 8 bits flottants (FP8) est également appliquée pour diminuer les besoins en mémoire et en calcul. Les ingénieurs de SnowFlake ont également parallélisé les pipelines, une technique qui permet de maximiser l’efficacité des calculs en répartissant les tâches de manière optimale entre les différentes unités de traitement.
La gestion optimisée de la mémoire inclut des techniques telles que le checkpointing des activations, qui sauvegarde les états intermédiaires pour réduire l’utilisation de mémoire pendant l’entraînement. De plus, le déchargement ciblé des paramètres sur le CPU permet de gérer les ressources de manière plus efficace, surtout lorsque les GPU
ne sont pas utilisés.
Atteindre une inférence à faible latence
« Nous ne nous contentons pas d’apporter les modèles de pointe de Meta directement à nos clients via Snowflake Cortex AI. Nous dotons les entreprises et la communauté de l’IA de nouvelles recherches et de codes open source qui supportent des fenêtres de contexte de 128K, l’inférence multinœuds, le parallélisme de pipeline, la quantification en virgule flottante 8 bits, et plus encore, pour faire progresser l’IA pour l’écosystème plus large »,a déclaré Vivek Raghunathan, VP de l’ingénierie en IA chez Snowflake.
L’échelle massive des modèles et les exigences en mémoire posent des défis significatifs pour les utilisateurs cherchant à atteindre une inférence à faible latence pour des cas d’utilisation en temps réel, un débit élevé pour l’efficacité en termes de coûts, et un support de contexte long pour divers cas d’utilisation de l’IA générative en entreprise.
Les exigences de mémoire pour stocker les états de modèle et d’activation rendent également l’affinage extrêmement difficile, les grands clusters de GPU nécessaires pour adapter les états de modèle pour l’entraînement étant souvent inaccessibles aux scientifiques des données.
Pipelines parallélisés et mémoire optimisée
En utilisant des techniques de parallélisme avancées et des optimisations de mémoire, Snowflake permet un traitement rapide et efficace de l’IA, sans avoir besoin d’une infrastructure complexe et coûteuse. Pour Llama 3.1 405B, la pile de systèmes de Snowflake offre des performances en temps réel et à haut débit sur un seul nœud GPU et supporte des fenêtres de contexte massives de 128K sur des configurations multinœuds.De plus, les scientifiques des données peuvent affiner Llama 3.1 405B en utilisant des techniques de précision mixte sur moins de GPU, éliminant ainsi le besoin de grands clusters de GPU. En conséquence, les organisations peuvent adapter et déployer facilement, efficacement et en toute sécurité des applications d’IA générative
de niveau entreprise.
L’équipe de recherche en IA de Snowflake a également développé une infrastructure optimisée pour l’affinage, incluant la distillation de modèles, des garde-fous de sécurité, la génération augmentée de récupération (RAG), et la génération de données synthétiques, afin que les entreprises puissent facilement commencer avec ces cas d’utilisation dans Cortex AI.
La sécurité de l’IA est d’une importance capitale pour Snowflake et ses clients. Par conséquent, Snowflake rend Snowflake Cortex Guard généralement disponible pour protéger contre les contenus nuisibles pour toute application ou actif LLM construit dans Cortex AI, qu’il s’agisse des derniers modèles de Meta ou des LLMs disponibles auprès d’autres fournisseurs, y compris AI21 Labs, Google, Mistral AI, Reka, et Snowflake lui-même. Cortex Guard utilise Llama Guard 2 de Meta, débloquant ainsi une IA de confiance pour les entreprises afin qu’elles puissent s’assurer que les modèles qu’elles utilisent
sont sûrs.