Le GAP d’Arthur, qui sera régulièrement mis à jour, est un exemple des capacités de Bench. Il met en lumière les forces et les faiblesses des modèles des leaders de l’industrie. Selon les recherches de GAP, Anthropic se taille une niche face au GPT-4 d’OpenAI, notamment en termes de fiabilité spécifique à certains domaines. Par exemple, alors que le GPT-4 est plus performant dans les questions mathématiques, Claude-2 montre une plus grande fiabilité dans des contextes historiques en évitant des erreurs factuelles et en fournissant des réponses plus nuancées comme « Je ne sais pas. »
Prolifération d’outils pour former les LLM
Le lancement d’Arthur Bench survient à un moment où le marché des grands modèles de langage est en plein essor, tant en termes d’innovation que de demande. Des fournisseurs ont déjà lancé des produits visant à permettre aux entreprises de former et de mettre en œuvre ces modèles plus facilement, comme Nutanix avec « GPT-in-a-Box » par exemple. Selon un rapport de CB Insights, le marché des LLM a connu une croissance soutenue ces derniers mois, en partie grâce à des applications alimentées par les LLM comme ChatGPT, qui a atteint près d’un milliard d’utilisateurs actifs mensuels depuis son lancement en novembre 2022. Le rapport indique également que les développeurs de LLM ont levé près de 12 milliards de dollars de fonds propres depuis le début de l’année, soit 12 fois plus que l’année dernière, dans le cadre de 10 transactions seulement. La prolifération de tels outils souligne la nécessité croissante d’un cadre d’évaluation permettant aux organisations de jauger la performance et l’acuité de ces modèles.Dans ce paysage de l’IA en évolution rapide, Arthur Bench fournit une métrique pour que les entreprises puissent comparer les LLM. L’outil aide à garantir que les organisations peuvent sélectionner un modèle qui est le mieux adapté en termes de performances et d’applications. Bench peut effectuer une suite complète de mesures, y compris l’évaluation de la qualité du résumé, celle des hallucinations, et permet aux entreprises de créer et d’ajouter leurs propres critères à mesurer grâce au code ouvert. Bench dispose également d’une interface utilisateur intuitive qui permet aux entreprises d’effectuer et de comparer rapidement et facilement des essais et de visualiser les performances de différents LLM.
Arthur Bench permet en outre une analyse coût-bénéfice, montrant par exemple aux entreprises que pour des tâches plus simples, comme les réponses automatisées au service client, un modèle moins coûteux pourrait suffire. L’outil donne également la possibilité d’exécuter certains modèles en interne, offrant un meilleur contrôle sur la confidentialité des données. Pour des évaluations spécifiques, l’outil permet d’appliquer des critères académiques standard tels que l’équité ou le biais dans l’évaluation des LLM, en traduisant ces éléments en implications dans le monde réel.