Utilisables avec la plateforme Einstein 1 de Salesforce, les clients peuvent choisir parmi les LLM existants ou apporter leurs propres modèles pour répondre à leurs besoins commerciaux. En utilisant le banc d'essai, ils peuvent sélectionner des modèles adaptés à leurs cas d'utilisation du CRM. Les entreprises peuvent déployer des solutions d'IA générative plus conformes à leurs besoins. La plateforme Einstein 1 est conçue pour intégrer de manière fluide des modèles de langage tiers grâce à une architecture modulaire. Elle comporte des outils pour orchestrer et gérer les modèles de langage. Les entreprises peuvent déployer, évaluer et ajuster les LLM selon leurs besoins, tout en surveillant les performances et en gérant les mises à jour des modèles.
La plateforme utilise ensuite des connecteurs pour intégrer des données provenant de diverses sources CRM, garantissant que les LLM disposent des informations nécessaires pour fournir des réponses contextuellement pertinentes. Les données client sont prétraitées et transformées via des pipelines de traitement des données. Ces pipelines s'assurent que les données sont formatées correctement et optimisées pour une utilisation par les LLM. Einstein 1 intègre en outre des mécanismes de sécurité avancés pour garantir la confidentialité et l'intégrité des données. Cela inclut le chiffrement des données, la gestion des accès et la conformité aux réglementations sur la confidentialité des données.
Quatre critères d’évaluation
Ce banc d'essai complet évalue la performance des LLM selon quatre critères : la précision, le coût, la vitesse, et la confiance et la sécurité. La précision comprend la factualité, l'exhaustivité, la concision et l'alignement sur les instructions. Ce critère examine à quel point les réponses générées sont correctes, complètes, directes et conformes aux directives données. Le coût est évalué en termes de ressources nécessaires pour exécuter les modèles. Il est classé sur trois niveaux (haut, moyen, bas) en fonction de l'utilisation des ressources nécessaires pour exécuter les modèles.La vitesse mesure le temps de réponse des modèles, un aspect crucial pour les applications nécessitant des réponses en temps réel. Une réponse rapide est essentielle pour maintenir l'efficacité et la fluidité des interactions utilisateur. Enfin, le critère Confiance et sécurité inclut des aspects tels que la sécurité, la confidentialité, la véracité et l'équité des réponses générées. Il est fondamental pour s'assurer que les informations fournies sont sûres, privées et équitables, renforçant ainsi la confiance des utilisateurs dans le système.
Le benchmark de Salesforce est conçu pour évaluer des cas d'utilisation courants dans la gestion des ventes et des services clients, tels que la prospection, la gestion des leads, les opportunités commerciales et les résumés de cas clients. Un classement public est également disponible pour aider les professionnels à choisir le LLM le mieux adapté à leurs besoins CRM. Salesforce prévoit d'intégrer de nouveaux scénarios d'utilisation et d'améliorer continuellement l'évaluation des LLM, incluant bientôt des LLM ajustés.