En marge du Magic Quadrant Gartner des plateformes de Data Science et de Machine Learning que nous avons publié hier, nous nous sommes intéressés aux critères retenus par le Gartner pour analyser les plateforme de Data Science.

Lire également : “Le Magic Quadrant Gartner des plateformes de Data Science et de Machine Learning

Les analystes du Gartner ont retenu 15 fonctionnalités critiques pour analyser les plateformes de Data Science qu’ils ont retenues pour composer leur Magic Quadrant. Une démarche qu’il nous a semblé intéressant de décrypter pour les porteurs de projets analytiques.

Les analystes ont commencé par définir trois scénarios de cas d'utilisation qui leur ont permis de repérer les fournisseurs à retenir :

1Accès aux données

Dans quelle mesure la plateforme prend-elle en charge l’accès à de nombreux types de données (tels que des tableaux, des images, des graphiques, des journaux, des séries chronologiques, des données audio, des textes) ?

2Préparation des données

La plate-forme dispose-t-elle d'un nombre important de fonctionnalités de préparation des données non codantes ou codantes ?

3Exploration et visualisation des données

La plate-forme permet-elle une série d'étapes exploratoires, y compris la visualisation interactive?

Puis sont venus les critères d’analyse :

4Automatisation

La plateforme facilite-t-elle l'automatisation de la génération de caractéristiques et le réglage de l'hyperparamètre ?

5Interface utilisateur

Le produit présente-t-il une "apparence" cohérente et une interface utilisateur intuitive, idéalement avec la prise en charge d'un composant de pipeline visuel ou d'une structure de composition visuelle ?

6Apprentissage automatique

Quelle est l'ampleur des approches d'apprentissage automatique facilement accessibles depuis la plate-forme, ou pré-emballées et livrées avec elle ? L'offre comprend-elle également un soutien aux approches modernes d'apprentissage automatique, telles que les techniques d'ensemble (boosting, bagging et forêts aléatoires) et l'apprentissage en profondeur (deep learning) ?

7Analyses avancées

Comment d'autres méthodes d'analyse, telles que la statistique, l'optimisation, la simulation, l'analyse de texte et l'analyse d'image, sont-elles intégrées à l'environnement de développement ?

8Flexibilité, extensibilité et ouverture

Comment intégrer différentes bibliothèques à code source libre dans la plate-forme ? Comment les utilisateurs peuvent-ils créer leurs propres fonctions ? Comment fonctionne la plate-forme avec des cahiers ?

9Performances et évolutivité

Comment contrôler les déploiements de postes de travail, de serveurs et de cloud ? Comment les configurations multicœurs et multinodes sont-elles utilisées ?

10Livraison

Dans quelle mesure la plate-forme prend-elle en charge la possibilité de créer des API ou des conteneurs (tels que le code, le format de fichier prédictif de modèle de calcul PMML, le format portable pour Analytics PFA et les applications empaquetées) pouvant être utilisés pour un déploiement plus rapide dans des scénarios commerciaux ?

11Gestion de la plate-forme et des projets

Quelles sont les fonctionnalités de gestion fournies par la plate-forme (telles que la sécurité, la gestion des ressources informatiques, la gouvernance, la gestion des versions et des versions de projets, l'audit des lignées et la reproductibilité) ?

12Gestion de modèles

Quelles sont les fonctionnalités fournies par la plateforme pour surveiller et recalibrer des centaines ou des milliers de modèles ? Cela inclut des fonctionnalités de test de modèle, telles que la validation croisée du pli K, la formation, la division et la division de test, la surface sous la courbe (AUC), la caractéristique de fonctionnement du récepteur (ROC), les matrices de perte et les modèles de test côte à côte (par exemple, test champion / challenger [A / B]).

13Solutions prédéfinies

La plate-forme offre-t-elle des solutions "prédéfinies" (par exemple, pour la vente croisée, l'analyse de réseau social, la détection de fraude, les systèmes de recommandation, la propension à acheter, la prévision des défaillances et la détection d'anomalies) pouvant être intégrées et importées via des bibliothèques, des marchés et des galeries ?

14Collaboration

Comment des utilisateurs ayant des compétences différentes travaillent-ils ensemble sur les mêmes flux de travail et projets ? Comment les projets peuvent-ils être archivés, commentés et réutilisés ?

15Cohérence

Dans quelle mesure la plate-forme est-elle intuitive, cohérente et intégrée pour prendre en charge l'intégralité d'un pipeline d'analyse de données ? La plate-forme elle-même doit fournir des métadonnées et des capacités d'intégration pour les 14 capacités précédentes.

La plateforme doit également fournir une expérience transparente de bout en bout pour rendre les data scientists plus productifs sur l'ensemble du pipeline de données et d'analyse, de l'accès aux données à la génération d'informations, en passant par la recommandation d'actions pour mesurer l'impact. Cette métacapabilité doit garantir que les formats d'entrée/sortie de données sont normalisés, dans la mesure du possible, afin que les composants aient une "apparence" cohérente et que la terminologie soit unifiée sur toute la plate-forme.