Les entreprises recherchent des data scientists. Mais pourquoi faire ? Lors de nos rencontres avec des start-up de la Silicon Valley, nous avons rencontré David Adamson, data scientist de Nimble Storage. Nous vous avons présenté Nimble Storage, fabricant d'une solution de stockage flash et disques durs (lire « Silicon Valley – Nimble Storage, la maturité du stockage flash pragmatique »). Une entreprise américaine de la Silicon Valley qui n'est déjà plus une start-up, mais qui continue d'innover à un rythme élevé. Notre rencontre a été l'occasion de découvrir les travaux du data scientist de Nimble. Un métier en devenir, qui avec l'émergence du Big Data fait l'objet de fortes attentes. Mais que fait un data scientist chez un fabricant de systèmes de stockage ?

David Adamson, data scientist

Il est jeune et il a le look américain des premiers emplois des universitaires dans une entreprise. Pantalon de toile trop large serré à la taille, sur une chemise à carreau qui découvre un tee-shirt. Et il essaie de s'exprimer avec une voix forte, alors qu'il n'en a pas besoin car ses travaux attirent l'attention. La complexité des algorithmes qu'il développe en témoigne. Et ce n'est pas tous les jours que l'on rencontre un data scientist ! David Adamson a une mission, développer un outil – qui sera prochainement disponible – pour définir et conseiller les infrastructures qui seront proposées aux clients de Nimble selon les usages (applications) qui seront pratiqués dans les organisations.

Quels volumes pour quelles applications ?

Le service s'appuie sur le service InfoSight de gestion et de support des baies via le cloud, évoqué dans notre précédant article. Trois composants d'une configuration de stockage sont passés à la loupe : le CPU (le processeur qui équipe le serveur de stockage), le SSD (disque flash) et le HDD (le disque dur). Toute la magie de l'optimisation d'une baie de stockage de données tient dans l'équilibre qui est recherché entre ces composants, et de la communication qui les relie. Les I/O (entrées/sorties) sont en effet très sollicités et représentent un goulot d'étranglement. Le fonctionnement de chacun d'entre eux doit permettre de rendre le meilleur de la performance au meilleur prix. S'ajoute à cela l'exécution des applications, dont les besoins en ressources, en particulier les I/O, varient selon les applications et leurs usages. La messagerie et le collaboratif, par exemple, sont très gourmands en ressources. L'ERP beaucoup moins mais peut présenter des pics de consommation dont il faut tenir compte pour dimensionner une configuration.

Développer des modèles mathématiques

Avec InfoSight, Nimble Storage dispose d'une base de données remarquable, qui décrit toutes les 5 minutes le fonctionnement des centaines de milliers de baies du constructeur dans le monde. Et chaque application y possède sa signature. David Adamson va s'appuyer sur cette base pour développer des modèles mathématiques spécifiques par application afin d'extrapoler le « monde réel da la donnée ». A ce niveau de l'analyse, une part d'incertitude demeure. C'est pour cela que les déviations repérées par les capteurs sont exploitées pour quantifier la partie incertaine du modèle. Les données obtenues prennent en compte ces divers critères. Quant aux résultats, ils permettent de définir les besoins en ressources selon les attentes des utilisateurs. Par exemple de dimensionner le cache SSD, ou d'identifier les moyennes à affecter aux données chaudes en cas de tiering. L'objectif de ces travaux est de permettre aux clients comme aux partenaires de Nimble de dimensionner la solution qui sera livrée afin qu'elle réponde aux attentes du client. Une tâche dont David Adamson semble s'être acquitté avec brio...