Malgré les prévisions selon lesquelles le phishing serait révolu d'ici 2025, le rapport Verizon 2025 Breach Report révèle qu'il représente encore environ 16 % des points d'entrée des violations. Sa prévalence persistante peut être attribuée à la relative facilité avec laquelle les cybercriminels peuvent lancer des attaques de phishing. L'objectif du phishing est souvent de compromettre les identifiants et les jetons de session, permettant ainsi aux attaquants d'usurper l'identité des utilisateurs et d'accéder sans autorisation aux systèmes ou aux données sensibles. Une fois l'accès obtenu, les attaquants peuvent se faire passer pour des utilisateurs légitimes et se déplacer latéralement dans les systèmes, mettant ainsi en péril les données et les opérations sensibles. Les défenseurs doivent explorer les moyens de détecter rapidement les piratages de session afin de prévenir l'utilisation abusive des identifiants et le vol des jetons de session.



Bien que des technologies performantes existent pour détecter et prévenir les tentatives potentielles de détournement de session utilisateur, elles sont souvent défaillantes, ne parviennent pas à identifier les cas limites et laissent des failles de protection. Nous pouvons potentiellement compter sur des détections basées sur des signaux pour détecter ces attaques à un stade ultérieur, mais cette approche n'est ni rapide ni garantie. 

Face à ces défis, il devient impératif d'explorer d'autres pistes de détection. Parmi ces pistes, la science des données peut être exploitée pour créer des modèles efficaces de détection des détournements de session, pouvant dépasser les signaux traditionnels et détecter plus efficacement les activités malveillantes.

Utiliser la science des données pour détecter le détournement de session : une approche de modélisation comportementale

Combiner modélisation comportementale et analyse longitudinale pour la détection des anomalies permet détecter efficacement le détournement de session. L'objectif est d'identifier les anomalies rares et suspectes que les méthodes de détection traditionnelles peuvent négliger. Voici comment fonctionne le processus :
  1. Définition d'un comportement de session suspect

Pour détecter un éventuel détournement de session, nous déterminons d'abord les comportements ou propriétés qui restent généralement statiques au cours de la session d'un utilisateur, comme l'agent utilisateur, l'adresse IP, l'ASN ou la localisation. Pour une plus grande précision et un volume réduit, la construction d'une variable composite binaire indiquant une modification de plusieurs propriétés peut être utile. Ce phénomène est probablement très rare.
  1. Quantification des anomalies avec des scores de probabilité

Une fois le comportement étudié défini, il faut quantifier son caractère inattendu. Une méthode consiste à estimer la probabilité de ce comportement particulier. Par exemple, en cas de changements anormaux de géolocalisation, nous pouvons créer une variable représentant le pourcentage d'événements liés à un lieu particulier, comme une ville, un État ou un pays. Cette variable représente la probabilité empirique qu'un événement soit associé à ce lieu. Selon le type de comportement anormal étudié, ce calcul peut être effectué au niveau du compte ou de l'organisation. De très faibles probabilités indiquent des anomalies potentielles qui méritent d'être étudiées plus en détail. 

Il existe différentes approches pour combiner plusieurs variables en un seul score de gravité. La méthode la plus appropriée dépend des données, notamment de la structure de corrélation supposée, ainsi que de l'objectif de l'analyste. Par exemple, l'analyste peut souhaiter signaler tous les événements présentant au moins un faible score ou, à l'inverse, écarter ceux présentant un seul score élevé. Dans la littérature statistique, c'est essentiellement la distinction entre le taux d'erreur par famille et le taux de fausses découvertes. Quelle que soit l'approche utilisée, le principe de base est d'agréger plusieurs variables, chacune représentant un type différent de comportement anormal, en un score unique et combiné représentant l'anomalie globale d'un événement pour chacune de ces dimensions. Ce score unique peut être utilisé pour classer les événements seuils selon leur gravité.
  1. Ajout d'un contexte temporel avec des données longitudinales

Une approche distincte, mais complémentaire, consiste à analyser les comptes au fil du temps, ce qui permet de distinguer les comportements anormaux fréquents des comportements réellement anormaux. L'analyse temporelle de l'activité des comptes est essentielle pour identifier les écarts par rapport à un comportement normal. 
  1. Détection des sessions à haut risque grâce à la notation combinée

À ce stade, sont calculés des scores d'anomalie individuels pour plusieurs propriétés de session, telles que l'adresse IP, l'agent utilisateur et l'appareil, en fonction de leur rareté ou de leur caractère inattendu par rapport au comportement historique de l'utilisateur. Pour identifier les événements à haut risque, il faut combiner ces scores en un score d'anomalie unique et agrégé qui reflète la gravité globale de l'écart de session.

L’approche générale permet d'identifier uniquement les événements les plus préoccupants, tels que ceux présentant des anomalies sur de nombreuses propriétés. Dans le cadre de la détection des détournements de session, les méthodes statistiques, telles que l'analyse de données à long terme (LDA) et les approches probabilistes pour la notation des anomalies, contribuent à réduire le volume d'événements et à hiérarchiser les incidents par gravité, permettant ainsi aux équipes de sécurité de se concentrer sur les menaces les plus préoccupantes.

La science des données n'est pas un luxe : c'est un outil indispensable pour tout défenseur. Les adversaires doivent s'adapter. Nous aussi.

Par Thomas Manierre, directeur EMEA Sud de BeyondTrust