Détection d’anomalie

Le but de la détection d’anomalie est de repérer des données qui ne sont pas conformes à ce à quoi l’on peut s’attendre par rapport aux autres données.

Il s’agit, par exemple, de données qui ne suivent pas le même schéma ou qui sont atypiques pour la distribution de probabilité observée. La difficulté du problème provient de la nature même de la distribution sous-jacente de l’ensemble des données. C’est à l’algorithme d’apprendre une métrique appropriée pour détecter les anomalies. Parmi les exemples d’applications courantes, citons les transactions bancaires (où une anomalie sera vue comme une fraude potentielle), la surveillance des données physiologiques d’un malade (l’anomalie est un problème de santé possible), ou encore la détection de défauts dans des chaines de production. La détection d’anomalie est souvent un problème d’apprentissage de type non supervisé. Les algorithmes typiques de détection d’anomalie sont les one-class SVM, les méthodes d’apprentissage de distribution bayésienne et les random forests.