Apprentissage non supervisé
A la différence de l’apprentissage supervisé, le contexte non supervisé est celui où l’algorithme doit opérer à partir d’exemples non annotés.
Il doit faire émerger automatiquement les catégories à associer aux données qu’on lui soumet pour reconnaître qu’ un chat est un chat, une voiture, une voiture comme sont capables de le faire les animaux et les humains. Le problème d’apprentissage non supervisé le plus fréquent est la segmentation (ou clustering) où l’on essaie de séparer les données en groupes (catégorie, classe, cluster…) : regrouper des images de voitures, de chats, etc. Beaucoup d’espoirs sont portés sur la détection d’anomalies pour la maintenance prédictive, la cybsersécurité, mais aussi le dépistage précoce de maladies, etc.
De manière générale, l’algorithme cherche à maximiser d’une part l’homogénéité des données au sein des groupes de données et à former des groupes aussi distincts que possible : selon le contexte, on choisit d’utiliser tel ou tel algorithme pour classer les données par exemple selon leur densité ou leur gradient de densité. Dans le cas de la détection d’anomalies, c’est plutôt le caractère extrême ou atypique des valeurs ou d’un pattern dans les données qui est recherché. La métrique sous-jacente joue un rôle clé pour déterminer ce qui est la norme et ce qui s’en éloigne.