Régularisation - Data Jungle

Régularisation

Cette technique clé de machine learning vise à limiter le « surapprentissage » (overfitting) et à contrôler l’erreur de type variance pour aboutir à de meilleures performances.

Lors de l’apprentissage d’un modèle, la régularisation permet d’imposer une contrainte pour favoriser les modèles simples au détriment des modèles complexes. Autrement dit, cela permet de réduire l’erreur de type variance et d’améliorer la généralisation de la solution. Il existe de nombreuses formes de régularisation, qui dépendent de l’objectif recherché et des hypothèses fixées sur le problème. Ainsi, une régularisation de type euclidienne dans une régression des moindres carrés favorisera des coefficients faibles tandis qu’une régularisation de type lasso (utilisée lorsque le nombre de variables d’entrée est élevée) favorisera la « sparsité » de la représentation en poussant l’algorithme à ne prendre en compte qu’une petite partie des données, ignorant les autres. Pour les réseaux de neurones, les méthodes de régularisation les plus populaires sont le Dropout (les poids – paramètres du réseau de neurones – sont remplacés par zéro de manière aléatoire pendant l ‘entrainement), l’Early Stopping (l’apprentissage s’arrête plus tôt pour favoriser les modèles simples) ou la régularisation euclidienne évoquée plus haut.

De plus, la régularisation permet généralement de garantir certaines propriétés théoriques des algorithmes, assurant ainsi leurs bonnes performances, comme la stabilité ou de meilleures bornes de généralisation dans le cas des méthodes à noyaux.