Variance

La variance est une des deux erreurs utilisée pour définir la qualité d’un algorithme d’apprentissage (l’autre étant le biais).

Les algorithmes d’apprentissage tentent d’approcher la relation exacte entre des variables d’entrée et de sortie d’un problème, le « vrai modèle » en quelques sortes. Il peut être tentant d’utiliser le modèle le plus complet et complexe possible afin d’être sûr de capturer toutes les subtilités d’un problème. Malheureusement les données sont souvent bruitées, c’est à dire altérées par la présence d’un signal aléatoire de faible intensité (ce qu’on appelle le bruit).

Ce bruit ne contient aucune information et il ne peut pas être séparé des données. À titre d’exemples, citons le bruit blanc dans un signal audio ou les bruits d’image qui altèrent la valeur des pixels. Dès lors, utiliser un modèle trop compliqué revient à essayer d’apprendre la structure du bruit – une structure qui n’existe pas -, ce qui donne lieu à de piètres performances (comme de l’Overfitting, un phénomène qui peut être partiellement contrôlé par la « Régularisation » en équilibrant les erreurs de biais et variance).

On dit aussi que la variance représente la « distance » entre le vrai modèle pour la famille de modèles considérés et la solution à laquelle l’algorithme est arrivé. Cette erreur est fortement influencée par la complexité du modèle, celle du bruit, et la quantité de données disponibles. Comme le biais, la variance n’est jamais nulle sauf dans des « problèmes jouets »1, ces problèmes  inventés, très simples, où tout est connu (solution, bruit, vrai modèle, etc.). Elle peut être très élevée si le modèle est beaucoup trop compliqué par rapport au  bruit et au nombre de données : ce serait le cas, par exemple, si on essayait de prédire le résultat du loto – qui est purement aléatoire, donc très fortement bruité – en utilisant les résultats des semaines précédentes et un réseau de deep learning avec de nombreuses couches.