Groupe de Travail de l'équipe “Probabilités & Statistiques de l'Institut Élie Cartan (Nancy)
18 & 25 septembre 2014 : Rémi Peyre
Le principe MDL
Rasoir d'Ockham & Statistique

Le principe philosophique dit du « rasoir d'Ockham » énonce : « entre deux explications concurrentes, il est raisonnable de retenir la plus simple ». Le principe MDL (Minimum Description Length) est une transcription mathématique de cet adage. Quoiqu'initialement développé par des informaticiens, ce principe a d'importantes applications en statistique : aux yeux de l'orateur, tout statisticien devrait le connaitre !...

L'idée fondamentale du principe MDL est ainsi, en substance, de décrire les données observées de la façon la plus compacte possible. Considérons par exemple une situation de sélection de modèle où on hésite entre deux modèles de lois de probabilités pour décrire des données. Le principe MDL nous dit alors qu'il faut non seulement “coller” aux données en réduisant le bruit (et donc la complexité de la description de celui-ci), mais qu'il faut aussi de tenir compte de la complexité de la description des paramètres... La grande force de ce principe pour la sélection de modèle est qu'il élimine intrinsèquement tout risque de surapprentissage !

Dans le cas mentionné ci-dessus, le principe MDL conduit essentiellement à une sélection de modèle par maximum de vraisemblance pénalisée par le critère BIC. Mais ce principe va beaucoup plus loin que cela : bien plus qu'une méthode statistique, c'est d'abord une philosophie dont l'aspect le plus révolutionnaire est de ne pas partir de l'hypothèse que les observations qu'on fait sont effectivement générées par une certaine loi de probabilité !! Cette philosophie aboutit à une grande variété de méthodes (par description des paramètres, par approche bayésienne, par maximum de vraisemblance normalisé, par apprentissage séquentiel, ...) et de champs d'applications: sélection de modèle comme dit, mais aussi estimation (paramétrique ou non), prédiction, apprentissage, ...

Le but de ces exposés sera donc de présenter un aperçu de ce principe MDL. Notre exposition nous fera également découvrir les liens profonds qui existent entre compression de l'information, apprentissage et prédiction; ainsi qu'entre description d'un phénomène et loi de probabilité à priori.

Références