Apprentissage statistique avancé

Objectifs du cours

  • Comprendre les fondements mathématiques des principaux algorithmes d’apprentissage statistique supervisé.
  • Apprendre à mettre en œuvre ces algorithmes sur des données réelles, à analyser leurs résultats, et comparer leurs performances.

Contenu du cours

  • Introduction : statistique, machine learning et intelligence artificielle.
  • Apprentissage statistique supervisé : modèle et définitions.
  • Estimation de risque et approches de rééchantillonnage (validation croisée - hold out, leave-one-out, V-fold ; bootstrap).
  • Régularisation et convexification du risque.
  • Méthodes basées sur les moyennes locales : algorithmes des plus proches voisins, noyaux d’approximation ou de lissage, partitions.
  • Méthodes à noyaux : SVM, SVR.
  • Méthodes d’agrégation ou méthodes d’ensemble : bagging, forêts aléatoires, boosting.
  • Mesures d’importance des variables.
  • Réseaux de neurones artificiels : introduction. Cette partie sera approfondie dans le cours d’apprentissage profond.

Prérequis

  • De bonnes bases en statistique inférentielle, en particulier en régression linéaire et en analyse discriminante par arbres de décision.
  • De bonnes notions de programmation avec R.

Bibliographie

  • G. Biau, L. Devroye, Lectures on the Nearest Neighbor Method, Springer, 2015.
  • N. Cristianini and J. Shawe-Taylor, An introduction to support vector machines. Cambridge University Press, Cambridge, UK, 2000.
  • L. Devroye, L. Györfi, and G. Lugosi, A Probabilistic Theory of Pattern Recognition. Springer, New York, 1996.
  • T. Hastie, R. Tibshirani, and J. Friedman, The elements of statistical learning. Springer, New York, 2001.* L. Györfi, M. Kohler, A. Krzyzak, and H. Walk, A distribution-free theory of non-parametric regression. Springer, New York, 2002.
  • B. Schölkopf and A. Smola. Learning with Kernels. MIT Press, Cambridge, MA, 2002.
  • V. Vapnik, Statistical Learning Theory. John Wiley, 1998.