Apprentissage statistique avancé

Objectifs du cours

Comprendre les fondements mathématiques des principaux algorithmes d’apprentissage statistique supervisé.
Apprendre à mettre en œuvre ces algorithmes sur des données réelles, à analyser leurs résultats, et comparer leurs performances.

Introduction : statistique, machine learning et intelligence artificielle.
Apprentissage statistique supervisé : modèle et définitions.
Estimation de risque et approches de rééchantillonnage (validation croisée - hold out, leave-one-out, V-fold ; bootstrap).
Régularisation et convexification du risque.
Méthodes basées sur les moyennes locales : algorithmes des plus proches voisins, noyaux d’approximation ou de lissage, partitions.
Méthodes à noyaux : SVM, SVR.
Méthodes d’agrégation ou méthodes d’ensemble : bagging, forêts aléatoires, boosting.
Mesures d’importance des variables.
Réseaux de neurones artificiels : introduction. Cette partie sera approfondie dans le cours d’apprentissage profond.

De bonnes bases en statistique inférentielle, en particulier en régression linéaire et en analyse discriminante par arbres de décision.
De bonnes notions de programmation avec R.

G. Biau, L. Devroye, Lectures on the Nearest Neighbor Method, Springer, 2015.
N. Cristianini and J. Shawe-Taylor, An introduction to support vector machines. Cambridge University Press, Cambridge, UK, 2000.
L. Devroye, L. Györfi, and G. Lugosi, A Probabilistic Theory of Pattern Recognition. Springer, New York, 1996.
T. Hastie, R. Tibshirani, and J. Friedman, The elements of statistical learning. Springer, New York, 2001.* L. Györfi, M. Kohler, A. Krzyzak, and H. Walk, A distribution-free theory of non-parametric regression. Springer, New York, 2002.
B. Schölkopf and A. Smola. Learning with Kernels. MIT Press, Cambridge, MA, 2002.
V. Vapnik, Statistical Learning Theory. John Wiley, 1998.