Apprentissage statistique avancé
Objectifs du cours
- Comprendre les fondements mathématiques des principaux algorithmes d’apprentissage statistique supervisé.
- Apprendre à mettre en œuvre ces algorithmes sur des données réelles, à analyser leurs résultats, et comparer leurs performances.
Contenu du cours
- Introduction : statistique, machine learning et intelligence artificielle.
- Apprentissage statistique supervisé : modèle et définitions.
- Estimation de risque et approches de rééchantillonnage (validation croisée - hold out, leave-one-out, V-fold ; bootstrap).
- Régularisation et convexification du risque.
- Méthodes basées sur les moyennes locales : algorithmes des plus proches voisins, noyaux d’approximation ou de lissage, partitions.
- Méthodes à noyaux : SVM, SVR.
- Méthodes d’agrégation ou méthodes d’ensemble : bagging, forêts aléatoires, boosting.
- Mesures d’importance des variables.
- Réseaux de neurones artificiels : introduction. Cette partie sera approfondie dans le cours d’apprentissage profond.
Prérequis
- De bonnes bases en statistique inférentielle, en particulier en régression linéaire et en analyse discriminante par arbres de décision.
- De bonnes notions de programmation avec R.
Bibliographie
- G. Biau, L. Devroye, Lectures on the Nearest Neighbor Method, Springer, 2015.
- N. Cristianini and J. Shawe-Taylor, An introduction to support vector machines. Cambridge University Press, Cambridge, UK, 2000.
- L. Devroye, L. Györfi, and G. Lugosi, A Probabilistic Theory of Pattern Recognition. Springer, New York, 1996.
- T. Hastie, R. Tibshirani, and J. Friedman, The elements of statistical learning. Springer, New York, 2001.* L. Györfi, M. Kohler, A. Krzyzak, and H. Walk, A distribution-free theory of non-parametric regression. Springer, New York, 2002.
- B. Schölkopf and A. Smola. Learning with Kernels. MIT Press, Cambridge, MA, 2002.
- V. Vapnik, Statistical Learning Theory. John Wiley, 1998.