Natural Language Processing

Objectifs

L’objectif est de former les étudiants aux méthodes de traitement automatique du langage naturel.

Descriptif

Fouille de texte : Natural Language Processing (NLP)

  • préparation du corpus (tokenisation, racinisation, étiquetage grammatical, lemmatisation)
  • reconnaissance des entités nommées
  • représentation du corpus sous forme d’une matrice documents x termes
  • méthodes de plongement de mots (word embedding) : Word2Vec…
  • application aux problèmes de classement de textes
  • analyse de thématiques (topic modeling)
  • analyse de sentiments
  • méthodes de deep learning : réseaux récurrents, modèles transformateurs (BERT)

Pré-requis

  • connaissance de l’analyse factorielle
  • principes et pratique du machine learning
  • programmation en Python et/ou R

Références Bibliographiques

  • Un ouvrage axé sur l’analyse des données classique : Ludovic Lebart, Bénédicte Pincemin, Céline Poudat (2019). Analyse des données textuelles, Presses de l’Université du Québec. Les codes Python de l’ouvrage sont téléchargeables ici : http://www.dtmvic.com/07_Python_Text_F.html Les codes R de l’ouvrage sont téléchargeables ici : http://www.dtmvic.com/07_R_F.html

  • Deux ouvrages axés sur les méthodes de deep learning appliquées au NLP : Hobson Lane, Cole Howard, Hannes Max Hapke (2019). Natural Language Processing in Action: Understanding, analyzing, and generating text with Python. Manning Paul Azunre (2021). Transfer Learning for Natural Language Processing. Manning

Les ouvrages cités dans le cours de deep learning consacrent tous au moins un chapitre au NLP.