Outils numériques pour les bases de données à large échelle

Descriptif

Pour analyser des données de grande taille, nous avons besoin de machines spécifiques, mais aussi de bibliothèques particulières spécialement développées pour gérer tous les contenus qui ne pourront pas être stockés dans la mémoire vive et/ou le disque dur de votre ordinateur personnel.

La première partie du cours montre les possibilités du langage Python pour paralléliser des programmes. Nous nous intéressons ensuite à la bibliothèque Hadoop qui permet de stocker et analyser des données de grand volume. Les possibilités de Hadoop en analyse de données sont réduites et nous verrons deux bibliothèques permettant d’aller plus loin.

  • Dask est une bibliothèque pour le calcul parallèle en Python composée de deux parties :

    • Gestion dynamique des tâches optimisée pour le calcul.
    • Manipulation de tableaux parallèles “Big Data”, Dask étend les interfaces communes comme NumPy, Pandas ou les itérateurs Python sur des données de grand volume.
  • Spark est un framework open source de calcul distribué similaire à Dask. Il est composé d’outils développés dans le langage Scala appelable depuis Python. Il permet également d’effectuer des analyses complexes à grande échelle.