Atelier sur le nettoyage et l’exploration de données

29-30 janvier 2020 | MONTRÉAL

À propos

Mise en contexte

OpenRefine est un projet ouvert permettant le nettoyage et la bonification des données. Outil incontournable du scientifique de données, il permet de conserver le fichier original intact, de garder une trace des manipulations sur les données, d’annuler une modification facilement, de sauvegarder des routines et de les appliquer à d’autres fichiers.

Dans cette formation, vous apprendrez à utiliser le logiciel et à créer des routines réutilisables sur d’autres fichiers. Vous vous familiariserez aussi avec l’exploration des données ainsi que certaines bonnes pratiques en manipulations de données.

Cette formation vous permettra aussi d’effectuer une analyse de données de base, du chargement des données dans Python à une visualisation finale. Pour ce faire, vous découvrirez notamment les bibliothèques Pandas et une bibliothèque de visualisation telle que Matplotlib ou Plotnine. L’analyse des données se limite à la sélection de certaines entrées, à la transformation temporaire des données, au calcul de statistiques simples et à l’automatisation de tout ce processus d’analyse.

Objectifs

  • Exploration et traitement de données avec Python et Pandas
  • Nettoyage de données avec OpenRefine

Format

Atelier avec explications magistrales et applications pratiques en simultané et interactif.

Public cible

Cette formation s’adresse à un public large mais est surtout façonnée pour des professionnels de métier ayant un Baccalauréat en Sciences et des connaissances mathématiques. Par exemple des analystes financiers, chercheur·e·s bio-médicaux, ingénieur·e·s et des statisticien·ne·s du gouvernement…

Pré-requis

Il est essentiel d’avoir des bases de programmation, préférablement en Python pour pouvoir suivre cette formation.

Besoins particuliers

Ordinateur portable avec un navigateur web et le logiciel OpenRefine installé -> http://openrefine.org/

Langues

Formation : français
Matériel : anglais

Emplacement

HEC Montréal

Édifice Côte-Sainte-Catherine
3000, chemin de la Côte-Sainte-Catherine
Montréal (Québec) H3T 2A7

Contenu additionnel et références

Organisateur·trice·s

Contact : formations@ivado.ca

Inscription

  • Général : 800 $
  • Étudiant·e·s : 400 $ (sur présentation d’une preuve d’inscription à une université reconnue)

*Le prix comprend les repas et les pauses-café

Conférencier·ère·s


Pier-Luc St-Onge
Analyste scientifique
Calcul Québec


Julie Faure-Lacroix
Agente de liaison scientifique
Calcul Québec

Programme

Heures de la formation : de 9h à 16h30

  • Nettoyage de données avec OpenRefine
  • Filtres et “facetting”
  • Transformations communes
  • Identification et correction de mauvaises entrées et erreurs de frappe
  • Utilisation du langage GREL
  • Automatisation des modifications
  • Réconciliation des données
  • Bonification de données (API)

Heures de la formation : de 9h à 16h30

  • Exploration et traitement de données avec Python et Pandas
  • Lecture et sélection de données
  • Statistiques descriptives
  • Types de données
  • Combinaison de jeux de données
  • Flux de données et automatisation
  • Visualisation de données avec Python
  • Intégration de Python et bases de données relationnelles