29-30 janvier 2020 | MONTRÉAL
À propos
Mise en contexte
OpenRefine est un projet ouvert permettant le nettoyage et la bonification des données. Outil incontournable du scientifique de données, il permet de conserver le fichier original intact, de garder une trace des manipulations sur les données, d’annuler une modification facilement, de sauvegarder des routines et de les appliquer à d’autres fichiers.
Dans cette formation, vous apprendrez à utiliser le logiciel et à créer des routines réutilisables sur d’autres fichiers. Vous vous familiariserez aussi avec l’exploration des données ainsi que certaines bonnes pratiques en manipulations de données.
Cette formation vous permettra aussi d’effectuer une analyse de données de base, du chargement des données dans Python à une visualisation finale. Pour ce faire, vous découvrirez notamment les bibliothèques Pandas et une bibliothèque de visualisation telle que Matplotlib ou Plotnine. L’analyse des données se limite à la sélection de certaines entrées, à la transformation temporaire des données, au calcul de statistiques simples et à l’automatisation de tout ce processus d’analyse.
Objectifs
- Exploration et traitement de données avec Python et Pandas
- Nettoyage de données avec OpenRefine
Format
Atelier avec explications magistrales et applications pratiques en simultané et interactif.
Public cible
Cette formation s’adresse à un public large mais est surtout façonnée pour des professionnels de métier ayant un Baccalauréat en Sciences et des connaissances mathématiques. Par exemple des analystes financiers, chercheur·e·s bio-médicaux, ingénieur·e·s et des statisticien·ne·s du gouvernement…
Pré-requis
Il est essentiel d’avoir des bases de programmation, préférablement en Python pour pouvoir suivre cette formation.
Besoins particuliers
Ordinateur portable avec un navigateur web et le logiciel OpenRefine installé -> http://openrefine.org/
Langues
Formation : français
Matériel : anglais
Emplacement
HEC Montréal
Édifice Côte-Sainte-Catherine
3000, chemin de la Côte-Sainte-Catherine
Montréal (Québec) H3T 2A7
Contenu additionnel et références
- Rudiments de programmation (tutoriel de mise à niveau au besoin -> http://swcarpentry.github.io/python-novice-inflammation/01-intro/index.html)
- Rudiments de ligne de commande (tutoriel de mise à niveau au besoin -> http://swcarpentry.github.io/python-novice-inflammation/)
Organisateur·trice·s
- Maxime Boissonneault, Calcul Québec
- Nathalie Sanon, IVADO
Contact : formations@ivado.ca
Inscription
- Général : 800 $
- Étudiant·e·s : 400 $ (sur présentation d’une preuve d’inscription à une université reconnue)
*Le prix comprend les repas et les pauses-café
Conférencier·ère·s
Pier-Luc St-Onge
Analyste scientifique
Calcul Québec
Julie Faure-Lacroix
Agente de liaison scientifique
Calcul Québec
Programme
Heures de la formation : de 9h à 16h30
- Nettoyage de données avec OpenRefine
- Filtres et “facetting”
- Transformations communes
- Identification et correction de mauvaises entrées et erreurs de frappe
- Utilisation du langage GREL
- Automatisation des modifications
- Réconciliation des données
- Bonification de données (API)
Heures de la formation : de 9h à 16h30
- Exploration et traitement de données avec Python et Pandas
- Lecture et sélection de données
- Statistiques descriptives
- Types de données
- Combinaison de jeux de données
- Flux de données et automatisation
- Visualisation de données avec Python
- Intégration de Python et bases de données relationnelles