Bourses d’excellence à la maîtrise

Prochaine ouverture prévue : Automne 2020

Programme de bourses d’excellence IVADO à la maîtrise

Engagement d’IVADO pour l’équité, la diversité et l’inclusion et note aux candidat·e·s :
Afin que l’avancement des connaissances et des opportunités dans le domaine de la science des données bénéficie équitablement à tous les membres de la société, IVADO promeut des principes d’équité, de diversité et d’inclusion à travers l’ensemble de ses programmes. IVADO s’engage à offrir un processus de recrutement et un milieu de recherche qui soient inclusifs, non discriminatoires, ouverts et transparents.

En bref

Description

FAQ

Soumission

Résultats 2018

Résultats 2019

Résultats 2020

Domaine d’étude : Le programme de financement IVADO des bourses d’excellence à la maîtrise soutient la recherche concernant les enjeux soulevés dans la demande de subvention Apogée : la science des données au sens large, incluant des recherches méthodologiques en science des données (apprentissage automatique, recherche opérationnelle, statistiques) et leurs applications dans plusieurs domaines dont les domaines prioritaires d’IVADO (la santé, le transport, la logistique, l’énergie, le commerce et la finance) ou tout autre domaine d’application (sociologie, physique, linguistique, génie, etc.).
Montant de la bourse et durée : 20 000 $ par année pour un maximum de six sessions ou deux ans
Ouverture du concours : 9 janvier 2020, 9h00 du matin HNE
Date limite de présentation de la demande : 17 février 2020, 9h00 du matin HNE
Date de notification prévue : fin mars 2020
Critères : voir l’onglet description
Soumission : voir l’onglet soumission
Renseignements : programmes-excellence@ivado.ca

Objectifs du programme

L’objectif du programme de bourses d’excellence est de soutenir les étudiant·e·s prometteur·euse·s dans leur formation en tant que futurs personnels hautement qualifiés (chercheur·euse·s, professeur·e·s et professionnel·le·s) et plus généralement, en tant que futur·e·s acteur·rice·s dans le secteur de la science des données, principalement dans les domaines d’excellence des membres IVADO : recherche opérationnelle, apprentissage automatique et sciences de la décision.

Admissibilité du·de la candidat·e

Pour les étudiant·e·s :
- Avoir déjà reçu son diplôme de baccalauréat au moment de la demande ou prévoir de l’obtenir à la date de l’annonce des résultats. IVADO sera flexible pour les candidat·e·s justifiant les interruptions de carrière et les circonstances particulières. Nous vous invitons à l’indiquer dans votre demande (p.ex. pour cause de maternité ou de maladie).
- Prévoir s’inscrire à un programme à HEC Montréal, Polytechnique Montréal, l’Université de Montréal, l’Université McGill ou l’Université de l’Alberta.
- Avoir une note moyenne minimale de première classe (3,7/4,3 ou 3,5/4,00) au cours des années d’études précédentes.
Pour le·la professeur·e présentant la demande (superviseur·e) :
- Être un·e professeur·e de l’une des institutions suivantes : HEC Montréal, Polytechnique Montréal ou l’Université de Montréal;
- Les professeur·e·s de l’Université de l’Alberta et de l’Université McGill peuvent être superviseur·e·s à condition qu’ils·elles soient également membre de plein droit de l’un des groupes de recherche d’IVADO (Mila, CIRRELT, GERAD, CERC Science des données pour la prise de décision en temps réel, CRM, Tech3Lab);
- Les statuts admissibles pour les professeur·e·s sont : professeur·e adjoint·e, professeur·e agrégé·e, professeur·e titulaire, professeur·e sous-octroi, professeur·e chercheur·euse, chercheur·e invité·e. Les professeur·e·s associé·e·s ne sont pas admissibles.
- Ne pas présenter plus d’une demande de candidature pour ce concours.
Pour le·la cosuperviseur·e, il n’y aucune contrainte.

Début de la bourse

Date de début du financement : 1er avril 2020 ou 1er septembre 2020

Montant et conditions de versement

Les fonds seront transférés au Bureau de la recherche de l’université du·de la superviseur·e, et l’université paiera l’étudiant·e en fonction de ses propres règles. Pour les projets nécessitant une approbation éthique, les fonds ne seront pas débloqués tant que l’approbation ne sera pas obtenue. Certains projets pourraient avoir besoin d’accords spécifiques, par exemple en ce qui concerne la propriété intellectuelle.

Le financement pourra être réduit, retenu, retardé ou annulé lors de situations particulières qui seront explicitées dans la lettre d’octroi.

Processus du concours

Évaluation et critères

Les propositions seront passées en revue pour vérifier les exigences du programme (demande incomplète, trop longue, superviseur·e ou candidat·e non admissible, etc.) et l’adéquation apparente du projet de recherche soumis avec la science des données. Seules les demandes répondant aux exigences seront transmises au comité d’évaluation.

Le comité d’évaluation paritaire sera composé de professeur·e·s universitaires, et qui ne présenteront aucun·e candidat·e. En raison de la petite taille de la communauté dans certains domaines, il pourrait être difficile de trouver des examinateur·trice·s pertinent·e·s ne présentant aucun·e candidat·e. Face à une telle situation, un·e évaluateur·trice pourrait être appelé·e à évaluer un·e candidat·e bien qu’il·elle participe lui·elle-même au concours; un·e examinateur·trice externe pourrait également être appelé·e. Le comité veillera par tous les moyens à ce que l’évaluateur·trice n’influe pas le classement de sa propre application.

Le comité d’évaluation s’assurera de l’adéquation entre le projet de recherche et les orientations scientifiques d’IVADO, puis procédera au classement des candidat·e·s selon l’excellence de leur dossier, et l’adéquation du projet dans le cadre général d’IVADO, qui est de promouvoir la collaboration multidisciplinaire et la diversité dans la science des données.

En ce qui regarde l’excellence du dossier du·de la candidat·e, le comité s’intéressera plus spécifiquement :

à son aptitude à la recherche;
à l’étendue et à la portée de son expérience : expériences pluridisciplinaires, expérience professionnelle, activités parascolaires ou extra-universitaires, collaborations, services à la communauté scientifique, contribution à la société, etc.
et à l’adéquation de l’expérience avec le projet proposé.

Finalisation du dossier et engagements de l’étudiant·e

L’étudiant·e s’engage notamment à :

Être physiquement présent·e à l’université de son·sa superviseur·e;
Participer à la communauté et aux activités IVADO, incluant par exemple:
- les présentations sur leur propre recherche;
- les activités de formation ou de diffusion des connaissances;
- les consultations;
- le soutien lors de différentes activités qui font normalement partie d’une carrière de recherche (mentorat, notamment dans le cadre du projet SEUR, participation à des évaluations, coorganisation d’événements, etc.);
Reconnaître qu’il·elle fait partie d’une communauté universitaire, à laquelle il·elle contribuera;
Se soumettre à la politique des trois organisations sur le libre accès aux publications. Il·elle est encouragé·e à publier ses productions de recherche (publications, enregistrement oral des présentations, code source, bases de données, etc.) dans le respect des règles de propriété intellectuelle applicables dans son cas particulier;
Reconnaître le soutien d’IVADO et d’Apogée / CFREF ou du FRQ dans la diffusion des résultats de recherche et plus généralement dans les diverses activités auxquelles l’étudiant·e participera.

Le·la superviseur·e s’engage notamment à :

Fournir un environnement de travail qui convient à l’achèvement du projet;
Superviser son étudiant·e.

FAQ

Y a-t-il un format particulier pour la préparation du CV?
- Non, il n’y a pas de format particulier pour le CV. Notez toutefois que chaque pièce du dossier doit aider l’évaluateur·trice à se faire une opinion sur le dossier. Un CV trop long ou confus pourrait rendre plus difficile l’évaluation.
Y a-t-il des règles spécifiques pour les lettres de recommandation?
- Il n’y a pas de règle spécifique pour les lettres de recommandation.
Les candidat·e·s peuvent-ils·elles eux·elles-mêmes envoyer les lettres de recommandation ?
- Non, les lettres de recommandation doivent être envoyées par leur auteur·e sur la plateforme de candidature.
Est-ce que je peux envoyer mes relevés de notes non officiels?
- Non, vous devez numériser et téléverser sur la plateforme tous vos relevés de notes officiels incluant tous vos résultats en cours.
Est-ce que la bourse est cumulable?
- La bourse n’est pas cumulable avec d’autres bourses issues de financements CRSNG, CRSH, IRSC ou IVADO. Nous n’encourageons pas le cumul de bourses issues d’autres sources de financement, mais nous ne l’interdisons pas non plus, car il peut se justifier dans certains cas.
J’ai déjà commencé ma maîtrise, puis-je candidater pour une bourse à la maîtrise?
- Oui. Dans le cadre de la maîtrise, si vous l’avez déjà commencée, vous devez fournir vos notes de bacc. et les notes déjà obtenues à la Maîtrise.
Mes notes de l’année dernière me rendent éligible, mais mes notes plus récentes ne sont pas assez bonnes (ou l’inverse). Suis-je éligible?
- Non, mais si vous pouvez justifier une baisse de vos notes (certificat médical par exemple), nous pourrions accepter votre dossier.
Quand puis-je commencer à utiliser ma bourse au plus tard?
- Au 1er septembre 2020.
Est-ce que les étudiant·e·s dans des maîtrises professionnelles ou DESS sont éligibles?
- Pas dans le cadre de ce concours qui privilégie la recherche.

L’ensemble du processus de soumission de dossier se passe à travers cette plateforme dédiée: https://ivado.smapply.io/

Les candidatures envoyées par courriel seront refusées.

Le dossier comprendra :

- un questionnaire à remplir sur la plateforme DONT une description vulgarisée du projet (longueur d’une page maximum);
  - Vous pouvez consulter ici un exemplaire de questionnaire complété et de formulaire d’auto-déclaration
- le C.V. de l’étudiant·e, dans un format libre à téléverser
- les relevés de notes officiels de l’étudiant·e au baccalauréat et les notes déjà obtenues à la Maîtrise si vous l’avez commencée (préciser l’échelle de notation pour les universités non canadiennes) à téléverser;
- Deux lettres de recommandation (incluant une du·de la superviseur·e (en cours ou potentiel(le)) téléversées par leurs auteur·e·s sur la plateforme.

Larry Dong (McGill University, Erica Moodie)

When making decisions, medical professionals often rely on past experience and their own judgment. However, it is often the case that an individual decision-makerfaces a situation that is unfamiliar to him or her. An adaptive treatment strategy (ATS) can help such biomedical experts in their decision-making, as they are a statistical representation of a decision algorithm for a given treatment that optimizes patient outcomes. ATSs are estimated with large amounts of data, but an issue that may occur is that such sources of data may be subject to unmeasured confounding, whereby important variables needed to ensure the causal inference are missing. The idea behind this research project is to develop a sensitivity analysis to better understand and to quantify the impact of unmeasured confounding on decision rules in ATSs.

Jonathan Pilault (Polytechnique Montréal, Christopher Pal)

Language understanding and generation is a unique capacity of humans. Automatic summarization is an important task in Natural (human) Language Processing. This task consists in reducing the size of discourse while preserving information content. Abstractive summarization sets itself apart from other types of summarization since it most closely relates to how humans would summarize a book, a movie, an article or a conversation. From a research standpoint, automatic abstractive summarization is interesting since it requires models to both understand and generate human language. In the past year, we have seen research that have improved the ability of Neural Networks to choose the most important parts of discourse while beginning to address key pain points (e.g. repeating sentences, nonsensical formulations) during summary text generation. Recent techniques in Computer Vision image generation tasks have shown that image quality can be further improved using Generative Adversarial Networks (GAN). Our intuition is that the same is true for a Natural Language Processing task. We propose to incorporate newest GAN architectures into some of the most novel abstractive summarization models to validate our hypothesis. The objective is to create a state-of-the-art summarization system that most closely mimics human summarizers. This outcome will also bring us closer to understand GANs analytically.

Alice Wu (Polytechnique Montréal, François Soumis)

Combiner l’A.I. et la R.O. pour optimiser les blocs mensuels d’équipages aérien.Nos travaux récents portent sur le développement de deux nouveaux algorithmes Improved Primal Simplex (IPS) et Integral Simplex Using Decomposition (ISUD) qui profitent de l’information a priori sur les solutions attendues pour réduire le nombre de variables et de contraintes à traiter simultanément. Actuellement cette information est donnée par des règles fournies par les planificateurs. L’objectif de recherche sera de développer un système utilisant l’intelligence artificielle (IA) pour estimer la probabilité que la variable liant deux rotations fasse partie de la solution d’un problème de blocs mensuels d’équipages aériens. L’apprentissage se fera sur les données historiques de plusieurs mois, de plusieurs types d’avions et de plusieurs compagnies. L’estimation des probabilités doit se faire à partir des caractéristiques des rotations et non à partir de leurs noms. Une rotation ne revient pas d’une compagnie à l’autre ni d’un mois à l’autre. Il faudra identifier les caractéristiques pertinentes. Il faudra de la recherche sur l’apprentissage pour profiter des contraintes du problème. Il y a des contraintes entre le personnel terminant des rotations et celui en commençant par la suite. La validation de l’apprentissage se fera en alimentant les optimiseurs avec l’information estimée et en observant la qualité des solutions obtenues et les temps de calcul. Il y aura de la recherche à faire dans les optimiseurs pour exploiter au mieux cette nouvelle information.

Tiphaine Bonniot de Ruisselet (Polytechnique Montréal, Dominique Orban)

Accélération de méthodes d’optimisation pour les problèmes volumineux par évaluation inexact

Nous nous intéressons aux problèmes d’optimisation continue, non convexe et sans contraintes dans lesquels l’évaluation des valeurs de l’objectif et de son gradient sont obtenues à l’issue d’un processus coûteux. Nous supposons que l’on peut obtenir à moindre coûts des approximations de l’objectif et de son gradient à un niveau de précision souhaité. Nous regarderons l’impact de ces hypothèses sur la convergence et la complexité de méthodes d’optimisation classiques ainsi que les économies pouvant être effectuées sur le temps de calcul et la consommation énergétique. Cette étude est motivée, entre autre, par les problèmes d’inversion sismique dont la taille peut avoisiner les centaines de millions de variables et dont la fonction et le gradient peuvent être approximés par la résolution d’un problème aux moindres carrés linéaires. L’économie de temps de calcul et d’énergie est un enjeu majeur de l’ère de l’intelligence artificielle et de l’exploration des données volumineuses et cette approche est nouvelle est prometteuse en terme de retombées économiques et environnementales.

Stephanie Cairns (McGill University, Adam Oberman)

Oberman Mathematical approaches to adversarial robustness and confidence in DNN

Deep convolutional neural networks are highly effective at image classification tasks, achieving higher accuracy than conventional machine learning methods but lacking the performance guarantees associated with these methods. Without additional performance guarantees, for example error bounds, they cannot be safely used in applications where errors can be costly. There is a consensus amongst researchers that greater interpretability and robustness are needed. Robustness can be to differences in the data set where the models can be deployed, or even robustness to adversarial samples: perturbations of the data designed deliberately by an adversary to lead to a misclassification.

In this project, we will study reliability in two contexts: (i) developing improved confidence in the prediction of the neural network, using modified losses to improve confidence measures (ii) modified losses which result in better robustness to adversarial examples. The overall goal of the project is to lead to more reliable deep learning models.

Enora Georgeault (HEC Montréal, Marie-Ève Rancourt)

Modèles prédictifs de l’allocation des dons de la Croix-Rouge canadienne en réponse aux feux de forêt

Au Canada, les inondations et les feux de forêt sont les catastrophes naturelles qui provoquent le plus de dégâts. Les efforts de la Croix-Rouge canadienne (CRC) visant à atténuer les impacts des feux de forêt dépendent fortement de la capacité des organisations à planifier, à l’avance, les opérations logistiques de secours. Le premier objectif du projet est l’élaboration de modèles permettant de prédire l’allocation des dons en argent aux bénéficiaires, selon les caractéristiques socio-démographiques de la région et du bénéficiaire ainsi que selon les caractéristiques des feux (sévérité et type). Le second objectif sera de comprendre les facteurs qui ont un impact significatif sur les besoins de la CRC lors d’une réponse à un feu de forêt, afin de faciliter la planification des opérations logistiques et les appels de financement.

Bhargav Kanuparthi (Université de Montréal, Yoshua Bengio)

h detach Modifying the LSTM Gradient Towards Better Optimization

Recurrent neural networks are known for their notorious exploding and vanishing gradient problem (EVGP). This problem becomes more evident in tasks where the information needed to correctly solve them exist over long time scales, because EVGP prevents important gradient components from being back-propagated adequately over a large number of steps. We introduce a simple stochastic algorithm (\textit{h}-detach) that is specific to LSTM optimization and targeted towards addressing this problem. Specifically, we show that when the LSTM weights are large, the gradient components through the linear path (cell state) in the LSTM computational graph get suppressed. Based on the hypothesis that these components carry information about long term dependencies (which we show empirically), their suppression can prevent LSTMs from capturing them. Our algorithm\footnote{Our code is available at https://github.com/bhargav104/h-detach.} prevents gradients flowing through this path from getting suppressed, thus allowing the LSTM to capture such dependencies better. We show significant improvements over vanilla LSTM gradient based training in terms of convergence speed, robustness to seed and learning rate, and generalization using our modification of LSTM gradient on various benchmark datasets.

Vincent Labonté (Polytechnique Montréal, Michel Gagnon)

Extraction de connaissances en français basée sur une traduction des textes en anglais combinée à l’utilisation d’outils développés pour l’anglais

Plusieurs institutions gouvernementales rendent disponible sur leurs sites web un très grand volume de documents qui ne sont écrits que dans la langue officielle du pays. Or, de plus en plus ces institutions désirent transformer ces documents en une base de connaissances, déployée en un ensemble de données ouvertes intégrées au Web sémantique. C’est le cas notamment du ministère de la Culture et des Communications du Québec, qui met à la disposition du public un répertoire du patrimoine culturel du Québec, très riche en informations textuelles, mais qu’il est malheureusement difficile d’intégrer aux données des autres acteurs culturels du Québec, ou de lier à toutes les connaissances patrimoniales qui sont déjà présentes dans le réseau de données ouvertes Linked Open Data (LOD).

Plusieurs travaux ont déjà été proposés pour soutenir l’effort d’extraction de connaissances à partir de textes : des annotateurs sémantiques, qui identifient dans un document les entités qui y sont citées (personnes, organisations, etc.) et les lient à leur représentation dans une base de connaissances du LOD; des extracteurs de relations, capables d’extraire du texte des relations entre deux entités (par exemple, « X est l’auteur du roman Y »); des extracteurs d’événements et d’informations temporelles. Dans la très grande majorité des cas, ces outils ont été développés pour l’anglais, ou offrent de piètres performances lorsqu’appliqués au français.

Nous proposons donc d’explorer une approche qui consiste à produire, à partir d’un corpus de documents en français, une version équivalente traduite sur laquelle seront appliqués les outils déjà existants pour l’anglais (le service Syntaxnet de Google, par exemple). Cela implique qu’il faudra tenir compte des erreurs et inexactitudes qui résulteront de l’étape de traduction. Pour y arriver, des techniques de paraphrase et de simplification de texte seront explorées, l’hypothèse ici étant que des phrases simples sont plus faciles à traduire et que cette simplification n’aura pas d’impact majeur sur la résolution de la tâche si la sémantique est préservée lors de cette simplification. On notera aussi que certains aspects de la langue, comme l’anaphore, perturbent la traduction (le module de traduction aura du mal à choisir entre les pronoms « it » et « he » pour traduire le pronom « il »). Il faudra dans ces cas mesurer précisément leur impact et proposer des solutions de contournement.

En bref, le projet proposé permettra de déterminer dans quelle mesure les services de traduction actuellement disponibles préservent suffisamment le sens du texte pour pouvoir exploiter des outils développés pour une autre langue. L’hypothèse que nous désirons valider est que leurs lacunes peuvent être comblées par certains prétraitements du texte original, et que ces prétraitements peuvent être implémentée à faibles coûts (en temps et en ressources).

Thomas MacDougall (Université de Montréal, Sébastien Lemieux)

Use of Deep Learning Approaches in the Activity Prediction and Design of Therapeutic Molecules

The proposed research is to employ Deep Learning and Neural Networks, which are both fields of Machine Learning, to more accurately predict the effectiveness, or “activity”, of potential therapeutic molecules (potential drugs). We are primarily concerned with predicting a given molecule’s ability to inhibit the growth of primary patient cancer cells (cells taken directly from a patient). The Leucegene project at the Institut de Recherche en Immunologie et Cancérologie (IRIC) has tested the activity of a large number of compounds in inhibiting the growth of cancer cells from patients afflicted with acute myeloid leukemia. The proposed research will use this activity data, along with several other data sources, to build an algorithm that can better predict the effectiveness that a molecule will have in inhibiting cancer cell growth. This means that before a molecule is even synthesized in a chemistry lab, a good estimation of its effectiveness as a therapeutic compound can be made, almost instantly. The first approach is to use Neural Networks and “representation learning”, in which features of the molecules that are important to improving activity are identified automatically by the algorithm. This will be done by representing the molecules as graphs and networks. Another approach that will be taken is the use of “multi-task learning” in which the prediction accuracy of an algorithm can be improved if the same algorithm is trained for multiple tasks on multiple datasets. The “multiple tasks” that will be focused on are multiple, but related, drug targets that are essential to cancer cell growth. Moving beyond activity prediction alone, these machine learning architectures will be expanded to design new chemical structures for potential drug molecules, based on information that is learned from drug molecules with known activities. These approaches have the capacity to improve the predictions about whether molecules will make effective drugs, and to design new molecules that have even better effectiveness than known drugs. Research progress in this area will lower the cost, both in money and time, of the drug development process.

Bhairav Mehta (Université de Montréal, Liam Paull)

Attacking the Reality Gap in Robotic Reinforcement Learning

As Reinforcement Learning (RL) becomes an increasingly popular avenue of research, one area that stands to be revolutionized is robotics. However, one prominent downside of applying RL in robotics scenarios is the amount of experience today’s RL algorithms require to learn. Since these data-intensive policies cannot be learned on real robots due to time constraints, researchers turn to fast, approximate simulators. Trading off accuracy for speed can cause problems at test time, and policies that fail to transfer to the real world fall prey to the reality gap: the differences between training simulation and the real-world robot. Our project focuses on theoretically analyzing this issue, and provides practical algorithms to improve safety and robustness when transferring robotic policies out of simulation. We propose algorithms that use expert-collected robot data to learn a simulator, allowing for better modeling of the testing distribution and minimizing the reality gap upon transfer. In addition, we study the transfer problem using analysis tools from dynamical systems and continual learning research, looking for indicators in neural network dynamics and optimization that signal when the reality gap is likely to pose an issue. Lastly, we use the analysis to synthesize an algorithm which optimizes for the metrics that signal good, “transferable” policies, allowing safer and more robust sim-to-real transfer.

Timothy Nest (Université de Montréal, Karim Jerbi)

Leveraging Machine Learning and Magnetoencephalography for the Study of Normal and atypical states of Consciousness

Understanding the neural processes and network dynamics underlying conscious perception is a complex yet important challenge that lies at the intersection between cognitive brain imaging, mental health, and data science. Magnetoencephalography (MEG) is a brain imaging technique that has many qualities favorable to investigating conscious perception due to its high temporal resolution and high signal to noise ratio. However MEG analyses across space, time and frequency is challenging due to the extreme high-dimensionality of variables of interest, and susceptibility to overfitting. Furthermore, high-computational complexity limits the ease with which investigators might approach some cross-frequency coupling metrics believed to be important for conscious perception and integration, across the whole brain. To mitigate such challenges, researchers frequently rely on a variety of multivariate feature extraction and compression algorithms. However, these techniques still require substantial tuning, and are limited in their application to the kinds of high-order tensor structures encountered in MEG. New methods for the study of conscious perception with MEG are thus needed.

In this project, we will leverage very recent advances in computer science and machine learning that extend algorithms currently used in neuroimaging research, to extreme high-dimensional spaces. Taken together, the proposed research will apply state-of-the-art techniques in machine-learning and electrophysiological signal processing to overcome current obstacles in the study of the brain processes that mediate conscious perception. This work will constitute an important contribution to neuroimaging methodology, neuropharmacology, and psychiatry. Beyond expanding our understanding of healthy cognition, this research may ultimately provide novel paths to the study of psychiatric disorders that involve altered conscious perception, such as Schizophrenia.

Jacinthe Pilette (Université de Montréal, Jean-François Arguin)

Recherche de nouvelle physique au Grand collisionneur de hadrons (LHC) à l’aide de l’apprentissage profond

Le Grand collisionneur de hadrons (LHC) se situe au cœur de la recherche fondamentale en physique. Avec sa circonférence de 27 km, celui-ci constitue le plus grand et plus puissant accélérateur de particules au monde. Ceci en fait le meilleur outil afin d’étudier le domaine de l’infiniment petit. C’est d’ailleurs au LHC que le boson de Higgs fut découvert, menant à l’obtention du prix Nobel de physique en 2013.

Cependant, le modèle standard, référence qui dicte les lois régissant les particules et leurs interactions, possède plusieurs lacunes que les physiciens et physiciennes n’ont toujours pas réussi à combler. Plusieurs théories furent élaborées, mais aucune d’entre elles ne fut observée au LHC. Face à ce défi, la communauté de physique des particules devra utiliser une nouvelle approche.

Le groupe ATLAS de l’Université de Montréal s’est ainsi tourné vers l’intelligence artificielle. Le projet élaboré par cette collaboration, et l’objectif principal de cette recherche est de développer un algorithme d’apprentissage profond qui permettrait de détecter des anomalies dans les données. L’algorithme développé sera ensuite utilisé sur les données du détecteur ATLAS dans l’espoir de découvrir des signaux de nouvelle physique et d’améliorer notre compréhension de l’univers.

Léa Ricard (Université de Montréal, Emma Frejinger)

Modélisation de la probabilité d’acceptation d’une route dans un contexte de covoiturage

Le covoiturage touche aux algorithmes fréquemment étudiés de tournées de véhicule, de ramassage et de livraison avec fenêtres de temps et de transport à la demande dynamique. Toutefois, très peu d’études s’attardent au contexte où les conducteurs et les passagers peuvent rejeter une proposition de route. Alors que le rejet d’une route proposée est rare lorsque les conducteurs sont des professionnels, c’est plutôt la norme dans un contexte de covoiturage. La modélisation de la probabilité d’acceptation d’une route se pose alors comme un problème central dans le développement d’une application mobile de covoiturage de qualité.

Le modèle d’apprentissage automatique développé devra estimer, selon les caractéristiques de l’utilisateur (notamment s’il est conducteur ou passager) et les routes alternatives proposées, la probabilité d’acceptation d’une route. De prime abord, cette modélisation pose deux défis :

(1) La façon dont les acceptations et les refus sont collectés pose un problème de type logged bandit. À ce titre, plusieurs propositions peuvent être offertes en même temps et un utilisateur peut en accepter plusieurs. De plus, les offres peuvent être activement refusées, simplement ignorées ou acceptées. Puisque les offres sont affichées séquentiellement, celles qui apparaissent en premier ont plus de chance d’attirer l’attention de l’utilisateur. L’ordre des propositions a donc probablement une influence sur la probabilité d’acceptation.
(2) Le comportement des nouveaux utilisateurs, pour qui très peu d’information est disponible, devra être inféré à partir des clients similaires de longue date. Ceci est en soi un problème difficile.

Alexandre Riviello (Polytechnique Montréal, Jean-Pierre David)

Hardware Acceleration of Speech Recognition Algorithms

Speech recognition has become prevalent in our lives in recent years. Personal assistants, such as Amazon’s Alexa or Apple’s Siri are such examples. With the rise of deep learning, speech recognition algorithms gained a lot of precision. This is due, mostly, to the use of neural networks. These complex algorithms, used in the context of a classification task, can distinguish between different characters, phonemes or words. However, they require lots of computations, limiting their use in power-constrained devices, such as smartphones. In my research, I will attempt to find hardware-friendly implementations of these networks. Deep learning algorithms are usually written in high-level languages using frameworks such as Torch or Tensorflow. To generate hardware-friendly representations, models will be adapted, using these frameworks. For example, recent findings have shown that basic networks can use weights and activations represented over 1 or 2 bits and retain their accuracy. The reduction of the precision of the network parameters is called quantization. This concept will be one of the many ways used to simplify the networks. Another aspect of this research will be to revisit methods of representing voice features. Traditionally, spoken utterances were converted to Mel Frequency Cepstrum Coefficients (MFCCs) which are essentially values representing signal power over a frequency axis. These coefficients are calculated roughly every 10 ms and are then sent to the model network. A representation of lower precision can greatly reduce the computational costs of the network. The overall goal of the research will be to improve the calculation speed and to diminish the power consumption of speech recognition algorithms.

Alexandre Adam (Université de Montréal, Laurence Perreault Levasseur)

Mesurer l’expansion de l’Univers avec l’apprentissage automatique

Le taux d’expansion de l’Univers est une observable importante pour contraindre les modèles cosmologiques qui retracent l’évolution de l’Univers depuis le Big Bang. Récemment (2018), l’équipe du satellite Planck a publié une valeur dérivée des mesures du rayonnement fossile émis lorsque l’Univers n’était âgé que de 300,000 ans. La valeur trouvée contredit les mesures locales du paramètre, faites à partir de la vitesse de fuite des supernovas Ia et des céphéides se trouvant près de la Voie lactée. Nous proposons d’investiguer ce problème via une troisième méthode de mesure qui, jusqu’à maintenant, possédait une précision limitée par la faible quantité connue de quasar situé derrière une galaxie selon notre ligne de vue, telle que l’image du quasar est multipliée par l’effet de lentille gravitationnelle. La précision de cette méthode est limitée en grande partie par la reconstruction de la distribution de masse de la galaxie-lentille. Les avancées récentes des algorithmes d’apprentissage automatiques ont permis de démontrer qu’un réseau neuronal convolutionnel (CNN) pouvait accomplir la reconstruction de la lentille 10 millions de fois plus rapidement que les algorithmes conventionnels. Cette preuve de concept arrive juste à temps pour permettre l’analyse de la quantité phénoménale de données qui sera produite par les télescopes à champs larges dans la prochaine décennie. Nous devrons aussi adapter des architectures comme les machines à inférences récurrentes (RIM) pour automatiser le processus de reconstruction. Les besoins scientifiques de notre mission nécessitera d’adapter l’architecture de nos modèles pour l’estimation des incertitudes.

Hatim Belgharbi (Polytechnique Montréal, Jean Provost)

Microscopie de localisation par ultrasons fonctionnelle 3D (fULM)

L’imagerie fonctionnelle cérébrale permet de mieux comprendre quelles régions du cerveau sont impliquées dans différents types de tâches. Il est possible de réaliser ce type d’analyse à l’aide, par exemple, de l’imagerie par résonance magnétique, mais à une résolution spatiotemporelle limitée (de l’ordre du millimètre et de la seconde). Plus récemment, une autre technique, la microscopie de localisation 2D a permis de drastiquement augmenter la résolution spatiale des ultrasons (5 millièmes de millimètre), mais puisqu’elle requiert la détection de microbulles injectées individuelles (approuvées en clinique), sa résolution temporelle était insuffisante pour détecter l’activation du cerveau (dans l’ordre des minutes). Le laboratoire de Jean Provost a récemment développé une nouvelle technique d’imagerie appelée Microscopie de Localisation Ultrasonore Dynamique 3D (dMLU-3D), qui permet d’atteindre la même résolution spatiale en trois dimensions plutôt que deux et aussi une résolution élevée pour les phénomènes périodiques (de l’ordre de la milliseconde). La technique permet la visualisation de la microvasculature cérébrale (morphologie), mais la visualisation de l’activité cérébrale n’a pas encore été développée (fonction). La modélisation de ce qui caractérise une activation cérébrale dépend de plusieurs paramètres non linéaires dont il n’existe pas de vérité terrain à l’échelle de la microvasculature in-vivo, alors l’utilisation d’un réseau de neurones convolutionnel (CNN) s’avère pertinente à cette application. Ce projet vise à montrer qu’il est possible de faire de l’imagerie fonctionnelle (détecter l’activité ou le manque d’activité cérébrale) dans tout le cerveau de rongeur à l’aide de l’approche dMLU-3D avec une résolution spatiotemporelle encore jamais atteinte avec d’autres méthodes comparables. Des expériences seront réalisées afin de révéler et de corréler l’activité des régions visuelles thalamiques et corticales du cerveau du modèle murin suivant la présentation de stimuli visuels. Par la suite, ces résultats seront comparés avec ceux obtenus chez des modèles animaux de la schizophrénie (développemental, pharmacologique, lésionnel ou génétique) afin de vérifier l’hypothèse que ce désordre est caractérisé par une altération des connexions entre le cortex visuel et le thalamus. Ce projet serait la toute première démonstration de la faisabilité de l’imagerie fonctionnelle cérébrale par ultrasons superrésolus en 2D et en 3D, permettant la cartographie de l’activation cérébrale de la totalité du cerveau de rongeur ou d’autres petits animaux, tel le chat, pour des études pré-cliniques permettant à terme de mieux comprendre certaines pathologies et menant potentiellement à un meilleur diagnostic ou même traitement. C’est d’autant plus prometteur étant donné qu’aucune autre modalité d’imagerie peut atteindre une résolution aussi fine, avec une profondeur d’imagerie suffisante et ce, de manière non invasive.

Marie-Hélène Bourget (Polytechnique Montréal, Julien Cohen-Adad)

Segmentation automatique d’images histologiques par apprentissage profond

Les axones de la matière blanche sont le prolongement des neurones, et constituent les autoroutes du système nerveux central. Une gaine lipidique, la myéline, entoure ces axones permettant la conduction plus rapide de l’influx nerveux. Des maladies neurodégénératives comme la sclérose en plaques ou encore des traumatismes menacent l’intégrité des axones myélinisés, ce qui peut mener à des déficits sensoriels ou moteurs tels que la douleur ou la paraplégie. Afin de développer de nouveaux traitements, les chercheurs en neurosciences ont besoin de quantifier avec précision la morphométrie de ces axones (taille, épaisseur de myéline, etc.). Mon laboratoire d’accueil NeuroPoly a développé le logiciel AxonDeepSeg permettant de faire la segmentation automatique de neurones sur des images histologiques par des algorithmes d’apprentissage profond. Cependant, AxonDeepSeg manque de robustesse vis-à-vis de la variabilité qui peut exister selon les paramètres d’acquisition et la qualité des images ainsi que selon les espèces. Ce projet vise donc à développer des modèles robustes de segmentation de neurones par l’adaptation et l’implémentation de méthodes innovantes de segmentation par apprentissage profond (Adaptation de domaine, MixUp, FiLM). Le potentiel de généralisation des algorithmes développés sera validé à l’aide de bases de données de microscopie incluant diverses modalités d’imagerie (optique, électronique à balayage, électronique en transmission), espèces, organes et pathologies. De plus, les modèles développés et les données générées seront rendus publics en accès libre et documentés afin de permettre à de nombreux chercheurs et cliniciens en neurosciences de les utiliser. Cet outil permettra également de faire la validation d’autres modalités d’imagerie essentielles dans la recherche sur les maladies neurodégénératives comme l’imagerie par résonance magnétique quantitative non-invasive, et ainsi augmenter la quantité de données utilisables par les chercheurs.

Joëlle Cormier (HEC Montréal, Valérie Bélanger)

Analyse du transport d’urgence aérien dans les régions éloignées du Québec

Dans un objectif d’offrir des soins spécialisés à l’ensemble de sa population, le Québec peut compter sur le programme d’Évacuation aeromédicales du Québec (EVAQ) mis en place par le gouvernement. L’offre de service permet de transférer des patients depuis les différentes régions du Québec vers des centres spécialisés de Québec et Montréal afin de leur offrir les soins nécessaires, le tout entouré d’une équipe médicale adaptée à leur condition et leur niveau d’urgence. Plusieurs des services offerts par l’EVAQ ont connu une augmentation de la demande durant la dernière décennie. La présente recherche vise à bâtir un outil de simulation qui permettra de simuler différentes utilisations des ressources. L’analyse des différents scénarios permettra de faire des recommandations à l’ÉVAQ sur les actions à prendre afin d’offrir le meilleur niveau de service possible aux populations des régions. Il y a beaucoup à apprendre sur le modèle instauré au Québec, tant au niveau de la planification stratégique des appareils et des trajets, qu’au niveau de la coordination et des opérations au quotidien. La densité de population, les distances à franchir et les conditions météorologiques difficiles sont des facteurs déterminants à considérer dans leur unicité.

Edward Hallé-Hannan (Polytechnique Montréal, Sébastien Le Digabel)

Optimisation de l’entraînement des réseaux de neurones profonds à partir d’extensions de l’algorithme MADS sur les hyperparamètres de type variable de catégorie

Ce projet de maîtrise vise à optimiser l’entraînement des réseaux de neurones profonds à partir d’extensions de l’algorithme MADS sur les hyperparamètres de type variable de catégorie. Ces hyperparamètres sont généralement choisis de manière arbitraire ou heuristique. Or, la plupart des algorithmes d’optimisation développés solutionnent des problèmes où les variables sont de type continu ou entier. En d’autres mots, il existe peu de méthodes d’optimisation pouvant traiter efficacement les variables de catégorie. Cependant, puisque ces variables sont discrètes, il est possible de construire et d’explorer un espace de variables discrétisées avec les méthodes d’optimisation dites recherche directe. Le projet de recherche a pour objectif d’adapter les récents développements de l’algorithme MADS (« Mesh Adaptive Direct Search ») aux variables de catégorie, notamment pour le traitement des contraintes et l’intégration d’un treillis anisotrope dynamique. Plus précisément, nous nous intéressons à optimiser plus rigoureusement les hyperparamètres des réseaux de neurones profonds, afin d’entraîner plus intelligemment les modèles d’intelligence artificielle. Plus particulièrement, les hyperparamètres étudiés seront : la fonction de perte ; les extensions et les modifications à l’algorithme de rétropropagation (ADAM, RMSProp, etc.) ainsi que les régulateurs (LASSO, « Ridge regression », etc.). Les mécanismes développés pourront également servir à modéliser la topologie des réseaux (nombres de couches, nombres de neurones, etc.) En effet, dans le cadre de l’algorithme MADS, le traitement des variables de catégorie pourraient s’étendre à des variables discrètes, dont la valeur modifie la dimension du problème. En pratique, le système résultant permettra donc, pour la première fois, d’optimiser simultanément les hyperparamètres reliés à l’entraînement et ceux reliés à la topologie.

Dongyan Lin (McGill University, Blake Richards)

Analyzing mouse hippocampal “time cell” activities during memory task with machine learning approaches

Previous studies have identified hippocampal “time cells” in CA1 that bridge the temporal gap between discontiguous events by firing in tiling patterns during the delay period of memory tasks, such as alternative maze (Pastalkova et al., 2008) and object-odor pairing tasks (MacDonald et al., 2011). However, recent findings have argued that this tiling might be an analysis artifact due to cell-sorting because it also appears in tasks with no memory load (Salz et al., 2016). To address this discrepancy, our collaborators have collected calcium recordings in mouse hippocampal CA1 region during trial unique, nonmatch-to-location (TUNL) task (Talpos et al., 2010) and showed tiling patterns. Our objective is to use computational methods to determine if these patterns are meaningful. To do this, we will first train decoders on the calcium recordings to decode sample for each trial, with temporal sequences preserved (i.e. sorted tiling columns) or shuffled (i.e. randomized columns). If the tiling patterns are indeed meaningful, we would expect to see higher accuracy of the decoder in the preserved sequences. Our next step is to construct a simulated reinforcement learning agent on simulated TUNL task to see whether there exists a consistent tiling pattern in the activities of the neural networks of the reinforcement learning agent. If so, it would suggest that these patterns play a role in preserving information about the sample location during the delay period as a solution to the task. If not, it would suggest that the tiling patterns previously observed in memory tasks could merely be a ubiquitous artifact. Our findings would have a significant impact on the current view of hippocampal “time cells” as well as the functional segregation of the brain.

Yiqun (Arlene) Lu (Polytechnique Montréal, Guillaume-Alexandre Bilodeau)

Jumpy, Hierarchical and Adversarial Variational Video Prediction

This project is in the context of intelligent transportation systems. To improve road user detection and tracking, we want to predict their position in future frames using video prediction. However, predicting high fidelity videos over long time scale is notoriously difficult. Current video prediction models either diverges from real samples after a few frames or fail to capture stochasticity in the videos, resulting in bad prediction performance for long videos. In order to overcome this difficulty, new models with ability to do jumpy or hierarchical video prediction are proposed by the AI community. In this proposal, we propose to further develop these ideas and explore new models for stochastic video prediction that is able to do jumpy predictions in a hierarchical manner. We mainly want to explore two research problems: (1) How to do stochastic jumpy video predictions. (2) How to combine jumpy prediction with temporal abstraction.

Andrei Lupu (McGill University, Doina Precup)

Emergent Behaviour in Multi-Agent Reinforcement Learning

This project aims for the investigation of intricate emergent behaviours in large scale multi-agent reinforcement learning (MARL). Of particular concern are the behaviours of agents in settings where they are tightly interdependent to the point of nearly composing a single entity. Such settings will draw strong inspiration from biological systems, and be achieved either through a shared common reward or through complex and necessary interactions. Because large interconnected populations of agents present a novel collection of settings complete with new challenges, this project will force a rethinking of well-established reinforcement learning practices, all while probing the limits of their scalability. Furthermore, enabling MARL systems that simultaneously achieve large population scales and appropriate complexity will allow for better modelling of intricate phenomena that have been out of reach of previous artificial intelligence methods. This would potentially result in far-reaching benefits in other scientific disciplines, thus broadening the range of applications of reinforcement learning and simultaneously opening it to easier idea cross-pollination from other fields. These settings will be studied empirically by analyzing the behaviour of existing MARL algorithms, and by comparing and contrasting them to new approaches that allow for more complex interactions between agents. The analysis of the results will be performed quantitatively on the basis of standard reinforcement learning and game theoretic methodology, and qualitatively in light of the principles of behavioural biology. The implementation of the environments and the MARL models will be done with modularity and concurrency in mind and the code-base will then be openly released.

Nicholas Meade (McGill University, Siva Reddy)

Stylistic Controls for Neural Text Generation

Deep learning-based approaches to text generation have proven effective in recent years, with many models able to generate realistic text, often exhibiting higher-order structure. While these models produce high-quality samples, there is usually little control provided over what is specifically generated. Recently, work has begun in this area, but much remains to be explored. This application proposes research towards controllable text generation by implementing a variety of stylistic controls that can be used to influence what is sampled from a neural language model. In my previous work, we developed a conditional generative model for music. We demonstrated that we could control for a variety of characteristics during generation by providing the model with an additional externally-specified input called the control signal. For instance, in this work, we trained a model using a composer-based control signal. This signal identified the composer of each piece on which the model was trained. After training, we used the control signal to produce samples of music in the style of specific composers, for instance, Bach and Beethoven. Based on my previous work with music, we are now interested in implementing a similar set of controls for generating text. Such a set of stylistic controls would extend the practical utility of text generated from neural language models. We plan to explore generation methods involving supervised controls and latent (disentangled) controls.

Marie-Eve Picard (Université de Montréal, Pierre Rainville)

Utilisation d’approches d’apprentissage automatique pour l’identification d’une signature cérébrale de l’expression faciale de la douleur

L’expression faciale est un outil important pour communiquer diverses informations, notamment la manifestation d’un état de douleur, la présence d’une menace immédiate dans l’environnement et un éventuel besoin d’aide. Les dimensions sensorielle (intensité) et affective (caractère déplaisant) de la douleur peuvent être encodées dans les mouvements faciaux. Les techniques d’analyse jusqu’à présent utilisées pour examiner la relation entre l’expression faciale et l’activité cérébrale lors de l’expérience de la douleur possèdent plusieurs limitations statistiques par rapport à l’évaluation de l’activité cérébrale spatialement distribuée. L’objectif principal du projet proposé est de mieux comprendre les mécanismes neuronaux qui sous-tendent l’expression faciale de la douleur. Des données d’imagerie par résonance magnétique fonctionnelle (IRMf) seront utilisées pour analyser les changements dans l’activité cérébrale en réponse à des stimuli douloureux (mais non dommageables). Plus spécifiquement, ce projet vise à utiliser des approches d’apprentissage automatique (c’est-à-dire l’analyse de modèles multivariés) pour développer une signature cérébrale de l’expression faciale de la douleur afin de prédire les changements faciaux en réponse à des stimuli douloureux dans différents contextes : douleur phasique (stimulation courte), douleur tonique (stimulation longue), et modulation des dimensions sensorielle et affective de la douleur. En bref, ce projet permettra de résoudre certaines lacunes des analyses univariés précédemment utilisées afin de déterminer avec une meilleure précision les bases neurales de l’expression faciale de la douleur et de faire progresser de manière significative notre compréhension des mécanismes cérébraux qui sous-tendent la communication non verbale.

Myriam Prasow-Émond (Université de Montréal, Julie Hlavacek-Larrondo)

Les premières images d’exoplanètes orbitant autour de naines blanches, d’étoiles à neutrons et de trous noirs

Les binaires X, formés d’une étoile orbitant autour d’un objet compact stellaire compact (naine blanche, étoile à neutrons ou trou noir), sont des laboratoires fantastiques pour comprendre la physique dans des conditions extrêmes. Au cours des dernières décennies, les binaires X ont fait l’objet d’une multitude d’études dans diverses longueurs d’onde, conduisant à des avancées remarquables dans le domaine de la physique de l’accrétion, ainsi que dans la compréhension de la formation de jets de particules relativistes dans de puissants champs magnétiques. Les binaires X sont aussi d’excellents laboratoires pour comprendre les explosions de type supernova ainsi que l’effet de ces explosions sur le système et son environnement. En effet, la présence d’une étoile à neutrons ou d’un trou noir dans ces systèmes implique directement que l’étoile (et ses potentielles planètes) survivent à ces explosions. Plusieurs études montrent que les planètes et les naines brunes peuvent exister dans une multitude d’environnements, tels que celles qui orbitent très proche de leur étoile hôte (Jupiters chaudes) ou celles qui orbitent à des distances de centaines d’unités astronomiques de l’étoile. Ces découvertes montrent que la formation et la survie des planètes sont mal comprises. Par conséquent, ce projet amène un nouveau point de vue, soit celui des conditions extrêmes. Bref, on pourra étudier plusieurs binaires X et des données des télescopes NIRC2/KECK (visible) et NOEMA (millimétrique) ont déjà été acquises en 2018, et d’autres demandes de temps sont en cours. Selon une analyse préliminaire, la présence d’objets astrophysiques est confirmée, et donc ce projet garantit des résultats surprenants pour la communauté de l’astrophysique.

Chence Shi (HEC Montréal, Jian Tang)

Addressing the retrosynthesis problem using a graph-to-graph translation network

Retrosynthesis analysis, which aims to identify a set of reactant graphs to synthesize a target molecule, is a fundamental problem in computational chemistry and is of central importance to the organic synthesis planing as well as drug discovery. The problem is challenging as the search space of all possible transformations is very huge. For decades, people have been seeking to assist chemists in retrosynthesis analysis with modern computing algorithms. Most existing machine learning works on this task rely on reaction templates that define the subgraph patterns of a set of chemical reactions, which require expensive graph isomorphism and suffer from poor generalization on unseen molecule structures.

To address the above limitations, in this project, we formulate the retrosynthesis prediction as a graph-to-graph translation task, i.e., translating a product graph to a set of reactant graphs, and propose a novel template-free approach to tackle the problem. We will show that our method excludes the need of domain knowledge, and scales well to large datasets. We will also empirically verify the superiority of our method on the benchmark data set.

Shi Tianyu (McGill University, Luis Miranda-Moreno)

A Multi-agent Decision and Control Framework for Mixed-autonomy Transportation System

As the autonomous vehicle becomes more and more popular. Recently, there has been a new emphasis on traffic control in the context of mixed-autonomy, where only a fraction of vehicles are connected autonomous vehicles and interacting with human-driven vehicles. As in a mixed autonomy system, there are several challenges. The first challenge is how to encourage different agents’ cooperation so as to maximize the total returns of the whole system. For example, when there is a gap in front of the adjacent line of the autonomous vehicle, if the autonomous vehicle cuts in immediately, the surrounding vehicle in the adjacent line will also decrease its speed sharply, which will end up a shock wave in traffic flow. Instead, if the autonomous vehicle learns to cooperate with other agents, it will adjust its speed steadily and try to mitigate the negative impact on the whole system. The second challenge is how to improve the communication efficiency in multi-agent system. As autonomous vehicle has different characteristics with human-driven agent, for example, their reacting time and action may be different. Therefore, how to formalize personalized policy for each agent is also worth to explore. The third challenge is how to explore expert knowledge (e.g. green wave, max pressure, actuated control) in transportation domain to improve the training efficiency and performance. Our overall goal of this project is to design effective decision and control framework for an efficient and safe mixed autonomy system by mitigating the shockwave and improving the transportation efficiency. To address the aforementioned problems, we will develop a novel multi agent decision framework based on deep reinforcement learning to improve the decision making and control performance of the agents in mixed autonomy system.

Rey Wiyatno (Université de Montréal, Liam Paull)

Exploiting Experiences and Priors in Semantic Visual Navigation

Robotics has always been anticipated to revolutionize the world. However, despite the significant progress over the past few decades, robots have yet to be able to reliably navigate within an unstructured indoor environment. Semantic visual navigation is the task of navigating within a possibly unknown environment using only visual sensors, such as asking a household robot agent to “go to the kitchen”. Traditional “modular” methods combine a Simultaneous Localization and Mapping (SLAM) component with separate search, planning, and control modules. However, these methods do not scale well to large environments, and require significant engineering efforts. Alternatively, end-to-end “learning” solutions produce agent policies that directly infer actions from camera frames, by applying Deep Reinforcement Learning (DRL) techniques on large-scale datasets. Nevertheless, these policies tend to be reactive, do not explicitly exploit scene geometry, and are not data efficient. Furthermore, both modular and learning-based approaches do not sufficiently exploit knowledge from past task instances to improve subsequent search performance in both repeated environments as well as unseen yet similar environments. Our project explores the learning and use of spatial-semantic priors for more efficient semantic visual navigation. We aim to devise a framework that learns, updates, and exploits a topological-semantic map between discovered locations and objects within. We hypothesize that these advances will result in agents that generalize better to unseen similar environments, as well as becoming increasingly more efficient during repeated search queries within the same environment.

Chengyuan Zhang (McGill University, Lijun Sun)

Statistical Modeling Framework to Understand Dynamic Traffic Patterns from Video Data

Video-based traffic monitoring systems, as the backbone of modern Intelligent Transportation Systems (ITS), is playing an essential role in sensing traffic conditions and detecting abnormal events/incidents. Semantically understanding traffic scenes and automatically mining the traffic patterns from video data of a static camera can help with traffic situation analysis and anomaly events warning. Given a video of a dynamic traffic scene with several different behaviors happening simultaneously, we want the ITS to learn and understand: “How many typical traffic patterns are in the video? How to semantically interpret these patterns? What are the rules governing the transitions between these patterns?”In this project, we will mainly focus on traffic patterns recognition and anomaly detection from video data, we will: (i) construct representation learning model to extract efficient features; and (ii) develop an unsupervised learning framework based on Bayesian nonparametrics to automatically learn the traffic patterns.