Form groups with 4 students. Make your choice by joining a group via Moodle. First arrived, first served.
There will be 3 afternoons dedicated to projects follow-up. You can work with your mates whenever you want.
You should send a report no later that December the 13th. Your work will be presented during a 20 minutes talk (10 minutes + questions) on December the 15th.
Report and talk can be written/made in English or in French.
VICAN (vie après cancer) est une étude menée chez environ 17K patientes ayant un cancer (majorité de cancer du sein et cancer du poumon) avec recueil d’information à inclusion, 2 ans après inclusion (VICAN2), 5 après inclusion (VICAN5). Plus d’information disponible ici.
Le projet vise à décrire les co-médications (médicaments pris en parallèle des traitements de cancer, qui ne sont pas pour traiter le cancer, e.g. traitement chronique) : description des médicaments par molécules puis classes et sous-classes de la classification internationale des molécules ATC, clustering des patientes selon le type de co-médications qu’elles prennent.
On pourra observer les différences entre les clusters en termes de variables exogènes telles que l’âge, le lieu de résidence, l’IMC, etc… Les élèves pourront aussi s’intéresser aux différences de prises de comédications avant cancer et après cancer (à 2 ans puis à 5 ans).
Mots-clés: Clustering, médicaments, population stratification
Le projet vise à étudier le potentiel impact du lieu de résidence sur les séquelles après cancer du sein et leur guérison. Le projet pourrait être effectué en deux étapes :
Étape 1 : Graph clustering sur les communes françaises. Les noeuds sont les villes françaises caractérisées par des indicateurs sociaux tels que indices de pauvreté, taux de chômage, distance au médecin généraliste. Les arêtes sont pondérées par les distances entre les communes.
Étape 2 : Dans chacun des clusters définis plus haut, on étudie les différences entre : l’existence de séquelles, le type de séquelle, l’évolution des séquelles dans le temps (à 2 ans puis 5 ans) pour les patientes de VICAN résidant dans chaque cluster. Le projet invite aussi à travailler sur des visualisations sous forme de graphes.
Mots-clés: clustering, graphe, spatial
Ce projet exploratoire vise à décrire le cancer et les trajectoires de vie de patientes jeunes atteintes de cancer du sein. On pourra se focaliser sur les variables suivantes :
Mots-clés: réduction de dimension, visualisation, trajectoire
L’étude FEERIC (FErtility, PrEgnancy, contRaception after BC in France) est une étude française lancée en mars 2018 pour évaluer la fertilité et la contraception de femmes ayant eu un cancer du sein et comparées à des femmes qui en sont indemnes. Les données ont été collectées sur une plateforme de recherche communautaire et collaborative “ Seintinelles” (https://www.seintinelles.com). Ce réseau social de recherche a pour vocation initiale de mettre en relation des citoyens volontaires et des chercheurs pour accélerer la réalisation d’étude. A ce jour, plus de 30 000 citoyens sont inscrits sur la plateforme Seintinelles qui a lancé plus de 30 études et a obtenu des temps d’inclusions record.
Plus d’informations sur la page wikipedia
Les données des projets 4 et 5 sont issues de questionnaires remplis en ligne (par des femmes ayant eu un cancer du sein ou non), et les questions portent principalement sur la fertilité et les grossesses.
Ce projet peut être sélectionné par plusieurs groupes d’étudiants (2 groupes maximum).
Un délai de conception est défini par le temps entre le début d’un projet de grossesse et l’obtention effective d’une grossesse. Peu de données sont disponibles sur les délais de conception chez les couples désirant une grossesse.
Une issue de grossesse est définie par le devenir final de la grossesse et inclut : la fausse couche spontanée, l’interruption volontaire de grossesse (IVG), l’interruption thérapeutique de grossesse (ITG), la grossesse extra-utérine, la grossesse menée à terme, ou autres évènements plus rares (môle hydatiforme, etc…).
L’histoire obstétricale d’une femme est composée de l’ensemble des éléments liés aux grossesses (délais de conception, issues de grossesses, complications etc…). Les événements obstétricaux sont souvent étudiés seuls, mais ne sont pas intégrés au sein d’un parcours obstétrical; qui serait propre à chaque patiente. Dans le questionnaire de l’étude FEERIC, les femmes étaient interrogées sur leur passé gynéco-obstétrical et renseignaient pour les grossesses antérieures à l’entrée dans l’étude : (i) si la grossesse était désirée ; (ii) le délai de conception ;(iii) une éventuelle assistance médicale à la procréation ; (iv) l’issue de la grossesse et de l’accouchement.
L’objectif du projet est triple :
analyser les déterminants cliniques et démographiques du délai d’obtention d’une grossesse chez les femmes ayant eu une grossesse désirée (par construction, le délai de conception chez une femme ayant une grossesse non désirée est considéré comme NA). Il s’agit donc d’un problème de régression qui pourra être traité par des analyses statistiques classiques ou par des méthodes plus avancées d’apprentissage supervisé.
analyser les déterminants cliniques et démographiques de l’issue de grossesse chez les femmes ayant eu une grossesse (qu’elle soit désirée ou non). Il s’agit cette fois-ci d’un problème de classification.
identifier des parcours obstétricaux similaires et les déterminants qui les sous tendent. Les données seront étudiées pour cette question sous la forme d’une séquence d’événements ordonnés : contraception / grossesse / issue de la grossesse/ etc… avec des délais. L’idée est de clusteriser les parcours obstétricaux en utilisant des algorithmes de clustering de séquences. Les clusters obtenus seront étudiés (qualité du clustering, choix des hyper-paramètres, caractéristiques..) et visualisés.
Mots-clés: séquence, visualisation, clustering, prédiction (classification, régression)
Le modèle de recherche lié à la plateforme Seintinelles est un modèle pionnier. L’association a reçu le prix Google « Moteur de réussites françaises » en 2015. En cas d’étude longitudinale, un des défis majeurs est la fidélité dans le temps des répondeurs, afin de limiter le nombre de participants ‘perdus de vue’ qui peuvent biaiser les résultats de l’étude.
Dans l’étude FEERIC, les patientes répondaient à un questionnaire à l’inclusion, puis un questionnaire d’actualisation tous les 6 mois (soit 7 questionnaires au total). Les données fournies pour le projet correspondent au questionnaire initial et aux 5 questionnaires d’actualisation.
Le but du projet est d’anticiper les profils de patientes susceptibles d’être “perdues de vue” au fil des différents questionnaires longitudinaux, et à l’opposé, celles qui seront de “fidèles répondeuses”. C’est un projet de prédiction (classification) à partir des données cliniques / démographiques dans lequel l’interprétabilité des résultats (quelles sont les variables importantes) est cruciale. Mots-clés: Prédiction (classification), interprétabilité, modèle explicatifs
Le projet MICROCOSM a pour objectif d’étudier l’holobionte bovin, c’est à dire l’hôte et les communautés microbiennes (aussi appelées microbiotes) associées pour comprendre l’interaction entre le microbiote et la santé de l’hôte. Il repose sur une étude longitudinale (3 à 4 points de temps) des microbiotes bovins associés à différents sites anatomiques (bouche, nasaux, vagins, trayons) et intègre différentes communautés (bactériennes, levures / champignons). Au delà des quantification microbiennes, chaque animal est caractérisé par un certain nombre de variable: score génétique, lignée, état de santé, etc. Le projet vise à (i) identifier les facteurs structurant les microbiotes, (ii) évaluer l’interdépendance entre ces microbiotes (redondance, réseaux d’association) (iii) établir les liens entre ces microbiotes et la santé de l’hôte à l’échelle locale et globale.
Les données consistent en deux tables d’abondances: une décrivant les abondances de 1091 espèces bactériennes dans 671 microbiotes et une décrivant les abondances de 232 espèces fongiques dans un sous-ensemble de 389 échantillons.
L’idée de ce projet est d’étudier et de comparer les microbiotes pour identifier les facteurs structurants majeurs. On pourra s’appuyer sur des distances classiques en écologie microbienne et/ou une modélisation ad-hoc des données d’abondance pour visualiser intelligemment les données. On pourra ensuite essayer de clusteriser les microbiotes et vérifier l’accord entre les groupes reconstruits et les covariables d’intérêts (temps, site, état de santé de l’animal, etc). On pourra en parallèle prédire la classe (au sens de site, point de temps, etc), de chaque microbiote pour qualifier la difficulté du problème de classification et identifier les facteurs les plus discriminants.
Mots-clés: visualisation, clustering, classification
L’idée de ce projet est d’appliquer des modèles à blocs latents sur les données de comptages (éventuellement transformées) pour identifier des groupes d’espèces, des groupes de microbiotes et des associations préférentielles entres eux (e.g. les espèces du groupe A sont spécifiques des échantillons du groupe 1 tandis que les espèces du groupe B sont ubiquitaires) avant de vérifier si les groupes d’échantillon ainsi formés coïncident avec les covariables décrites plus haut (site, point de temps, lignée, etc). On pourra dans un deuxième temps corriger par ces covariables et vérifier si les associations persistent.
Mots-clés: bi-clustering, modèles à variables latentes
Le projet MetaOTU a pour objectif d’étudier conjointement les données provenant de 7 études portant sur l’écosystème microbien de sols soumis à différentes sources de variation (traitements différents, pratiques de culture etc.) pour comprendre la structure ou l’assemblage des communautés bactériennes en fonction de ces différentes sources de variation. Au delà des quantification microbiennes, chaque échantillon de sol est caractérisé par un certain nombre de variables telles que : l’étude dont il est issu, le pays d’origine de l’échantillon de sol initial, la présence ou non de couvert végétal, le traitement principal appliqué, etc.. Le projet vise à (i) identifier les facteurs structurant les communautés microbiennes, (ii) évaluer l’interdépendance entre ces communautés (redondance, réseaux d’association) (iii) inférer des réseaux entre les espèces et regarder leur « robustesse » par rapport aux covariables.
Les 7 études sont les suivantes :
Les données consistent en une table d’abondances décrivant les abondances de 1161 OTUs, proxies d’espèces bactériennes dans 1647 échantillons de sols et une table ‘MetaOTU-mapping-file.csv’ caractérisant les 1647 échantillons de sols.
L’idée de ce projet est d’étudier et de comparer les communautés microbiennes du sol (en univarié ou en mutivariée) pour mettre en avant les facteurs structurants majeurs. On pourra s’appuyer sur des indices de diversité, des distances classiques en écologie microbienne, et/ou une modélisation ad-hoc des données d’abondance pour décrire et visualiser intelligemment les données. On pourra ensuite essayer de classer les écosystèmes microbiens et vérifier l’accord entre les groupes reconstruits et les covariables d’intérêts (nature du sol, origine géographique, extraction vs original, etc).
Mots-clés: description, visualisation, clustering
L’idée de ce projet est d’appliquer des modèles à blocs latents sur les données de comptages
(éventuellement transformées) pour identifier des groupes d’espèces microbiennes, des groupes de sols et des associations préférentielles entres eux (e.g. les espèces du groupe A sont spécifiques des échantillons du groupe 1 tandis que les espèces du groupe B sont ubiquitaires) avant de vérifier si les groupes d’échantillon ainsi formés coïncident avec les covariables décrites plus haut. On pourra dans un deuxième temps corriger par ces covariables et vérifier si les associations persistent.
Mots-clés: bi-clustering, modèles à variables latentes
L’idée de ce projet est d’inférer un ou plusieurs réseaux d’interactions entre espèces
microbiennes à partir des données de comptages. On pourra étudier la stabilité du réseau en enlevant quelques échantillons. Dans un deuxième temps on pourra corriger par certaines covariables pour vérifier si les interactions inférées persistent une fois la ou les covariables prises en compte. On pourra finalement proposer une visualisation des résultats.
Mots-clés: network, modèles à variables latentes, visualisation
See e.g.
https://github.com/Leo8216/An-Analysis-of-PCA-and-Autoencoder-Generated-Factors-in-Predicting-SP500-Returns https://gt.rstudio.com/reference/sp500.html https://rdocumentation.org/packages/depmixS4/versions/1.4-1/topics/sp500 https://towardsdatascience.com/exploring-the-sp500-with-r-part-1-scraping-data-acquisition-and-functional-programming-56c9498f38e8
keywords: prediction, dimension reduction, neural networks
In this project, we compare both GANs and WGANs. Comment the two original paper. Precisely describe both approaches and the main differences. Start to test on simple examples (e.g. normal distribution)
References:
Keywords: neural networks, auto-encoders
References:
Possible examples: financial time series e.g. learn how to sample SP&500
Keywords: neural networks, auto-encoders
(2 groups possible - Python or R)
In this project, the goal is to explore extensions of the Stochastic Block Model where edges are weighted with various distributions (Poisson and Gaussian for instance). It also shows how one can include external knowledge on top of the network structure, by means of covariates on the nodes of the graph. All the corresponding models are implemented either in R or in Python. Use them to analyze some weighted network data and/or binary network with covariates.
R package. https://CRAN.R-project.org/package=sbm, and https://grosssbm.github.io/sbm
Python library: https://graph-tool.skewed.de/
Network data. Pick up some network data (with less than 500/1000 nodes for your convenience!) to illustrate the method that you study, for instance in
Keywords: graph clustering, mixtures model, model-based approaches