PASTIS research group
Présentation en français :
À l'Université Paris 8, le groupe de recherche PASTIS du LIASD rassemble des enseignant·es-chercheur·es et des doctorant·es en informatique. Notre groupe s'inscrit dans une dynamique de modélisation et de compréhension des activités cognitives humaines en interaction avec l'informatique. Notre démarche donne une part importante à la pratique de la programmation, typiquement au travers de simulations et de mises en œuvres d'outils concrets et utilisables.
Les membres de PASTIS mettent en œuvre cette approche commune dans différents domaines de l'informatique : nous traitons de synthèse d'images expressives, de résolution de jeux, de représentation du raisonnement, d'apprentissage automatique, d'analyse de textes, du contrôle pour la privacy, et de compréhension de programmes.
Le nom “PASTIS” est d'ailleurs un acronyme qui reflète la diversité des domaines de l'informatique dans lesquels les membres de notre groupe travaillent : Programmation, Apprentissage, Sécurité, Textes, Images, Simulations.
Presentation in English:
Paris 8 University's PASTIS research group, part of the LIASD, is composed of computer science academics and PhD candidates. Our group focuses on understanding and modeling cognitive human activities dealing with computers. Our approach gives an important role to programming, typically through simulations and implementation of concrete and usable tools.
Members of PASTIS implement this common approach in various fields of computer science: we work on expressive rendering, game solving, knowledge representation and reasoning, machine learning, text analysis, privacy as control, and program comprehension.
The name “PASTIS” is actually an acronym that reflects the diversity of computer science fields in which our team members work: Programming, Artificial intelligence, Security, Texts, Images, Simulations.
People
Faculty members
- Adrien Revault d'Allonnes (MCF)
GdR IA and GdR I3 (GT “fouille de données”) participant. IEEE CIS member (French chapter president), EUSFLAT member.
information evaluation, trust, non-classical logic, machine learning, clustering, formal models, artificial intelligence, fake news.
- Alexandros Singh (MCF)
GT ALEA, ANR LambdaComb.
combinatorics and its interactions with (theoretical) computer science, combinatorics of maps, combinatorics of the lambda-calculus.
- Alice Millour (MCF)
GdR LIFT participant, GdR TAL participant, ATALA member, Science Ensemble member, project CORLI-GUM participant.
natural langage processing, corpus and dataset construction, crowdsourcing, less-resourced languages.
- Anna Pappa (MCF)
GdR IA participant.
artificial intelligence, natural langage processing, corpus and dataset construction, parsers, machine learning, chatbots.
- Benjamin Dupont (PRAG, associated member)
Algebraic rewriting seminar.
algebraic rewriting, categorification, representation theory.
- Farès Belhadj (MCF)
GdR IG-RV participant.
expressive rendering, real-time rendering, GPU-based algorithm, abstraction and stylization, surface modeling, fractals.
- Françoise Balmas (MCF-HDR)
software quality, program analysis and understanding, programming styles and paradigms.
- Jean-Jacques Bourdin (PR)
GdR IG-RV participant. Eurographics Education Board member.
image synthesis, expressive rendering, virtual painting, teaching of/with computer graphics.
- Louis Falissard (MCF)
- Nicolas Jouandeau (PR) — head of the research group
GdR IA (GT Jeux) participant. ICGA member.
computer games, artificial intelligence, tree search, machine learning.
- Pablo Rauzy (MCF)
Géode. GdR Sécurité (GT PVP, GT MFS) member. GdR CIS.
security, privacy, formal models, control, usability, blockchains.
- Revekka Kyriakoglou (MCF)
GdR IA, GdR IM, GdR LIFT.
symbolic dynamics, combinatorics on words, formal languages, natural language processing.
- Vincent Boyer (MCF-HDR — currently on leave)
expressive rendering, real-time rendering, GPU-based algorithm, abstraction and stylization.
PhD students
- Jean-Pascal Palus (2021–)
“Dynamique et évolution de la confiance : explication et formalisation de la mésinformation”.
Advisors: Adrien Revault d'Allonnes, Nicolas Jouandeau.
- Marina Seghier (2023–)
“Explicabilité des modèles de TAL par les ressources : caractérisation de la variation textuelle et paradigme d’évaluation systématique”.
Advisors: Alice Millour, Nicolas Jouandeau.
- Maroua Boudabous (2019–)
“Modélisation d'un système intelligent d'analyse prédictive des données textuelles massives pour l'aide à la décision”.
Advisors: Anna Pappa, Françoise Balmas.
- Stephen Obonyo (2021–)
“Bioinformatic computation with tree search and learning”.
Advirsors: Nicolas Jouandeau, Dickson Owuor (Strathmore).
Postdocs and ATERs
Interns
- Liam Duignan (M1 — Université Paris Cité)
“Paradigmes d'évaluation interprétables pour la tâche de reconnaissance des entités nommées en français”.
Co-encadrement Alice Millour et Jean-Yves Antoine.
- Kevin Quach (M1 — Université Gustave Eiffel)
Projet CLexIC.
Co-encadrement Anna Pappa, Revekka Kyriakoglou, et Alice Millour.
- Marina Seghier (M2 — Sorbonne Nouvelle Paris 3, INALCO, Paris Nanterre)
“Caractérisation objective des domaines/genres/registres/modalités pour le TAL : le cas de la reconnaissance des entités nommées en français”
Co-encadrement Alice Millour et Jean-Yves Antoine.
Former members
- 2023 : Hanane Zerdoum (ATER 2021–2023), Oumaima El Joubari (ATER 2021–2023), Sylvain Chichery (postdoc).
- 2022 : Sylvia Chalençon (MCF), Emna Chebbi (ATER 2021–2022), Syrine Saidi (ATER 2021–2022), Chaima Ben Salem (intern), Emil Raducanu (intern), Jilin He (intern), Mouna Benabid (intern).
- 2021 : Patrick Gikunda (PhD student 2018–2021), Rahima Zaouche (ATER 2020–2021), Rémi Nollet (ATER 2020–2021), Sarah Zouinina (ATER 2020–2021).
Projects
Ongoing projects
Past projects
- Deep Learning To Identify Fall Armyworm Pest, PHC PAMOJA 2019–2021, Université Paris 8, University of Nairobi, KALRO - Kenya (contact Nicolas Jouandeau).
- Litte_Bot, 2019–2022 (contact Anna Pappa).
- MétaMoi, 2021–2022 (contact Farès Belhadj et Sylvia Chalençon).
News
Les performances annoncées des systèmes d’Intelligence Artificielle appliqués au Traitement Automatique des Langues (TAL) peuvent être mises à mal par la diversité des situations linguistiques dans lesquelles ils sont utilisés. Les performances d’un modèle d’apprentissage entraîné sur une certaine catégorie de ressources textuelles (par exemple, du contenu journalistique, encyclopédique de type Wikipédia, etc.) sont souvent moindres lorsqu’il est appliqué sur des ressources d’un type différent (parole transcrite, prose littéraire, poésie, contenu scientifique, etc.). La remédiation à cette variation est généralement abordée en TAL du point de vue d’une étape d’adaptation des modèles sur ressources additionnelles (transfer learning), sans étude des caractéristiques linguistiques qui permettraient d’expliquer ces variations de performances.
Or, on peut faire l’hypothèse que la difficulté pour un outil de réaliser une certaine tâche à partir d’un apprentissage automatique sur un corpus spécifique tient à la sur-représentation dans celui-ci d’un phénomène et/ou d’une sous-tâche particulièrement difficiles, ou encore que les notions de domaine (médical, juridique, scientifique, …) / de genre (littéraire, informel, …) / de registre (soutenu, familier) ou enfin de modalité (écrite, orale) ont une pertinence classificatoire sur une tâche A mais pas sur une tâche B.
Ce stage sera consacré à l’identification et à l’analyse des descripteurs linguistiques pertinents pour la classification textuelle dans le cadre de la reconnaissance automatique d’entités nommées (REN) en français.
Le stage se déroulera dans l'équipe PASTIS du LIASD à l'Université Paris 8 (Saint-Denis, 93). Le stage peut commencer entre mars et avril 2023 et durera 5 ou 6 mois. Un bureau sera mis à disposition du ou de la stagiaire et un ordinateur portable sera fourni pour la durée du stage, si besoin. La rémunération correspond à la gratification de stage en vigueur (3,90€/heure soit ~600€/mois).
Ce stage s'adresse aux étudiant·es de Licence 3 ou Master 1 ou 2 en traitement automatique des langues, mais également en informatique pour des personnes intéressées par la langue naturelle. Sont attendues des compétences en programmation Python pour l’analyse textuelle. Des connaissances d’outils TAL seront appréciées (outils fondés sur l’apprentissage, classifieurs, outils statistiques de lexicométrie), de même qu'une curiosité linguistique et volonté de tester de nouvelles méthodes.
Candidatures : à envoyer à Alice Millour <am
at up8.edu>
avec un CV et une lettre de motivation.
Plus d'information (PDF) : Caractérisation objective des domaines/genres/registres/modalités pour le TAL : le cas de la reconnaissance des entités nommées en français.
L’écosystème du crowdfunding présente un intérêt particulier de par la multitude des projets proposés et le financement participatif des “foules”. Les descriptifs des activités et projets proposés sur les plateformes de crowdfunding sont différents des descriptions des produits et des services sur les sites des entreprises. Nous voulons identifier et analyser le contexte dans lequel l’innovation non technologique est représentée dans ces descriptifs.
Sujet du stage :
- Création automatique d’un lexique multilingue dont les termes désignent l’innovation non technologique (initialement en anglais et en français et par la suite en d’autres langues présentes sur les sites de plus de 4000 entreprises).
- Étude comparative contextuelle des termes désignant l’innovation non technologique, issus de deux corpus
différents : un corpus composé de textes extraits de sites web des entreprises participantes et un autre corpus
composé de textes issus des sites de crowdfunding (projets collaboratifs innovants).
Le stage se déroulera dans l'équipe PASTIS du LIASD à l'Université Paris 8 (Saint-Denis, 93). Le stage peut commencer entre mars et avril 2023 et durera 5 ou 6 mois. Un bureau sera mis à disposition du ou de la stagiaire et un ordinateur portable sera fourni pour la durée du stage, si besoin. La rémunération correspond à la gratification de stage en vigueur (3,90€/heure soit ~600€/mois).
Ce stage s'adresse aux étudiant·es de master 1 ou 2 ou étudiant·s ingénieurs en informatique, avec des connaissances sur les techniques de scraping, les méthodes d’apprentissage profond et les modèles de type BERT, un bon niveau en programmation Python (avec les framework Pytorch, Tensorflow). Une connaissances d’outils TAL sera appréciées (outils fondés sur l’apprentissage, modèles de langue, classifieurs, si possible outils statistiques de lexicométrie).
Candidatures : à envoyer à Revekka Kyriakoglou <kyriakoglou
at up8.edu>
et Alice Millour <am
at up8.edu>
avec un CV et une lettre de motivation.
Plus d'information (PDF) : Stage CLexIC.
L'objectif de ce stage est d'utiliser le cadre formel Capacity pour modéliser, étudier, et caractériser le contrôle sur les données personnelles offert par le système de transaction GNU Taler. Il faudra pour cela mettre en œuvre une installation complète de GNU Taler (bureau de change, marchand, portefeuille client), modéliser ce système formellement avec Capacity, puis instrumentaliser les implémentations des logiciels de l'installation pour les faire générer des traces d'évènements concrets qui seront utilisable pour caractériser le niveau de contrôle effectivement offert par GNU Taler à ses utilisateur·ices à l'aide de l'implémentation de Capacity en cours de développement dans le projet ReComp en collaboration avec l'équipe ACASA du LIP6.
Le stage se déroulera dans l'équipe PASTIS du LIASD à l'Université Paris 8 (Saint-Denis, 93). Le stage peut commencer entre janvier et avril 2023 et durera 5 ou 6 mois. Un bureau sera mis à disposition du ou de la stagiaire et un ordinateur portable sera fourni pour la durée du stage, si besoin. La rémunération correspond à la gratification de stage en vigueur (3,90€/heure soit ~600€/mois).
Le ou la candidat·e idéal·e est étudiant·e en M1 ou M2 informatique (ou équivalent), a des appétences pour la formalisation et l'abstraction, ainsi que des compétences en programmation et en administration système. Seront également appréciés des connaissances et intérêts personnels pour les libertés numériques et la privacy.
Candidatures : à envoyer à Pablo Rauzy <pr
at up8.edu>
avec un CV et une lettre de motivation.
Plus d'information (PDF) : Étude du contrôle sur les données personnelles dans GNU Taler à l'aide de Capacity.
Le projet MetaMoi propose d’étudier et de concevoir un nouveau modèle d’interactions au travers d’un avatar de soi. Dans le domaine des applications informatiques, l’avatar était, par le passé, un assistant pour de l’initiation, de l’aide à la pratique, du dépannage ou encore des astuces d’utilisation. Dans le domaine des jeux vidéos, les avatars sont devenus des représentations des joueurs dans des méta-univers. Avec les réseaux sociaux, les médias, la communication, les jeux vidéos et les mondes virtuels connectés, les avatars vont devenir des représentations de nous même, pilotés par chacun ou pouvant agir et interagir en notre nom, à notre place, comme nous le ferions ou selon un modèle de comportement choisi. Il s’agit donc de définir comment nous représenter, comment représenter nos expressions, comment permettre aux programmes d’apprendre à réagir comme nous le ferions.
Les objectifs visés par ce projet abordent donc de multiples problématiques pour lesquels la recherche et l’élaboration de nouveaux modèles seront nécessaires. Chaque partie produira ainsi ses propres résultats et publications scientifiques en lien direct avec le domaine sous-jacent. L’agrégation totale ou partielle de ces parties permettra de produire des résultats scientifiques en lien avec d’autres domaines comme la santé, l’éducation ou la psychologie.