Les performances annoncées des systèmes d’Intelligence Artificielle appliqués au Traitement Automatique des Langues (TAL) peuvent être mises à mal par la diversité des situations linguistiques dans lesquelles ils sont utilisés. Les performances d’un modèle d’apprentissage entraîné sur une certaine catégorie de ressources textuelles (par exemple, du contenu journalistique, encyclopédique de type Wikipédia, etc.) sont souvent moindres lorsqu’il est appliqué sur des ressources d’un type différent (parole transcrite, prose littéraire, poésie, contenu scientifique, etc.). La remédiation à cette variation est généralement abordée en TAL du point de vue d’une étape d’adaptation des modèles sur ressources additionnelles (transfer learning), sans étude des caractéristiques linguistiques qui permettraient d’expliquer ces variations de performances.
Or, on peut faire l’hypothèse que la difficulté pour un outil de réaliser une certaine tâche à partir d’un apprentissage automatique sur un corpus spécifique tient à la sur-représentation dans celui-ci d’un phénomène et/ou d’une sous-tâche particulièrement difficiles, ou encore que les notions de domaine (médical, juridique, scientifique, …) / de genre (littéraire, informel, …) / de registre (soutenu, familier) ou enfin de modalité (écrite, orale) ont une pertinence classificatoire sur une tâche A mais pas sur une tâche B.
Ce stage sera consacré à l’identification et à l’analyse des descripteurs linguistiques pertinents pour la classification textuelle dans le cadre de la reconnaissance automatique d’entités nommées (REN) en français.
Le stage se déroulera dans l'équipe PASTIS du LIASD à l'Université Paris 8 (Saint-Denis, 93). Le stage peut commencer entre mars et avril 2023 et durera 5 ou 6 mois. Un bureau sera mis à disposition du ou de la stagiaire et un ordinateur portable sera fourni pour la durée du stage, si besoin. La rémunération correspond à la gratification de stage en vigueur (3,90€/heure soit ~600€/mois).
Ce stage s'adresse aux étudiant·es de Licence 3 ou Master 1 ou 2 en traitement automatique des langues, mais également en informatique pour des personnes intéressées par la langue naturelle. Sont attendues des compétences en programmation Python pour l’analyse textuelle. Des connaissances d’outils TAL seront appréciées (outils fondés sur l’apprentissage, classifieurs, outils statistiques de lexicométrie), de même qu'une curiosité linguistique et volonté de tester de nouvelles méthodes.
Candidatures : à envoyer à Alice Millour <am
at up8.edu
> avec un CV et une lettre de motivation.
Plus d'information (PDF) : Caractérisation objective des domaines/genres/registres/modalités pour le TAL : le cas de la reconnaissance des entités nommées en français.