Modélisation, ressources et traitement informatique

Axe Modélisation, ressources et traitement informatique

L’axe Modélisation, ressources et informatique (MRI) entend faciliter des recherches de haut niveau en linguistique informatique, dans une visée de production de nouveaux modèles et outils. Il permettra ainsi la mise en place de méthodologies croisées de collecte, de création et de partage de ressource sur des plateformes qui soient accessibles à tous. Enfin, l’axe vise des actions de formations sur les nouvelles technologies et sur les outils de traitements statistiques pour les sciences du langage, qui puissent aider les membres du laboratoire à monter en compétences sur ces aspects.

Responsables :
Seto Yibokou kossi-seto.yibokou [at] univ-lorraine.fr
Mathilde Hutin mathilde.hutin [at] atilf.fr

Activités

L’axe « Modélisation, ressources et informatique » (MRI) fait partie des trois axes méthodologiques du nouveau projet de l’ATILF. Cet argumentaire se propose d’exposer les éléments centraux de l’axe notamment les objectifs, les thématiques correspondantes, ainsi que les animations envisageables autour de MRI. Les groupes travaillant sur les différentes thématiques et sous-thématiques apparaissent entre parenthèses.

L’axe se fixe plusieurs objectifs principaux. Premièrement, il entend faciliter des recherches de haut niveau en linguistique informatique ou TAL, dans une visée de production de nouveaux modèles et outils. Deuxièmement, il permettra la mise en place de méthodologies croisées de création de ressources, et le partage de ces dernières sur des plateformes communes qui soient accessibles à tous. Troisièmement, l’axe vise des actions de formations sur les nouvelles technologies et sur les outils de traitements statistiques pour les sciences du langage, qui puissent aider les membres du laboratoire à monter en compétences sur ces aspects.

Thématiques

L’axe visera à créer des lieux d’échanges méthodologiques autour de trois grandes thématiques détaillées ci-dessous :

(i) Modélisation linguistique

La première thématique s’intéresse à la modélisation linguistique qui peut se décliner en plusieurs dimensions : le type de la ressource produite (ressource lexicale, corpus), le mode de description (manuel, semi-automatique, automatique) ou le type de représentation (symbolique, numérique).

Concernant les ressources lexicales, les travaux de descriptions linguistiques de l’axe sont la plupart du temps réalisées manuellement, souvent avec l’aide de logiciels d’édition. L’axe inclut en particulier des travaux de développement de modèles à base de graphes pour représenter le lexique : non seulement, pour la langue générale, sous la forme de réseaux lexicaux (GR « Lexicologie des réseaux lexicaux »), ou des réseaux morphologiques (GR « Morphologie constructionnelle ») ; mais aussi, pour le lexique spécialisé comme celui du domaine de l’orthophonie via des termino-ontologies (GR GROTTO) ou comme celui de la chimie verte via des réseaux lexicaux (GR Lexicologie des réseaux lexicaux). Ces méthodes co-existent dans l’axe avec des travaux s’appuyant sur les méthodes numériques récentes de l’intelligence artificielle qui exploitent de larges volumes de textes pour l’induction semi-supervisée de lexique et pour le liage de ressources lexicales (GR TAL).

La modélisation en corpus est également une sous-thématique importante. Elle peut prendre plusieurs formes : des annotations (identification de termes complexes, par ex. travaux de Laurence Kister sur des publications en sciences du langage), une modélisation logico-sémantique formelle (GR « Sémantique et Psycholinguistique du Discours Clinique et Pathologique »), une modélisation à base de règles et de lexiques (lemmatisation, GR « moyen français et états anciens du français »), une modélisation numérique (marqueurs du discours polylexicaux, GR « marqueurs du discours » ; entités nommées, expressions polylexicales et relations sémantiques, GR TAL).

Certains travaux combinent les deux types de ressources (ressource lexicale + corpus) profitant de leur complémentarité: cf. les travaux sur la levée d’ambiguïté lexicale du GR « Polysémie et Ambiguité Lexicale » au moyen de modèles neuronaux.

(ii) Traitement statistique de corpus pour les sciences du langage

La deuxième thématique principale de l’axe rassemble des travaux qui utilisent des outils de traitement statistique de corpus pour aider les recherches des différents axes disciplinaires de l’unité. Les outils statistiques, en particulier, permettent d’extraire des régularités linguistiques au sein de corpus textuels (ex. GR « Marqueurs discursifs », GR « Corpus & Didactique des Langues », GR FLEURON). Ces outils peuvent concerner des corpus oraux et écrits. La plupart du temps, les corpus sont monolingues, mais peuvent aussi être bilingues (GR « Pragmatique, Linguistique Contrastive et Corpus »). Cette thématique pourra bénéficier du groupe technique dédié aux outils statistiques qui va être mis en place en collaboration avec le service de soutien technique à la recherche.

Cette thématique pourra être étendue aux travaux à visées plus applicatives dans les domaines de la santé et de l’apprentissage des langues utilisant d’autres types de corpus. Par exemple, le GR TAL s’intéresse à agréger et à aligner les connaissances extraites de plusieurs sources textuelles : publications scientifiques, rapports patients et réseaux sociaux autour de la thématique du cancer. D’autres travaux partent de corpus hétérogènes : un corpus composés de données cliniques structurées et de rapports textuels de patients pour prédire leur chance de survie (GR TAL) ; un corpus formé de données oculométriques et de dialogues entre patients et psychiatres pour prédire l’entrée dans la maladie mentale du patient (GR « Sémantique et Psycholinguistique du Discours Clinique et Pathologique ») ; des corpus multimodaux pour l’apprentissage des langues (vidéos YouTube avec transcriptions (GR TAL)).

Ce type d’approche d’ordre quantitatif pourra être mis en perspective avec des approches plus qualitatives pour l’analyse de corpus : études de la néologie dans un corpus de premiers romans français contemporains (Véronique Montémont), descriptions analytiques dans le corpus multimodal FLEURON (GR FLEURON).

(iii) Outils d’aide à la constitution de corpus

La troisième thématique de l’axe concerne les outils d’aide à la constitution de corpus. L’objectif est de créer un lieu d’échange pour partager méthodologies, techniques et outils sur ce sujet. Le groupe technique TELEX-AGORA en particulier sera chargé de mettre en place une plateforme utilisable par tous les membres du laboratoire permettant de réaliser des traitements de textes intégraux pour différents états de langue, et rassemblant un ensemble d’outils de TAL (segmentation lexicale, lemmatisation, étiquetage morphosyntaxique, levée d’ambiguïté lexicale, analyse syntaxique, identification de termes et d’entités nommées). Dans le cadre de corpus avec des données sensibles, l’intégration d’outils d’anonymisation seront un aspect intéressant à discuter (projet ANR soumis avec la participation de Frédérique Brin-Henry). Il en est de même pour l’intégration de technologies de la parole dans des plateformes et ressources dédiées à l’apprentissage des langues (GR « Langue, Travail, Formation »). L’aide à l’édition numérique est aussi un sujet important de l’unité qu’il faut conserver : mise au standard TEI, extraction de glossaires. Les ingénieurs de l’ATILF sont en particulier associés à différents projets ANR (Liber, MACINTOSH). Il existe également des projets comme la constitution de corpus médiatiques du XIXe siècle (Gabrielle Hirchwald et Bertrand Gaiffe). Enfin, cette thématique comprendra aussi tous les aspects concernant la numérisation et l’édition de méta-données qui sont des éléments fondamentaux, notamment pour l’enrichissement de la base Frantext.

Animations spécifiques

En plus des activités prévues au niveau de l’unité, des ateliers seront organisés : techniques (de co-formation aux outils et logiciels) ou réflexifs (en collaboration avec les chantiers Corpus ou TLFi). Ces événements permettront ainsi la création d’espaces où plusieurs groupes thématiques techniques pourront travailler sur les plateformes ou les outils statistiques.

Vie de l’axe

16 juin 2023 : Journée thématique transversale de l’ATILF « Autour des outils et logiciels ».

17 mars 2023 : Intervention de Marianne Clausel (statisticienne à l’IECL – Institut Élie Cartan de Lorraine) sur les outils et formations en statistiques.

Groupes de recherche

Interfaces
Responsable : Marie-Laurence Knittel marie-laurence.knittel [at] univ-lorraine.fr

Lexicologie – théorique, descriptive et appliquée – des réseaux lexicaux (Lexicologie des réseaux lexicaux)
Responsable : Alain Polguère alain.polguere [at] univ-lorraine.fr

Linguistique du TExte et du LEXique : AGrégation d’Outils pour la Recherche Appliquée
Responsable : Nabil Gader nabil.gader [at] atilf.fr

Marqueurs discursifs
Responsable : Mathilde Dargnat mathilde.dargnat [at] atilf.fr

Morphologie constructionnelle
Responsable : Fiametta Namer fiammetta.namer [at] univ-lorraine.fr

Moyen français et autres états anciens du français
Responsable : Sylvie Bazin-Tacchella sylvie.bazin [at] univ-lorraine.fr

Polysémie et ambiguïté lexicale (PAL)
Responsable : Sandrine Ollinger sandrine.ollinger [at] atilf.fr

Sémantique et Psycholinguistique du Discours Clinique et Pathologique (SPDCP)
Responsable : Michel Musiol michel.musiol [at] univ-lorraine.fr

Traitement automatique des langues
Responsable : Mathieu Constant mathieu.constant [at] atilf.fr

Terminologie et Orthophonie (GROTTO)
Responsable : Frédérique Brin-Henry frederique.henry [at] atilf.fr