Ressources : normalisation, annotation et exploitation

Équipe Ressources : normalisation, annotation et exploitation

La mission de l’équipe Ressources : normalisation, annotation et exploitation consiste à composer, annoter et outiller des corpus de texte, puis à en effectuer l’exploitation scientifique. Son activité connaît deux volets principaux : un volée « ingénierie » autour de la fabrication et le traitement de corpus textuels, ainsi que le développement d’outils de recherche automatisés, un volet « recherche » portant sur l’analyse de contenu et le traitement informatique de données linguistiques. L’équipe rassemble des spécialistes en sciences du langage (notamment en traitement automatique des langues), en informatique linguistique et en littérature.

Activités

L’équipe produit en premier lieu des données primaires. Elle est en particulier responsable de la base de données Frantext (www.frantext.fr), qui compte aujourd’hui plus de 5300 références, échelonnées du XIe au XXe siècle. Un tiers des textes de la base est sous droits et ses extraits sont affichés en partenariat avec le Syndicat National de l’Édition. L’enrichissement, régulier et diversifié, propose des textes connus, mais aussi l’inclusion d’œuvres anciennes, rares ou inédites. L’équipe est également adossée à la plateforme ORTOLANG (www.ortolang.fr) qui publie outils et ressources lexicographiques informatisés.

L’équipe développe une activité de recherche liée au traitement automatique des langues. L’équipe travaille entre autres sur le traitement automatisé des états anciens de la langue (lemmatisation et étiquetage). L’enrichissement de l’outil LGeRM (Lemmes Graphies et Règles Morphologiques) (www.atilf.fr/LGeRM), permet d’affiner la lemmatisation de textes d’ancien et de moyen français : traitement de la variation graphique, reconnaissance des formes, possibilités d’interrogation, dans Frantext, suivant des lexiques différenciés selon les époques. L’équipe travaille aussi sur la production de ressources linguistiques et leur exploitation pour le traitement automatique des langues via des méthodes d’apprentissage automatique. Les méthodes développées peuvent ensuite être mises en œuvre pour l’annotation linguistique automatique de corpus textuels, en incluant des méthodes de post-traitement sophistiquées comme la réinsertion d’annotations dans des documents XML.

L’exploitation des corpus se fonde notamment sur l’articulation du lexique, de la linguistique, de la stylistique et de la littérature. Il s’agit d’étudier, dans un texte donné, et sur des corpus de taille importante (jusqu’à 10 millions de mots) certains phénomènes de langue, des traits d’écriture spécifique ou encore l’appartenance à un genre littéraire. Cette approche peut aussi éclairer, sur des corpus d’auteurs, des problématiques plus générales (écriture et gender, perspective historique, questions sociologiques). L’étude est menée grâce à la recherche systématisée d’éléments textuels à un degré fin de granularité, avec la possibilité de construire des lexiques thématiques, ou de modéliser certains motifs syntaxiques manière semi-automatisée.

Équipe

Responsable scientifique
  Mathieu Constant, PR |    |   Page personnelle

Responsable scientifique adjoint
  Véronique Montémont, MC HDR |

Membres
  Hazem Al Saied, Jeune Docteur |   
  Ismaël Bada, AI |   
  Anne-Sophie Bories, Post-doc (membre associée)
  Ikhlas Chaabane, Doctorante
  Hee Soo Choi, Doctorante
  Isabelle Clément, TCE |   
  Mathieu Constant, PR |    |   Page personnelle
  Bertrand Gaiffe, IR |   
  Gabrielle Hirchwald, MC HDR |    | Page personnelle
  Abdelhak Kelious, Doctorant
  Timothée Mickus, Jeune Docteur |    | Page personnelle
  Véronique Montémont, MC HDR |   
  Marine Noël, Doctorante |
  Jean-Marie Pierrel, PREM |   
  Gilles Souvay, IR |    |   Page personnelle
  Gilles Toubiana, TCH |   

Consulter l’organigramme structurel en ligne

Thèses de doctorat

Consulter les résumés des thèses

 
Ikhlas Chaabane

Annie Ernaux : le malaise existentiel et la rupture avec le genre romanesque

Sous la direction de Véronique Montémont (ATILF / Université de Lorraine – CNRS).

Hee Soo Choi

Lier des ressources lexicales du français en vue d’une interopérabilité entre niveaux linguistiques

Sous la direction de Mathieu Constant (ATILF / Université de Lorraine – CNRS) et Karën Fort.

Abdelhak Kelious

Évaluation de contextes pour l’apprentissage des langues étrangères

Sous la direction de Mathieu Constant (ATILF / Université de Lorraine – CNRS).

Marine Noël

Poétiques du récit de retour aux origines du documentaire au roman suivi de Autoroute 31

Sous la direction de Véronique Montémont (ATILF / Université de Lorraine – CNRS) et de Claire Legendre (Université de Montréal).

Projets/Ressources

Édition de la première traduction française de la Cité de Dieu

Le projet vise à éditer les 10 premiers livres de la traduction en français de la Cité de Dieu de Saint Augustin par Raoul de Presles au quatorzième siècle.
La contribution de l’équipe ressource et normalisation consiste en l’encadrement informatique du projet et en particulier la réalisation des outils permettant d’obtenir, depuis l’encodage TEI le prêt clicher. Actuellement, deux volumes sont sortis (livres 1 à 3 et livres 4 et 5). Le volume suivant (livres 5 à 10) est en instance de publication chez Champion. Le travail se poursuit dans une vision moins ambitieuse de transcription des livres 11 à 22.
Par ailleurs, une ancienne collaboratrice de ce projet édite un Ovide moralisé en prose à l’aide d’outils réalisés à peu de frais à partir de ceux développés pour la Cité de Dieu. Ce travail devrait trouver son aboutissement d’ici un an ou deux.

  Référents scientifiques : Olivier Bertrand, Béatrice Stumpf, Bertrand Gaiffe.

  Parution du volume 1
  Parution du volume 2


  Frantext

Frantext est une base de données de plus de 5000 ouvrages français (textes littéraires, philosophiques, scientifiques et techniques), permettant d’effectuer des recherches sur des formes graphiques, des formes lemmatisées et des catégories grammaticales.
Implication de l’équipe : Numérisation et balisage de textes en XML-TEI, annotation des textes en lemmes et catégories grammaticales, constitution de lexiques, rédaction de documentation.

  Responsable : Véronique Montémont

Site Web : https://www.frantext.fr


  ISIS : une plate-forme de publication en ligne de dictionnaires

C’est une plate-forme qui permet de gérer des données au formats XML. Contrôle des articles, mise à jour de la base d’articles, gestion de la bibliographie, gestion des pages du site. La gestion est faite par le responsable du projet sans besoin de compétence en informatique. Les dictionnaires gérés par l’outil sont le DMF (http://www.atilf.fr/dmf), DERom (http://www.atilf.fr/DERom), le DECT (http://www.atilf.fr/dect), TLF-etym (http://www.atilf.fr/tlf-etym), Bibliographie Godefroy (http://www.atilf.fr/BbgGdf), TLFsup (http://stella.atilf.fr/TLFsup)

  Référent scientifique : Gilles Souvay


  LGeRM | Lemmes Graphies et Règles Morphologiques, gestion des états anciens du français

LGeRM, prononcer « elle germe », est initialement un lemmatiseur conçu pour gérer la variation graphique des états anciens du français. Il a été développé pour le moyen français (1330-1500) puis adapté au français du XVIe et XVIIe. Il est utilisé principalement pour la consultation du Dictionnaire de Moyen Français (http://www.atilf.fr/dmf/). Une chaîne de traitement pour lemmatiser et étiqueter les textes ante 1850 du corpus Frantext est en cours de développement.

LGeRM est aussi le nom désignant deux lexiques morphologiques : un lexique adapté au français médiéval et un second lexique adapté au français du XVIIe. Une variante du lexique XVIIe permet de moderniser des formes anciennes.

Enfin LGeRM est aussi un plate-forme collaborative permettant de corriger le résultat de la lemmatisation et de l’étiquetage en morphosyntaxe d’un texte encodés aux normes XML / TEI et d’étudier son vocabulaire afin de préparer son glossaire. Les résultats peuvent être exportés ou mis à disposition en ligne. Un exemple de réalisation : http://www.atilf.fr/dmf/ChansonAspremont/.


  ORTOLANG | Outils et Ressources pour un Traitement Optimisé de la Langue

Ortolang est un équipement d’excellence validé dans le cadre des investissements d’avenir qui offre un réservoir de données (corpus, lexiques, dictionnaires, etc.) et d’outils sur la langue et son traitement clairement disponibles et documentés qui :
– permet, au travers d’une véritable mutualisation, à la recherche sur l’analyse, la modélisation et le traitement automatique de notre langue de se hisser au meilleur niveau international;
– facilite l’usage et le transfert des ressources et outils mis en place au sein des laboratoires publics vers les partenaires industriels, en particulier vers les PME qui souvent ne peuvent pas se permettre de développer de telles ressources et outils de traitement de la langue compte tenu de leurs coûts de réalisation;
– valorise le français et les langues de France à travers un partage des connaissances sur notre langue accumulées par les laboratoires publics.

  Financement : contrat ANR–11–EQPX–0032

  Référents scientifiques : Etienne Petitjean, Jean-Marie Pierrel
Partenaires : INIST, LLL, LORIA, LPL, MoDyCo,

  Durée : 2013-2019

Site Web : https://www.ortolang.fr/


  Ovide en Français

Mise en forme de l’édition du livre 1 publié en 2018 à la Société des anciens textes Français.
Mise en forme des quatorze prochains livres.
Construction du glossaire de l’édition.

Référents scientifiques : Bertrand Gaiffe, Gilles Souvay


  PARSEME-FR

Le projet PARSEME-FR est dédié au traitement automatique des expressions polylexicales dans les textes. Les expressions polylexicales sont des combinaisons de plusieurs mots comprenant une certaine idiosyncrasie à un ou plusieurs niveaux linguistiques. Le projet a développé de nouvelles ressources annotées en expressions polylexicales et de nouvelles méthodes pour leur analyse automatique.
Implication de l’équipe : construction de corpus annotés en expressions poylexicales, développement d’approches d’identification automatique d’expressions polylexicales par transitions, développement d’un démonstrateur, outils de lemmatisation d’expressions

  Financement : Contrat ANR-14-CERA-0001

  Référent scientifique : Mathieu Constant
Partenaires : Université Paris-Diderot (LLF), Aix-Marseille Université (LIS), Université de Tours (LIFAT), Université d’Orléans (LIFO)

  Durée : 2016-2020

Site Web : https://parsemefr.lis-lab.fr/doku.php


  ISTEX | ANR

ISTEX est une plateforme qui a pour ambition d’offrir, à l’ensemble de la communauté de l’enseignement supérieur et de la recherche française qui le souhaite, un accès en ligne aux collections rétrospectives de la littérature scientifique dans toutes les disciplines. À ce réservoir inégalé en ressources multidisciplinaires s’ajoute un nombre important de services à valeur ajoutée permettant d’en optimiser l’exploitation grâce à des outils de fouille de contenus (TDM) et de valorisation interactive.

  Financement : ANR-10-IDEX-0004-02

  Référent scientifique : Jean-Marie Pierrel, Chargé de Mission UL & CPU
Partenaires : CNRS, CPU, Université de Lorraine, ABES, Couperin

  Durée : 2012-2018

Site Web : https://www.istex.fr/


  HAS-Dariah | Humanities at Scale: Evolving the DARIAH-ERIC

Implication de l’équipe sous les auspices d’Huma-Num.

Site Web : http://has.dariah.eu

Publications

Liste non exhaustive

  Hazem Al Saied, Marie Candito et Mathieu Constant, A transition-based verbal multiword expression analyzer, dans Stella Markantonatou, Carlos Ramisch, Agata Savary et Veronika Vincze, Multiword expressions at length and in depth: Extended papers from the MWE 2017 workshop, Berlin: Language Science Press, 2018,  pp. 209–226.

  Marie Candito, Mathieu Constant, Carlos Ramisch, Agata Savary, Yannick Parmentier, Caroline Pasquer et Jean-Yves Antoine, Annotation d’expressions polylexicales verbales en français, Actes de la conférence TALN 2017 – articles courts, Orléans, 2017.

  Bertrand Gaiffe. A Tool for Mixing XML Annotations. The 17th ACM Symposium on Document Engineering, Sep 2017, Valletta, Malta.

  Timothee Mickus, Denis Paperno, Mathieu Constant, Mark my Word: A Sequence-to-Sequence Approach to Definition Modeling, Proceedings of the First NLPL Workshop on Deep Learning for Natural Language Processing, Linköping University Electronic Press, Sept. 2019, pp. 1 – 11
Gabrielle Melison-Hirchwald, Alphonse Daudet interviewé, Paris, Champion, 2018, 848 pages.

  Anne-Simone Dufief, Gabrielle Melison-Hirchwald et Roger Ripoll. Dictionnaire Alphonse Daudet, Paris, Champion, 2019, 504 pages.

  Véronique Montémont, « De Frantext 1 à Frantext 2 : la cure de jouvence d’une vieille dame », inauguration du Portail web du Glossaire des patois de la Suisse romande, organisée par Yan Greub et Dorothée Aquino-Florès, Université de Neuchâtel, 12 septembre 2018, Swiss Academies Reports, Vol. 14, No 1, 2019, p. 39-63.

  Véronique Montémont, édition de Marcel Royer, Sans prétention littéraire, journal inédit d’un soldat lorrain, 2016, blog Diaristiques, en collaboration avec Ann Kristin Bischof, https://diaristiques.wordpress.com/vingt-ans-dans-la-guerre/carnet-de-guerre/.

  Véronique Montémont (co-éd.), Dictionnaire de l’Autobiographie, dirigé par Françoise Simonet-Tenant, avec la collaboration de Michel Braud, Jean-Louis Jeannelle, Philippe Lejeune et Véronique Montémont, Paris : Champion, 2017, 847 pages.

  Véronique Montémont, « De l’art de s’appeler comme on s’appelle : usages du nom propre en autobiographie », dans Nicolas Laurent et Christelle Reggiani, Seuils du nom propre, Paris : Lambert Lucas, 2017, p. 81-92.

  Véronique Montémont, « Onomastique perecquienne », Georges Perec, nouvelles approches, dans Relire Perec, sous la direction de Christelle Reggiani, La Licorne, Presses Universitaires de Rennes, 2016, p. 183-200.

  Jean-Marie Pierrel. Pour une meilleure valorisation et mutualisation de ressources linguistiques : quelques acquis de l’Equipex ORTOLANG, Dans Philippe Caron, Rodolphe Defiolle et Marie-Hélène Lay, L’enjeu des métadonnées dans les corpus textuels, collection Rivages linguistiques, Presses Universitaires de Rennes, 2019, pp 69-93, ISBN 978-2-7535-7640-7.

Consulter les publications de l’ATILF sur HAL