Lexique et corpus

Axe Lexique et corpus

Cadre des recherches de cet axe

Les recherches développées dans l’axe Lexique et corpus s’articulent autour de trois secteurs principaux qui sont envisagés à partir de données attestées :

– La néologie et l’évolution du lexique du français contemporain
– La sémantique lexicale, l’étude et la modélisation du sens des lexèmes
– L’annotation morphosyntaxique et la lemmatisation de données orales et écrites.

Ces questions sont abordées en considérant le texte ou le corpus de texte, de langue générale ou de spécialité, comme unité opératoire pour l’observation et la modélisation du sens lexical. Même si nos recherches sont plutôt orientées vers l’analyse de corpus écrits, les données orales font également l’objet d’une attention particulière dans le cadre de l’annotation morphosyntaxique.

Par ailleurs, les recherches sont développées dans et avec une perspective de traitement automatique des langues. Autrement dit, elles s’appuient sur des traitements automatisés et/ou ont pour objectif la production de ressources, textuelles et lexicales, et de méthodologies pertinentes pour le traitement automatique des langues (recherche d’information, gestion électronique de documents, communication homme-machine).

Membres de cet axe

Christophe Benzitoun, maître de conférence en sciences du langage
Evelyne Jacquey, chargée de recherche CNRS linguistique
Laurence Kister, maître de conférence en sciences du langage
Frédérique Brin-Henry, membre associée, Orthophoniste, directrice des études de l’école d’orthophonie de Lorraine
Günter Schmale, professseur

Vision de l’articulation entre lexique et texte

La prise en compte du texte en tant qu’unité opératoire permet de rendre compte d’usages des lexèmes qui ne sont habituellement pas référencés dans les approches tenant de la tradition logico-grammaticale, où l’unité maximale de description reste majoritairement la phrase (Lexique Génératif, théorie Sens-Texte, Cruse). A la suite de (Rastier et Valette, 2009), on peut observer que, dès lors que l’on étudie les usages textuels du lexème caviar par exemple, celui-ci se voit associer, en plus de ses facettes définitoires et référentielles telles qu’on les trouverait dans un dictionnaire, deux facettes sémantiques supplémentaires [/luxueux/, /couleur_sombre/].

L’approche textuelle du sens lexical est donc plutôt englobante que concurrente avec la sémantique lexicale habituellement développées dans les cadres des approches logico-grammaticales.

De plus, cette approche textuelle du sens lexical est pertinente pour la compréhension de certaines néologies sémantiques comme l’exemple ci-dessous (repris des auteurs sus-cités), issu du parler sportif, où l’on rencontre caviar au sens de ’excellente passe’ :

Confirmation ici, d’un centre précis, [David Beckham] trouvait la tête de Franck Lampard qui n’avait plus qu’à régler la mire pour ouvrir la marque et transformer ce caviar en but. Site Sports.fr, 14/06/2004

Une approche textuelle du sens lexical est possible par l’entremise de sa décomposition en traits sémantiques et leur représentation structurée. Le trait sémantique est un outil élémentaire de description repris de la sémantique structurale et mis à jour par la sémantique interprétative/textuelle. L’unité « texte » et le sens lexical partagent alors le même outil de caractérisation sémantique, permettant ainsi l’interaction entre différents niveaux de description (lexical, syntagmatique, phrastique, textuel, etc).

Cependant, obtenir et manipuler des grands ensembles de traits sémantiques, déterminer ceux qui apparaissent régulièrement dans des corpus de textes et/ou identifiant des usages particuliers de lexèmes suppose de disposer d’un certain nombre d’outils et de ressources que nous regroupons sous le terme d’instrumentation de la linguistique.

Éléments bibliographiques de cet axe

Cruse D. A. (1986) Lexical Semantics. Cambridge : Cambridge University Press.
Cruse D. A. (1995) Polysemy and related phenomena from a cognitive linguistic view-point. In Computational lexical semantics, P. Saint Dizier and E. Viegas (eds), Cambridge : Cambridge University Press.
Cruse D. A. (1996) Lexical Semantics. Cambridge : Cambridge University Press.
Polguère A. (2008) Lexicologie et sémantique lexicales, Notions fondamentales. Nouvelle édition revue et augmentée. Les presses universitaires de Montréal.
Pustejovsky J. (1995) The Generative Lexicon. MIT Press
Rastier F., Valette M. (2009) De la polysémie à la néosémie, Le français moderne, S. Mejri, éd., La problématique du mot, 77, 97–116.

Néologie, corpus et ressources

Néosémies

Ce thème de recherche a été en particulier développé dans le cadre de la thèse de Coralie Reutenauer intitulée Vers un traitement automatique de la néosémie : approche textuelle et statistique. Cette thèse s’est déroulée sur la période 2008–2011 (soutenance 20 janvier 2012), sous la direction de Jean-Marie Pierrel, Évelyne Jacquey et Mathieu Valette.

Résumé de la thèse

Deux phénomènes linguistiques participent à l’émergence d’un nouveau sens : les variations sémantiques et la néologie. Les variations sémantiques d’une unité lexicale résultent de contrastes entre son sens en langue, tel que codé dans des ressources de référence, et son sens en discours, actualisé par des contextes d’emploi. Les variations sémantiques ciblées sont les variations marquées, telles que le sens actualisé présente une rupture avec le sens codé. Au critère de rupture s’ajoute un critère de diffusion dans le temps : la variation sémantique participe d’un processus et se combine ainsi à de la néologie. Le nouveau sens est recherché pour de la néologie sémantique, définie à la croisée des variations sémantiques et de la néologie. Un modèle d’allocation de signifié est établi en couplant des indices identifiés comme fondamentaux dans la détection de la néologie à un appareil théorique issu de la sémantique textuelle.Dans ce cadre théorique, le sens codé est représenté comme un ensemble structuré de sèmes, unités de sens minimales ; le sens en discours est décrit à l’aide d’unités de granularité sémantique décroissante et à travers des phénomènes de récurrences et regroupements de sèmes.

Les ressources et outils utilisés relèvent du champ de la linguistique de corpus et de la lexicométrie. Les ressources sont de deux types, lexicographiques et textuelles. Les ressources lexicographiques constituent le vivier de sens codés. Une plateforme en extrait des représentations du sens sous forme d’ensembles de sèmes. Les ressources textuelles sont le lieu d’observation des sens actualisés. La caractérisation des sens émergents dépend de leur structure en domaines et dans le temps. En pratique, la ressource lexicographique utilisée est le Trésor de la Langue Française informatisé ; de plus, trois corpus journalistiques des années 2000 relevant de différentes thématiques ont servi de ressources textuelles.

Divers outils mathématiques, notamment statistiques, se prêtent à l’exploitation des grandes bases de données que sont les ressources lexicographiques et textuelles. La structure des ressources peut se concevoir comme un espace mathématique dépendant de paramètres tels que le temps ou les domaines. Le nouveau sens est recherché à travers un jeu de contrastes qui se traduit par un jeu sur des espaces et sous-espaces mathématiques. Pour chaque découpage de l’espace, il est possible d’extraire des unités saillantes à l’aide d’indices statistiques, dont l’interprétation et la validité sont discutées. Différentes techniques permettent ensuite de structurer les unités identifiées comme significatives à travers la série de contrastes.

Dans une perspective applicative, une procédure d’allocation de signifié est proposée. Elle est accompagnée d’expériences illustratives aux différentes étapes. Le déroulement de la procédure est sous-tendu par des caractérisations de niveaux sémantiques de plus en plus précises, allant des domaines aux unités lexicales puis aux sèmes. Des perspectives complémentaires de la procédure sont ensuite envisagées. Celles-ci élargissent les traitements proposés à d’autres objets linguistiques et à des formats de représentation des ressources plus complexes.

Néologies catégorielles

La néologie catégorielle est formée à partir d’un unique processus de morphologie lexicale. Il s’agit de la création d’une nouvelle unité par conversion syntaxique d’une unité préexistante. La forme de cette unité reste inchangée, mais la modification de sa catégorie grammaticale s’accompagne d’une variation de sens que (Riegel et al., 1998) assimilent à celle induite par la dérivation.(Sablayrolles 2002) observe que les types de conversion les plus productifs consistent en glissements entre les catégories Verbe et Nom la gagne, Nom et Adjectif des ouvriers libres ou esclaves, Adjectif et Nom le terrorisme nucléaire, Adjectif et Adverbe ça me plaît grave et Adverbe et Adjectif il est trop.

Nous avons effectué une étude préliminaire pour déterminer lesquels de ces types de conversion pouvaient être détectés sans provoquer trop de mauvais résultats et avons retenu ceux de Nom en Adjectif et d’Adjectif en Nom.
Par ailleurs, Sandrine Ollinger et Mathieu Valette ont développé un outil de détection de néologies catégorielles, le moteur POMPAMO

Publications de ce thème de recherche
Reutenauer C., Jacquey É., Ollinger S. (2011) Néologies de sens : contribution à leur détection et leur caractérisation dans un corpus autour du thème de la crise financière. Conférence CINEO 2011, Sao Paulo, Brésil.
Reutenauer C., Lecolle M., Jacquey É., Valette M. (2010) Sémème au macroscope : genèse et variation sémiques d’une unité lexicale . Proceedings of 10^th International Conference JADT, Rome, Italie, 9–11 juin 2010, 467–478, ISBN 978-88-7916-450-9.
Reutenauer C., Valette M., Jacquey É. (2009) Proposition pour l’enrichissement sémantique de corpus. Actes des 6^e Journées de la Linguistique de Corpus, Lorient, 10–12 septembre 2009.
Reutenauer C., Lecolle M., Jacquey É., Valette M. (2009) Outreau en n sèmes, Outreau en 5 temps, Diachronie de la représentation sémique d’une unité lexicale Actes de l’Atelier « Du thème au terme », Conférence internationale Terminologie et Intelligence Artificielle (TIA), Toulouse, France, 21 novembre 2009.
Reutenauer C., Valette M., Jacquey É. (2009) De l’annotation sémantique globale d’un texte à l’interprétation locale d’un mot. Cognitica, ARCo’09, Actes de Colloque de l’Association pour la Recherche Cognitive, Interprétation et problématiques du sens, Rouen, 9–11 décembre 2009.

Éléments bibliographiques
Riegel M., Pellat J-C., Rioul R. (1999) Grammaire méthodique du français, 5e éd. mise à jour, Paris, Presses Universitaires de France, coll. Linguistique nouvelle, 646 p.
Sablayrolles J-F. (2002) Fondements théoriques des difficultés pratiques du traitement des néologismes, Revue française de linguistique appliquée, VII-1, pp. 97-111.

Linguistique et corpus

Sémantique, morphologie et syntaxe

Les recherches de ce thème ont été développées en collaboration avec l’axe 1 Morphologie constructionnelle et l’axe 4 Du lexique à la phrase de l’équipe Lexique.

Dans le cadre des recherches avec Fiammetta Namer, un modèle de description a été développé pour rendre compte du caractère prédictif de deux mécanismes morphologiques pour le contenu sémantique de deux types de lexèmes construits du français : les verbes dénominaux en é-BaseN tels que édenter et les noms déverbaux et verbes dénominaux obtenus par conversion tels que danse ou beurrer. Ces recherches ont abouti à l’élaboration d’un mécanisme général de construction, représenté dans le cadre du lexique génératif (GL), dont la particularité est de postuler que le contenu sémantique d’un lexème construit est principalement dicté par le contenu sémantique de la base. Cette approche a notamment permis de rejeter l’hypothèse d’une polysémie du préfixe é- ou de la conversion.

Dans le cadre des recherches avec Marie-Laurence Knittel, nous avons mis au point une méthodologie d’analyse d’exemples en corpus afin de confronter les dernières hypothèses théoriques connues concernant les noms déverbaux d’action par suffixation en -ion. Les hypothèses théoriques sur ces noms consistent à corréler une réalisation syntaxiquement définie et l’héritage ou non des propriétés argumentales et aspectuelles de la base verbale du nom construit. Par exemple, à la suite des travaux bien connus de Grimshaw, un nom déverbal d’action tel que construction dans un contexte de détermination définie et suivi par un argument en par héritera des propriétés aspectuelles et argumentales de construire. En utilisant le corpus libre de l’Est Républicain (1999–2003, disponible dans les ressources du CNRTL), le concordancier Corpus Work Bench a été utilisé afin d’extraire aléatoirement 200 contextes pour chacun des 6 patrons syntaxiques définis pour tester les hypothèses. Une campagne d’annotation (4 annotateurs) s’en est suivie et a permis de montrer que si la plupart des contextes avec déterminant défini induisent l’héritage des propriétés aspectuelles et argumentales, d’abord, ce n’est pas systématique, ensuite, d’autres patrons syntaxiques permettent l’héritage, notamment avec des déterminations indéfinies.

Sémantique et terminologie

La problématique centrale de ce thème de recherche s’articule autour de la désignation, de la représentation conventionnelle d’un concept dans un domaine de spécialité à l’aide d’un terme simple ou complexe. Elle se fonde sur une approche associant sémantique lexicale, sémantique textuelle et terminologie. Les travaux développés dans ce cadre s’intéressent plus particulièrement à la langue de spécialité et aux ressources terminologiques de deux domaines : les sciences du langage et les pathologies du langage.

Sciences du Langage

La perspective d’une amélioration de l’indexation des textes (indexation assistée au sens documentaire) demande une analyse des données lexicographiques et une annotation sémantique des termes afin d’établir une liste des concepts présents en texte intégral. L’annotation en texte intégral entraine le repérage de candidats termes caractéristiques du domaine qui ne figurent pas encore dans les ressources terminologiques (vocabulaire de domaine, nomenclature, terminologie, thesaurus) ce qui nécessite leur désambiguïsation sémantique et terminologique.
Le travail d’analyse, de désambiguïsation et de sélection des nouveaux termes parmi les candidats termes d’un texte demande une prise en compte d’informations syntaxiques, pragmatiques (usages effectifs des termes dans la langue de spécialité), etc. La perspective d’une automatisation du repérage des candidats termes repose sur l’utilisation de techniques relevant du traitement automatique des langues (utilisation d’extracteur de candidats termes, exploitation de techniques de fouille de données textuelles). La nécessité de contribuer à l’aide à l’indexation et à l’amélioration du thesaurus en proposant des termes émergents particulièrement représentatifs des documents annotés par des informations terminologiques et sémantiques émane du constat selon lequel les ressources actuelles ne sont satisfaisantes, ni pour l’annotation terminologique de textes, ni pour l’indexation de documents du domaine des sciences du langage par les documentalistes.

Pathologies du langage

L’intrégration récente de Frédérique Brin-Henry apporte un nouveau champ d’étude avec le domaine de l’orthophonie. A l’issue de ses travaux de doctorat, elle développe une analyse linguistique fine des 500 et quelques termes repérés dans un corpus de diagnostics réalisés par des praticiens. L’analyse linguistique réalisée se décline notamment autour des relations sémantiques paradigmatiques existant entre les termes repérés. Au delà, son travail questionne la fonction dénominative de la langue : dans quelle mesure la dénomination de pathologies du langage par les praticiens contribue à l’existence même de ces pathologies ?

Publications associées à ce thème de recherche
Brin-Henry F. (chapitre d’ouvrage à paraître) L’utilisation du corpus authentique pour l’orthophoniste praticien-chercheur. Paris : L’Harmattan.
Beauseroy D., Jacquey É., Knittel M. L. (2011) Des hypothèses, des tests et des données : les noms événementiels en corpus. Revue CORPUS, Varia, S. Mellet (dir.), 219–239.
Brin-Henry F. (2011) La terminologie crée-t-elle la pathologie ? le cas de la pratique clinique de la pose du diagnostic orthophonique. Doctorat de Sciences du Langage de l’Université de Nancy2, Duda R. (dir.).
Brin-Henry F., Courrier C., Lederle E., Masy V. (2011) Dictionnaire d’orthophonie, 3^e édition. Isbergues : Ortho-Edition, 303 p.
Kister L., Jacquey É., Gaiffe B. (2011) Liens conceptuels et relations sémantiques : proposition de représentation des connaissances en sciences du langage. Ingénierie des connaissances IC 2011. 16-20 mai, Chambéry. 8 pages
Kister L., Jacquey É., Gaiffe B. (2011) Du thesaurus à l’onto-terminologie : relations sémantiques vs relation ontologique. COgnition Représentation LAngage, Vol 9-1 (en ligne).
Jacquey É., Kister L., Grzesitchak M., Gaiffe B., Reutenauer C., Ollinger S., Valette M. (2010) Thésaurus et corpus de spécialité sciences du langage : approches lexicométriques appliquées à l’analyse de termes en corpus.TALN2010, Montréal, 19‐23 juillet 2010.
Brin-Henry, F. (2009) Diagnosis and speech-therapy : does terminology create pathology ? Poster affiché au congrès international du Comité Permanent de Liaison des orthophonistes-Logopèdes de l’Union Européenne, Ljubljana, Slovénie, Mars 2009.
Gaiffe B., Jacquey É., Kister L., (2009) Approche lexicosémantique de l’extraction terminologique : utilisation de ressources lexicographiques et validation sur corpus.Toth’09.
Kister L., Jacquey É., Gaiffe B. (2009), Fusion d’un thesaurus et d’une terminologie : utilisation de ressources existantes pour amorcer une ontoterminologie. TIA’09, 18‐19 novembre.
Namer F., Jacquey É. (sous presse) Word Formation Rules and the Generative Lexicon : Representing noun-to-verb versus verb-to-noun Conversion. Dans P. Bouillon, H. Isahara, K. Kanzaki & J. Pustejovsky (dir.) : Recent Trends in Generative Lexicon Theory, coll. « Text, Speech and Language Technology », Springer.
Namer F., Bouillon P., Jacquey É., Ruimy N. (2009) Morphology-based enhancement of a French SIMPLE Lexicon. 5^th International Conference on Generative Approaches to The Lexicon, Pisa, 153–161.
Jacquey É., Jadelot Ch. (2008) Noms d’objets imprimés : ambiguïté lexicale sémantique et proxémie. Conférence Lexicographie et Informatique : Bilan et perspectives, Nancy Janvier 2008.
Kister L., Jacquey É., (2008) Traits sémantiques et anaphore pronominale. Revue de sémantique et de pragmatique, n°23, pp 23‐34, numéro spécial de la revue : actes des 4^e Rencontres de Sémantique et de Pragmatique, 13‐15 juin 2006, Université d’Orléans.
Kister L., Jacquey É., Gaiffe B. (2008) Repérage de la référence à partir du thesaurus, de la terminologie et de la sémantique lexicale. Associazione Italiana, per la Documentazione Avanzata, AIDAinformazioni, 26, 1‐2.
Jacquey É, Namer F. (2007) Morphosémantique et modélisation : le cas des verbes dénominaux préfixés par é-. Dans D. Bouchard, I. Evrard & E. Vocaj (dir.) : Représentation du sens linguistique, Bruxelles, De Boeck Université/Duculot, 53–68.
Jacquey É., Kister L. (2007) Comparaison des structures thématiques de textes spécialisés et de thesaurus ou de terminologies. Terminologia e mediazione linguistica : approcci e metodi a confronto, ASS.I Term et università di Bologna, sede di Forli, Bertinoro, 8 juin 2007
Jacquey É., Kister L. (2007) Acquisition lexicale sémantique à partir de données lexicographiques au service de la comparaison entre des structures thématiques de textes spécialisés et de thesaurus. Terminologie : approches transdisciplinaires, Gatineau (Québec), 2‐4 mai.
Kister L., Jacquey É. (2007) NdeN et acquisition d’informations lexicales à partir du Trésor de la Langue Française informatisé. Cognition Représentation Langage, revue du Cercle de Linguistique du Centre et de l’Ouest.
Kister L., Jacquey É. (2007) Comparaison des structures thématiques de textes spécialisés et de thésaurus ou de terminologie. Journée REALITER, Bertinoro, Italie, Juin 2007.- Namer F., Bouillon P., Jacquey É. (2007) Un lexique Génératif de référence pour le Français. TALN 07, Toulouse, ERSS, 233–242.
Namer F., Bouillon P., Jacquey É. (2007) A morphologically driven reference semantic lexicon for French. Generative Approaches to the Lexicon, Paris.

Instrumentation de la linguistique

Annotation sémantique

Le travail de développement de la plateforme d’annotation sémantique s’insère dans le projet DIXEM. Cette plateforme a été réalisée dans le cadre du travail de doctorat de Mick Grzesitchak (2007 – 2011), sous la direction de Jean-Marie Pierrel, Évelyne Jacquey et Mathieu Valette.

La plateforme s’appuie sur un premier lexique extrait automatiquement depuis le TLFi, le lexique sémique SEMEME. Différents aspects de cet outil sont abordés, son cadre théorique, les modes de représentation choisis, ses capacités actuelles ou encore les perspectives et les objectifs que nous suivons. Enfin, nous décrirons ses utilisations afin d’observer, sous un angle nouveau, deux corpus préparés à l’origine pour une étude linguistique, respectivement de la féminisation dans le vocabulaire français et du discours journalistique à propos de l’immigration en France.

La plateforme a été réalisée dans le but de pouvoir analyser des corpus de textes, les annoter sémantiquement et d’essayer d’en extraire des données sémantiquement informatives sur la base de procédures statistiques.
Nous optons pour une approche complémentaire en croisant sémantique interprétative et statistiques, et souhaitons offrir à la linguistique ainsi qu’au TAL un nouvel objet d’étude. Nous suivons en cela plusieurs travaux actuels (Rossignol & Sébillot 2006), (Enjalbert & Victorri 2005 : p. 82-83) et (Caillet, Pessiot, Amini & Gallinari 2004). Au final, nous voulons isoler des informations sémantiques (et/ou thématiques) en étudiant les isotopies textuelles d’un texte par des méthodes statistiques.
La plateforme d’annotation a été réalisée en Python, langage de prototypage reconnu, qui permet d’écrire des programmes informatiques rapidement en respectant néanmoins la plupart des contraintes et normes des langages robustes tel Java. Elle se veut être également un composant Python facilement réutilisable (et modifiable ou étendable) en se présentant sous la forme d’un paquetage indépendant et transportable.
L’outil s’utilise en ligne de commande (via des scripts Python) ainsi qu’en manipulant un fichier de configuration. Dans un premier temps, aucune interface graphique ne vient accompagner le logiciel. Cela n’exclut pas la possibilité d’en développer par la suite. Il est fréquent que des applications graphiques soient simplement des « front-end » d’applications en ligne de commande, c’est-à-dire des interfaces graphiques pour des programmes non graphiques.
Enfin la première version de la plateforme souhaite, malgré sa jeunesse, constituer un socle logiciel cohérent, pérenne, efficace, avec le moins d’erreurs et le plus de contrôles possibles. Le projet cherche actuellement à établir des bases solides pour les enrichissements futurs. C’est dans ce but également qu’un manuel d’utilisation a été réalisé.

Annotation morpho-syntaxique de corpus oraux et écrits

Ce thème réunit Christophe Benzitoun, Lolita Bérard, Évelyne Jacquey, Étienne Petitjean.

Le manque de corpus en français, écrits et surtout oraux, qui soient diffusables, normalisés (en TEI par exemple), échantillonnés et étiquetés en morphosyntaxe (parties du discours et lemmes) est un problème récurrent pour le TAL et la linguistique de corpus francophone. Or, l’étiquetage morphosyntaxique est indispensable ne serait-ce que pour effectuer le dénombrement global des formes différentes ou pour retrouver plus aisément certaines formes ambiguës. Les corpus oraux étiquetés, quant à eux, peuvent aussi être utiles aux systèmes de transcriptions automatiques. La récente initiative de (Ferraresi et al. 2008) et (Baroni et al. 2009) a probablement amélioré cet état de fait en mettant à disposition le corpus FrWac (corpus aspiré sur le Web selon une méthodologie reproductible, d’une taille de 1,8 milliards d’occurrences). Néanmoins, comme le soulignent ses concepteurs, la taille et le mode de constitution du corpus FrWac n’ont pour le moment pas permis de statuer précisément sur son contenu et donc son échantillonnage, aspect indispensable pour la description linguistique sur corpus. De la même manière, la mise à disposition du corpus de l’Est Républicain sur le site du CNRTL représente un progrès mais ce corpus n’est ni échantillonné, ni étiqueté dans sa forme téléchargeable. Par ailleurs, disposer d’un nouveau système automatisé d’étiquetage pour la base textuelle Frantext représenterait une amélioration notable de celle-ci au vu des réflexions menées par le groupe Frantext2 animé par Véronique Montémont. Le projet TCOF, enfin, a contribué avec d’autres à la mise à disposition de corpus oraux, alignés texte-son et normalisés en TEI, mais ces données ne sont pour l’instant ni échantillonnées, ni étiquetées en morphosyntaxe. Face à ces lacunes, l’objectif premier du projet que nous présentons est de rendre disponible pour la communauté scientifique un étiqueteur en morphosyntaxe entraîné sur les données actuellement présentes sur le site du CNRTL, à savoir l’Est Républicain, les données orales de TCOF et les textes libres de droit de Frantext. Le travail réalisé pour « Frantext libre de droits » a pour objectif d’être directement utilisable pour étiqueter la future base textuelle Frantext2. L’originalité du projet réside dans le fait d’aborder aussi bien les données écrites que les données orales, ce qui n’est pas le cas pour les autres systèmes d’étiquetage automatique. Pour ce faire, nous allons entraîner l’étiqueteur TreeTagger1 sur différents types de données et proposer autant de fichiers de paramètres que de types de données distinctes, ce qui représente l’autre versant original de notre approche. Notre choix s’est porté sur ce logiciel car il est libre de droits, multi-plateformes, supporte les deux encodages les plus courants, ISO et UTF-8, et permet l’élaboration de fichiers de paramètres spécifiques à chaque corpus d’apprentissage utilisé. Ainsi, nous fournirons plusieurs fichiers distincts pour Frantext en fonction des regroupements par type de texte, ainsi qu’un autre fichier pour l’Est Républicain et encore un autre pour l’oral.

Qualification et exploitation du corpus FrWac

En collaboration avec l’axe 2 Lexicologie théorique et descriptive, une qualification du contenu du corpus FrWac récemment produit dans le cadre du projet Wacky est en cours afin de permettre son exploitation dans le cadre du projet RLF. Le corpus FrWac, ainsi que l’Est Républicain et Frantext, sans bien sûr oublier la toile, est destiné à servir de catalogue d’exemples potentiels aux rédacteurs des entrées de la future base lexicale RLF.

Publications associées à ce thème
  André V., Benzitoun C., Canut E., Debaisieux J.-M., Gaiffe B., Jacquey É. (2010) Traitement informatique de données orales : quels outils pour quelles analyses ? Recherches qualitatives 9, Collection Hors-Série Logiciels pour l’analyse qualitative : innovations techniques et sociales, Dumont V., Lejeune C. et Guillemette F. (Eds.), Québec, p. 131-150.
  Falk I., Gardent C., Jacquey É., Venant F. (2009) Sens, synonymes et définitions. Conférence sur le Traitement Automatique du Langage Naturel – TALN’2009, Senlis, France.
  Falk I., Gardent C., Jacquey É., Venant F. (2009) Grouping Synonyms by Definitions. Recent Advances in Natural Language Processing (RANLP) 2009, Borovets BG Ruslan Mitkov 6.
  André V., Benzitoun C., Canut E., Debaisieux J.-M., Gaiffe B., Jacquey É., Tucsnak Z. (2008) Fiche documentaire pour les données orales : description et traitement informatique. Premières rencontres internationales pour le Catalogage et le Codage de corpus oraux (CatCod), Université d’Orléans, 4 – 5 Décembre 2008
  Grzesitchak M., Jacquey É., Baider F. (2008) Annotation sémantique : profilage textuel et lexical. Conférence Lexicographie et Informatique : Bilan et perspectives, Nancy Janvier 2008.
  Grzesitchak M., Jacquey É., Valette M. (2007) Systèmes complexes et analyse textuelle : Traits sémantiques et recherche d’isotopies. ARCo’07 – Cognition, Complexité, Collectif, Acta-Cognitica, 227-235.

Éléments bibliographiques
  Baroni M., Bernardini S., Ferraresi A., Zanchetta E. (2009) The WaCky Wide Web : A collection of very large linguistically processed Web-crawled corpora. Language Resources and Evaluation 43(3) : 209-226.
  Caillet M., Pessiot J-F., Amini M-R., Gallinari P. (2004) Unsupervised Learning with term clustering for Thematic segmentation of texts. Dans RIAO 2004, 26-28 Avril 2004, Avignon, France.
  Enjalbert P., Victorri B. (2005) Les paliers de la sémantique. Dans Sémantique et traitement automatique des langues. Hermès Science.
  Ferraresi A., Bernardini S., Picci G., Baroni M. (2008) Web corpora for bilingual lexicography : A pilot study of English/French collocation extraction and translation. In Proceedings of UCCTS : International Symposium on Using Corpora in Contrastive and Translation Studies.
  Rossignol M., Sébillot P. (2006) Acquisition sur corpus non spécialisés de classes sémantiques thématisées, In Jean-Marie Viprey, editor, 8èmes Journées internationales d’Analyse Statistiques des Données Textuelles (JADT 2006), Besançon, France.

Projets passés et en cours de l’axe Lexique et corpus

Annotation morpho-syntaxique de corpus oraux et écrits, 2011-

Ce projet réunit Christophe Benzitoun, Lolita Bérard, Évelyne Jacquey, Étienne Petitjean.

Le manque de corpus en français, écrits et surtout oraux, qui soient diffusables, normalisés (en TEI par exemple), échantillonnés et étiquetés en morphosyntaxe (parties du discours et lemmes) est un problème récurrent pour le TAL et la linguistique de corpus francophone. Or, l’étiquetage morphosyntaxique est indispensable ne serait-ce que pour effectuer le dénombrement global des formes différentes ou pour retrouver plus aisément certaines formes ambiguës. Les corpus oraux étiquetés, quant à eux, peuvent aussi être utiles aux systèmes de transcriptions automatiques. La récente initiative de (Ferraresi et al. 2008) et (Baroni et al. 2009) a probablement amélioré cet état de fait en mettant à disposition le corpus FrWac (corpus aspiré sur le Web selon une méthodologie reproductible, d’une taille de 1,8 milliards d’occurrences). Néanmoins, comme le soulignent ses concepteurs, la taille et le mode de constitution du corpus FrWac n’ont pour le moment pas permis de statuer précisément sur son contenu et donc son échantillonnage, aspect indispensable pour la description linguistique sur corpus. De la même manière, la mise à disposition du corpus de l’Est Républicain sur le site du CNRTL représente un progrès mais ce corpus n’est ni échantillonné, ni étiqueté dans sa forme téléchargeable. Par ailleurs, disposer d’un nouveau système automatisé d’étiquetage pour la base textuelle Frantext représenterait une amélioration notable de celle-ci au vu des réflexions menées par le groupe Frantext2 animé par Véronique Montémont. Le projet TCOF, enfin, a contribué avec d’autres à la mise à disposition de corpus oraux, alignés texte-son et normalisés en TEI, mais ces données ne sont pour l’instant ni échantillonnées, ni étiquetées en morphosyntaxe.
Face à ces lacunes, l’objectif premier du projet que nous présentons est de rendre disponible pour la communauté scientifique un étiqueteur en morphosyntaxe entraîné sur les données actuellement présentes sur le site du CNRTL, à savoir l’Est Républicain, les données orales de TCOF et les textes libres de droit de Frantext. Le travail réalisé pour « Frantext libre de droits » a pour objectif d’être directement utilisable pour étiqueter la future base textuelle Frantext2.
L’originalité du projet réside dans le fait d’aborder aussi bien les données écrites que les données orales, ce qui n’est pas le cas pour les autres systèmes d’étiquetage automatique.
Pour ce faire, nous allons entraîner l’étiqueteur TreeTagger sur différents types de données et proposer autant de fichiers de paramètres que de types de données distinctes, ce qui représente l’autre versant original de notre approche. Notre choix s’est porté sur ce logiciel car il est libre de droits, multi-plateformes, supporte les deux encodages les plus courants, ISO et UTF-8, et permet l’élaboration de fichiers de paramètres spécifiques à chaque corpus d’apprentissage utilisé. Ainsi, nous fournirons plusieurs fichiers distincts pour Frantext en fonction des regroupements par type de texte, ainsi qu’un autre fichier pour l’Est Républicain et encore un autre pour l’oral.

Sémantique et terminologie : projet ASTTIC, 2011 – 2012

Le projet ASTTIC | Annotation Sémantique et Terminologique de Textes pour leur Indexation et leur Catégorisation a pour objectif la constitution de corpus textuels, annotés sémantiquement, terminologiquement diffusables et accessibles pour la communauté scientifique. Il se fonde sur les résultats et les observations issus de travaux antérieurs associant sémantique lexicale, sémantique textuelle et terminologie.
Le projet a plusieurs objectifs :

– La mise au point, dans le domaine des sciences du langage, d’une méthodologie d’annotation de documents contribuant à l’amélioration de leur indexation (indexation assistée au sens documentaire). L’annotation suppose le repérage dans les textes des candidats termes caractéristiques du domaine et leur désambiguïsation sémantique et terminologique.
– L’enrichissement d’un thesaurus du domaine grâce aux candidats termes mis en évidence lors des étapes de repérage et de désambiguïsation.
– La catégorisation des textes en textes scientifiques (écrits pour des spécialistes par des spécialistes) ou en textes de vulgarisation scientifique (écrits pour le grand public par des spécialistes ou des journalistes scientifiques) en fonction de leur degré de généricité ou de spécificité.

Le repérage et l’extraction du vocabulaire des sciences du langage présentent une difficulté spécifique liée à la proximité entre le vocabulaire du domaine de spécialité et la langue courante (arbre est un terme en syntaxe et un mot de la langage courante – composition est un terme dans les deux sous-domaines que sont la syntaxe et la morphologie ainsi qu’un terme de musicologie et un mot de la langue courante)

Le projet a été élargi et étoffé pour être soumis à l’ANR CONTINT 2011. L’ANR Termith a pris le relais en novembre 2012.

Sémantique et syntaxe : projet ANCOR, 2010

Le projet ANCOR | Analyse des Nominalisations sur CORpus est un partenariat entre deux équipes lorraines (équipe Lexique de l’ATILF & CELTED) et deux équipes nationales (UMR STL, Lille & EA CLILLAC, Paris 7). Il vise à étudier les propriétés morphosyntaxiques (détermination et pluralisation) des noms événementiels, c’est-à-dire des noms abstraits apparentés à un verbe et susceptibles de dénoter un événement. Notre hypothèse fondamentale est que la caractérisation de ces noms repose sur des usages, et non sur des classes prédéfinies comme le suggèrent notamment les travaux de (Grimshaw 1990).
L’objectif du projet, en voie de réalisation, est de vérifier si des hypothèses descriptives sur les noms événementiels (NE) formulées sur la base d’exemples construits se trouvent validées par des données attestées dans un corpus.

Actuellement, les membres du projet ANCOR sont impliqués dans une soumission à l’ANR Corpus et Outils 2011, projet NOMERIE.

Sémantique et morphologie : projet LEGERe, 2008 – 2010

Le projet LEGERe | LExique GEnératif de Référence pour le français a pour objectif la conception et constitution d’un lexique sémantique du français en vue de son utilisation en TALN, et sa mise à disposition auprès de la communauté, via la plateforme du CNRTL. La conception de ce lexique repose sur deux types d’informations complémentaires acquises (semi-)automatiquement ; celles issues des règles de construction de lexèmes, par l’utilisation de l’analyseur morphologique DériF, et celles issues de l’exploitation du corpus lexicographique du TLF. Parmi les résultats attendus, seront traités par la morphologie : les adjectifs en –able (lavable), les verbes dénominaux (déneiger, emprisonner) et déadjectivaux (banaliser, électrifier), et les noms de procès (lavage, construction, gonflement) ; l’acquisition à partir du TLF se focalisera sur les noms d’instruments non construits (balai) et les noms composés N prep N (grain de blé, boîte à gants). Les résultats s’inscrivent dans le cadre formel du Lexique Génératif (LG) (Bouillon, 1997), (Pustejovsky, 1995), et relèvent du courant lexématique de la morphologie. Les partenaires du projet réunissent donc des compétences complémentaires indispensables à la réalisation de ces objectifs : Pierrette Bouillon (LG), Iveta Chovanovà (composition nominale), Georgette Dal (morphologie), Évelyne Jacquey (LG, TLF), Fiammetta Namer (Morphologie, DériF).

Traitement sémantique de corpus : projet DIXEM, 2006 – 2010

L’ère numérique modifie sensiblement les pratiques liées au texte. Les applications telles que la navigation sur Internet ou la Gestion Électronique de Documents (GED) sont demandeuses de nouvelles méthodologies et de nouvelles façons d’appréhender le texte. Comme elles ont les textes comme matériau d’étude privilégié, les sciences humaines et sociales sont tenues de renouveler le discours scientifique sur le texte dans cette perspective numérique.
La veille, la recherche d’information, l’analyse thématique et de façon plus générale toutes les activités liées au traitement des documents numériques, butent sur des problèmes de niveaux d’observation et d’observables. Le mot, ou des substituts tels que le lemme, constituent les principales unités linguistiques prises en compte, et lorsque l’on a recours à des lexiques sémantiques pour enrichir les textes, il s’agit dans la grande majorité des cas d’ontologies ou de thésaurus, lesquels ne constituent qu’une manière parmi d’autres de représenter le sens.
Le projet DIXEM a développé une perspective alternative dans laquelle un texte n’est plus considéré comme un sac de mots ni comme une suite de phrases, mais comme un ensemble de faisceaux de traits sémantiques. Ces faisceaux de traits sont discontinus, stabilisés en corpus et de taille variable (du mot au texte). Ils assurent la cohésion du texte et son intégration dans un corpus. On les appellera des formes sémantiques.
Cette notion de forme sémantique présente l’intérêt crucial d’être un objet empirique susceptible à la fois d’être étudié scientifiquement, et pouvant être assimilé, dans la perspective de l’ingénierie des connaissance, à un thème sémantique voire à un concept non lexicalisé. L’objectif de ce projet est donc de développer un dispositif expérimental (outil informatique, méthodes d’apprentissage statistique et ressource linguistique) visant à :
approfondir les connaissances actuelles sur les formes sémantiques connues et notamment référencées par la sémantique structurale,
en identifier de nouvelles que la théorie n’a pas su jusque là reconnaître faute d’une instrumentation adéquate, autrement dit,
créer de nouveaux observables sémantiques, textuels et lexicaux.

Le projet DIXEM a été soumis deux fois à l’ANR mais n’a pas été sélectionné.

Éléments bibliographiques
  Bouillon P. (1997) Polymorphie et sémantique lexicale : le cas des adjectifs. Éditions du Septentrion.
  Baroni M., Bernardini S., Ferraresi A., Zanchetta E. (2009) The WaCky Wide Web : A collection of very large linguistically processed Web-crawled corpora. Language Resources and Evaluation 43(3) : 209-226.
  Ferraresi A., Bernardini S., Picci G., Baroni M. (2008) Web corpora for bilingual lexicography : A pilot study of English/French collocation extraction and translation. In Proceedings of UCCTS : International Symposium on Using Corpora in Contrastive and Translation Studies.
  Grimshaw J. (1990) Argument Structure. MIT Press.
  Pustejovsky, J. (1995) The Generative Lexicon. Cambridge, MA : MIT Press.