laboratoire Analyse et Traitement Informatique de la Langue Française (ATILF)
CNRS Université de Lorraine

Membre de
ILF
FEDER
Accueil > La recherche > Équipes > Lexique > Lexique et corpus > Instrumentation de la linguistique

Instrumentation de la linguistique

Annotation sémantique

Le travail de développement de la plateforme d’annotation sémantique s’insère dans le projet DIXEM. Cette plateforme a été réalisée dans le cadre du travail de doctorat de Mick Grzesitchak (2007 - 2011), sous la direction de Jean-Marie Pierrel, Évelyne Jacquey et Mathieu Valette.

La plateforme s’appuie sur un premier lexique extrait automatiquement depuis le TLFi, le lexique sémique SEMEME. Différents aspects de cet outil sont abordés, son cadre théorique, les modes de représentation choisis, ses capacités actuelles ou encore les perspectives et les objectifs que nous suivons. Enfin, nous décrirons ses utilisations afin d’observer, sous un angle nouveau, deux corpus préparés à l’origine pour une étude linguistique, respectivement de la féminisation dans le vocabulaire français et du discours journalistique à propos de l’immigration en France.

La plateforme a été réalisée dans le but de pouvoir analyser des corpus de textes, les annoter sémantiquement et d’essayer d’en extraire des données sémantiquement informatives sur la base de procédures statistiques.
Nous optons pour une approche complémentaire en croisant sémantique interprétative et statistiques, et souhaitons offrir à la linguistique ainsi qu’au TAL un nouvel objet d’étude. Nous suivons en cela plusieurs travaux actuels (Rossignol & Sébillot 2006), (Enjalbert & Victorri 2005 : p. 82-83) et (Caillet, Pessiot, Amini & Gallinari 2004). Au final, nous voulons isoler des informations sémantiques (et/ou thématiques) en étudiant les isotopies textuelles d’un texte par des méthodes statistiques.
La plateforme d’annotation a été réalisée en Python, langage de prototypage reconnu, qui permet d’écrire des programmes informatiques rapidement en respectant néanmoins la plupart des contraintes et normes des langages robustes tel Java. Elle se veut être également un composant Python facilement réutilisable (et modifiable ou étendable) en se présentant sous la forme d’un paquetage indépendant et transportable.
L’outil s’utilise en ligne de commande (via des scripts Python) ainsi qu’en manipulant un fichier de configuration. Dans un premier temps, aucune interface graphique ne vient accompagner le logiciel. Cela n’exclut pas la possibilité d’en développer par la suite. Il est fréquent que des applications graphiques soient simplement des « front-end » d’applications en ligne de commande, c’est-à-dire des interfaces graphiques pour des
programmes non graphiques.
Enfin la première version de la plateforme souhaite, malgré sa jeunesse, constituer un socle logiciel cohérent, pérenne, efficace, avec le moins d’erreurs et le plus de contrôles possibles. Le projet cherche actuellement à établir des bases solides pour les enrichissements futurs. C’est dans ce but également qu’un manuel d’utilisation a été réalisé.

Annotation morpho-syntaxique de corpus oraux et écrits

Ce thème réunit Christophe Benzitoun, Lolita Bérard, Évelyne Jacquey, Étienne Petitjean (équipe Ressources et Normalisation).

Le manque de corpus en français, écrits et surtout oraux, qui soient diffusables, normalisés (en TEI par exemple), échantillonnés et étiquetés en morphosyntaxe (parties du discours et lemmes) est un problème récurrent pour le TAL et la linguistique de corpus francophone. Or, l’étiquetage morphosyntaxique est indispensable ne serait-ce que pour effectuer le dénombrement global des formes différentes ou pour retrouver plus aisément certaines formes ambiguës. Les corpus oraux étiquetés, quant à eux, peuvent aussi être utiles aux systèmes de transcriptions automatiques. La récente initiative de (Ferraresi et al. 2008) et (Baroni et al. 2009) a probablement amélioré cet état de fait en mettant à disposition le corpus FrWac (corpus aspiré sur le Web selon une méthodologie reproductible, d’une taille de 1,8 milliards d’occurrences). Néanmoins, comme le soulignent ses concepteurs, la taille et le mode de constitution du corpus FrWac n’ont pour le moment pas permis de statuer précisément sur son contenu et donc son échantillonnage, aspect indispensable pour la description linguistique sur corpus. De la même manière, la mise à disposition du corpus de l’Est Républicain sur le site du CNRTL représente un progrès mais ce corpus n’est ni échantillonné, ni étiqueté dans sa forme téléchargeable. Par ailleurs, disposer d’un nouveau système automatisé d’étiquetage pour la base textuelle Frantext représenterait une amélioration notable de celle-ci au vu des réflexions menées par le groupe Frantext2 animé par Véronique Montémont. Le projet TCOF, enfin, a contribué avec d’autres à la mise à disposition de corpus oraux, alignés texte-son et normalisés en TEI, mais ces données ne sont pour l’instant ni échantillonnées, ni étiquetées en morphosyntaxe. Face à ces lacunes, l’objectif premier du projet que nous présentons est de rendre disponible pour la communauté scientifique un étiqueteur en morphosyntaxe entraîné sur les données actuellement présentes sur le site du CNRTL, à savoir l’Est Républicain, les données orales de TCOF et les textes libres de droit de Frantext. Le travail réalisé pour « Frantext libre de droits » a pour objectif d’être directement utilisable pour étiqueter la future base textuelle Frantext2. L’originalité du projet réside dans le fait d’aborder aussi bien les données écrites que les données orales, ce qui n’est pas le cas pour les autres systèmes d’étiquetage automatique. Pour ce faire, nous allons entraîner l’étiqueteur TreeTagger1 sur différents types de données et proposer autant de fichiers de paramètres que de types de données distinctes, ce qui représente l’autre versant original de notre approche. Notre choix s’est porté sur ce logiciel car il est libre de droits, multi-plateformes, supporte les deux encodages les plus courants, ISO et UTF-8, et permet l’élaboration de fichiers de paramètres spécifiques à chaque corpus d’apprentissage utilisé. Ainsi, nous fournirons plusieurs fichiers distincts pour Frantext en fonction des regroupements par type de texte, ainsi qu’un autre fichier pour l’Est Républicain et encore un autre pour l’oral.

Qualification et exploitation du corpus FrWac

En collaboration avec l’axe 2 Lexicologie théorique et descriptive, une qualification du contenu du corpus FrWac récemment produit dans le cadre du projet Wacky est en cours afin de permettre son exploitation dans le cadre du projet RLF. Le corpus FrWac, ainsi que l’Est Républicain et Frantext, sans bien sûr oublier la toile, est destiné à servir de catalogue d’exemples potentiels aux rédacteurs des entrées de la future base lexicale RLF.

Publications associées à ce thème

- André V., Benzitoun C., Canut E., Debaisieux J.-M., Gaiffe B., Jacquey É. (2010) Traitement informatique de données orales : quels outils pour quelles analyses ? Recherches qualitatives 9, Collection Hors-Série Logiciels pour l’analyse qualitative : innovations techniques et sociales, Dumont V., Lejeune C. et Guillemette F. (Eds.), Québec, p. 131-150.
- Falk I., Gardent C., Jacquey É., Venant F. (2009) Sens, synonymes et définitions. Conférence sur le Traitement Automatique du Langage Naturel - TALN’2009, Senlis, France.
- Falk I., Gardent C., Jacquey É., Venant F. (2009) Grouping Synonyms by Definitions. Recent Advances in Natural Language Processing (RANLP) 2009, Borovets BG Ruslan Mitkov 6.
- André V., Benzitoun C., Canut E., Debaisieux J.-M., Gaiffe B., Jacquey É., Tucsnak Z. (2008) Fiche documentaire pour les données orales : description et traitement informatique. Premières rencontres internationales pour le Catalogage et le Codage de corpus oraux (CatCod), Université d’Orléans, 4 - 5 Décembre 2008
- Grzesitchak M., Jacquey É., Baider F. (2008) Annotation sémantique : profilage textuel et lexical. Conférence Lexicographie et Informatique : Bilan et perspectives, Nancy Janvier 2008.
- Grzesitchak M., Jacquey É., Valette M. (2007) Systèmes complexes et analyse textuelle : Traits sémantiques et recherche d’isotopies. ARCo’07 – Cognition, Complexité, Collectif, Acta-Cognitica, 227-235.

Éléments bibliographiques

- Baroni M., Bernardini S., Ferraresi A., Zanchetta E. (2009) The WaCky Wide Web : A collection of very large linguistically processed Web-crawled corpora. Language Resources and Evaluation 43(3) : 209-226.
- Caillet M., Pessiot J-F., Amini M-R., Gallinari P. (2004) Unsupervised Learning with term clustering for Thematic segmentation of texts. Dans RIAO 2004, 26-28 Avril 2004, Avignon, France.
- Enjalbert P., Victorri B. (2005) Les paliers de la sémantique. Dans Sémantique et traitement automatique des langues. Hermès Science.
- Ferraresi A., Bernardini S., Picci G., Baroni M. (2008) Web corpora for bilingual lexicography : A pilot study of English/French collocation extraction and translation. In Proceedings of UCCTS : International Symposium on Using Corpora in Contrastive and
Translation Studies
.
- Rossignol M., Sébillot P. (2006) Acquisition sur corpus non spécialisés de classes sémantiques thématisées, In Jean-Marie Viprey, editor, 8èmes Journées internationales d’Analyse Statistiques des Données Textuelles (JADT 2006), Besançon, France.

  Annuaire | Contact | Courriel | Intranet | Plan d'accès | Autres sites | Crédits | Mentions légales