Thèse

Le raisonnement analogique en lexicographie,
son informatisation et son application
au Réseau Lexical du Français

Jury

Sylvain Kahane Professeur, Université Paris Ouest Nanterre Rapporteur
Mathieu Lafourcade Maître de conférence, HDR, Université Montpellier 2 Rapporteur
Marie Candito Maître de conférence, Université Paris Diderot Examinatrice
Bruno Gaume Chargé de recherche, CLLE-ERSS, Toulouse Examinateur
Jean-Marie Pierrel Professeur, Université de Lorraine Examinateur
Alain Polguère Professeur, Université de Lorraine Directeur

Résumé

La lexicographie contemporaine, en mettant à profit les avancées théoriques et pratiques de l’informatique et de la linguistique, s’est affranchie de l’organisation linéaire imposée par les ouvrages papier. Elle s’est attachée à définir de nouveaux modèles de description et met aujourd’hui à disposition de la communauté des ressources formelles et cohérentes offrant de multiples possibilités d’exploitations automatiques. Cette thèse concentre son attention sur le modèle des systèmes lexicaux proposé par la Lexicographie Explicative et Combinatoire. Plus précisément, elle s’intéresse au Réseau Lexical du Français, en cours de développement. En tant que système lexical, cette ressource est un graphe lexical monolingue. Elle est constituée d’un ensemble de sommets, les unités lexicales du français, entre lesquels sont encodées de nombreuses relations, en grande majorité syntaxico-sémantiques.

Mon travail de thèse pose les bases d’une exploration de cette ressource lexicographique par raisonnement analogique. Elle débute par une revue sélective de la formalisation et de l’informatisation de l’analogie en traitement automatique des langues, dans le cas précis de l’étude du lexique. Elle définit ainsi le principe de l’exploration réalisée comme un regroupement de structures unifiables. Les sommets du graphe lexical s’apparentent alors à des objets disposant d’un certain nombre d’Attributs, disponibles dans leur description lexicographique. Ils entretiennent des Relations, représentées par les arcs.

Une réflexion est menée sur la nature des différents éléments composant le réseau et sur les différents rapports qu’ils entretiennent entre eux. Elle est réalisée en prenant en compte l’évolution de la ressource sur une période de trente mois. Elle est accompagnée d’une analyse topologique, qui met en avant des propriétés proches de celles des graphes petit monde.

Deux séries d’expériences exploratoires sont ensuite réalisées. La première d’entre elles permet de conforter l’idée selon laquelle la formalisation en œuvre dans la ressource permet de détecter automatiquement des analogies conformes à l’intuition des locuteurs. Elle met en avant la possibilité de réaliser différents types d’exploration par raisonnement analogique, en fonction des points d’entrée et des éléments d’informations comparés. Elle montre également l’apport de telles explorations en terme de vérification de la cohérence du réseau et d’émergence de règles lexicales. La seconde série d’expériences se concentre autour de la notion de configurations de dérivations lexicales. Elle montre comment le regroupement de sous-graphes analogues met en avant l’existence de connexions lexicales récurrentes à travers la ressource.

L’état d’avancement de la ressource exploitée ne permet pas d’obtenir des règles et des modèles aboutis. Les résultats obtenus sont toutefois encourageants. Les observations réalisées nous amènent à considérer l’analogie comme un guide permettant de s’assurer de la bonne qualité de la représentation du lexique proposée par une ressource. Elle permet également d’acquérir automatiquement des connaissances sur son organisation. De telles connaissances permettent d’identifier des phénomènes linguistiques et d’instrumenter l’activité lexicographique.

Mots-clefs

lexicographie - analogie - raisonnement analogique - système lexical - graphe petit monde