laboratoire Analyse et Traitement Informatique de la Langue Française (ATILF)
CNRS Université de Lorraine

Membre de
ILF
FEDER
Accueil > La recherche > Équipes > Lexique > Lexique et corpus > Néologie, corpus et ressources

Néologie, corpus et ressources

Néosémies

Ce thème de recherche a été en particulier développé dans le cadre de la thèse de Coralie Reutenauer intitulée Vers un traitement automatique de la néosémie : approche textuelle et statistique. Cette thèse s’est déroulée sur la période 2008–2011 (soutenance 20 janvier 2012), sous la direction de Jean-Marie Pierrel, Évelyne Jacquey et Mathieu Valette.

Résumé de la thèse

Deux phénomènes linguistiques participent à l’émergence d’un nouveau sens : les variations sémantiques et la néologie. Les variations sémantiques d’une unité lexicale résultent de contrastes entre son sens en langue, tel que codé dans des ressources de référence, et son sens en discours, actualisé par des contextes d’emploi. Les variations sémantiques ciblées sont les variations marquées, telles que le sens actualisé présente une rupture avec le sens codé.
Au critère de rupture s’ajoute un critère de diffusion dans le temps : la variation sémantique participe d’un processus et se combine ainsi à de la néologie. Le nouveau sens est recherché pour de la néologie sémantique, définie à la croisée des variations sémantiques et de la néologie. Un modèle d’allocation de signifié est établi en couplant des indices identifiés comme fondamentaux dans la détection de la néologie à un appareil théorique issu de la sémantique textuelle.
Dans ce cadre théorique, le sens codé est représenté comme un ensemble structuré de sèmes, unités de sens minimales ; le sens en discours est décrit à l’aide d’unités de granularité sémantique décroissante et à travers des phénomènes de récurrences et regroupements de sèmes.

Les ressources et outils utilisés relèvent du champ de la linguistique de corpus et de la lexicométrie. Les ressources sont de deux types, lexicographiques et textuelles. Les ressources lexicographiques constituent le vivier de sens codés. Une plateforme en extrait des représentations du sens sous forme d’ensembles de sèmes. Les ressources textuelles sont le lieu d’observation des sens actualisés. La caractérisation des sens émergents dépend de leur structure en domaines et dans le temps. En pratique, la ressource lexicographique utilisée est le Trésor de la Langue Française informatisé ; de plus, trois corpus journalistiques des années 2000 relevant de différentes thématiques ont servi de ressources textuelles.
Divers outils mathématiques, notamment statistiques, se prêtent à l’exploitation des grandes bases de données que sont les ressources lexicographiques et textuelles. La structure des ressources peut se concevoir comme un espace mathématique dépendant de paramètres tels que le temps ou les domaines. Le nouveau sens est recherché à travers un jeu de contrastes qui se traduit par un jeu sur des espaces et sous-espaces mathématiques. Pour chaque découpage de l’espace, il est possible d’extraire des unités saillantes à l’aide d’indices statistiques, dont l’interprétation et la validité sont discutées. Différentes techniques permettent ensuite de structurer les unités identifiées comme significatives à travers la série de contrastes.

Dans une perspective applicative, une procédure d’allocation de signifié est proposée. Elle est accompagnée d’expériences illustratives aux différentes étapes. Le déroulement de la procédure est sous-tendu par des caractérisations de niveaux sémantiques de plus en plus précises, allant des domaines aux unités lexicales puis aux sèmes. Des perspectives complémentaires de la procédure sont ensuite envisagées. Celles-ci élargissent les traitements proposés à d’autres objets linguistiques et à des formats de représentation des ressources plus complexes.

Néologies catégorielles

La néologie catégorielle est formée à partir d’un unique processus de morphologie lexicale. Il s’agit de la création d’une nouvelle unité par conversion syntaxique d’une unité préexistante. La forme de cette unité reste inchangée, mais la modification de sa catégorie grammaticale s’accompagne d’une variation de sens que (Riegel et al., 1998) assimilent à celle induite par la dérivation.

(Sablayrolles 2002) observe que les types de conversion les plus productifs consistent en glissements entre les catégories Verbe et Nom la gagne, Nom et Adjectif des ouvriers libres ou esclaves, Adjectif et Nom le terrorisme nucléaire, Adjectif et Adverbe ça me plaît grave et Adverbe et Adjectif il est trop.

Nous avons effectué une étude préliminaire pour déterminer lesquels de ces types de conversion pouvaient être détectés sans provoquer trop de mauvais résultats et avons retenu ceux de Nom en Adjectif et d’Adjectif en Nom.
Par ailleurs, Sandrine Ollinger et Mathieu Valette ont développé un outil de détection de néologies catégorielles, le moteur POMPAMO

Publications de ce thème de recherche

- Reutenauer C., Jacquey É., Ollinger S. (2011) Néologies de sens : contribution à leur détection et leur caractérisation dans un corpus autour du thème de la crise financière. Conférence CINEO 2011, Sao Paulo, Brésil.
- Reutenauer C., Lecolle M., Jacquey É., Valette M. (2010) Sémème au macroscope : genèse et variation sémiques d’une unité lexicale . Proceedings of 10th International Conference JADT, Rome, Italie, 9–11 juin 2010, 467–478, ISBN 978-88-7916-450-9.
- Reutenauer C., Valette M., Jacquey É. (2009) Proposition pour l’enrichissement sémantique de corpus. Actes des 6e Journées de la Linguistique de Corpus, Lorient, 10–12 septembre 2009.
- Reutenauer C., Lecolle M., Jacquey É., Valette M. (2009) Outreau en n sèmes, Outreau en 5 temps, Diachronie de la représentation sémique d’une unité lexicale Actes de l’Atelier « Du thème au terme », Conférence internationale Terminologie et Intelligence Artificielle (TIA), Toulouse, France, 21 novembre 2009.
- Reutenauer C., Valette M., Jacquey É. (2009) De l’annotation sémantique globale d’un texte à l’interprétation locale d’un mot. Cognitica, ARCo’09, Actes de Colloque de l’Association pour la Recherche Cognitive, Interprétation et problématiques du sens, Rouen, 9–11 décembre 2009.

Éléments bibliographiques

- Riegel M., Pellat J-C., Rioul R. (1999) Grammaire méthodique du français, 5e éd. mise à jour, Paris, Presses Universitaires de France, coll. Linguistique nouvelle, 646 p.
- Sablayrolles J-F. (2002) Fondements théoriques des difficultés pratiques du traitement des néologismes, Revue française de linguistique appliquée, VII-1, pp. 97-111.

  Annuaire | Contact | Courriel | Intranet | Plan d'accès | Autres sites | Crédits | Mentions légales