laboratoire Analyse et Traitement Informatique de la Langue Française (ATILF)
CNRS Université de Lorraine

Membre de
ILF
FEDER
Accueil > La recherche > Équipes > Lexique > Lexique et corpus > Linguistique et corpus

Linguistique et corpus

Sémantique, morphologie et syntaxe

Les recherches de ce thème ont été développées en collaboration avec l’axe 1 Morphologie constructionnelle et l’axe 4 Du lexique à la phrase de l’équipe Lexique.

Dans le cadre des recherches avec Fiammetta Namer, un modèle de description a été développé pour rendre compte du caractère prédictif de deux mécanismes morphologiques pour le contenu sémantique de deux types de lexèmes construits du français : les verbes dénominaux en é-BaseN tels que édenter et les noms déverbaux et verbes dénominaux obtenus par conversion tels que danse ou beurrer. Ces recherches ont abouti à l’élaboration d’un mécanisme général de construction, représenté dans le cadre du lexique génératif (GL), dont la particularité est de postuler que le contenu sémantique d’un lexème construit est principalement dicté par le contenu sémantique de la base. Cette approche a notamment permis de rejeter l’hypothèse d’une polysémie du préfixe é- ou de la conversion.

Dans le cadre des recherches avec Marie-Laurence Knittel, nous avons mis au point une méthodologie d’analyse d’exemples en corpus afin de confronter les dernières hypothèses théoriques connues concernant les noms déverbaux d’action par suffixation en -ion. Les hypothèses théoriques sur ces noms consistent à corréler une réalisation syntaxiquement définie et l’héritage ou non des propriétés argumentales et aspectuelles de la base verbale du nom construit. Par exemple, à la suite des travaux bien connus de Grimshaw, un nom déverbal d’action tel que construction dans un contexte de détermination définie et suivi par un argument en par héritera des propriétés aspectuelles et argumentales de construire. En utilisant le corpus libre de l’Est Républicain (1999–2003, disponible dans les ressources du CNRTL), le concordancier Corpus Work Bench a été utilisé afin d’extraire aléatoirement 200 contextes pour chacun des 6 patrons syntaxiques définis pour tester les hypothèses. Une campagne d’annotation (4 annotateurs) s’en est suivie et a permis de montrer que si la plupart des contextes avec déterminant défini induisent l’héritage des propriétés aspectuelles et argumentales, d’abord, ce n’est pas systématique, ensuite, d’autres patrons syntaxiques permettent l’héritage, notamment avec des déterminations indéfinies.

Sémantique et terminologie

La problématique centrale de ce thème de recherche s’articule autour de la désignation, de la représentation conventionnelle d’un concept dans un domaine de spécialité à l’aide d’un terme simple ou complexe. Elle se fonde sur une approche associant sémantique lexicale, sémantique textuelle et terminologie. Les travaux développés dans ce cadre s’intéressent plus particulièrement à la langue de spécialité et aux ressources terminologiques de deux domaines : les sciences du langage et les pathologies du langage.

Sciences du Langage

La perspective d’une amélioration de l’indexation des textes (indexation assistée au sens documentaire) demande une analyse des données lexicographiques et une annotation sémantique des termes afin d’établir une liste des concepts présents en texte intégral. L’annotation en texte intégral entraine le repérage de candidats termes caractéristiques du domaine qui ne figurent pas encore dans les ressources terminologiques (vocabulaire de domaine, nomenclature, terminologie, thesaurus) ce qui nécessite leur désambiguïsation sémantique et terminologique.
Le travail d’analyse, de désambiguïsation et de sélection des nouveaux termes parmi les candidats termes d’un texte demande une prise en compte d’informations syntaxiques, pragmatiques (usages effectifs des termes dans la langue de spécialité), etc. La perspective d’une automatisation du repérage des candidats termes repose sur l’utilisation de techniques relevant du traitement automatique des langues (utilisation d’extracteur de candidats termes, exploitation de techniques de fouille de données textuelles). La nécessité de contribuer à l’aide à l’indexation et à l’amélioration du thesaurus en proposant des termes émergents particulièrement représentatifs des documents annotés par des informations terminologiques et sémantiques émane du constat selon lequel les ressources actuelles ne sont satisfaisantes, ni pour l’annotation terminologique de textes, ni pour l’indexation de documents du domaine des sciences du langage par les documentalistes.

Pathologies du langage

L’intrégration récente de Frédérique Brin-Henry apporte un nouveau champ d’étude avec le domaine de l’orthophonie. A l’issue de ses travaux de doctorat, elle développe une analyse linguistique fine des 500 et quelques termes repérés dans un corpus de diagnostics réalisés par des praticiens. L’analyse linguistique réalisée se décline notamment autour des relations sémantiques paradigmatiques existant entre les termes repérés. Au delà, son travail questionne la fonction dénominative de la langue : dans quelle mesure la dénomination de pathologies du langage par les praticiens contribue à l’existence même de ces pathologies ?

Publications associées à ce thème de recherche

- Brin-Henry F. (chapitre d’ouvrage à paraître) L’utilisation du corpus authentique pour l’orthophoniste praticien-chercheur. Paris : L’Harmattan.
- Beauseroy D., Jacquey É., Knittel M. L. (2011) Des hypothèses, des tests et des données : les noms événementiels en corpus. Revue CORPUS, Varia, S. Mellet (dir.), 219–239.
- Brin-Henry F. (2011) La terminologie crée-t-elle la pathologie ? le cas de la pratique clinique de la pose du diagnostic orthophonique. Doctorat de Sciences du Langage de l’Université de Nancy2, Duda R. (dir.).
- Brin-Henry F., Courrier C., Lederle E., Masy V. (2011) Dictionnaire d’orthophonie, 3e édition. Isbergues : Ortho-Edition, 303 p.
- Kister L., Jacquey É., Gaiffe B. (2011) Liens conceptuels et relations sémantiques : proposition de représentation des connaissances en sciences du langage. Ingénierie des connaissances IC 2011. 16-20 mai, Chambéry. 8 pages
- Kister L., Jacquey É., Gaiffe B. (2011) Du thesaurus à l’onto-terminologie : relations sémantiques vs relation ontologique. COgnition Représentation LAngage, Vol 9-1 (en ligne).
- Jacquey É., Kister L., Grzesitchak M., Gaiffe B., Reutenauer C., Ollinger S., Valette M. (2010) Thésaurus et corpus de spécialité sciences du langage : approches lexicométriques appliquées à l’analyse de termes en corpus.TALN2010, Montréal, 19‐23 juillet 2010.
- Brin-Henry, F. (2009) Diagnosis and speech-therapy : does terminology create pathology ? Poster affiché au congrès international du Comité Permanent de Liaison des orthophonistes-Logopèdes de l’Union Européenne, Ljubljana, Slovénie, Mars 2009.

- Gaiffe B., Jacquey É., Kister L., (2009) Approche lexico­sémantique de l’extraction terminologique : utilisation de ressources lexicographiques et validation sur corpus.Toth’09.
- Kister L., Jacquey É., Gaiffe B. (2009), Fusion d’un thesaurus et d’une terminologie : utilisation de ressources existantes pour amorcer une onto­terminologie. TIA’09, 18‐19 novembre.
- Namer F., Jacquey É. (sous presse) Word Formation Rules and the Generative Lexicon : Representing noun-to-verb versus verb-to-noun Conversion. Dans P. Bouillon, H. Isahara, K. Kanzaki & J. Pustejovsky (dir.) : Recent Trends in Generative Lexicon Theory, coll. « Text, Speech and Language Technology », Springer.
- Namer F., Bouillon P., Jacquey É., Ruimy N. (2009) Morphology-based enhancement of a French SIMPLE Lexicon. 5th International Conference on Generative Approaches to The Lexicon, Pisa, 153–161.
- Jacquey É., Jadelot Ch. (2008) Noms d’objets imprimés : ambiguïté lexicale sémantique et proxémie. Conférence Lexicographie et Informatique : Bilan et perspectives, Nancy Janvier 2008.
- Kister L., Jacquey É., (2008) Traits sémantiques et anaphore pronominale. Revue de sémantique et de pragmatique, n°23, pp 23‐34, numéro spécial de la revue : actes des 4e Rencontres de Sémantique et de Pragmatique, 13‐15 juin 2006, Université d’Orléans.
- Kister L., Jacquey É., Gaiffe B. (2008) Repérage de la référence à partir du thesaurus, de la terminologie et de la sémantique lexicale. Associazione Italiana, per la Documentazione Avanzata, AIDAinformazioni, 26, 1‐2.
- Jacquey É, Namer F. (2007) Morphosémantique et modélisation : le cas des verbes dénominaux préfixés par é-. Dans D. Bouchard, I. Evrard & E. Vocaj (dir.) : Représentation du sens linguistique, Bruxelles, De Boeck Université/Duculot, 53–68.
- Jacquey É., Kister L. (2007) Comparaison des structures thématiques de textes spécialisés et de thesaurus ou de terminologies. Terminologia e mediazione linguistica : approcci e metodi a confronto, ASS.I Term et università di Bologna, sede di Forli, Bertinoro, 8 juin 2007
- Jacquey É., Kister L. (2007) Acquisition lexicale sémantique à partir de données lexicographiques au service de la comparaison entre des structures thématiques de textes spécialisés et de thesaurus. Terminologie : approches transdisciplinaires, Gatineau (Québec), 2‐4 mai.
- Kister L., Jacquey É. (2007) NdeN et acquisition d’informations lexicales à partir du Trésor de la Langue Française informatisé. Cognition Représentation Langage, revue du Cercle de Linguistique du Centre et de l’Ouest.
- Kister L., Jacquey É. (2007) Comparaison des structures thématiques de textes spécialisés et de thésaurus ou de terminologie. Journée REALITER, Bertinoro, Italie, Juin 2007.- Namer F., Bouillon P., Jacquey É. (2007) Un lexique Génératif de référence pour le Français. TALN 07, Toulouse, ERSS, 233–242.
- Namer F., Bouillon P., Jacquey É. (2007) A morphologically driven reference semantic lexicon for French. Generative Approaches to the Lexicon, Paris.

  Annuaire | Contact | Courriel | Intranet | Plan d'accès | Autres sites | Crédits | Mentions légales