historique 2003 séminaires

Historique 2003 des séminaires de l’ATILF

Séminaire ATILF

Corpus électronique des plus anciens documents linguistiques de la France : le département de la Meuse

Anne-Christelle Matthey (Université de Zurich/FEW)

Vendredi 5 décembre 2003 | 10h30-12h00
Nancy | Campus Lettres et Sciences Humaines | ATILF | Bâtiment CNRS | Salle Paul Imbs

Résumé
     Cette communication présentera un travail de doctorat actuellement en cours qui s’insère dans un projet global d’édition des Plus Anciens Documents Linguistiques de la France. Ce vaste projet initié par Jacques Monfrin en 1967 a été repris par Françoise Vieillard, Olivier Guyotjeannin (tous deux Ecole Nationale des Chartes) ainsi que Martin-D. Glessgen (Université de Zürich), qui a déjà eu l’occasion de venir présenter l’avancement des travaux dans ce séminaire (cf. communication du 4 mai 2001). L’objectif de ce projet est double : il s’agit de préparer ces documents en ancienne langue pour une édition à la fois fiable et moderne. « Fiable » c’est-à-dire s’approchant le plus possible de l’original. « Moderne » parce que alliant une version traditionnelle imprimée et une version électronique. Tous les textes ainsi édités seront accompagnés d’une analyse linguistique complète ; autrement dit une analyse des particularités grapho-phonétiques, lexicologiques, morpho-syntaxiques et également onomastiques. Ma présentation dans ce séminaire se déroulera en trois temps :
1° Les 240 chartes du département de la Meuse (comprises entre 1226 et 1270).
2° Les derniers développements informatiques attachés au projet en général (critères d’édition, lemmatisation, interrogations linguistiques).
3° L’étude du phénomène de la préstandardisation du français, qui peut se dégager des résultats d’analyse linguistique (notamment lexicale) des chartes meusiennes.
« Une thématique similaire de celle abordée dans le cadre de ce Séminaire se trouve développée dans Matthey (Anne-Christelle), à paraître. « Corpus électronique des Plus Anciens Documents Linguistiques de la France: le cas du Département de la Meuse », in: Pusch (Claus D.)/Raible (Wolfgang) (éd.), Actes 2. Freiburger Arbeitstagung zur Romanistischen Korpuslinguistik (Université Albert-Ludwig Fribourg-en-Brisgau, 11-13 septembre 2003), Tübingen, Narr, 2005. »

Séminaire ATILF

La géographie linguistique : entre régularité et histoire

Marie-Guy Boutier (professeur à l’Université de Liège, directrice de l’Atlas linguistique de la Wallonie)

Vendredi 5 décembre 2003 | 10h30-12h00
Université de Nancy 2, Bâtiment B salle B10 (1° étage)

Résumé
     Qu’est-ce que la géographie linguistique ?
     Il nous semble qu’on peut la définir comme la plus « facile » et la plus « parlante » des disciplines relevant de la linguistique historique. C’est du moins ce que nous tenterons de montrer en partant de notre expérience concrète de rédactrice de l’Atlas linguistique de la Wallonie.
     Après avoir brièvement rappelé les fondements de la géolinguistique et quelques concepts traditionnels de cet art, puis présenté l’Atlas linguistique de la Wallonie et le mode particulier de rédaction de cet atlas (qui tient aussi du dictionnaire historique), nous expliciterons la façon dont nous concevons le travail (ou le jeu ?) du géolinguiste.
     Le géolinguiste manipule des objets linguistiques à la fois nombreux, homogènes, explicites et strictement attribués. Il construit grâce à eux des figures hiérarchisées (types) visant à rendre compte de leur organisation (régulière ou singulière) en même temps qu’à déceler des figures plus générales pouvant expliquer d’autres configurations d’objets analogues.
     Ces quelques principes et leur application concrète seront explicités grâce à la lecture de quelques cartes de l’ALW.

Séminaire ATILF

Déja comme mot du discours

Denis Paillard (Laboratoire LLF – UMR 7110, Université de Paris 7)

Vendredi 3 octobre 2003 | 10h30-12h00
Nancy | Campus Lettres et Sciences Humaines | ATILF | Bâtiment CNRS | Salle Paul Imbs

Résumé
     Les descriptions de déjà portent essentiellement sur ses emplois aspecto-temporels (cf. il est déjà parti, as-tu déjà mangé du caviar ?) même si l’existence d’emplois discursifs est largement reconnue (cf. quel est ton nom déjà ? …Déjà qu’il ne répond pas. Alors pourquoi veux-tu que….). L’exposé portera sur les emplois discursifs de déjà. Parmi les questions que soulèvent ces emplois, je discuterai en particulier des points suivants :
  – quels sont les critères qui permettent de distinguer déjà adverbe de déjà mot du discours ?
  – y a-t-il une sémantique commune à déjà adverbe et déjà mot du discours ?
  – comment définir la portée de déjà mot du discours ?
  – déjà mot du discours apparaît dans différentes positions : position initiale, position médiane, position finale. Quels sont les facteurs qui déterminent telle ou telle position ? Quels sont les effets de sens propres à telle ou telle position ?
  – déjà peut être en position détachée (à l’écrit entre virgules) ou non détachée (sans virgules), cette différence de ponctuation étant corrélée, à l’oral, à une différence intonative. On cherchera à montrer que cette différence a priori anodine, correspond en fait à une différence de portée. La description de déjà mot du discours sera faite dans le cadre du format de description élaborée dans le cadre d’un projet russe-français, dont je présenterai les principales notions (définition « en langue » des mots du discours, mise en évidence de deux sémantiques discursives : sémantique de la pertinence et sémantique de l’adéquation, reformulation discursive, polysémie des mots du discours) Ci-dessous on trouvera un tout premier corpus illustrant certains emplois de déjà.
  (1) Elle a d’autant moins d’excuses que déjà, en 66, juste avant Sedan, elle avait failli épouser un Hollandais, presque un Prusco.
  (2) Juin tirait à sa fin, et déjà il faisait sur Paris une chaleur accablante.
  (3) Le fioul n’a pas encore touché la première plage que déjà la machine judiciaire s’est mise en marche.
  (4) … Les petites virent leurs parents se diriger vers la chambre, et la peur leur glaça les joues, le nez et jusqu’aux oreilles. Déjà, ils touchaient le bouton de la porte, lorsqu’ils entendirent un sanglot derrière eux. C’était Marinette qui ne pouvait plus retenir ses larmes, tant elle avait de frayeur et de remords aussi.
  (5) Antonio toucha le chêne. Il écouta dans sa main le tremblement de l’arbre. C’était un vieux chêne plus gros qu’un homme de la montagne, mais il était à la belle pointe de l’île de Geais, juste dans la venue du courant, et, déjà, la moitié de ses racines sortaient de l’eau.
  (6) Il n’acheva pas sa phrase, car, déjà, l’homme ne l’écoutait plus.
  (7) Geneviève- dit-elle – cette vilaine pensée n’est pas digne de toi. Je suis sûre que déjà tu en as honte…
  (8) …Et puis tu vas être plongé jusqu’au cou dans la politique, tu n’auras plus une minute à toi. Déjà tu te plains de manquer de temps pour ton roman….
  (9) Allez vous en ! Déjà que vous avez perdu la guerre, vous n’allez pas nous faire tuer par dessus le marché.
  (10) C’est la première fois de ma vie que je dîne avec un comte. Vous êtes le comte comment déjà ?

Séminaire ATILF

TILT : Réalisations actuelles

Ann Pourchot et Stéphanie Biquillon

Vendredi 26 septembre 2003 | 10h30-12h00
Nancy | Campus Lettres et Sciences Humaines | ATILF | Bâtiment CNRS | Salle Paul Imbs

Résumé
     L’objet de ce séminaire est de présenter certaines réalisations effectuées par les intervenants dans le cadre du projet TILT (Trésor Informatisé de la Langue Technique) dont le laboratoire est partie prenante.
     TILT est mené dans le cadre du Programme Technolangue dont l’objectif est le développement, l’adaptation et l’intégration des outils logiciels linguistiques afin de traiter de gros volume de données, pour répondre aux nouveaux besoins de la société en matière de recherche d’informations.
     Le projet TILT vise à construire un corpus du français technique utilisé dans les normes AFNOR et d’aligner ce corpus sur son équivalent anglais, et à fournir les ressources indispensables au développement d’applications linguistiques ( assistance à la traduction, recherche d’informations, indexation, constitution automatique de résumé, …).
     Pour mener à bien ce projet, différentes tâches ont été effectuées.
     Dans un premier temps, nous avons été amenés à apporter une solution pour convertir des fichiers PDF au format XML. Nous avons donc mis en place une application automatisant cette conversion. Puis, nous avons évalué les résultats en sortie de conversion afin de valider les fichiers XML.
     Dans un deuxième temps, nous avons recherché un étiqueteur dans le cadre d’une demande de l’AFNOR. En effet, il est très important pour eux d’étiqueter les normes afin de permettre la recherche d’informations, l’indexation, etc.
     Enfin, nous avons effectué un re-balisage du format XML-AFNOR au format XML recommandé par la TEI.

Séminaire ATILF

Coup de projecteur sur le DNPS : dictionnaire et colloque

Danuta Bartol et Henri-Claude Grégoire (ATILF)

Vendredi 5 septembre 2003 | 10h30-12h00
Nancy | Campus Lettres et Sciences Humaines | ATILF | Bâtiment CNRS | Salle Paul Imbs

Résumé
    
Les 13/14/15 novembre prochains aura lieu, à Nancy, un colloque international sur le thème « Langues et sociétés de l’Europe moderne » organisé conjointement par Nancy 2 (H. Cl. Grégoire/D. Bartol) et l’ATILF. Il a pour but de mettre en lumière un projet de dictionnaire des notions politiques et sociales (le dnps). Le séminaire du 5 septembre, à l’ATILF (10h30), permettra aux gens du laboratoire de faire un peu mieux connaissance avec l’équipe du dnps et son projet de dictionnaire et de colloque.

Séminaire ATILF

Détection et correction des erreurs orthographiques des textes arabes non diacritisés

Achit Abdelmadjid (ATILF)

Vendredi 13 juin 2003 | 10h30-12h00
Nancy | Campus Lettres et Sciences Humaines | ATILF | Bâtiment CNRS | Salle Paul Imbs

Résumé
    La détection et la correction d’erreurs orthographiques est l’un des domaines d’application du TALN traitement automatique des langues naturelles les plus intéressants et les plus attrayants, du fait de l’intérêt croissant qu’on accorde à la qualité des textes que nous utilisons et manipulons quotidiennement dans nos administrations et dans nos correspondances personnelles. Aussi, cela est du au fait que ce genre de programme intervient dans un grand nombre d’applications. A titre d’exemple, dans les logiciels de traitement de textes, dans certains services de messageries électroniques intégrée au web dont l’exemple type est la messagerie du site www.yahoo.com qui offre la possibilité d’effectuer une vérification orthographique en ligne des textes des messages à envoyer.
    Le thème de mon stage au niveau du laboratoire ATILF Analyse et Traitement Informatique de la Langue Française, concerne le développement d’un détecteur / correcteur d’erreurs orthographiques pour des textes arabes non diacritisés. La détection se fera selon deux modes distincts et la correction nécessitera la coopération de l’utilisateur. Ce genre d’application peut s’avérer utile pour la vérification et l’évaluation de la qualité des ressources linguistiques textuelles arabes (corpus de textes) ou dans le contexte de la GED (Gestion Electronique des Documents) où on peut même songer à l’incorporer comme un module dans un logiciel intégré de GED. Et dans le cadre du projet du Trésor de la Langue Arabe TLA, on peut d’ores et déjà penser à l’utiliser comme outil ad hoc pour vérifier les textes non diacritisés saisis manuellement ou bien provenant d’une numérisation de documents papiers avec OCR arabe en vue d’être intégrés dans le TLA. Sachant entre autre, que ce genre d’applications peut traiter sous certaines conditions du texte français.
    L’étude conceptuelle a permis d’établir la possibilité d’envisager deux types d’applications:

  • Application locale
  • Application Web Server basée sur les scripts CGI (Common Gateway Script) sous Apache Sever
    qui conviendrait à un environnement Intranet / Internet.

    
Du point de vue implémentation, cela s’est concrétisé sous forme de deux applications l’une tournant en local et l’autre permettant pour le moment la détection des erreurs orthographiques en ligne au travers d’un formulaire.
    
Au cours de mon exposé, j’aurais à faire une brève présentation de ce qu’est le domaine du traitement automatique des langues naturelles TALN et en particulier le domaine de la détection/correction d’erreurs orthographiques et puis en second je parlerais de la langue arabe, de ses particularités et de l’analyse morphologique du lexique arabe. Ensuite, je présenterais l’étude conceptuelle de cette application et en dernier, je terminerais ma présentation avec une démonstration.

Séminaire ATILF

Les champs sémantiques multilingues unifiés

Sébastien Haton (ATILF)

Vendredi 6 juin 2003 | 10h30-12h00
Nancy | Campus Lettres et Sciences Humaines | ATILF | Bâtiment CNRS | Salle Paul Imbs

Résumé
     Notre problème est la constitution de lexiques multilingues complets illustrant la non bi-univocité des correspondances lexicales entre les langues. En effet, il est rare qu’à un terme en langue source corresponde une seule traduction en langue cible. Par surcroît, le décalage interlangue grandit de manière exponentielle à chaque ajout d’une langue dans l’étude.
     Comme lexie de référence, nous avons choisi le verbe français abandonner car il semble « faiblement » polysémique alors que le nombre de ses traductions est considérable. Pour leur recensement, nous utilisons la méthode de la fusion des données [cf. PLOUX, 1997] : en plus des traductions du verbe recueillies dans la partie français-langue cible des dictionnaires bilingues, nous avons récupéré les verbes en langue cible pour lesquels abandonner est une traduction proposée. Le recensement effectué, les traductions sont organisées dans un tableau en fonction de critères discriminatoires pertinents (des constructions syntaxiques aux variations contextuelles). Nous obtenons ainsi des micro-paradigmes de traduction pour chaque « sens » de la lexie.
     Un des constats majeurs de cette étude préliminaire est qu’il existe entre les emplois de la lexie d’origine et d’autres mots de la langue source des liens qui émergent via le paradigme de traductions. Or, ces nouveaux mots possèdent leurs propres paradigmes de traductions qui créent de nouveaux liens et ainsi de suite. Ce va-et-vient incessant rend rapidement impossible une approche séquentielle du problème. Aussi, il nous paraît nécessaire de représenter conjointement tous les emplois des lexies en langue source qui sont en relation avec la lexie à traduire. Ainsi, nous constituons un paradigme lexical autour de la notion d’abandon qu’il sera possible de confronter aux paradigmes de traductions. De même, chaque traduction proposée vient généralement « se positionner » sémantiquement entre deux lexies (ou davantage) dans la langue source, comme le font apparaître les dictionnaires bilingues que nous avons consultés.
     Pour représenter nos données, nous proposons la création de champs sémantiques multilingues unifiés, dirigés par un réseau qui fait apparaître les liens sémantiques entre les lexies d’une même langue autant qu’entre celles de langues différentes. Chaque unité du réseau est porteuse de ses propres informations linguistiques, tandis que les liens font apparaître les données qu’elle partage avec les autres unités auxquelles elle est reliée au sein du graphe.
     Ces champs permettront de construire des dictionnaires bilingues ou multilingues en utilisant n’importe quelle langue présente dans le graphe comme langue source. Elle donnera également accès au champ sémantique d’abandon sur des critères élargis et motivés.

Séminaire ATILF

Biconsonantisme et homonymie du lexique arabe

Youssef Ayache

Vendredi 16 mai 2003 | 10h30-12h00
Nancy | Campus Lettres et Sciences Humaines | ATILF | Bâtiment CNRS | Salle Paul Imbs

Résumé
     La recherche sur la bilitarité originelle du lexique arabe apporte un éclairage nouveau au problème endémique de l’homonymie des racines : dans l’hypothèse d’un état primitif de bilitarité (ou de biconsonantisme), la réductibilité des trilitères (et des quadrilitères) à des bases bilitères différentes fonctionnant comme des étymons semble constituer un critère “systématique” de séparation des homonymes.
     Je commencerai mon exposé en explicitant les notions de “racine” et de “famille de mots” dans le domaine arabo-sémitique, puis je présenterai de manière très succincte le cheminement et les résultats de la recherche sur la bilitarité, avant d’aborder, enfin, l’intérêt de ces résultats pour le traitement des homonymes en lexicographie arabe et pour l’élaboration d’une nouvelle nomenclature des racines.

Séminaire ATILF

Etude de graphes lexicaux à partir d’un dictionnaire électronique

Bernard Victorri et l’équipe LaTTICe

Jeudi 13 mars 2003 | 14h00-16h00
Nancy | Campus Lettres et Sciences Humaines | ATILF | Bâtiment CNRS | Salle Paul Imbs

Résumé
Site de LaTTICe (Langues, Textes, Traitements Informatiques et Cognition) : http://www.lattice.ens.fr/

Séminaire ATILF

Extraction d’informations à partir du TLFi et modélisation d’informations lexicales

ATILF

Jeudi 13 mars 2003 | 10h00-12h00
Nancy | Campus Lettres et Sciences Humaines | ATILF | Bâtiment CNRS | Salle Paul Imbs

Séminaire ATILF

Calcul du sens d’unités polysémiques à l’aide de FRANTEXT

Bernard Victorri et l’équipe LaTTICe

Mercredi 12 mars 2003 | 15h00-17h00
Nancy | Campus Lettres et Sciences Humaines | ATILF | Bâtiment CNRS | Salle Paul Imbs

Résumé
Site de LaTTICe (Langues, Textes, Traitements Informatiques et Cognition) : http://www.lattice.ens.fr/

Séminaire ATILF

La vision du monde de l’homme médiéval à partir de quelques mots et contextes d’ancien et de moyen français, confrontée aux connaissances actuelles

Hiltrud Gerner et Marc Chaussidon (ATILF)

Vendredi 7 mars 2003 | 10h30-12h00
Nancy | Campus Lettres et Sciences Humaines | ATILF | Bâtiment CNRS | Salle Paul Imbs

Résumé
Dans une première partie, nous faisons le point sur le lexique de l’Astronomie (titre provisoire) : la motivation pour sa mise en chantier, son état actuel, son corpus, ses ressemblances et ses différences par rapport aux autres lexiques du Moyen Français avec une présentation de quelques articles relatifs aux sujets traités.
Dans la deuxième partie, nous proposons, à partir de quelques vedettes du lexique, une sélection thématique et illustrée d’exemples, que nous confrontons aux connaissances de notre époque telles qu’elles se présentent dans des ouvrages de vulgarisation scientifique et dans la base Frantext moderne. Les thèmes abordés sont : la terre – les planètes – les étoiles – les météorites ; ce dernier thème étant un pont vers la discipline de Marc Chaussidon (Centre de Recherches Pétrographiques et Géochimiques Nancy -UPR CNRS) qui interviendra ponctuellement pour donner le point de vue actuel des sciences de l’univers.

Séminaire ATILF

Analyse linguistique automatique des listes dans les documents structurés

Véronika Lux (ATILF)

Vendredi 28 février 2003 | 14h30
Nancy | Campus Lettres et Sciences Humaines | ATILF | Bâtiment CNRS | Salle Paul Imbs

Résumé
Dans le TAL en analyse syntaxique, on considère classiquement la phrase comme unité privilégiée. Aussi, les listes sont-elles déroutantes pour un analyseur : souvent, ni la liste entière ni chacun de ses constituants pris séparément ne sont des phrases. Comme le montre l’exemple ci-dessous, la séquence introductrice d’une liste peut être une proposition syntaxiquement ; les éléments de liste peuvent être compléments de cette introduction, etc. Il vous suffit alors de :
1. placer un nouveau récipient sous le bec de la cuve,
2. procéder à un nettoyage rapide et automatique du panier.
Dans le contexte de documents structurés (e.g. XML, HTML) où les listes sont marquées avec un balisage particulier, nous avançons quelques propositions pour prendre en compte leurs particularités, afin d’en améliorer l’analyse syntaxique. Nous présentons la solution technique mise en œuvre avec les ressources disponibles au Centre de Recherche de Xerox (langage de transformation de structures et analyseur linguistique).

Séminaire ATILF

Base lemmatisée d’ancien français et Répertoire des formes graphiques occurrentes: histoire d’une fusion

Pierre Kunstmann (professeur à l’université d’Ottawa, responsable du laboratoire de français ancien)

Jeudi 20 février 2003 | 14h00
Nancy | Campus Lettres et Sciences Humaines | ATILF | Bâtiment CNRS | Salle Paul Imbs

Résumé
Il s’agit de constituer une banque lexicale qui soit un répertoire, avec indice grammatical et références aux œuvres, des mots que présentent les textes d’ancien français. Rêve naguère chimérique, le projet est réalisable de nos jours avec l’appui de l’informatique, si l’on est prêt à y consacrer les moyens et le temps nécessaires. C’est le but que s’était proposé l’équipe du LFA, qui, à partir de textes numérisés (la base TFA, sur le serveur de l’ARTFL à Chicago), d’index lemmatisés, de dictionnaires de formes et de lemmes, avait entrepris d’organiser et de construire peu à peu une Base lemmatisée d’AF (BLAF), fichier (FileMaker) des formes graphiques occurrentes regroupées par vedettes pour faciliter la recherche sur le lexique (notamment sur l’évolution du vocabulaire par genre et par région), la graphématique et la morphologie du français des 12e et 13e siècles. Pour ce faire, le LFA avait adopté une politique de lemmatisation des principaux textes d’AF, à commencer par ceux du 12e siècle. Dans la base, chaque lemme serait accompagné de ses graphies, d’un indice grammatical et de la référence au texte; la base serait mise en relation avec l’ensemble de sous-bases que constituent les index lemmatisés d’œuvres particulières, où l’on peut trouver des informations plus détaillées. Depuis l’an dernier, le LFA s’est associé à une équipe allemande (M.-D. Glessgen, Strasbourg/Zurich; A. Stein, Stuttgart) qui avait conçu un projet voisin, à partir d’un corpus de chartes et visant à l’exploitation du corpus de textes littéraires constitué par A. Dees à Amsterdam. Les deux projets parallèles sont devenus un projet commun, dont le but est d’établir sur des fondements fermes et rigoureux un ensemble ordonné de formes lexicales, qui sera plus tard enrichi par apports successifs de façon à constituer une grande base des formes graphiques occurrentes de l’ancienne langue (à commencer par l’ancien français). Cet outil donnera une vue plus précise des masses lexicales, permettra aussi d’étudier la distribution des formes dans les textes particuliers et constituera un outil précieux pour tout futur dictionnaire alphabétique d’AF; il tracera une voie d’avenir pour la recherche sur le lexique (notamment sur l’évolution du vocabulaire par genre et par région), la graphématique et la morphologie du français antérieur à la Renaissance.
Post-scriptum : Le site du LFA se trouve à www.uottawa.ca/academic/arts/lfa On peut consulter le premier essai de la BLAF sur le site: direx.ca de la compagnie hulloise DIREX, qui en a conçu l’interface.

 

Télécharger la présentation des activités de recherche de Pierre Kunstmann (PDF)

son CV : http://www.uottawa.ca/academic/arts/lfa/chercheurs/kunstmann.html

Séminaire ATILF

MOSAÏQUE LORRAINE, Observation des patois lorrains romans à partir de quelques cartes de l’ALLR (Atlas linguistique et ethnographique de la Lorraine romane)

Claude Michel

Vendredi 7 février 2003 | 10h30-14h30
Nancy | Campus Lettres et Sciences Humaines | ATILF | Bâtiment CNRS | Salle Paul Imbs

Résumé
L’atlas lorrain roman est parmi les plus riches et les moins explorés des atlas régionaux, notamment du fait de la difficulté d’interprétation des données. La lecture et l’interprétation de quelques cartes phonétiques, morphologiques et lexicales issues de cet atlas permettra de montrer différents aspects de l’originalité de cette aire dialectale marginale, appuyée sur la frontière des parlers germaniques. Les influences y sont diverses et le territoire est une zone d’interpénétrations de toutes sortes, d’accueil d’innovations et de maintien d’archaïsmes permettant à cette aire de conserver une certaine originalité malgré les poussées des parlers de l’ouest, de l’est et bien sûr du français, présent depuis longtemps dans certaines parties de la région. Peut-on parler d’une aire dialectale lorraine au milieu de cette diversité et où parle-t-on le « patois lorrain » ?

Séminaire ATILF

Syntagmes à sens différentiel de la forme adjectif+nom ou nom+adjectif

Fabienne Baider

Vendredi 17 janvier 2003 | 10h30-14h30
Nancy | Campus Lettres et Sciences Humaines | ATILF | Bâtiment CNRS | Salle Paul Imbs

Résumé
     L’étude présentée porte sur les couples de la forme (nom+adjectif) ou (adjectif+nom) que l’on peut construire à partir des noms « homme » et « femme » et qui présentent un sens différentiel.
     Le point de départ est un corpus élaboré par Marina Yaguello contenant une dizaine de couples (nom, adjectif) tels que « femme légère »/ »homme léger », « femme honnête »/ »homme honnête ». Marina Yaguello (1978) a constaté que de tels syntagmes avaient un sens différentiel. L’axe de symétrie des sens de ces syntagmes correspondrait majoritairement à la distinction socioculturelle établie entre les référents « homme » et « femme ».
     La question creusée dans cet exposé concerne l’existence, l’origine et la formalisation éventuelle de ce sens différentiel. La méthodologie adoptée est basée sur la constitution et l’étude de corpus, essentiellement extraits de la base FRANTEXT et de dictionnaires en ligne. Les requêtes ont porté sur les noms « homme » et « femme », mais ont du être restreintes aux couples de la forme (homme+adjectif) et (femme+adjectif). La présentation se fera en cinq temps:

(a) l’établissement de l’existence effective de ce sens différentiel à partir d’un corpus d’occurrences en synchronie;
(b) l’évolution diachronique des adjectifs, constituant de ces syntagmes : une distinction semble devoir être établie entre les syntagmes pour lesquels le sens différentiel n’est apparu que progressivement (par exemple ceux formés avec l’adjectif « léger » chez Ronsard) et des syntagmes pour lesquels la différence existait déjà en latin (par exemple ceux formés avec l’adjectif public) ;
(c) le rôle de la syntaxe et notamment la question de l’ordre respectif du nom et de l’adjectif : la distinction sémantique parallèle à l’ordre de ces constituants semble avoir disparu au profit d’une distinction basée sur une distinction socioculturelle concernant le référent nominal (femme honnête/honnête femme) ;
(d) le degré de lexicalisation : aujourd’hui, la plupart des syntagmes de la forme (homme+adjectif) ou (femme+adjectif) évoqués par Marina Yaguello semblent fortement lexicalisés, une telle évolution pose la question de l’intérêt d’une modélisation dans le cadre l’approche compositionnelle du sens ;
(e) le rôle du socioculturel dans l’existence du sens différentiel constaté de ces syntagmes et sa formalisation: Rastier propose d’ajouter l’élément socioculturel de « faiblesse » dans le sémantisme du nom « femme » ; Comment une approche compositionnelle, par exemple modélisée dans le cadre du lexique génératif, pourrait tenir compte d’un tel constituant sémantique ?

Séminaire ATILF

De l’étude de la polysémie logique à un projet de recherche centré sur la sémantique lexicale et le traitement automatique des langues

Evelyne Jacquey (ATILF)

Vendredi 10 janvier 2003 | 10h30-14h30
Nancy | Campus Lettres et Sciences Humaines | ATILF | Bâtiment CNRS | Salle Paul Imbs

Résumé
Le but de cette intervention est double.
1.Questions abordées durant le doctorat essentiellement et la méthodologie adoptée. Le domaine est celui de la sémantique lexicale dans le cadre du traitement automatique des langues. Le sujet d’étude est la polysémie logique, un cas particulier d’ambiguïté lexicale.

a.Propriétés L’ambiguïté lexicale se conçoit généralement pour des lexèmes affichant au moins deux sens « lexicaux » sémantiquement liés. Les lexèmes relevant de la polyémie logique, par exemple le mot « livre », possèdent aussi cette première propriété (le mot « livre » a au moins deux sens lexicaux : il dénote un contenu informationnel, « le dernier livre de Semprun », ou un objet physique, « le livre qui est dans mon sac »). Cette catégorie de d’ambiguïté lexicale possède deux propriétés supplémentaires. La première est la coprédication : plusieurs sens d’un lexème ambigu coopèrent dans une même phrase « j’ai le dernier livre de Semprun dans mon sac ». La seconde est la variation possible dans l’interprétation de la quantification : « j’ai relié tous les livres qui était dans mon sac » (« tous les » porte sur le sens physique de « livre ») ou « je n’ai traduit aucun des livres de Semprun » ("aucun des » porte sur le sens informationnel de « livre »).

b.Modélisation Les propriétés particulières des lexèmes relevant de la polysémie logique posent des questions spécifiques si l’on se place du point de vue du traitement automatique des langues : en particulier, la question du nombre d’objets désignés pour chacun des exemples quantifiés et la question de l’accès à ces objets via le contenu sémantique des lexèmes qui les désignent. Dans le cadre du doctorat, j’ai proposé une modélisation, utilisant des extensions du lambda-calcul simplement typé, pour représenter les calculs sémantiques en présence.

2.Travaux que j’aimerais mener au sein du laboratoire Ils resteront centrés sur l’étude et la modélisation en sémantique lexicale et traitement automatique des langues, mais ils vont diversifier, tant du point de vue des questions étudiées, que de celui des méthodologies adoptées. Par souci de concision, je n’en présenterai qu’un seul : vérification des propriétés des lexèmes relevant de la polysémie logique sur la base du TLFI et de FRANTEXT. J’essayerai de répondre à quelques questions qui me semblent fondamentales :

a.comparaison des trois propriétés attestées dans la littérature linguistique avec les définitions du TLFI
b.comparaison des trois propriétés attestées dans la littérature linguistique avec des corpus extraits de FRANTEXT
c.adéquation, extensions nécessaires ou infirmation de ces propriétés
Par ailleurs, je développe avec d’autres chercheurs divers travaux liés à la sémantique lexicale et la modélisation de ce type de connaissances dans le cadre du traitement automatique des langues.

d.sémantique lexicale, morphologie dérivationnelle et modélisation : soumission d’un article avec Fiammetta Namer à la conférence internationale « Représentations du sens linguistique », Montréal, mai 2002 et soumission d’un autre article au workshop international « Second International Workshop on Generative Lexicon », Genève, Avril 2002
e.sémantique lexicale et inférence en génération automatique de textes avec Claire Gardent : Groupe de travail GENI (travail sur les définitions extraites du TLFI pour quelques verbes de construction, collaboration possible avec Gérard Reb, coopération déjà avec Josette Lecomte pour les objets du TLFI et Gilles Souvay pour le tagger de Brill), Inférence pour la génération de réponse à des questions de compréhension et modélisation en sémantique plate du contenu des questions et des textes sur lesquels les questions sont posées.
f.sémantique lexicale et résolution d’anaphore avec Susanne Alt : constitution d’un corpus d’anaphores non directes et mettant en jeu un nom prédicatif ambigu entre un sens processif et un sens résultatif, évaluation de la pertinence du contenu sémantique d’un tel type de nom prédicatif pour faciliter la résolution de l’anaphore.