Thèses soutenues

Younghyun Ha

« Phraséologie somatique du lexique des sentiments : une étude multilingue fondée sur le cas du coréen et du français / Somatic phraseology of the lexicon of feelings : a multilingual study based on the case of Korean and French »
Sous la direction de Alain Polguère (ATILF / Université de Lorraine – CNRS)
Thèse soutenue le 26 juin 2026

Résumé

Cette étude porte sur la phraséologie somatique du lexique des sentiments en français et en coréen. Son objectif principal est d’analyser les expressions idiomatiques désignant des sentiments à travers leurs manifestations corporelles, afin de dégager leurs règles de structuration et d’en proposer une modélisation à des fins didactiques. L’étude s’appuie sur une méthodologie à la fois lexicologique et lexicographique, dans le cadre de la Lexicologie Explicative et Combinatoire. Dans un premier temps, l’étude prend pour point de départ le lexique des sentiments et en analyse les termes génériques, qui servent à classifier ce lexique au sein du lexique global d’une langue et à le répartir en classes sémantiques. Cette analyse vise à structurer le lexique des sentiments de manière exploitable pour l’analyse de la phraséologie somatique des sentiments dans nos ressources lexicographiques : Réseaux Lexicaux. Sur cette base, nous établissons des patrons des phrasèmes somatiques des sentiments en français et en coréen. Pour ce faire, nous identifions leur structure syntaxique profonde et leur structure communicative afin de les regrouper en familles communicatives homogènes. Cette démarche permet de mettre en lumière des règles de structuration de ces phrasèmes à la fois universelles et spécifiques à chaque langue, et débouche sur une synthèse des patrons communs aux deux langues. De plus, nous distinguons la structuration des phrasèmes littéraux de celle des phrasèmes non littéraux. Enfin, la thèse propose une nouvelle formule de description des phrasèmes somatiques du lexique des sentiments en français et en coréen, afin de dépasser les limites des descriptions existantes. Elle présente ensuite la modélisation fine de ces phrasèmes au sein des Réseaux Lexicaux. Ce travail permet d’intégrer la phraséologie somatique des sentiments dans des ressources lexicographiques directement exploitables pour l’enseignement et l’apprentissage de la phraséologie somatique des sentiments dans les deux langues.

Hee-Soo Choi

« Ressources lexicales et TAL : de l’enrichissement de réseaux lexico-sémantiques du français à la génération de plongements de graphe pour la désambiguïsation lexicale »
Sous la direction de Mathieu Constant (ATILF / Université de Lorraine – CNRS) et Karën Fort (Loria)
Thèse soutenue le 20 avril 2026

Résumé

Cette thèse explore la relation bilatérale qui unit les ressources lexicales et le Traitement Automatique des Langues (TAL). Historiquement, les ressources lexicales symboliques, telles que les dictionnaires et les réseaux lexico-sémantiques, constituaient les fondations des systèmes de TAL. Cependant, l’essor de l’apprentissage profond et des grands modèles de langue a provoqué un changement de paradigme majeur vers des représentations implicites et numériques, apprises à partir de grandes quantités de données. Cette évolution soulève des défis cruciaux : un manque de transparence et d’interprétabilité des modèles, une représentation souvent déficiente des phénomènes linguistiques rares, et une aggravation des inégalités entre les langues bien dotées et celles peu dotées. Cette thèse s’articule autour de deux axes majeurs : explorer comment les techniques de TAL peuvent contribuer à automatiser et enrichir les ressources lexicales, et inversement, examiner comment l’intégration de ces ressources peut améliorer les systèmes automatiques. La première partie de la thèse présente un panorama historique de l’évolution des ressources lexicales. Le chapitre 1 retrace la trajectoire de ces ressources, de leurs origines théoriques en linguistique jusqu’à leur application pratique dans le TAL moderne. Il met en lumière la transition d’un format symbolique lisible par l’humain vers un format numérique conçu pour la machine, modifiant intrinsèquement la manière dont l’information linguistique est représentée. Le chapitre 2 complète ce cadre théorique par une analyse bibliométrique diachronique des ressources lexicales du français sur une période de 25 ans, basée sur les actes de la conférence nationale TALN. Cette étude observe le cycle de vie de diverses ressources, retraçant l’évolution de leur utilisation, la transition vers les représentations vectorielles, et les enjeux persistants de réutilisabilité, d’accessibilité et de pérennité des ressources lexicales. La deuxième partie de la thèse se concentre sur la dimension « TAL pour les ressources », en abordant la problématique de l’incomplétude inhérente aux graphes de connaissances et aux réseaux lexico-sémantiques. Après avoir dressé un état de l’art sur la complétion de graphes et la prédiction de liens au chapitre 3, le chapitre 4 applique ces techniques à deux réseaux du français, le RL-fr (Réseau Lexical du Français), ressource de granularité fine construite manuellement, et RezoJDM, une ressource très dense obtenue par production participative. Plutôt que de chercher à maximiser les performances, nous adoptons une démarche orientée vers la ressource. En exploitant la technique du Monte-Carlo Dropout pour estimer l’incertitude prédictive d’un modèle de prédiction de liens, nous générons des triplets candidats robustes pour une potentielle intégration dans la ressource. La troisième partie explore l’axe inverse, « Ressources pour le TAL », en cherchant à déterminer si l’intégration de connaissances structurelles issues d’un réseau lexico-sémantique peut améliorer la désambiguïsation lexicale. Le chapitre 5 présente un état de l’art de la tâche de désambiguïsation lexicale et une analyse de son cadre d’évaluation traditionnel. Dans le chapitre 6, nous évaluons différents systèmes de désambiguïsation lexicale dont l’intégration de plongements de graphe, appris à partir du RL-fr, dans un modèle neuronal supervisé. Dans cette thèse, nous nous sommes intéressés à l’enrichissement mutuel entre les ressources lexicales et les systèmes de TAL. Bien que les techniques contemporaines de TAL ont évolué vers l’utilisation de grands modèles de langue appris sur de grandes quantités de textes, nous insistons sur l’utilité des ressources lexicales, par leur description contrôlée et précise des phénomènes linguistiques.

Amandine Lecomte

« Étude des indices multimodaux discursifs au cours de la construction dialogique en entretien clinique auprès de sujets atteints de schizophrénie – Approche des conditions de possibilité ou de contrôle d’un « effet clinique » »
Sous la direction de Michel Musiol (ATILF | Université de Lorraine – CNRS)
Thèse soutenue le 12 janvier 2026

Résumé

Cette thèse propose de circonscrire un des effets possibles de l’entretien clinique dans le cadre particulier de la recherche. Il s’agit de mettre en évidence, de manière précise et formelle, des indicateurs de type comportementaux-discursifs et sémantico-représentationnels de l’évolution du sujet au niveau de la configuration des transactions dialogiques. Ceci à partir d’une population atteinte d’une pathologie psychiatrique avérée, d’une population témoin ne présentant pas de pathologie mentale ainsi qu’auprès d’une personne présentant des symptômes de première épisode psychotique. Ce cadre exploratoire tente alors d’appréhender la multimodalité de l’interaction verbale à travers ces réactions vocales, verbales, mimées voir oculomotrices.

Abdelhak Kelious

« Évaluation de contextes pour l’apprentissage des langues étrangères. »
Sous la direction de Mathieu Constant (ATILF | Université de Lorraine – CNRS) et Christophe Coeur (entreprise CARDEMY)
Thèse soutenue le 18 décembre 2025

Résumé

Il existe de nombreuses plateformes en ligne destinées à l’apprentissage des langues étrangères, dont certaines ont l’ambition de suivre l’élève dans sa progression et de personnaliser son apprentissage. Cependant, l’un des challenges majeurs reste de réussir à motiver l’élève sur le long terme. Les apprenants modernes utilisent de plus en plus les réseaux sociaux et les vidéos pour se divertir et accéder à l’information. Ils sont demandeurs d’outils d’apprentissage moins théoriques et accessibles instantanément sur leur smartphone. Les vidéos contribuent à motiver les apprenants tout en leur transmettant la culture du pays de la langue apprise. Dans notre cas, l’objectif serait de concevoir un algorithme amélioré de récupération de vidéos afin de proposer automatiquement à l’élève les contextes les plus pertinents pour lui, selon divers critères tels que son niveau courant dans la langue étudiée, le niveau qu’il souhaite atteindre, ses centres d’intérêt. On prendra également en compte son historique.Le but est de motiver l’élève en lui fournissant du contenu qui va lui correspondre, qui va l’aider à progresser. Nous nous limiterons à l’anglais et au français. L’objectif de cette thèse est d’évaluer si les méthodes neuronales d’apprentissage automatique permettent de récupérer les meilleurs contextes d’apprentissage pour un élève soit de manière statique (i.e. on vise un niveau dans l’absolu), soit de manière dynamique (i.e. on sélectionne les contextes dynamiquement en fonction de l’historique de l’élève sur l’application). Dans le deuxième cas de figure, nous proposons de mettre en place une architecture neuronale s’appuyant sur un apprentissage par renforcement, s’inspirant des systèmes de dialogue.

Aman Sinha

« Evaluation of medical language models. »
Sous la direction de Marianne Clausel (Université de Lorraine), la co-direction de Mathieu Constant (ATILF | Université de Lorraine – CNRS) et Xavier Coubez (ICANS Strasbourg)
Thèse soutenue le 12 décembre 2025

Résumé

Medical language is complex and very different from everyday language: it contains many specialized terms, abbreviations, and unstructured notes that are often difficult for computers to understand. This makes the application of artificial intelligence (AI) systems, which are usually trained on general texts such as news articles or web pages, particularly difficult in the medical field.
This thesis seeks to understand why current language models struggle to process medical data and how they can be improved, especially for social media posts, clinical records, and scientific literature, each with its own linguistic and structural characteristics.

**************************************

« Évaluation des modèles de langue médicaux. »

Le langage médical est complexe et très différent du langage courant : il contient de nombreux termes spécialisés, abréviations et notes non structurées, souvent difficiles à comprendre pour les ordinateurs. Cela rend l’application des systèmes d’intelligence artificielle (IA), généralement entraînés sur des textes généraux comme les articles de presse ou les pages web, particulièrement difficile dans le domaine médical.
Cette thèse cherche à comprendre pourquoi les modèles de langage actuels ont du mal à traiter les données médicales et comment ils peuvent être améliorés, notamment pour les publications dans les réseaux sociaux, les dossiers cliniques et la littérature scientifique, chacun présentant des caractéristiques linguistiques et structurelles propres.

Clara Cousinard

« Vers une didactique de l’interaction : l’apprentissage avec et sur corpus au service du développement de la compétence interactionnelle en FLE. »
Sous la direction de Virginie André (ATILF | Université de Lorraine – CNRS)
Thèse soutenue le 21 novembre 2025

Résumé

Cette thèse s’inscrit à l’interface entre la linguistique et la didactique des langues. Plus précisément, elle propose de faire des liens entre la linguistique de corpus et la didactique de l’oral en Français Langue Étrangère (FLE). Les recherches actuelles dans ce domaine s’accordent pour soutenir que l’exposition à la langue cible pour des apprenants est indispensable. L’exploitation de corpus oraux et multimodaux authentiques pour enseigner et apprendre à interagir fait actuellement partie des méthodologies didactiques qui sont expérimentées par de nombreux enseignants et apprenants de FLE selon différentes modalités (Ravazzolo, Etienne 2019 ; Etienne, Jouin 2019 ; André 2019, 2018). Il existe plusieurs façons d’exploiter des corpus à des fins didactiques et plusieurs types de corpus peuvent faire l’objet de séquences pédagogiques en FLE (André 2019). Cette confrontation des apprenants à des corpus en langue cible s’inscrit dans le prolongement de l’utilisation de documents authentiques en didactique (Holec 1990 ; Boulton 2009). Depuis les années 1970, de nouvelles formes d’exposition sont apparues notamment avec les progrès technologiques et l’accès au numérique.
La thèse s’intéressera à l’exploitation des corpus à des fins didactiques selon les principes du data-driven learning (Johns 1991, Aston 2001), traduit en français par l’apprentissage sur corpus (ASC) (Boulton, Tyne 2014), et de l’apprentissage avec corpus (AAC) dans l’optique de développer la compétence interactionnelle des apprenants. Les études menées jusqu’à présent révèlent que l’ASC permet aux enseignants et aux apprenants d’aborder la langue d’une façon novatrice. La question de la compétence interactionnelle est, elle, peu abordée en didactique du FLE. Les apprenants posent alors des questions auxquelles les enseignants ne savent pas ou ne veulent pas répondre, notamment parce que les descriptions du français parlé en interaction sont peu référencées dans les manuels et les grammaires (voir par exemple Blanche-Beneviste, Jeanjean 1987 ; Mondada 2002 ; Kerbrat-Orecchioni 2005 ; Traverso 2016 ; Giroud, Surcouf 2016). Ces questions sont pourtant légitimes et peuvent être traitées conjointement avec l’ASC et l’AAC qui permettent de développer un comportement d’apprentissage plus efficace que la grammaire explicite, celle qui est prescrite par l’enseignant (Lin 2019, Liu 2011, Miangah 2011). Nous mettons également en lumière les stratégies d’apprentissage (Oxford 1990) mises en œuvre lors des séances d’ASC et d’AAC, qui permettent un développement de la conscience langagière des apprenants et, à terme, de la compétence interactionnelle des apprenants. Nous traitons quatre questions de recherche : (1) Comment les apprenants manipulent-ils les données de corpus ? ; (2) Quelles composantes de la compétence interactionnelle les apprenants travaillent-ils ? ; (3) Quelles sont les stratégies d’apprentissage mises en œuvre lors de cette manipulation des données de corpus ? ; (4) Y a-t-il corrélation entre les stratégies d’apprentissage mises en œuvre et le développement de la compétence interactionnelle ?

Antoine Brahy

« La doctrine panhispaniste à l’épreuve du brassage hispanophone : une étude sociolinguistique et juridique à partir de l’implantation hispanoaméricaine en Espagne (1990-2025). »
Sous la direction de Anne-Marie Chabrolle-Cerrtini (ATILF / Université de Lorraine – CNRS)
Thèse soutenue le 19 novembre 2025

Résumé

En abordant la thématique du panhispanisme à travers le double prisme sociolinguistique et juridique, cette thèse se situe au carrefour de différentes disciplines. L’objectif poursuivi tout au long du travail est profondément civilisationnel : il s’agit de mettre à l’épreuve du terrain une doctrine jusqu’alors purement conceptuelle, à large spectre idéologique et philosophique. Autrement dit, nous cherchons à savoir si le discours panhispaniste est parvenu, au fil des époques, à imprégner les imaginaires individuels et collectifs hispanophones. Le cas échéant, se pose la question de savoir comment se manifeste cette idéologie panhispaniste à échelle individuelle et sociétale. C’est pourquoi nous nous attachons, dans une première partie du travail de thèse, à baliser le mouvement panhispaniste tant dans sa dimension chronologique que conceptuelle. Ainsi, nous avons constaté que le discours panhispaniste délivre un message profondément identitaire et qu’il a globalement vocation à éveiller ou à renforcer chez son destinataire le sentiment d’appartenance à une communauté hispanophone supranationale.
Dans l’optique d’éprouver la portée concrète de ce discours sur la population hispanique, nous avons fondé notre recherche sur une étude de cas. Ainsi, la seconde partie de notre travail définit le contexte sociologique, linguistique et temporel à partir duquel nous avons choisi de mener l’expérience de terrain. L’Espagne des années 1990 à nos jours représente un choix judicieux dans la mesure où s’opère sur son territoire un brassage hispanophone démographiquement pertinent, puisque des milliers d’Hispanoaméricains traversent chaque année l’Atlantique pour s’établir en péninsule Ibérique.
Dans l’optique de mener à bien notre projet, nous avons misé, dans la troisième partie, sur deux approches correspondant à chacune des échelles visées. Pour interroger la dimension individuelle du panhispanisme, nous avons réalisé une enquête sociolinguistique auprès d’une échantillon de quarante-cinq migrants hispanoaméricains installés en Espagne. Ces individus ont été invités à répondre à un questionnaire élaboré par nos soins afin de recueillir leurs perceptions et attitudes linguistiques vis-à-vis des différentes variétés diatopiques de l’espagnol. Concernant les répercussions de l’idéologie panhispaniste à l’échelle collective, nous avons choisi d’analyser et de commenter un corpus de textes juridiques espagnols régissant, pour la plupart, les conditions d’octroi de la nationalité espagnole ou dont la vocation est d’encadrer l’immigration sur le territoire national. L’ensemble des informations recueillies nous permet de confronter des observations de terrain, des données empiriques, aux grandes lignes idéologiques du panhispanisme. Ce faisant, elles nous offrent la possibilité d’éprouver l’impact réel du discours panhispaniste sur la communauté hispanophone.

Éléonore de Beaumont

« Genre grammatical et enseignement-apprentissage du FLE en contexte turcophone : normes, résistances et émancipations. »
Sous la direction de Sophie Bailly (ATILF | Université de Lorraine – CNRS) et Yannick Chevalier (Université Lumière Lyon 2)
Thèse soutenue le 14 novembre 2025

Résumé

Le genre n’étant pas grammaticalisé dans la langue turque, l’apprentissage du français par les turcophones est aussi celui d’un système bicatégorisant (masculin/féminin) et hiérarchisant (masculin > féminin). En outre, le discours grammatical sur le genre en français contribue à (re)produire des représentations autour de la primauté et de l’hégémonie du masculin. Dans ce travail de recherche, ce contexte d’apprentissage est analysé comme une situation interculturelle complexe et dynamique, qui soulève des enjeux à la fois d’acquisition de la langue cible et d’imaginaire linguistique (Houdebine, 2015), autour de la question du « sexisme » de la langue, notamment pour des apprenant·es sensibles aux discriminations de genre. Cette thèse adopte deux perspectives, pour saisir toutes les dimensions de la question. D’abord, dans ce contexte de l’enseignement-apprentissage du FLE par des apprenant·es turcophones adultes, l’enseignement de la grammaticalisation du genre en français participe-t-il à reconduire des rapports de pouvoir genrés ? Un ensemble d’analyses qualitatives et quantitatives, à travers des questionnaires et des entretiens avec des apprenant·es et des enseignant·es, mettent en lumière différentes actualisations du genre comme rapport de pouvoir, en termes d’imaginaire linguistique et d’appropriation langagière, soulevant des enjeux éthiques et politiques pour la didactique du FLE. Une deuxième question de recherche émerge alors : l’enseignement du FLE peut-il être le lieu d’une réflexion critique sur le genre, et ainsi soutenir le développement d’une conscience de genre (Perry, 2011) ? La mise en place d’une recherche collaborative avec 12 enseignant·es volontaires à l’Université Galatasaray (Istanbul) en 2021-2022 a permis de mettre au jour les freins et les leviers à la création de pédagogies émancipatrices pour l’enseignement du genre grammatical en FLE, mais aussi l’exploration de mises en œuvre concrètes autour des pratiques langagières féministes et/ou queer (le langage dit inclusif). Les conclusions de ce travail amènent à penser un ensemble de pratiques pédagogiques pour construire un enseignement critique en renforçant l’agentivité langagière et sociale des apprenant·es.

Jarvis Looi

« Les effets de l’apprentissage sur corpus sur l’apprentissage du placement des adjectifs épithètes parmi les apprenants du français langue étrangère. »
Sous la direction d’Alex Boulton (ATILF | Université de Lorraine – CNRS), Hassan Roshidah (Malaisie) et Patricia Nora Riget
Thèse soutenue le 6 juin 2025

Résumé

Le placement des adjectifs épithètes est variable en français de façon qu’un adjectif épithète peut se placer en antéposition ou en postposition par rapport au nom qu’il modifie. Cette variabilité en placement ne s’accompagne pas nécessairement de modifications sémantiques du syntagme nominal. Cela fait l’objet d’une immense attention des linguistes et grammairiens depuis le 16ème siècle (Reiner, 1968 ; in Thuilier, 2012 : 104). Cependant, l’enseignement du placement de ces adjectifs s’avère toujours problématique (Camussi-Ni et al., 2016). Cette recherche a pour but d’identifier les contraintes linguistiques influençant le placement des adjectifs épithètes et d’examiner les effets de l’apprentissage sur corpus (ASC), ou Data-Driven Learning (DDL) en anglais, sur l’apprentissage du placement des adjectifs épithètes parmi les apprenants malaisiens du français langue étrangère (FLE) en cours facultatifs. Cette recherche proposée sera fondée sur une expérience et adopte une approche de méthode mixte séquentielle explicative. Dans un premier temps, une analyse de corpus s’effectuera sur 8 adjectifs épithètes afin de guider l’expérience d’ASC. Dans l’expérience, les apprenants apprendront les usages de ces adjectifs sur les concordances imprimées. Leurs performances dans les 4 tests tout au long de l’expérience seront comparées au Corpus d’Étude pour le Français Contemporain (CEFC) à l’aide des procédures statistiques de Multifactorial Prediction and Deviation Analysis Using Regressions (MuPDAR) (Gries & Deshors, 2014, 2020 ; Wulff & Gries, 2015). Nous recueillerons également les opinions des apprenants et leur évaluation de l’ASC comme approche d’apprentissage à travers des questionnaires et entretiens.

Charlène Weyh

« L’évolution du système verbal français, entre régularisation et norme (1300 – 1700) : le cas du présent de l’indicatif. »
Sous la direction de Sylvie Bazin (ATILF | Université de Lorraine – CNRS) et Bérengère Bouard (ATILF | Université de Lorraine – CNRS)
Thèse soutenue le 19 décembre 2024

Résumé

Cette thèse en Sciences du Langage se situe dans le cadre de la morphologie verbale historique et étudie le devenir des alternances de bases au présent de l’indicatif en français. Le cadre global est celui d’une étude linguistique associant description du système verbal du français et histoire des représentations du français, et ce dans une diachronie longue, dans la mesure où certains changements sont très anciens et d’autres sont le fait de la période médiévale, tandis que d’autres datent de l’époque moderne.
Pour mener à bien cette étude, nous avons constitué un corpus de 27 verbes représentant plusieurs types d’alternances verbales, comme treuve/trouvons et aime/amons qui a donné 312 250 occurrences brutes en contexte dans Frantext de l’ancien français à 1799. Pour les verbes qui maintiennent encore des variantes verbales au 17ᵉ siècle, nous avons mené une étude métalinguistique à l’aide du Grand Corpus des grammaires françaises, des remarques et des traités sur la langue (XIVᵉ-XVIIᵉ s.) de Garnier Numérique.

Les verbes ont été regroupés selon leur alternance de départ pour une étude systématique des fréquences et autres paramètres, afin de comprendre pourquoi des verbes qui présentaient des alternances identiques en ancien français n’ont pas connu le même aboutissement en français moderne, et tenter de déterminer les facteurs favorisant le maintien de l’alternance de bases ou, au contraire, les facteurs qui favorisent l’extension d’une des deux bases verbales au présent de l’indicatif.

Finalement, de multiples paramètres ont pu jouer dans les transformations et les normalisations des paradigmes verbaux au présent de l’indicatif : la fréquence d’emploi d’une forme, d’une base ou d’un paradigme, l’appartenance d’un verbe à une famille morphologique, l’analogie intra et interparadigmatique et la prescription linguistique aux 16ᵉ et 17ᵉ siècles.

Clotilde George

« Analyse de l’interaction en situation professionnelle exolingue dans le cadre de la formation au métier de cuisinier d’apprentis allophones en France. »
Sous la direction de Sophie Bailly (ATILF | Université de Lorraine – CNRS) et Maud Ciekanski (ATILF | Université de Lorraine – CNRS)
Thèse soutenue le 2 décembre 2024

Résumé

Les situations professionnelles exolingues, de plus en plus répandues, sont le lieu d’une interaction toute particulière, dont nous voudrions analyser certains ressorts. Notre recherche se fonde sur l’observation des pratiques langagières de l’interaction dans le contexte professionnel de la cuisine, entre des interactants spécifiques : le chef de cuisine français et l’apprenti étranger. Elle vise à répondre à l’interrogation : quelle forme prend l’interaction en cuisine entre deux acteurs de langues natives différentes et de statuts professionnels différents ? Pour rendre compte de l’asymétrie de cette interaction, nous nous attacherons à confronter des notions comme celles des statuts, identités et places professionnelles et langagières, observables dans les actes de langage. Dans le but de réaliser une analyse multimodale (avec pour objet la parole mais aussi les gestes, déplacements et manipulations d’objets) nous nous appuierons sur un corpus d’interactions authentiques, combinant des enregistrements vidéos, audios et prises de notes que nous collecterons par le biais d’une observation participante. Nous analyserons ce corpus avec les outils de l’analyse conversationnelle et plus précisément de l’analyse du discours, dans la perspective de la pragmatique des interactions. Nous pensons qu’il est possible d’identifier deux phénomènes distincts à l’œuvre dans l’interaction professionnelle exolingue de ce type : la réduction (surpassement des difficultés de communication par la coopération en vue de la réalisation de l’activité collective) ou l’amplification (apparition de frustration liée à un problème de communication) de l’asymétrie de l’interaction.

Pauline Gillet

« Description syntaxique des interrogatives partielles chez les enfants francophones : situation de diglossie ou exploitations différenciées d’une unique grammaire ? »
Sous la direction de Marie-Laurence Knittel (ATILF | Université de Lorraine – CNRS) et Christophe Benzitoun (ATILF | Université de Lorraine – CNRS)
Thèse soutenue le 8 novembre 2024

Résumé

Dans cette thèse, nous nous intéressons à la manière dont les enfants francophones s’approprient le système des interrogatives partielles directes (désormais IPD), particulièrement riche, du français. Effectivement, la langue française ne compte pas moins de dix tournures interrogatives en usage dans l’hexagone. D’un côté, on distingue les tournures conservant l’ordre sujet-verbe des phrases déclaratives du type comment il s’appelle ? ou bien il s’appelle comment ? Ces tournures, proscrites par l’Académie française et les manuels scolaires, sont pourtant les plus fréquentes à l’oral spontané ainsi que dans certains types d’écrits (SMS) chez les adultes francophones. De l’autre, on rencontre l’inversion sujet-verbe (comment s’appelle-t-il ?). Cette tournure possède un statut particulier en français : bien qu’enseignée à l’école comme étant la forme interrogative par excellence, elle demeure peu usitée dans la langue parlée par une large partie de la population et est minoritaire dans certaines productions écrites des adultes. Par ailleurs, certaines formes sont impossibles à réaliser (*quoi tu fais ?, *pourquoi part Jean ?) et d’autres sont très peu tolérées (?tu pars pourquoi ?, ?quand t’as dit ça ?). De fait, les mots interrogatifs sont soumis à diverses contraintes morphosyntaxiques, ce qui entraine des spécificités dans le fonctionnement des interrogatives en français. Ainsi, ce système étant hétérogène, on peut se demander comment les enfants s’approprient ces tournures entre norme, usages et contraintes grammaticales. Cette question constituera la première thématique de la présente thèse.

Ces tournures, selon qu’elles conservent ou non l’ordre sujet-verbe, ont un statut différent en français ce qui nous amène à nous questionner, dans un second temps, sur la manière de rendre compte de leur mode d’appropriation en tenant compte de l’input et de l’enseignement scolaire. Effectivement, nous défendons l’idée que les interrogatives avec inversion du sujet clitique (comment s’appelle-t-il ?) possèdent un statut grammatical spécifique différent de celles qui conservent l’ordre sujet-verbe comme comment il s’appelle ? et il s’appelle comment ? Et nous formulons également l’hypothèse que les mots interrogatifs ne fonctionnent pas de manière homogène. À cet égard, deux approches théoriques différentes peuvent être mises à l’épreuve des données et ainsi rendre compte de la variation : la théorie des savoirs grammaticaux de Blanche-Benveniste (1990) et l’approche diglossique de Ferguson (1959). À partir de ces deux modèles, nous proposons de réfléchir à l’articulation entre grammaire première/variété basse et grammaire seconde/variété haute en français.

Afin de répondre à ces deux questions de recherche, nous avons mené deux études sur corpus, la première à l’oral auprès d’enfants de 2-5 ans, la seconde à l’écrit chez des élèves de CE1-CM2. Nous avons aussi élaboré un test expérimental de productions orales que nous avons soumis à des élèves de moyenne section de maternelle et de CE1 dont nous avons également testé la compréhension de la tournure avec inversion du sujet clitique. Pour finir, nous avons soumis un questionnaire à des élèves de CM1-CM2 visant à évaluer leur représentation de la norme grammaticale de l’écrit. L’ensemble de ces sources de données nous permet d’étudier la distribution de diverses tournures dans des productions plus ou moins spontanées et en tenant compte du medium (oral/écrit) ainsi que du contexte (familial et/ou scolaire).

Teng Guo

« Le Rôle des Instructions sur les Apprentissages Associatif et Statistique aux Tout-débuts de l’Apprentissage de la Lecture en France et en Chine »
Sous la direction de Daniel Zagar (ATILF | Université de Lorraine – CNRS)
Thèse soutenue le 18 décembre 2023

Résumé

L’acquisition de la lecture repose deux mécanismes cognitifs d’apprentissage : un mécanisme d’apprentissage associatif, qui consiste à associer des signes visuels avec des représentations phonologiques, et un mécanisme d’apprentissage statistique qui consiste à extraire les régularités du système alphabétique. Ces deux mécanismes fonctionnent de concret et permettent de construire progressivement un réseau de connexions complexe entre les représentations mentales de l’écrit et celles de la parole.
Idéalement, l’enseignement de la lecture doit accompagner ces deux mécanismes d’apprentissage en donnant des instructions qui correspondent d’une part aux capacités cognitives de l’apprenti lecteur et d’autre part au niveau d’élaboration des représentations mentales des unités linguistiques que celui-ci élabore progressivement. Par exemple on sait que le pré-lecteur, s’il parvient à associer des lettres à des sons, éprouve en revanche de grandes difficultés à fusionner ces sons en syllabes.
L’objectif de la thèse est double. D’un point de vue théorique il s’agit de mieux comprendre les relations entre apprentissage associatif et apprentissage statistique, relations qui à l’heure actuelle sont très mal connues (et très peu étudiées). Ce projet a également une portée pédagogique. Il consiste à comparer la bénéfice respectif des instructions explicites sur les performances des deux types d’apprentissage (associatif et statistique) en fonction de leur contenu (par exemple des instructions qui concernent les correspondances entre lettres et syllabes et/ou entre lettres phonèmes) et de l’ordre temporel dans lequel on les donne à l’enfant (par exemple en donnant à apprendre d’abord des instructions sur les correspondances lettre/phonème ou sur les correspondances lettres/syllabe).

Chloé Provot

« Un accompagnement de l’échange franco-allemand des enseignants du premier degré. »
Sous la direction de Dominique Macaire (ATILF | Université de Lorraine – CNRS) et Julia Putsche-Fisher (Université de Strasbourg)
Thèse soutenue le 30 novembre 2023

Résumé

Cette thèse en codirection porte sur l’échange franco-allemand des enseignants du premier degré qui partent en France ou en Allemagne pendant une voire plusieurs années enseigner l’allemand ou le français. L’Office franco-allemand pour la Jeunesse (OFAJ) est l’organisme binational qui coordonne ce programme (Traité sur la coopération franco-allemande, 1986). L’objectif de ma recherche est d’accompagner ce dispositif original autour des interrogations suivantes : quelles sont les variables internes et externes au dispositif et quelles sont leurs influences sur celui-ci ? Ces variables seront discutées au travers de la question : de quelle manière les enseignants vivent-ils l’échange d’un point de vue personnel, citoyen et professionnel, notamment aux plans linguistique et interculturel ? Ces questions permettent d’aborder des notions contemporaines comme la mobilité et l’échange binational, les représentations des enseignants et leur développement professionnel.

Cette recherche vise à enrichir les travaux déjà menés sur ce dispositif d’échange (Dupas, 1998 et Perrefort, 2013). La méthodologie de recherche utilisée est qualitative et comporte plusieurs types de recueil de données : un questionnaire envoyé à l’ensemble des participants en amont et en aval, des entretiens menés avec une dizaine d’enseignants (répartis des côtés français et allemand), des interviews avec des représentants de l’OFAJ et de l’institution scolaire des deux pays, des observations de classes in situ et de stages organisés par l’OFAJ. Les données seront collectées pendant l’année universitaire 2020-2021 et complétées par des rapports d’enseignants ayant participé à l’échange depuis de nombreuses années.

Marine Noël

« ‘Poétiques du récit de retour aux origines: du documentaire au roman’ suivi de ‘Je t’envoie des photos des primevères dans le sable’. »
Sous la direction de Véronique Montémont (ATILF | Université de Lorraine – CNRS) et Claire Legendre (Université de Montréal)
Thèse soutenue le 17 novembre 2023

Résumé

Cette thèse porte sur le récit de retour aux origines dans la littérature contemporaine française et se concentre sur des auteurs transclasses, c’est-à-dire qui ont quitté leur milieu d’origine et changé de statut social. Elle s’intéresse spécifiquement à un corpus d’auteurs originaires de régions non attractives de l’Hexagone. Elle concentre son analyse sur des textes de Nicolas Mathieu, Annie Ernaux, Didier Eribon, Édouard Louis et Raymond Depardon. Ce travail détermine d’abord ce qui est entendu par « récit de retour » en littérature, notamment lorsqu’il s’agit de représenter les campagnes qui intéressent ces auteurs. Il dégage des poétiques du retour chez chacun de ces auteurs, en observant l’hybridité générique qui les traverse : la photobiographie et le documentaire avec Depardon, le roman avec Ernaux et Mathieu, l’autobiographie avec Louis, l’essai avec Eribon. Dans un second temps, la thèse examine la temporalité et la géographie du retour, en particulier les motifs de la nostalgie et du déplacement. La thèse explore ensuite le point de vue de l’auteur, narrateur ou personnage transclasse sur son milieu d’origine, point de vue tantôt décalé, renouvelé ou surplombant. À cette recherche succède un texte de création, Je t’envoie des photos des primevères dans le sable, qui allie, en deux temps, fiction et enquête photolittéraire et qui questionne lui aussi le geste de retour aux origines en milieu rural.

Toma Gotkova

« Le lexique de l’environnement et ses termes liés à la chimie dans le discours ordinaire. Utilisation des réseaux sociaux comme corpus. »
Sous la direction d’Alain Polguère (ATILF | Université de Lorraine – CNRS) et Francesca Ingrosso (LPCT | Université de Lorraine – CNRS)
Thèse soutenue le 14 novembre 2023

Résumé

L’objectif principal de notre recherche interdisciplinaire est l’étude du vocabulaire de l’environnement au sein du discours ordinaire dans le contexte des enjeux environnementaux actuels et émergents. Tout d’abord, nous présentons un aperçu sociologique du débat environnemental et du rôle du grand public dans l’atténuation du changement climatique. Ensuite, nous formalisons notre conception de la terminologie liée aux enjeux environnementaux actuels et émergents et établissons une liste du vocabulaire de l’environnement pertinent. Pour cela, nous combinons des techniques de traitement automatique des langues avec une sélection manuelle. En intégrant l’approche du traitement automatique des langues à l’étude de la terminologie, nous comparons les notions de mot-clé et de Terme. Les mots-clés représentent des formes linguistiques sémantiquement ambiguës utilisées pour construire des corpus de discussions environnementales publiques extraits de deux réseaux sociaux : Twitter et Reddit. Inversement, les Termes sont des unités lexicales spécialisées et sémantiquement désambiguïsées. En outre, nous présentons une analyse approfondie du mot emblématique dans le domaine de l’environnement, carbon (Fr. carbone), ainsi que des Termes associés. Cette analyse repose sur deux aspects interreliés : (i) une étude linguistique de carbon dans le discours spécialisé ; (ii) une description lexicographique détaillée de carbon et des locutions liées. Les résultats révèlent la complexité de la terminologie autour de carbon et soulignent la nécessité de standardisation. Pour explorer la compréhension publique de carbon, nous examinons les données issues des corpus de réseaux sociaux. Nous nous concentrons sur les interprétations non terminologiques de carbon, par opposition à son usage dans le discours spécialisé, à travers le prisme de la domestication des Termes par la langue générale. Dans cette optique, nous proposons une nouvelle typologie des unités spécialisées en fonction de leur sémantisme et du registre de langue auquel elles appartiennent. Finalement, nous formulons une liste des recommandations terminologiques visant à traiter les défis actuels de la terminologie environnementale et sa communication au grand public.

Mots-clés : vocabulaire spécialisé, réseaux sociaux comme corpus, lexicographie informatisée, réseau lexical, environnement, chimie

Barbara Francioni

« Systèmes linguistiques en contact dans le chansonnier estense. Étude stratigraphique et philologique des éléments en langue d’oc et en langue d’oïl. »
Sous la direction de Yann Greub (ATILF | CNRS – Université de Lorraine) et Fabrizio Cigni (Université de Sienne)
Thèse soutenue le 30 mai 2023

Résumé

Le travail a pour origine l’intention d’étudier la langue des troubadours à partir d’un point de vue différent : non celui de la recherche de la langue de l’auteur ou de l’étude de la scripta spécifique d’un témoin manuscrit, mais plutôt celui d’une tentative de combiner ces deux approches. Si la langue des auteurs se trouve analysée principalement dans les sections introductives des éditions critiques et dans quelques études dédiées surtout aux troubadours des premières générations, les études scriptologiques font généralement l’objet de chapitres séparés dans les études sur les différents chansonniers, sans qu’on parvienne toujours à faire communiquer les deux pistes de recherche : les études scriptologiques se concentrent premièrement sur ce qu’on peut définir comme la « langue des copistes », en partant d’une perspective horizontale, due à la nature même de l’étude linguistique qu’on peut mener sur ce type d’objet de recherche ; les éditions critiques offrent un regard plus vertical, sans toutefois prendre dûment en compte les possibles habitudes de plume et les éventuels tics des copistes, qui ne peuvent apparaître que sous la loupe d’une étude générale sur les différents témoins. C’est justement à la croisée des deux méthodes que cette thèse trouve son point de départ, sans prétendre à la solution définitive des problèmes intrinsèques qu’une étude linguistique sur les troubadours continue de poser, même quand l’on essaie d’aborder le sujet d’une manière « tridimensionnelle ». Nous avons, par conséquent, cherché à analyser l’objet de la recherche d’un point de vue stratigraphique, de façon à permettre d’apprécier l’écart entre la forme du texte au moment de sa production et la forme du texte au moment de sa réception manuscrite, en passant par le moment clé de la reproduction et de la performance orale et chantée des productions lyriques des troubadours. L’objet linguistique particulier de cette étude a été le rapport entre les deux variétés galloromanes de la France médiévale ; nous avons choisi de conjuguer les objectifs d’une étude linguistique de ce genre avec les nécessités d’une recherche sur la langue des troubadours, tout en tenant compte des ambiguïtés que cela implique. Une recherche ayant pour but d’étudier la langue des troubadours en fonction de ses rapports avec la langue d’oïl, avec l’ampleur et l’ambiguïté inhérentes que le caractère matériel du corpus à analyser entraîne, oblige à resserrer son champ d’application sur un objet d’analyse bien défini et délimité. C’est pour cette raison que nous avons décidé de concentrer notre attention non sur un seul troubadour ou sur un choix de poètes en langue d’oc particulièrement connus pour avoir noué de riches liens avec la partie Nord des domaines galloromans, mais sur un objet très concret, qui permet d’étudier l’influence du système linguistique d’oïl sur la langue des troubadours. Parmi les chansonniers qui contiennent des recueils de lyrique d’oc, il n’y en a que trois qui contiennent aussi des recueils bien organisés et matériellement distincts de lyrique d’oïl : étant donné que les deux manuscrits Wpr/Mfr et Xpr/Ufr sont en premier lieu des recueils lyriques en langue d’oïl et que les pièces occitanes qui y sont contenues ont déjà été étudiées, nous avons décidé d’analyser le « chansonnier estense », qui est le seul à avoir prévu deux sections séparées de lyrique en langue d’oc suivies par une section de lyrique en langue d’oïl, sections déjà prévues dans la structuration à l’origine de l’œuvre et annoncée dans les tables des incipit.

Arthur Trognon

« Diagnostic du Syndrome de Shwachman-Diamond par des investigations cognitives et dialogiques. »
Sous la direction de Michel Musiol (ATILF | Université de Lorraine – CNRS) et Jean Donadieu (Hopital Trousseau Paris)
Thèse soutenue le 20 décembre 2022

Résumé

Le Syndrome de Shwachman-Diamond (SDS) (Shwachman, Diamond, Oski, & Khaw, 1964), est une maladie autosomique récessive rare ayant une incidence annuelle de 1 cas sur 200.000 naissances (5 nouveaux cas par an en France), et induite par une mutation sur le locus q11 du chromosome 7, dans la région du gène SBDS (Boocock et al., 2003). Le gène SBDS est un gène quasi-ubiquitaire et est exprimé dans presque tous les tissus adultes, incluant le myocarde et le système nerveux central (Zhang, Shi, Hui, & Rommens, 2006). Chez la souris, la perte de fonction de ce gène induit une mortalité embryonnaire (ibid.). Chez les humains, les mutations du gène SBDS produisent la plupart du temps une insuffisance du pancréas exocrine, une insuffisance médullaire, ainsi qu’une dysplasie squelettique (Cipolli et al., 1999), mais d’autres caractéristiques ont déjà été rapportées dans la littérature telles des insuffisances cardiaques (Kopel, Gutierrez, & Lage, 2011; Savilahti & Rapola, 1984), qui peuvent être létales dans certains cas.
Une étude récente a décrit l’impact des mutations SBDS sur le développement du système nerveux. Ces données ont suggéré que les patients SDS présentent un rétrécissement global des volumes corticaux dans les deux hémisphères, en particulier dans le cortex cingulaire antérieur et les régions hippocampique. Ils ont également observé des anomalies cérébrales diffuses dans la matière grise ainsi que des disruptions de la connectivité myélinique (Perobelli et al., 2015).
Bien que ces données cérébrales pourraient permettre d’expliquer en partie la symptomatologie clinique observée chez les patients SDS, les données de la littérature disponibles concernant le retentissement linguistique, psychologique et psycholinguistique de ces altérations sont rares. Actuellement, il a été démontré que les sujets porteurs du SDS présentent des altérations cognitives diffuses, avec notamment un affaiblissement de l’efficience intellectuelle et un syndrome dysexécutif (Aggett, Harries, Harvey, & Soothill, 1979; Cipolli et al., 1999; Kent, Murphy, & Milla, 1990; Kerr, Ellis, Dupuis, Rommens, & Durie, 2010; Perobelli et al., 2015), en dépit d’une importante variabilité intragroupe (Perobelli, Nicolis, Assael, & Cipolli, 2012).
Cependant, aucune donnée n’existe concernant la retentissement de ces anomalies cognitives sur les interactions sociales et en particulier dans le cas de l’interaction sociale humaine la plus naturelle : l’interaction dialogique.
Certains travaux ont déjà examiné les conduites conversationnelles associées à certaines pathologies mentales comme la schizophrénie (Musiol & Rebuschi, 2007; Trognon, 1992), ou l’autisme (Gerardin-Collet, 1999) ; ainsi qu’à certaines pathologies dégénératives ou neurologiques comme la maladie d’Alzheimer (Jacob, 2017) ou le polyhandicap (Bocéréan & Musiol, 2017), et les traumatismes crâniens (Dardier, Delaye, & Laurent-Vannier, 2003; Peter-Favre, 1999). Le Syndrome de Shwachman-Diamond, appartenant à la seconde catégorie citée ci-dessus, n’a lui, donné lieu à aucune étude systématique, bien qu’une étude exploratoire ait été réalisée (Batt et al., 2017; Canton et al., 2016).
Alors que dans cette étude exploratoire, la partie dialogique et l’évaluation neuropsychologique sont conçus séparément, ils seront dans la présente étude intégrés de façon à ce que l’évaluation des conduites dialogiques ne soit pas une tâche parmi d’autres, se positionnant comme une tâche super-ordonnée garantissant l’aspect écologique de celle-ci. Nous utiliserons à cet effet un dispositif original créé pour l’expérience, le Trognon Ecological Side Task for the Assessment of Speech-Act Processing (TEST-ASAP ; publication en cours de préparation). Cette tâche est subdivisée en trois sous tâches afin de mesurer les aspects inférentiels d’une part ; l’induction comportementale sous instruction et l’induction comportementale nécessitant une inférence préalable, permettant ainsi de mettre en évidence des dissociations, cette tâche étant intégrée dans le processus même d’évaluation neuropsychologique.
Ces données dialogiques seront enregistrées, transcrites verbatim, puis analysées à l’aide d’une méthode dérivée des travaux de (Caelen, 2003 ; Caelen, 2007 ; Caelen & Xuereb, 2019). Cette approche, initialement conçue pour étudier les interactions homme-machine en 2003, a été généralisée en 2019 à l’analyse de tout dialogue naturel. L’intérêt de cette approche est qu’elle permet d’intégrer à la fois la théorie des actes de langage dans une version dialogique, et la SDRT (Segmented Discourse Representation Theory – Asher & Lascarides, 2003).
L’utilisation de techniques d’analyse d’interaction homme-machine pour étudier le dialogue naturel se justifie ici par la construction de la tâche, dont l’issue et son déroulement sont prédictibles chez le sujet neurotypique (dialogue idéal ayant les caractéristiques d’un dialogue coopératif où les interactants s’entraident vers un but commun), et dont toutes les autres configurations seraient considérées comme incidentielles (non optimales et détectées par ces méthodes).
Une fois ces interactions catégorisées chez les patients SDS et les sujets contrôles, elles seront encodées informatiquement à l’aide d’une procédure décrite par (Cooper, 2019), et permettront d’être utilisées comme données d’un algorithme de machine-learning permettant de distinguer les deux populations si elles présentent des différences objectivables sur le plan dialogique pouvant servir de base pour réaliser un algorithme de diagnostic.

Polina Mikhel

« Étude multilingue du lexique de la chimie à l’interface entre terminologie et langue générale
(Multilingual study of the lexicon of chemistry at the interface of terminology and general language). »
Sous la direction d’Alain Polguère (ATILF | Université de Lorraine – CNRS) et Francesca Ingrosso (LPCT | Université de Lorraine – CNRS)
Thèse soutenue le 16 décembre 2022

Résumé

Ce projet de recherche doctorale interdisciplinaire est motivé par un double constat : 1) les approches traditionnelles d’étude et de représentation des systèmes terminologiques scientifiques reposent essentiellement sur le recours à des modèles taxinomiques (ontologies informatiques fondées sur des hiérarchies de classes conceptuelles) ; 2) les études contemporaines sur l’organisation du lexique de langue générale (lexicologie, psycholinguistique, etc.) tendent à s’accorder sur un mode de structuration en réseaux lexicaux multidimensionnels et non taxinomiques. La recherche repose sur l’hypothèse que les terminologies scientifiques, puisqu’elles fonctionnent dans les textes en interaction avec le lexique de langue générale, doivent posséder une structure homomorphe avec celle du lexique général, avec lequel elles fusionnent au sein de la langue. Il s’agit, dans ce contexte, d’explorer l’interface entre langue générale et terminologies, à la frontière entre termes et non-termes.

Sur le plan théorique, la recherche vise, d’une part, à apporter une solution au problème de la modélisation formelle et rigoureuse de la multidimensionnalité inhérente à l’organisation des terminologies, c’est-à-dire le fait que les termes peuvent être appréhendés et les terminologies parcourues selon de multiples axes. D’autre part, et de façon liée, la recherche vise à rendre compte de l’interdépendance entre lexique de langue générale et lexique terminologique.

Sur le plan pratique, la thèse débouchera sur des modèles terminologiques multilingues de la chimie, en français, en anglais et en russe. Ces modèles, conçus pour évoluer et être enrichis sur le long terme, seront des outils exploitables par les scientifiques aussi bien que par les enseignants en chimie. La recherche est de ce fait destinée à avoir une résonance non seulement dans le domaine de la recherche en lexicologie et terminologie, mais aussi auprès de la communauté des chimistes.

Le projet se situe dans la thématique des études lexicales, qui sont au cœur du projet scientifique du laboratoire ATILF. Il présente l’originalité d’aborder le sujet du rapport entre terme et non-terme dans le cadre des travaux menés à l’ATILF sur les grands réseaux lexicaux. Une exploitation intensive sera faite des modèles lexicaux développés depuis plusieurs années au laboratoire. En retour, la recherche doctorale alimentera ces ressources en données sur les terminologies anglaises et françaises de la chimie.

Claire Schlienger

« Les prépositions d’inclusion en ancien et moyen français : analyse diachronique de EN, ENZ, DEDANS et DANS »
Sous la direction de Sylvie Bazin (ATILF | Université de Lorraine – CNRS)
Thèse soutenue le 27 juin 2022

Résumé

La diachronie des prépositions est un sujet d’étude qui a engendré de nombreux travaux durant ces dix dernières années, tel que le projet PRESTO et son étude des prépositions françaises du 16e au 20e siècle. Les analyses des prépositions EN et DANS sont particulièrement riches pour cette période, néanmoins celles antérieures au 16e siècle, n’ont pas suscité le même engouement. De ce fait, plusieurs aspects diachroniques restent incertains tels que l’origine de DANS qui repose sur plusieurs théories, la spécialisation de EN avec un complément abstrait, et de manière générale, les emplois de ces prépositions dans l’ancienne langue.

Dans l’intention de répondre à ces questions et d’enrichir la diachronie des prépositions, nous réalisons une analyse diachronique des prépositions EN, ENZ, DEDANS et DANS exprimant l’inclusion. La notion d’inclusion est à prendre au sens large, regroupant les approches structuralistes et cognitivistes, soit au sens de « X se situe / est inclus dans Y ».

Afin de définir les emplois des prépositions d’inclusion dans l’ancienne langue, nous orientons notre travail sur trois axes de recherches : caractériser les préférences syntaxiques et sémantiques de EN, ENZ, DEDANS et DANS en ancien et moyen français, identifier les phénomènes majeurs dans la diachronie des prépositions tels que l’origine de DEDANS et DANS et les changements linguistiques qui ont conduit aux emplois modernes de EN et DANS, et enfin établir la chronologie des prépositions, avec une datation des évolutions, du latin au 16e siècle.

Grâce aux bases textuelles BFM de Lyon (2016 et 2019) et Frantext, riches en ouvrages médiévaux, nous disposons de matériaux suffisants pour une analyse diachronique représentative de la langue. Afin d’y parvenir, nous réalisons dans un premier temps une analyse synchronique selon deux découpages temporels : un par période (AF et MF) et un par siècle (du 12e au 16e siècle). Avec l’analyse distributionnelle et l’observation des concurrences, nous déterminons les emplois de chaque préposition, y compris les formes contractées de EN (el, es, ou). À partir de ces résultats synchroniques, nous pouvons relever les changements linguistiques à travers une approche diachronique. Les analyses contrastives mettront au jour les spécialisations d’emplois et les remplacements.

Cette étude permettra de découvrir que DEDANS est le pivot dans la transition de EN vers DANS, que la spécialisation de EN avec des compléments abstraits a lieu dès le moyen français et que DANS vient remplacer DEDANS dès son apparition.

Cette thèse est une contribution aux recherches diachroniques déjà réalisées. Les périodes d’ancien et moyen français, moins observées pour ces prépositions, sont enrichies par ce travail à travers l’apport de précisions sur les comportements et changements linguistiques opérant du 12e au 16e siècle, en particulier avec ENZ et DEDANS qui sont peu étudiés.

Timothée Mickus

« Génération automatique de définitions et de propriétés sémantiques de mots. »
Sous la direction de Mathieu Constant (ATILF | Université de Lorraine – CNRS) et Denis Paperno (Université d’Utrecht, Pays Bas)
Thèse soutenue le 31 mars 2022

Résumé

L’explosion du volume de données disponibles en langage naturel (sur internet par exemple) a ouvert de nouveaux horizons aux citoyens pour acquérir de nouvelles connaissances plus aisément. Cependant, ils sont souvent confrontés à la complexité de ces sources de connaissances. L’utilisation de ressources lexicales externes est souvent précieuse pour aider à la compréhension de mots ou de concepts dont ils sont peu familiers.

Cependant, les ressources lexicales qui sont développées par des experts peuvent elles-même être difficiles à comprendre pour un public large. Par exemple, les citoyens peuvent être confrontés aux scénarios suivants : (i) la définition du mot ou du concept dans la ressource est trop difficile (technicité) ; (ii) le sens du mot ou du concept dans le contexte de lecture recouvre plusieurs sens définis dans la resource (ambiguïté) ; (iii) le mot ou son sens peut ne pas être couvert par la ressource (couverture).

Afin de lutter contre ces problèmes, le projet de thèse consiste à concevoir et développer de nouvelles méthodes pour extraire les connaissances sémantiques appropriées pour un mot dans un contexte donné. Plus particulièrement, étant donné un mot et un contexte, les méthodes proposées chercheront à automatiquement générer sa définition et ses propriétés sémantiques, adaptées non seulement au contexte, mais aussi à l’utilisateur.

Avec la révolution de l’apprentissage profond, l’hypothèse principale de ce projet de thèse est qu’il est désormais possible de modéliser entièrement cette tâche au moyen de réseaux de neurones en incluant à la fois une phase d’analyse du mot et son contexte et d’une phase de génération d’une phrase de définition en langage naturel. Ces modèles pourront être entrainés à partir du contenu des ressources lexicales, et enrichis de modèles de langage et de plongements de mots appris sur de grand volumes de textes, dans le but de capter la diversité lexicale et le style d’expression d’un public large. Cette approche se rapproche des approches neurones récentes utilisées pour la traduction automatique et le résumé automatique.

Bien que le sujet de thèse proposé soit lié aux tâches traditionnelles de la levée d’ambiguïté sémantique et l’induction de sens des mots, le problème propose un défi plus important car il va plus loin : le système attendu devra générer des définitions, même pour les mots ou sens non converts par les ressources lexicales existantes, en généralisant à partir de bases lexicales existantes.

Mathilde Huguin

« Analyse morphologique des mots construits sur base de noms de personnalités politiques. »
Sous la direction de Fiammetta Namer (ATILF | Université de Lorraine – CNRS) et Stéphanie Lignon (ATILF | Université de Lorraine – CNRS)
Thèse soutenue le 3 décembre 2021

Résumé

Notre thèse a pour objectif de décrire le comportement morphologique de l’anthroponyme, nom propre (désormais NPr) référant à un être humain, en tant que base de construction morphologique. Pour ce faire, nous proposons une analyse de mots morphologiquement construits sur des Noms propres de Personnalités Politiques françaises, désormais NPP (e.g. François Fillon > fillonophobie). Nous travaillons à partir de données réelles issues de la Toile, produites spontanément par les locuteurs. Nous adoptons une démarche extensive, telle qu’elle a été initiée par les chercheurs de l’ERSS (désormais CLLE-ERSS) et de l’ATILF (cf. Hathout & Tanguy, 2002 ; Namer, 2003 ; Hathout & alii, 2008 ; Lignon & Plénat, 2009 ; entre autres), c’est à dire que nous analysons une quantité massive de données pour valider ou infirmer nos hypothèses et mettre en lumière des cas qui, jusqu’alors, passaient inaperçus. Ce projet de thèse s’inscrit également dans une collaboration internationale de linguistes de diverses composantes étudiant les noms d’humains : le projet NHUMA (C. Schnedecker & W. Mihatsch dir.).

Cette thèse est menée dans le cadre théorique de la morphologie lexématique (cf. Fradin, 2003). Ainsi, nous considérons qu’une construction morphologique est un patron appliqué à (au moins) un lexème base pour former un nouveau lexème, plus complexe. Le lexème est une unité abstraite caractérisée par une forme, une catégorie syntaxique et un sens. Prototypiquement, le lexème construit est une élaboration formelle et sémantique du lexème base.

D’un point de vue morphologique, le NPr a très peu été étudié. Les quelques études consacrées à la construction de mots français à partir de bases NPr et plus particulièrement anthroponymiques (e.g. Dal, 1997 ; Leroy 2005, 2008 ; Leroy & Roger, 2014 ; Lignon & Plénat, 2009 ; Lasserre, 2016) se cantonnent à la description de cas particuliers, c’est à dire l’étude de quelques mots construits, dans une monographie sur un suffixe, par exemple (e.g. Lignon, 2000, sur l’étude du suffixe ien). Cette absence d’étude spécifique est naturelle si on analyse le NPr comme une entité vide de sens, référant directement à un individu unique (Mill, 1843 ; Kripke, 1972). Or, si un mot nouveau est construit à partir d’une base NPr, cela suppose que sa construction est sémantiquement motivée par le locuteur qui l’a forgé. Ce sens est élaboré à partir du sens de la base. Donc, la base, i.e. le NPP, doit d’une manière ou d’une autre, posséder un contenu sémantique qui contient une interprétation partagée par une communauté linguistique.

Nous travaillons sur des formes attestées et contextualisées. Les mots construits sur NPP se rencontrent souvent dans des écrits spontanés : sur des forums, blogs ou réseaux sociaux (Huguin, 2015). En d’autres termes, nous devons constituer notre propre corpus puisqu’aujourd’hui aucun corpus existant ne nous permet d’accéder à une quantité de données suffisante pour réaliser notre objectif. Notre démarche de constitution de corpus peut se résumer en deux temps : (1) nous avons tout d’abord généré des formes candidates, c’est-à-dire des mots construits sur NPP dont l’existence est hypothétique (Christiane Taubira > taubiraiser, taubiratiser, taubiriser…), (2) pour ensuite vérifier leur existence sur la Toile. 128 808 formes candidates ont été générées automatiquement à partir d’une liste de 90 NPP dont les référents sont des femmes ou hommes ayant exercé une fonction politique de premier plan depuis 1981 en France. Nous construisons notre corpus à partir du contenu de la Toile, en exploitant les outils et méthodologies élaborés dans le passé et présentés dans des travaux antérieurs (e.g. Dal & Namer, 2012, 2015 ; Hathout & alii, 2009). La collecte et le post traitement des sources composant le corpus sont effectués en collaboration avec le service R&D de Data Observer¹. Ainsi récoltés, ces données et leurs contextes d’emplois, sont triés et annotés dans une base de données lexicales dans laquelle sont organisés les résultats de notre analyse. Chaque entrée de la base comprend les informations formelles, catégorielles et sémantiques sur la relation morphologique unissant un mot construit et le NPP qui en est la base morphologique.

À travers cette thèse, nous cherchons à montrer que la morphologie apporte un éclairage nouveau à la définition linguistique du NPr, notamment au regard de la notion de lexème, unité de base de la morphologie lexématique. Ce travail va apporter des réponses sur le comportement morphologique du NPr, mais également sur le NPr en général (son sens, sa forme), et fournira une grammaire de l’anthroponyme ainsi qu’un large corpus de construits sur base anthroponymique.

¹ Data Observer (www.data-observer.com) est une startup spécialisée dans la collecte, le traitement et l’analyse des données textuelles issues du Web.

► Page perso : https://apps.atilf.fr/homepages/mhuguin/

► Télécharger la bibliographie

Julie Prévost

« Obstacles et facilitateurs pour l’inclusion scolaire des élèves allophones nouvellement arrivés (EANA) dans l’enseignement secondaire public en France et leurs incidences didactiques notamment en cours ordinaire de français. »
Sous la direction de Dominique Macaire (ATILF | Université de Lorraine – CNRS)
Thèse soutenue le 26 novembre 2021

Résumé

Notre recherche est qualitative et repose sur un corpus hybride constitué de 5 types de données (travaux d’apprenants récoltés sur une année scolaire; entretien d’explicitation; questionnaire sociolinguistique; écrit autobiographique de projection; bulletins scolaires).
Nous analysons les pratiques de l’écrit des apprenants allophones au collège (en UPE2A et en cours-disciplinaire de français). Nous analysons les répercussions sociolinguistiques sur le niveau de littératie et l’impact de l’environnement scolaire sur l’apprentissage de la langue.
Notre recherche sur les pratiques de l’écrit a pour objectif de situer les activités d’écriture dans un contexte plus large que celui de la simple scolarisation, en tenant compte des objectifs sociaux et culturels imposés aux apprenants allophones. Nous envisageons un élargissement du champ de réflexion sur les pratiques sociales de l’écrit en sollicitant des dimensions linguistique, sociale, sociolinguistique, anthropologique et économique.

► Page perso : http://julie.prevostzuddas.free.fr/

Elise Gandon

« La place des objets et faits culturels au sein des formations linguistiques et professionnelles pour adultes migrants : dimensions linguistiques et sociolinguisitiques de l’apprentissage de la langue. »
Sous la direction d’Hervé Adami (ATILF | Université de Lorraine – CNRS), Claudie Péret (Université de Cergy Pontoise)
Thèse soutenue le 22 octobre 2021

Résumé

Cette recherche porte sur les formations linguistiques et professionnelles des migrants adultes.

Nous étudierons la place des objets et faits culturels comme supports d’apprentissage et comme déclencheurs d’interactions verbales permettant l’acquisition de compétences linguistiques et sociolinguistiques et notamment l’acquisition de lexique en production et interaction orales. Nous voulons démontrer que les objets et faits culturels peuvent favoriser l’acquisition d’outils linguistiques et communicationnels transposables dans la vie quotidienne et professionnelle.

Notre recherche s’appuie sur plusieurs hypothèses. Selon notre première hypothèse, le contact prolongé, verbalisé avec des objets et faits culturels aurait une incidence sur l’acquisition des compétences langagières car il permettrait d’éveiller la curiosité et donc d’amorcer l’envie d’interagir. Nous réfèrerons à la théorie socioconstructiviste (Vygotski, 1934) ainsi qu’à l’idée selon laquelle l’interaction avec l’autre est déterminante dans l’apprentissage du langage. (Bruner, 1956, 1996). Par ailleurs, une seconde hypothèse serait que ces contextes particuliers d’apprentissage favoriseraient conjointement l’acquisition de compétences linguistiques et sociolinguistiques. Notre travail d’analyse prendra appui sur les travaux d’analyse conversationnelle et d’analyse du discours (Kerbrat Orecchioni, 1990, 1992, 1994). Nous formulons une troisième hypothèse selon laquelle ces outils linguistiques et sociolinguistiques seraient transférables à d’autres situations de communication (Meirieu, 1996 ; Minder, 1999).

Nous analyserons les interactions verbales déclenchées par le contact d’objets et faits culturels. Par « objets et faits culturels » nous entendons ici peintures, sculptures, et parce que cette recherche se fera à Lyon, vestiges du patrimoine architectural gallo-romain : amphithéâtres, remparts, traboules…
Le corpus sera recueilli auprès d’adultes migrants en formation. Au contact des objets et faits culturels présentés, les apprenants seront invités à s’exprimer individuellement et collectivement. Il leur sera demandé de décrire et d’exprimer une opinion sur l’œuvre présentée. Chaque apprenant sera enregistré. Les transcriptions des enregistrements permettront une analyse linguistique précise grâce à un outil et des critères d’évaluation définis en amont portant principalement sur le lexique… L’expérience sera menée trois fois au cours de la formation permettant de voir la progression de chaque apprenant. A l’issue des enregistrements, pour répondre aux besoins linguistiques des apprenants, nous leur proposerons de partager leurs connaissances en les invitant à produire collectivement une « banque » de lexique spécifique (sous la forme d’une « boîte à outils », d’une carte heuristique…) enrichi par le formateur. En fin de formation, les compétences orales seront mesurées et les productions orales seront analysées selon les mêmes critères, avec le même outil. Nous verrons si les apprenants sont en mesure de réinvestir le lexique à bon escient dans des situations de communication de la vie quotidienne (sujets d’examen proposés) et donc de voir si les acquis sont transférables.

Jorge Valdenebro Sánchez

« De la prise en compte des réalités culturelles dans la traduction juridique. Élaboration d’un dictionnaire analytique des concepts en Droit pénal français à l’usage des hispanophones péninsulaires. »
Sous la direction d’Anne-Marie Chabrolle-Cerretini (ATILF | Université de Lorraine – CNRS) et Tanagua Barceló (Université de Malaga)
Thèse soutenue le 29 juin 2021

Résumé

Cette thèse doctorale traite de l’importance des éléments culturels dans la traduction juridique (en particulier, dans la traduction judiciaire). En traduction, il faut savoir qu’il y a beaucoup de facteurs dont on doit tenir en compte. Le facteur culturel est l’un d’entre eux. En effet la traduction n’est pas simplement une activité linguistique, elle est aussi, interculturelle. De plus, en traduction juridique et judiciaire, l’élément culturel est d’autant plus important que chaque pays organise sa réalité légale d’une façon différente. Il faut savoir que dans ce genre de traduction on ne traduit pas la réalité culturelle d’un pays vers la réalité culturelle de la langue cible, mais on exprime dans la langue cible la réalité culturelle de la langue source, ce qui est très différent et qui va compliquer l’activité du traducteur. À cette difficulté, on doit ajouter le manque de dictionnaires bilingue à caractère analytique. Même s’il a beaucoup de ressources utiles pour la traduction juridique et judiciaire, l’existence d’un dictionnaire avec non seulement une traduction pour chaque terme ou expression, mais aussi l’explication du concept source en fonction du contexte où il est susceptible d’apparaître, ainsi que ses traductions, la technique de traduction employée pour tous les cas, les problèmes de traduction qu’on peut trouver et l’explication des différences culturelles qu’il manifeste entre le terme original et sa traduction n’existe pas. C’est pour cette raison que dans cette thèse nous nous focalisons sur l’importance des différences réalités en traduction juridique et nous prétendons créer un dictionnaire analytique des concepts en Droit pénal français à l’usage des hispanophones péninsulaires (avec ce terme nous faisons référence à l’espagnol d’Espagne, non pas à l’espagnol de l’Amérique Latine) avec tous les éléments avant mentionnés afin de créer une ressource qui puisse aider le traducteur et faire de son travail une activité plus facile.

Lou Lee

« Fonctions pragmatiques et prosodie de marqueurs discursifs en français et en anglais. »
Sous la direction d’Yvon Keromnes (ATILF | Université de Lorraine – CNRS) et de Denis Jouvet (LORIA)
Thèse soutenue le 7 avril 2021 | Visioconférence

Résumé

Cette thèse a pour but d’étudier des corrélats prosodiques de marqueurs discursifs selon leur fonction pragmatique à partir de corpus oraux. Elle examine six marqueurs discursifs en français (alors, bon, donc, enfin, quoi, voilà) et trois marqueurs en anglais (now, so, well). Afin de réaliser cette étude, une annotation a été effectuée à partir de l’écoute d’extraits sonores avec les étiquettes de classe (marqueur ou non marqueur) ainsi qu’avec les étiquettes de fonctions pragmatiques pour les occurrences identifiées comme marqueur. L’analyse prosodique a été effectuée au niveau de la position du mot dans le groupe prosodique, de la présence de pauses adjacentes au mot, et de l’articulation tonale du mot avec son contexte immédiat. Nos résultats montrent qu’il existe une corrélation entre les caractéristiques prosodiques des mots étudiés et leur classe (marqueur ou non marqueur), et leur fonction pragmatique quand le mot est employé comme marqueur. En effet, nous observons que des fonctions pragmatiques similaire d’un marqueur partagent des comportements prosodiques similaires. Des marqueurs différents manifestent également une similarité prosodique quand ils sont employés avec des fonctions pragmatiques similaires. De plus, nous remarquons une certaine influence du type de parole sur la caractérisation prosodique des marqueurs discursifs quant à la position du mot dans son groupe prosodique. Certaines fonctions pragmatiques manifestent également une similarité prosodique à travers les deux langues étudiées, le français et l’anglais. Les résultats de notre expérience d’identification des marqueurs discursifs suggèrent une potentielle interchangeabilité des marqueurs ayant la même fonction pragmatique. Ils montrent également le rôle important de la prosodie dans le perception et l’identification correctes des marqueurs discursifs.

Shuaa Alamri

« L’utilisation des TIC dans le développement de l’aptitude de compréhension orale de futures interprètes arabe-français à l’université du Roi Saoud. »
Sous la direction de Sophie Bailly (ATILF | Université de Lorraine – CNRS) et Maud Ciekanski (ATILF | Université de Lorraine – CNRS)
Thèse soutenue le 21 février 2021 | Visioconférence

Résumé

L’objectif de notre thèse est d’étudier les effets et les modalités d’un dispositif conçu pour améliorer l’enseignement-apprentissage de la compréhension orale dans la formation des interprètes en Arabie Saoudite par l’utilisation des TIC (Technologies de l’Information et de la Communication) et des ressources numériques. Suite à nos lectures, nous avons fait le constat, largement partagé dans la littérature du domaine, que la compréhension est une étape majeure dans le processus de l’interprétariat (SELESKOVITCH et LEDERER1984). C’est pourquoi nous nous intéressons à la façon dont est enseignée la compréhension orale actuellement dans la faculté de langues et de traduction à l’université Roi Saoud (KSU) à Riyad, que nous avons analysée lors de notre recherche en M2.

Selon notre expérience personnelle en tant qu’enseignante à l’Université du Roi Saoud, deux constats peuvent être établis : les étudiantes ont des difficultés à comprendre le sens du message oral et leurs capacités se limitent à une traduction littérale des mots, détachée de la réalité culturelle et contextuelle. L’observation de nombreux malentendus et de quiproquos lors d’échanges avec les étudiantes nous ont ainsi amenée à penser que la formation d’interprétariat dispensée à l’Université du Roi Saoud, pour ce qui est du FLE, ne permettait pas de doter les apprenantes des compétences linguistiques, communicationnelles et contextuelles nécessaires pour être en en mesure de communiquer en situation professionnelle authentique. Ainsi durant notre observation de la réalité sur le terrain d’enseignement au département de français, nous avons constaté que la majorité des étudiantes saoudiennes rencontrent des difficultés en ce qui concerne la compréhension orale. L’objectif de notre recherche de doctorat est de proposer un dispositif TIC adapté à la réalité du métier d’interprétariat car l’analyse des scores obtenus au pré-test et au post-test par les étudiantes en compréhension orale durant notre expérimentation en M2, a permis d’établir l’apport positif de l’utilisation des TIC dans le développement de la compréhension orale en termes d’efficacité (on comprend plus ou mieux) et de rapidité (les progrès sont plus rapides).

La recherche actuelle en didactique des langues a montré l’importance de prendre en compte les contextes sociaux, culturels et éducatifs (CASTELLOTTI et CHALABI 2006). En ce qui concerne l’Arabie Saoudite, il existe dans ce pays de fortes différenciations dans les rôles féminins et masculins. Les sujets et les bénéficiaires de notre étude sont exclusivement des femmes, et nous pensons que ce trait doit être souligné et pris en compte du point de vue théorique. Notamment, en ce qui concerne le rapport aux technologies, plusieurs études ont montré que les femmes en faisaient un usage particulier dans les pays arabes (ALSHAMMRI 2007). De plus, les femmes sont de plus en plus nombreuses à choisir le parcours professionnel de l’interprétariat, qui est actuellement plutôt un métier d’homme en Arabie Saoudite ; ceci a peut-être des répercussions sur le métier d’interprète, dont il faudra tenir compte dans le cadre de la formation.

Marie Flesch

« Langue d’internet et genre : étude du corpus du site web communautaire Reddit. »
Sous la direction de Sophie Bailly (ATILF | Université de Lorraine – CNRS)
Thèse soutenue le 16 décembre 2020 | Visioconférence

Résumé

Cette thèse se propose d’explorer les relations entre l’anglais d’internet et le genre, à partir d’un corpus de commentaires recueillis sur la plateforme communautaire Reddit. Elle s’intéresse tout particulièrement aux phénomènes lexicaux et graphiques de la langue électronique, qui a été décrite comme une « troisième forme de communication » distincte des langues parlée et écrite (Crystal, 2001) : acronymes (OMG, LOL) émoticônes ( 🙂 😀 ) graphies non-standard, néologismes, abréviations, étirements graphiques, et ponctuation créative. Elle vise à dégager et à expliquer les différences d’usage entre hommes et femmes, mais aussi à rendre compte des similitudes, en utilisant les techniques de la linguistique de corpus.
Si le site internet Reddit a été choisi pour cette thèse, c’est parce qu’il s’impose comme un des espaces d’expression privilégiés de la langue d’internet, de par, tout d’abord, la liberté dont jouissent ses utilisateurs. Les « Redditeurs » s’expriment ainsi bien souvent dans une langue informelle, et généralement dans l’anonymat total, sur des dizaines de milliers de forums auto-modérés. Reddit est également un objet d’étude intéressant parce que la plateforme a connu une croissance fulgurante depuis sa création en 2005, pour devenir, en novembre 2016, le septième site le plus visité aux Etats-Unis.
Autoproclamé « première page d’internet », Reddit est aujourd’hui un véritable phénomène de société, à la fois théâtre d’échanges passionnés, terreau fertile à l’explosion de scandales, espace d’accueil des contenus les plus provocateurs du web, et outil de communication utilisé par les personnalités politiques. La plateforme, dominée par les hommes depuis sa création, est par ailleurs en pleine mutation : le profond fossé entre les sexes, caractéristique des forums de discussion en ligne, est en train de se combler, les femmes investissant de plus en plus le site.
Pour étudier la relation entre langue et genre sur Reddit, un corpus de plus de 10 millions de mots sera construit, qui rassemblera les contributions de plusieurs centaines d’utilisateurs ayant indiqué le genre auquel ils s’identifient. Une approche « corpus-driven » sera adoptée. Au travers d’analyses quantitatives et qualitatives, la thèse explorera les différences d’utilisations entre les genres et les variations à l’intérieur de chaque groupe. Elle se penchera également sur la façon dont d’autres facteurs démographiques et contextuels interagissent avec l’identité sexuée des Redditeurs dans la production d’éléments typiques du « Netspeak ». Elle tentera enfin d’esquisser les éventuelles évolutions de la langue d’internet, et de dégager les implications sociales qui se dessinent dans les résultats de l’analyse du corpus, à l’échelle de Reddit, d’internet, et de la société.

► Page perso : http://mflesch.weebly.com/

Anouchka Divoux

« Analyse linguistique, praxéologique et socio-interactionnelle de la question en réunion de travail. »
Sous la direction de Virginie André (ATILF | Université de Lorraine – CNRS) et Hervé Adami (ATILF | Université de Lorraine – CNRS)
Thèse soutenue le 7 décembre 2020 | Visioconférence

Résumé

A travers cette étude sociolinguistique, nous souhaitons étudier les questions produites lors de réunions de travail. Différents travaux dans le domaine de la linguistique et de la pragmatique se sont intéressés à l’acte de questionnement (Austin, 1962 ; Benveniste, 1966 ; Searle, 1972), certains se sont centrés plus particulièrement sur l’oral (Kerbrat-Orecchioni, 1991 ; Debaisieux et Boulton, 2007), néanmoins, aucune de ces études n’a été effectuée en situation de travail.

Les recherches de Kerbrat-Orecchioni (1991, 2008) ont permis de montrer la variabilité illocutoire de la question : les questions peuvent ainsi revêtir une autre valeur que la demande d’information. Cette variabilité illocutoire des questions est intrinsèquement liée à la situation de communication. En effet, les pratiques langagières sont engagées dans un système d’inter-influences (André, 2006) mettant en jeu l’activité langagière, la situation de communication mais aussi le genre de discours. Il est donc nécessaire de s’interroger sur la place du langage au travail pour comprendre le rôle des questions en réunion.

Le langage au travail revêt deux valeurs principales : une valeur praxéologique (Zarifian, 1999 ; Filliettaz et de Saint Georges, 2009 ; Borzeix, 2015) permettant la réalisation de l’activité, mais aussi une valeur relationnelle permettant le marquage des relations (Girin, 1990 ; Filliettaz et de Saint Georges, 2009) que celles-ci soient horizontales ou verticales (Kerbrat-Orecchioni, 2004). Ainsi, les deux valeurs du langage au travail se retrouvent dans l’usage de la question. L’acte de questionnement peut par exemple servir à faciliter l’intercompréhension, répartir les tâches mais aussi à mettre en difficulté un interlocuteur ou exposer son expertise de manière détournée.

Avec cette thèse, nous chercherons à découvrir quels éléments extralinguistiques influencent la production de questions en réunion de travail en nous intéressant plus particulièrement au statut, au rôle interactionnel mais aussi au genre des locuteurs. Par ailleurs, à partir d’un corpus de réunions de travail, nous tenterons de décrire finement ce qui constitue une question à l’oral.

Anaïs Carnet

« L’utilisation des séries télévisées dans l’apprentissage de la consultation pour les étudiants de médecine français. »
Sous la direction d’Alex Boulton (ATILF | Université de Lorraine – CNRS)
Thèse soutenue le 30 novembre 2020 | Visioconférence

Résumé

Cette recherche vise à tester l’hypothèse selon laquelle l’utilisation de séries télévisées anglophones peut favoriser l’apprentissage, l’acquisition et la transférabilité de savoirs communicationnels dans le cadre d’une consultation avec un patient étranger chez les étudiants de médecine français.

Les futurs professionnels de santé seront confrontés tôt ou tard à des patients ne parlant pas français – pendant leurs stages pratiques à l’hôpital durant leurs études, pendant un stage qu’ils effectueront à l’étranger, ou lorsqu’ils seront en poste en tant que professionnels de santé. Il est donc nécessaire de préparer ces étudiants en leur donnant des clefs stratégiques communicatives qui leur permettront de mener à bien une consultation en anglais. Ainsi, il semble primordial de réfléchir à la langue en tant qu’objet d’enseignement dans les facultés de médecine, afin de permettre aux étudiants d’acquérir les outils linguistiques dont ils auront besoin dans leur future carrière professionnelle.

La mise en place de la recherche-action consiste en la comparaison de deux dispositifs d’enseignement différents afin d’évaluer lequel semble le plus à même d’amener les étudiants vers l’autonomie communicationnelle visée. Ces programmes seront essentiellement suivis par des étudiants souhaitant partir étudier un an à la faculté de médecine de Leeds, Angleterre. Il conviendra donc d’analyser lequel de ces programmes est le plus pertinent pour répondre à leur projet, en s’interrogeant sur la validité de chacun des deux programmes.

Trois groupes d’une quinzaine d’étudiants volontaires (2° & 3° années) seront créés, au sein desquels les étudiants seront répartis de manière aléatoire. Le premier groupe suivra un enseignement composé de documents traditionnels (vidéos et documents audio didactisés) et servira de groupe de contrôle. Les deux autres groupes suivront le même programme, mais les documents traditionnels seront remplacés par des extraits de séries télévisées ; le premier groupe bénéficiera d’un enseignement utilisant uniquement la série House, M.D., tandis que l’autre groupe travaillera sur des extraits de séries généralistes (The Walking Dead, Friends, The Big Bang Theory…). L’intégralité des documents et extraits sélectionnés seront soumis à un panel de professionnels de santé afin d’en vérifier les faits médicaux. Trois corpus distincts seront créés. Tout d’abord, en étudiant les documents du premier groupe, nous pourrons créer une banque de données qui viendra révéler les besoins langagiers des étudiants dans le domaine de la consultation. En parallèle, la transcription des extraits de séries permettra de créer deux autres corpus : le premier correspondant à de l’anglais médical et le deuxième à de l’anglais plus informel.

Les données de l’étude seront collectées et analysées grâce à différents outils. Pour les mesures qualitatives, les questionnaires ainsi que les entretiens seront utilisés. L’observation directe sera également employée dans le but de ne pas impacter le déroulement de l’étude. Il est également prévu d’évaluer les étudiants en situation. Grâce à la participation d’étudiants étrangers présents sur le campus, nous pourrons envisager d’organiser des mises en situation, en face à face, lors desquelles les étudiants de médecine devront utiliser toutes les connaissances acquises lors des cours d’anglais pour mener à bien une consultation face à un patient qu’ils ne connaissent pas et dans une situation non préparée à l’avance. Il est envisagé de filmer puis transcrire le dialogue afin de mesurer l’authenticité de cet échange, et de le comparer aux corpus précédemment créés.

Hazem Al Saied

« Analyse automatique par transitions pour l’identification des expressions polylexicales. »
Sous la direction de Mathieu Constant (ATILF | Université de Lorraine – CNRS) et Marie Candito (Université Paris-Diderot)
Thèse soutenue le 20 décembre 2019 à Nancy (Campus Lettres et Sciences Humaines | Bâtiment A | Salle A104)

Résumé

Cette thèse porte sur l’identification des expressions polylexicales, abordée au moyen d’une analyse par transitions. Une expression polylexicale (EP) est une construction linguistique composée de plusieurs éléments dont la combinaison montre une irrégularité à un ou plusieurs niveaux linguistiques : morphologique (« grand-mère »), syntaxique (« bel et bien »), sémantique (« carte bleue ») ou pragmatique (« à table »), qui confère à l’expression un statut d’unité lexicale.

La tâche d’identification d’EPs consiste à annoter en contexte les occurrences d’EPs dans des textes, i.e à détecter les ensembles de tokens formant de telles occurrences. Par exemple, dans la phrase « Cette série ne vit finalement jamais le jour. », les tokens « vit », « le » et « jour » seraient marqués comme formant une occurrence de l’EP « voir le jour ». La tâche est formellement complexe, dans la mesure où une EP peut être discontinue et un token peut appartenir à plusieurs EPs.

L’analyse par transitions est une approche célèbre qui construit une sortie structurée à partir d’une séquence d’éléments, en appliquant une séquence d’actions (appelées « transitions ») choisies parmi un ensemble prédéfini, pour construire incrémentalement la structure de sortie. L’utilisation de l’apprentissage automatique permet d’optimiser un classifieur pour réaliser le choix de la transition à opérer à chaque étape, et ainsi choisir au final une structure de sortie parmi un ensemble en général très grand de structures possibles.

Dans cette thèse, nous proposons un système par transitions dédié à l’identification des EPs au sein de phrases représentées comme des séquences de tokens, et étudions diverses architectures pour le classifieur qui sélectionne les transitions à appliquer, permettant de construire l’analyse de la phrase. La première variante de notre système utilise un classifieur linéaire de type machine à vecteur support (SVM). Les variantes suivantes utilisent des modèles neuronaux : un simple perceptron multicouche (MLP), puis des variantes intégrant une ou plusieurs couches récurrentes.

Le scénario privilégié est une identification d’EPs n’utilisant pas d’informations syntaxiques, alors même que l’on sait les deux tâches liées. Nous étudions ensuite une approche par apprentissage multitâche, réalisant et mettant à profit conjointement l’étiquetage morphosyntaxique, l’identification des EPs par transitions et l’analyse syntaxique en dépendances par transitions.

La thèse comporte une partie expérimentale importante. Nous avons d’une part étudié quelles techniques de ré-échantillonnage des données permettent une bonne stabilité de l’apprentissage malgré des initialisations aléatoires. D’autre part nous avons proposé une méthode de réglage des hyperparamètres de nos modèles par analyse de tendances au sein d’une recherche aléatoire de combinaison d’hyperparamètres. Nous produisons des systèmes avec la contrainte d’utiliser le même hyperparamétrage pour différentes langues. Nous utilisons en effet de manière privilégiée les données des deux compétitions internationales PARSEME (1.0 et 1.1), contenant des annotations d’EPs verbales pour 18 et 20 langues.

Nos variantes produisent de très bons résultats, et notamment les scores d’état de l’art pour de nombreuses langues des jeux de données PARSEME 1.0 et 1.1. L’une des variantes s’est classée première pour la plupart des langues lors de la campagne PARSEME 1.0. Comparées aux autres méthodes de la littérature, nos variantes MLP et SVM montrent une bonne performance en particulier pour les EPs discontinues ou les EPs correspondant à des variantes d’occurrences vues à l’apprentissage. Mais comme les autres systèmes, nos modèles ont des performances faibles sur les EPs non vues à l’apprentissage. Nous constatons cela dit que les variantes récurrentes et notre approche multitâche ont des performances globales peu compétitives, mais prometteuses pour ce qui est des EPs inconnues. Ceci suggère que l’accent doit être mis sur la découverte d’EPs utilisant des données non annotées en grosse quantité.

Mots clés :
Expressions polylexicales, Identification des expressions polylexicales, Analyse par transitions, Modèles linéaires, Modèles neuronaux, Réglage d’hyperparamètres de tendances, Classification avec données déséquilibrées

Marine Borel

« Les formes verbales surcomposées en français. »
Sous la direction de Denis Apothéloz (ATILF | Université de Lorraine – CNRS) et Françoise Revaz (Université de Fribourg)
Thèse soutenue le 7 juin 2019 à Fribourg (Université de Fribourg | Faculté des Lettres | Salle du Sénat)

Résumé

Les temps du système verbal français se répartissent, morphologiquement, en trois catégories : une série de temps simples (je chante, je chantais, etc.) ; une série de temps composés (j’ai chanté, j’avais chanté, etc.), qui correspondent aux temps simples et qui se construisent avec un auxiliaire (être ou avoir) et le participe passé du verbe conjugué ; enfin, une série de temps dits « surcomposés » (j’ai eu chanté, j’avais eu chanté, etc.), formés d’un auxiliaire (être ou avoir) à un temps composé et du participe passé du verbe conjugué.

Il existe, en français, neuf formes surcomposées, qui sont toutes attestées dans la littérature francophone : un infinitif (avoir eu chanté), un participe (ayant eu chanté), deux formes au subjonctif (que j’aie eu chanté, que j’eusse eu chanté) et cinq formes à l’indicatif (j’ai eu chanté, j’avais eu chanté, j’eus eu chanté, j’aurai eu chanté et j’aurais eu chanté). Seul l’impératif surcomposé (*Aie eu chanté !) n’est pas attesté.

Les premières formes surcomposées semblent être apparues dans la langue française à la fin du XIIe siècle. Depuis cette époque, elles sont attestées sans discontinuer jusqu’à l’époque moderne, et l’on trouve des attestations de ces formes dans tous les types de textes, aussi bien littéraires ou épistolaires que juridiques ou journalistiques.

C’est à l’analyse, notamment morphologique et sémantique, de ces formes surcomposées que je consacre mon projet de thèse. Mon but est de parvenir à comprendre et à décrire très précisément le sens de chacune de ces neuf formes surcomposées ainsi que les fonctions qu’elles remplissent dans la langue française. Pour mener à bien cette recherche, d’ordre qualitatif, je travaille sur des données réelles, que j’ai recueillies et référencées. Le corpus sur lequel se base ma recherche est actuellement composé de plus de 4000 occurrences authentiques, datant de toutes les époques et provenant de tous les types de textes.

Lorraine Vézy De Beaufort

« Learning French in Hong Kong : A sociocultural and narrative perspective on language learner identity in the context of globalization. »
Sous la direction de Dominique Macaire (ATILF | Université de Lorraine – CNRS) et John Trent (EdUHK)
Thèse soutenue le 10 mai 2019

Résumé

L’objectif principal de cette étude est de discuter le développement identitaire chez des apprenants de FLE dans le contexte multilingue de Hong Kong ainsi que dans un contexte général de superdiversity (Vertovec, 2007).

À la différence de l’anglais qui est une langue obligatoire à Hong Kong dès le plus jeune âge, le français ne l’est pas. S’il existe un grand nombre d’études à Hong Kong liées à l’apprentissage de l’anglais et du mandarin, il en existe peu sur des langues que je qualifierai de ‘langues additionelles’ (voir pour commentaire Hammarberg 2011; Jessner 2008) pour ce contexte.

L’étude s’attache à commenter la construction de l’identité liée à l’aprentissage du français à travers ce que Lemke (2000) appelle le multi-timescale dynamical system qui consiste à appréhender la construction de l’identité en tant qu’ensemble de procédés complexes, simultanés et complémentaires à différentes échelles de temps et d’espace (Blommaert 2007, 2010 ; Wortham, 2005) en relation avec l’environnement socioculturel immédiat et avec l’imaginaire (voir Kanno & Norton 2003 ; Ryan & Irie 2014) ainsi qu’avec les idéologies sociales (Heller 2007 ; Blommaert and Rampton 2011) et les pratiques de la langue (Pennycook 2010).

La thèse s’adosse à une étude qui consiste à « penser par cas» (Passeron et Revel, 2005) soit, à la compréhension de vrais individus dans leur milieu social et non pas d’individus conceptualisés (Ushioda 2012; Block, 2003; Lantolf & Thorne, 2006). Pour se faire, elle engage une approche méthodologique connue sous le nom de narrative inquiry (voir Barkhuizen et al. 2014 ; Clandinin, 2013), de type ‘études de récits’.

L’étude apporte des éléments sur la compréhension de la fluidité (Plivart, 2010 ; Dervin, 2011) en contexte de superdiversity (voir Blommaert 2010 ; Pennycook, 2010 ; Macaire, 2015) et propose une réflexion sur la ‘multidimentionalité’ sociale (Clark 2010) de l’apprenant. A travers l’éclairage qu’elle apporte, elle convoque également une réflexion sur l’éducation interculturelle en situation multilingue.

Sarah Kremer

« La réalisation matérielle du Französisches Etymologisches Wörterbuch. Impact de la mise en forme typographique sur le développement d’un projet lexicographique. »
Sous la direction de Yan Greub (ATILF | CNRS – Université de Lorraine) et Alice Savoie (ANRT | ENSAD Nancy)
Thèse soutenue le 20 décembre 2018 à Nancy (ATILF | Salle Imbs)

Résumé

Le dictionnaire étymologique du français de Walther von Wartburg, le Französisches Etymologisches Wörterbuch (FEW), est en cours d’informatisation. Ses 25 volumes, répartis sur plus de 16000 pages, sont saisis puis jalonnés de balises sémantiques XML par une série d’algorithmes afin de permettre la mise en place d’un FEW électronique et son interaction avec différentes ressources extérieures. Or, l’encodage des données saisies ainsi que leur affichage dépendent directement de polices de caractères qui soient en mesure de formater l’ensemble du contenu du FEW, notamment une série de caractères inédits utilisés pour la notation de transcriptions phonétiques.

L’objet de cette thèse consiste dans l’étude de la réalisation matérielle du FEW, en particulier sa typographie, des premières publications d’articles en 1922 jusqu’à leur diffusion actuelle sous une forme uniquement numérique. L’étude s’appuie pour cela sur une analyse des évolutions de la présentation du dictionnaire en abordant ses changements, d’ordre lexicographique mais aussi technique. Cette analyse est complétée par l’observation d’une série d’autres dictionnaires dont la mise en forme typographique est remarquable. La thèse participe ainsi à mettre en évidence la manière dont le FEW est un objet lexicographique unique.

Le résultat concret de la thèse correspond à la création d’une famille de caractères adaptée aux usages du FEW. Ces polices sont exploitées au sein de deux interfaces : la première accompagne les rédacteurs du FEW lors de l’élaboration de nouveaux articles, la seconde permet aux utilisateurs de consulter et d’interagir avec la base de données du FEW informatisé. Issue d’une collaboration entre linguistes, informaticiens et designers, cette thèse propose un modèle d’intégration du design typographique au sein des humanités numériques.

Élisabeth Berchtold

« Dictionnaire de l’ancien francoprovençal : conception d’un projet lexicographique et réalisation sectorielle. »
Sous la direction de Yan Greub (ATILF | CNRS – Université de Lorraine) et Andres Kristol (Université de Neuchâtel)
Thèse soutenue le 19 décembre 2018 à l’Université de Neuchâtel

Résumé

L’objectif de cette thèse est de combler des lacunes scientifiques dans la connaissance de l’histoire du francoprovençal et de son lexique. En effet, à l’heure actuelle aucun travail de synthèse ne regroupe les matériaux anciens du francoprovençal et dans le Französisches Etymologisches Wörterbuch (FEW), qui pourrait remplir cette fonction, les états anciens du francoprovençal sont sous-représentés en raison de l’absence d’un tel travail. La conséquence est un grand déséquilibre avec la connaissance que nous avons de l’ancien français et occitan qui sont les langues romanes anciennes les mieux décrites.

Les sources en francoprovençal sont relativement peu nombreuses parce que cette langue a été de tout temps confiné à un usage essentiellement oral. La littérature ancienne se borne à quelques textes d’édification et un traité juridique, surtout des traductions. À partir du XVIe siècle se développe une littérature en patois le plus souvent fortement ancrée localement. Les auteurs qui voulaient toucher un publique plus large ont très tôt opté pour le français. Les sources documentaires sont plus nombreuses, mais très inégalement réparties dans l’espace. Les sources issues de la partie française du domaine ont pour la plupart été éditées, mais beaucoup d’entre elles sont difficilement exploitables en l’absence de glossaires. La situation est plus favorable en Suisse romande où le Glossaire des patois de la Suisse romande (Gl.) documente non seulement les dialectes modernes, mais aussi leurs états anciens. Pour cette raison nous nous sommes concentrée sur la partie française du domaine et nous nous sommes basée sur le Gl. pour la partie suisse. En collaboration avec une autre doctorante, Laure Grüner, nous avons rassemblé les sources intéressantes pour l’étude de l’ancien francoprovençal de France et nous avons procédé à des dépouillements étendus.

Sur cette base, nous avons élaboré un modèle de description lexicographique adapté à l’ancien francoprovençal et nous avons rédigé la tranche f de ce Dictionnaire de l’ancien francoprovençal, qui représente environ un vingtième du dictionnaire complet, afin de prouver la faisabilité du projet et d’évaluer son apport à la connaissance de l’ancien francoprovençal. Plus de la moitié de nos articles documentent des unités lexicales qui n’étaient pas encore attestées en ancien francoprovençal de France dans le FEW et dans une bonne partie des autres cas nous pouvons compléter les matériaux. Sur la base des 386 articles rédigés, nous évaluons la nomenclature complète du dictionnaire à 7’500 articles et le temps de rédaction à une bonne douzaine d’années de travail d’une personne à temps plein. Nous avons aussi envisagé plusieurs possibilités pour obtenir des résultats tangibles dans des délais plus courts.

Bianca Mertens

« Figement et renouvellement du lexique protoroman : recherches sur la création lexicale. »
Sous la direction d’Eva Buchi (ATILF | CNRS – Université de Lorraine) et Marie-Guy Boutier (Université de Liège)
Thèse soutenue le 20 janvier 2018

Résumé

Cette thèse est consacrée à l’étude du suffixe protoroman */-‘ur-a/ et, par ce biais, à l’étude de la morphologie dérivationnelle du protoroman. D’une part, nous fournissons un examen approfondi et détaillé des unités lexicales protoromanes présentant le suffixe */-‘ur-a/ et, d’autre part, nous offrons une analyse pointue des propriétés phonologiques, morphologiques et sémantiques du suffixe */-‘ur-a/. La première partie de ce travail consiste en une brève introduction et en la présentation de la méthodologie dont nous nous sommes servie pour nos recherches : celle de la reconstruction comparée et celle de la reconstruction interne. Ensuite, nous jetons un coup de projecteur sur les deux domaines qui sont particulièrement intéressants dans le cadre de l’étude d’un suffixe protoroman : la reconstruction en domaine roman et la reconstruction morphologique. Cette première partie se conclut par l’explication de notre choix de nomenclature – avec une brève analyse des lexèmes rejetés –, par l’explicitation de nos processus de recherche et par la présentation de la microstructure utilisée pour les articles étymologiques. Dans la deuxième partie de cette thèse figurent les articles étymologiques des 45 étymons protoromans portant le suffixe */-‘ur-a/ que nous avons pu reconstruire. Chaque article étymologique est accompagné d’une carte linguistique qui donne une vue globale sur la distribution aréologie de l’étymon en question.Enfin, la troisième partie de notre travail se veut une analyse approfondie et détaillée des propriétés phonologiques, morphologiques et sémantiques du suffixe */-‘ur-a/ ainsi qu’une analyse de la variation diasystémique de la protolangue.

Marie-Sophie Pausé

« Structure lexico-syntaxique des locutions du français et incidence sur leur combinatoire. »
Sous la direction d’Alain Polguère (ATILF | Université de Lorraine – CNRS) et Sylvain Kahane (Université Paris Nanterre)
Thèse soutenue le 3 novembre 2017

Résumé

En tant que syntagmes sémantiquement non-compositionnels, les locutions sont des unités lexicales à part entière, qui doivent avoir leur propre entrée dans un modèle du lexique. Elles doivent donc recevoir une définition, ainsi que des caractéristiques grammaticales ; caractéristiques grammaticales qui doivent prendre en compte leur signifiant particulier. En effet, en vertu de la nature de leur signifiant, les locutions peuvent subir, à des degrés divers, des variations syntagmatiques – passivation, insertion de modifieurs, etc. – et paradigmatiques – substitution de certains constituants.

Notre hypothèse est qu’une description des locutions combinant à la fois l’identification des unités lexicales qui les composent, et à la fois les relations de dépendance syntaxique qui unissent les unités constituantes, permettra de prédire leurs différents emplois possibles en discours. Une telle description n’est possible que dans un modèle du lexique décrivant précisément la combinatoire des lexèmes.

L’objectif de notre thèse est de développer un modèle de description lexicographique des locutions vérifiant cette hypothèse et applicable au TAL et à la didactique. Notre recherche, basée sur les principes de la Lexicologie Explicative et Combinatoire (Clas et coll. 1995), exploitera et enrichira les données du Réseau Lexical du Français (RL-fr) (Lux-Pogodalla et Polguère 2011), ressource en cours de développement à l’ATILF. Notre travail visera dans un premier temps à affiner la classification des locutions selon les variations qu’elles admettent ou non dans les corpus. Dans un second temps, il s’agira de coupler les structures lexico-syntaxiques (association d’un patron syntaxique à des unités lexicales) des locutions à des arbres de dépendance, nous permettant de rentre compte de la structure syntaxique des locutions non linéarisée, et ainsi d’ouvrir aux différents agencements possibles des unités constituantes.

Kim Mi Hyun

« Étude contrastive de la phraséologie des noms d’éléments du corps en français et coréen. »
Sous la direction d’Alain Polguère (ATILF | Université de Lorraine – CNRS) et Seong Heon Lee (Université Nationale de Séoul)
Thèse soutenue le 17 février 2017

Résumé

Notre travail a pour but de d’abord comparer la structuration des lexiques français et coréens des noms d’éléments du corp (dorénavant NÉC) et puis de comparer les collocations contrôlées par ces unités lexicales. Les unités lexicales dénotant des éléments du corps sont essentielles dans toutes les langues et elles contrôlent énormément de phraséologie. L’étude contrastive de la phraséologie du lexique des NÉC en français et coréen effectuée dans notre thèse nous donnera l’occasion de vérifier l’importance de la modélisation formelle du lexique français et coréen.

L’hypothèse de notre travail est que la comparaison de la lexicalisation des NÉC dans les deux langues – le français et le coréen – va montrer, bien évidemment, de nettes différences de conceptualisation du corps dans les deux cultures correspondantes, mais que la comparaison des collocations contrôlées par les NÉC va mettre en lumière des écarts beaucoup plus variés, liés à la conceptualisation des fonctions pratiques et sociales des entités physiques que les NÉC dénotent. Ce travail approfondira un phénomène de la collocation à la fois générique et spécifique.

À partir de nos hypothèses de départ, notre thèse se divisera en deux grandes parties. Dans la première partie, nous allons comparer la structuration des lexiques français et coréen des NÉC. Nous supposerons plusieurs cas logiques de (non-)correspondances entre les deux langues. Nous utiliserons le Natural Semantic Metalanguage ou NSM (Wierzbicka 1996) pour la comparaison sémantique des lexiques des NÉC en français et coréen. Dans la seconde partie, nous allons tout d’abord établir la liste des collocations dont la base est un NÉC. Nous définissons la collocation comme un phrasème particulier, fondé sur une relation de combinatoire restreinte entre deux unités lexicales. Nous allons ensuite comparer les collocations du français et coréen, pour chaque NÉC. La correspondance de la collocation entre deux langues est variée. À cette étape de la comparaison, nous allons utiliser un encodage des collocations fondé sur le système formel des Fonctions Lexicales de la théorie Sens-Texte (Mel’čuk 2001), en nous appuyant sur la base Réseau Lexical Français ou RLF(Lux-Pogodalla et Polguère 2011) et sur un échantillon de base du coréen, Réseau Lexical Coréen ou RLC, que nous développerons. Nous allons utiliser non seulement les fonctions lexicale dites standards, mais aussi les fonctions lexicale non standards.

► Télécharger la thèse

Guillaume Nassau

« Les émotions en entretien de conseil dans un dispositif d’apprentissage de langue auto-dirigé : une analyse des interactions entre apprenant et conseillère. »
Sous la direction de Sophie Bailly (ATILF | Université de Lorraine – CNRS) et Virginie André (ATILF | Université de Lorraine – CNRS)
Thèse soutenue le 8 novembre 2016

Résumé

Des recherches en psychologie fonctionnaliste et en psychologie sociale ont établi de manière robuste l’existence de liens entre les émotions et la cognition, entre les émotions et l’apprentissage de langues et entre les émotions et les performances en langues étrangères. Cette thèse, inscrite dans le champ des sciences du langage – et de la didactique des langues, a pour objectif de décrire et d’analyser les manifestations verbales des émotions dans des entretiens de conseil à partir d’un corpus constitué d’authentiques séquences de travail enregistrées et transcrites. L’analyse porte sur les épisodes émotionnels et sur les énoncés d’émotions dans le contexte de l’entretien de conseil. La méthodologie utilisée pour repérer les épisodes émotionnels comporte deux étapes : une première étape où des signaux linguistiques considérés comme signalant potentiellement une émotion sont repérés, et par accumulation, indiquent des séquences particulières dans les entretiens de conseil, et une seconde étape où les séquences ainsi isolées sont étudiées qualitativement afin de mettre en évidence la présence ou l’absence d’émotion. Sur le plan des épisodes émotionnels, nos analyses mettent en évidence une gamme d’émotions plus large chez les apprenants, et une tendance chez les conseillères à utiliser leurs propres émotions afin d’effectuer du travail émotionnel auprès de l’apprenant. Sur le plan discursif, l’observation des énoncés d’émotions permet tout d’abord de mettre en évidence la place centrale de l’apprenant : une large majorité des énoncés d’émotions désignent en effet l’apprenant comme personne concernée par l’émotion. Par ailleurs, des postures différentes ont pu être identifiées chez les conseillères et chez les apprenants quant à l’utilisation des termes d’émotion. L’apprenant utilise principalement les énoncés d’émotion afin de s’auto-attribuer des émotions tandis que les conseillères utilisent les énoncés d’émotion afin de projeter des émotions chez les apprenants. Les observations effectuées permettent également de mettre en évidence un lien entre les émotions évoquées dans les entretiens de conseil et le déroulement de la formation. De manière générale, les émotions (épisodes émotionnels et énoncés d’émotion) apparaissent comme des indicateurs précis du déroulement de la formation.

► Télécharger la thèse

Capucine Herbert

« Les récits de voyages du XIVe et du XVe siècles lemmatisés : apports lexicographiques au Dictionnaire du moyen français. »
Sous la direction de Sylvie Bazin (ATILF | Université de Lorraine – CNRS)
Thèse soutenue le 26 février 2016

Résumé

Les XIVe et XVe siècles représentent une période privilégiée pour étudier les récits de voyages. En effet, les pèlerins sont de plus en plus nombreux à se rendre en Terre Sainte et la soif de découverte pousse de nombreux voyageurs à explorer le monde. Pour raconter leurs périples, ces voyageurs privilégient de plus en plus le français pour s’exprimer.

L’étude des récits de voyages des XIVe et XVe siècles permet donc à travers l’étude de la langue, le moyen français, d’accéder à la perception qu’avaient du monde ces voyageurs.

Notre travail consistera tout d’abord en l’élaboration d’un lexique de ces récits, qui viendra compléter le Dictionnaire du moyen français, puis en l’étude lexicale et sémantique des vocables français liés à la topographie, ce qui devrait permettre de comprendre la perception du relief chez les voyageurs de la fin du Moyen Âge.

Kyuma Bernard Nzuki

« Les causes de l’abandon de l’étude du français au Kenya : étude didactique et sociolinguistique. »
Sous la direction de Sophie Bailly (ATILF | Université de Lorraine – CNRS) et Francis Carton (ATILF | Université de Lorraine – CNRS)
Thèse soutenue le 17 décembre 2015

Résumé

Dans un système éducatif, l’apprentissage de langues étrangères est l’un des volets généralement imposés au public. Pour une langue étrangère donnée, en fonction de certains facteurs pédagogiques et sociologiques relatifs aux apprenants et à leur pays d’origine, l’évolution de son enseignement peut se présenter de manière plus ou moins spécifique. Comme dans de très nombreux pays, le français fait partie des langues étrangères enseignées depuis plusieurs années au Kenya, pays anglophone, notamment dans quatre catégories d’établissements scolaires : écoles secondaires (collèges et lycées – en France), collèges, Alliances Françaises et universités). Le français fait aussi partie des langues étrangères enseignées dans des écoles élémentaires privées, surtout pour la classe d’élite.

Étant en cotutelle entre la France et le Kenya, ce travail de thèse se réalisera essentiellement grâce à une enquête de terrain au Kenya qui permettra de recueillir des informations auprès des acteurs éducatifs, des apprenants jeunes et adultes, des parents d’élèves et du monde de l’entreprise. Les informations recueillies constitueront ainsi une base de données statistiques et aussi qualitatives. Les grandes lignes de l’enquête se réaliseraient auprès des questionnaires et aussi d’une observation des cours afin d’analyser des méthodes utilisées / ou faire une étude comparative et éventuellement, c’est-à-dire aller en personne dans les salles classe pour confirmer/voir les stratégies que les enseignants utilisent pour que nous puissions accomplir une étude pratique.

A l’issue de cette recherche, nous devrions pouvoir mieux comprendre les interactions entre l’apprenant de langue étrangère et les contextes micro, méso et macro (la classe, l’école, la famille et la société) et leur rôle dans le processus qui mène à l’abandon de l’étude d’une langue étrangère. Concernant l’étude du français, la compréhension de ce processus permettrait de penser des solutions didactiques susceptibles de favoriser sa promotion et sa diffusion.

Laure Budzinski

« Dictionnaire historique et étymologique de la terminologie linguistique française. »
Sous la direction d’Eva Buchi (ATILF | CNRS – Université de Lorraine) et Yan Greub (ATILF | CNRS – Université de Lorraine)
Thèse soutenue le 30 novembre 2015

Résumé

Une recherche consacrée à l’étymologie et à l’histoire de la terminologie linguistique permettra un gain important en connaissances historico‐étymologiques. Ce gain dans la description de lexèmes particuliers devrait avoir des répercussions plus générales : une meilleure connaissance des processus de formation du vocabulaire de la linguistique, et des indications sur les conséquences pour la sous-discipline étymologique.

La thèse pourra contribuer à un progrès méthodologique dans un secteur faible de la science étymologique, progrès d’autant plus significatif que celui-ci est crucial pour notre connaissance du fonctionnement actuel de la création lexicale en français.
Élaborer un dictionnaire historique et étymologique de la terminologie de la linguistique nécessitera d’en reconsidérer l’ensemble des représentations dans les grands monuments étymologiques, afin d’identifier les lacunes à combler. Ainsi, un des premiers aspects de notre travail consistera à représenter le plus largement possible tous les sémantismes n’ayant pas été distinguée par les principaux dictionnaires étymologiques comme le FEW, Dauzat, Bloch & Wartburg ou le TLF. Le deuxième aspect de notre travail consistera en une analyse détaillée de l’origine des lexèmes étudiés, afin de vérifier dans quel cas il y a eu emprunt, calque ou construction française. Le troisième aspect de notre travail sera d’exploiter les données du dictionnaire pour un regard synthétique sur la constitution de la terminologie linguistique française : quel est le pourcentage de créations internes et d’emprunts ? Quels sont les patterns de formation les plus utilisés ? Quelle part de la science considérée comme établie est‐elle vraiment sûre ?

Fabien Python

« La duplicité du vocabulaire français. Étude des doublets étymologiques relevant de la dichotomie populaire/savant. »
Sous la direction d’Eva Buchi (ATILF | CNRS – Université de Lorraine) et Henri Vernay
Thèse soutenue le 26 septembre 2015

Résumé

À venir

Sandrine Ollinger

« Le raisonnement analogique en lexicographie, son informatisation et son application au Réseau Lexical du Français. »
Sous la direction d’Alain Polguère (ATILF | Université de Lorraine – CNRS)
Thèse soutenue le 15 décembre 2014

Résumé

La lexicographie contemporaine, en s’appliquant à décrire le lexique de la langue de manière formelle et cohérente, met à la disposition de la communauté des ressources offrant de multiples possibilités d’exploitations automatiques telles que les réseaux lexicaux. Le présent projet de thèse propose de vérifier automatiquement les propriétés formelles d’une telle ressource au cours de sa constitution. Les objectifs de cette vérification sont multiples. D’une part, elle permet de renforcer la cohérence du réseau lexical en élaborant des stratégies de semi-automatisation de l’activité lexicographique. En effet, en fournissant l’ensemble des informations pertinentes déjà encodées dans la base lexicale pour la description d’une nouvelle unité, la régularité des descriptions se trouvera renforcée. En appliquant un raisonnement analogique aux modélisations déjà disponibles dans la ressource, l’ébauche automatique d’entrées lexicographiques semble envisageable, de même que l’extraction automatique de propriétés générales associables à des classes sémantiques de lexies. D’autre part, effectuée en étroite collaboration avec l’équipe de lexicographes construisant la ressource, elle offre l’opportunité de faire évoluer la formalisation des données pour une meilleure prise en compte des cas particuliers rencontrés. Pour aboutir à une représentation à la fois cohérente, fine et juste de la langue, il est important de prendre en compte les particularités soulignées par les lexicographes et de s’appliquer à décrire les phénomènes linguistiques mis en évidence par d’éventuelles irrégularités.

► Télécharger la thèse

Anne Choffat-Dürr

« Apprentissage des langues en contexte scolaire : l’agir ensemble en cycle 3 dans le cadre de projets d’échanges à distance franco-britanniques. »
Sous la direction de Dominique Macaire (ATILF | Université de Lorraine – CNRS)
Thèse soutenue le 1er décembre 2014

Résumé

Aujourd’hui, la pédagogie des échanges à distance, s’appuyant sur la communication médiée par les outils numériques, permet de porter un regard nouveau sur les capacités des jeunes apprenants possédant un bagage minimal de la langue cible à interagir à distance avec des locuteurs de la langue partenaire. Inscrite dans un cadre socioconstructiviste et interactionniste, la thèse questionne le potentiel que représentent des projets d’échanges s’élaborant en fonction des personnes et des moyens à disposition. Elle s’appuie sur l’observation de quatre partenariats franco-britanniques initiant un projet sur une année scolaire à l’école élémentaire. Elle cible l’apprentissage de l’anglais (et du français sur le principe de la réciprocité des échanges). Elle cherche à identifier les conceptions et intentions initiales des acteurs. Nous observons sur le terrain ce qui se construit à partir des activités conjointes des enseignants et des élèves (collecte de données à partir de dispositifs variés entrant dans le protocole d’une recherche-action). L’analyse s’effectue à partir de deux hypothèses principales, l’une dirigée vers la dimension sociale des échanges et l’autre vers les effets sur l’apprentissage linguistique. La prise en charge des apprenants de leur apprentissage, la diversité des productions et des aptitudes langagières concernées, la cohérence des activités avec le lien social qui s’instaure ou la présence d’une réflexion métacognitive et métalinguistique sont au nombre des caractéristiques des projets étudiés. Elles conduisent à une réflexion sur l’action et l’apprentissage situé propres à favoriser la collaboration et l’autonomisation..

Inga Gheorghita

« Construction automatique de hiérarchies sémantiques à partir du Trésor de la Langue Française informatisé (TLFi) : application à l’indexation et la recherche d’images. »
Sous la direction de Jean-Marie Pierrel (ATILF | CNRS – Université de Lorraine)
Thèse soutenue le 17 février 2014

Résumé

L’objectif principal de cette thèse est de montrer que les informations lexicales issues d’un dictionnaire de langue, tel le Trésor de la langue française informatisé (TLFi), peuvent améliorer les processus d’indexation et de recherche d’images. Le problème d’utilisation d’une telle ressource est qu’elle n’est pas suffisamment formalisée pour être exploitée d’emblée dans un tel domaine d’application. Pour résoudre ce problème, nous proposons, dans un premier temps, une approche de construction automatique de hiérarchies sémantiques à partir du TLFi. Après avoir défini une caractéristique quantitative (mesurable) et comparable des noms apparaissant dans les définitions lexicographiques, à travers une formule de pondération permettant de sélectionner le nom de poids maximal comme un bon candidat hyperonyme pour un lexème donné du TLFi, nous proposons un algorithme de construction automatique de hiérarchies sémantiques pour les lexèmes des vocables du TLFi. Une fois notre approche validée à travers des évaluations manuelles, nous montrons, dans un second temps, que les hiérarchies sémantiques obtenues à partir du TLFi peuvent être utilisées pour l’enrichissement d’un thésaurus construit manuellement ainsi que pour l’indexation automatique d’images à partir de leurs descriptions textuelles associées. Nous prouvons aussi que l’exploitation d’une telle ressource dans le domaine de recherche d’images améliore la précision de la recherche en structurant les résultats selon les domaines auxquels les concepts de la requête de recherche peuvent faire référence. La mise en place d’un prototype nous a permis ainsi d’évaluer et de valider les approches proposées.

► Télécharger la thèse

Émilienne-Nadège Mékina

« Description du fang-nzaman, Langue bantoue du gabon : Phonologie et classes nominales. »
Sous la direction de Bernard Combettes (ATILF | Université de Lorraine – CNRS)
Thèse soutenue le 15 décembre 2012

Résumé

Parlé dans la région de l’Ogooué-Ivindo au nord-est du Gabon, le fang-nzaman est une langue bantoue appartenant au groupe A70, selon la classification de M. Guthrie. Les différents points que nous avons mis en valeur sont : un succinct aperçu de l’environnement dans lequel elle évolue, l’organisation sociale et culturelle. Entrant dans le vif du sujet, la partie phonologique avec l’identification de différents phonèmes (consonantiques et vocaliques) qui apparaissent dans la langue. Le fonctionnement des affixes (les préfixes de classe) et leurs tons (ponctuels et modulés) font la particularité des langues bantoues.

Dans le cadre syntaxique, l’identification de différents énoncés, leurs catégories grammaticales et lexicales a contribué à la détermination des classes. Ceci a introduit l’étude du fonctionnement des accords, la distribution des classes, la valeur sémantique des préfixes, l’appariement des classes en opposition singulier/pluriel. La langue s’organise avec des connexions d’unités qui gravitent au tour du noyau central qui peut être : un verbe, un connecteur, une anaphore…En fin le cadre lexical définit un corpus limité de termes qui permet d’éclairer sur le choix des énoncés représentatifs.

► Télécharger la thèse

Jinjing Wang

« Causes de l’échec d’apprentissage du français par des étudiants chinois en France. »
Sous la direction de Sophie Bailly (ATILF | Université de Lorraine – CNRS) et Francis Carton (ATILF | Université de Lorraine – CNRS)
Thèse soutenue le 30 novembre 2012

Résumé

Cette thèse s’inscrit dans le domaine de la didactique du français langue seconde. Elle concerne les causes de la réussite ou de l’échec de l’apprentissage du français par des étudiants chinois en France. Plus précisément, elle prend appui sur la perception de la réussite ou de l’échec d’apprentissage parmi ce public dont l’effectif ne cesse de croître et au sein duquel de nombreux individus éprouvent de grandes difficultés à apprendre la langue du pays d’accueil. Afin d’interroger les causes des sentiments de réussite ou d’échec dans l’apprentissage, trois hypothèses sont posées : le sentiment de réussite ou d’échec est conditionné par l’adaptation à la nouvelle culture d’apprentissage/enseignement ; certains traits de personnalité favorisent l’apprentissage de la langue ; la motivation des apprenants a des conséquences sur leur investissement et sur leur utilisation de stratégies dans l’apprentissage du français. Cette étude tend à montrer que le sentiment de réussite ou d’échec d’apprentissage résulte d’un cumul d’expériences émotionnellement positives ou négatives. Elle fait apparaître certains des facteurs qui facilitent ou empêchent l’apprentissage du français par des étudiants chinois en France. Par exemple, l’adaptation à la culture d’enseignement française favoriserait l’apprentissage et induirait chez l’apprenant un sentiment de réussite. Parmi les facteurs qui seraient susceptibles d’engendrer un sentiment d’échec, l’introversion empêcherait l’acquisition de compétences dans le domaine de l’expression orale et l’absence de contacts réguliers avec le français dans la vie quotidienne affaiblirait la motivation d’apprentissage.

► Télécharger la thèse
► Télécharger les annexes

Aurore Koehl

« La construction morphologique des noms désadjectivaux suffixés en français. »
Sous la direction de Fiammetta Namer (ATILF | Université de Lorraine – CNRS)
Thèse soutenue le 30 novembre 2012

Résumé

Menée dans le cadre de la morphologie lexématique, cette thèse a vocation de faire progresser la réflexion sur l’une des questions centrales de la morphologie constructionnelle des langues, à savoir les critères d’identification des règles de construction de lexèmes (RCL), en prenant le cas des noms désadjectivaux du français comme support. Nous traitons les suffixes –ité (banalité), –eur (blancheur), –esse (tendresse), –itude (amplitude), –ise (gourmandise) et –erie (cochonnerie) qui sont utilisés comme exposants de règle dans la construction de noms sur la base de lexèmes adjectivaux. Les noms étudiés proviennent du Trésor de la langue française informatisé, du journal électronique Le Monde et de la Toile.

Comment détermine-t-on les RCL ? Une première hypothèse est qu’à un exposant formel identifié correspond une RCL à laquelle s’oppose une seconde hypothèse selon laquelle à une seule RCL correspondent plusieurs exposants. Il s’agit de déterminer quelle est l’influence de la valeur des exposants dans le dénombrement des RCL. Cela implique (i) d’étudier les conditions de sélection des bases et (ii) d’étudier les critères aboutissant aux différentes formes de noms désadjectivaux. La première question relève d’une logique liée aux conditions d’application des règles, la seconde relève des motivations du locuteur/scripteur intervenant dans les conditions de concurrence entre les suffixes. Pour chaque suffixation, nous menons une étude sur la disponibilité de chaque suffixe, en comparant les noms contenus dans le Trésor de la langue française et les créations des locuteurs/scripteurs en recourant au corpus électronique du journal Le Monde et à la Toile. Nous étudions également si les RCL subissent d’autres influences que celles des exposants, en analysant les contextes d’apparition des doublons de noms construits sur une même base adjectivale (e.g. tendresse / tendreté).

Parallèlement à cette étude, nous avons créé une base de données morphologique des dérivations d’adjectif à nom (nommée MORDAN) qui enregistre 3750 couples (adjectif, nom) assortis d’informations formelles, sémantiques, historiques et pragmatiques. Chaque nouvelle forme est accompagnée d’un contexte d’apparition qui permet son interprétation. Cette base de données est une ressource libre qui sera mise en ligne à la date de la soutenance.

► Télécharger la thèse
► Télécharger le corpus

Lolita Berard

« Dépendances à distance en français contemporain – Étude sur corpus « c’est ce qu’on pense qui devrait être fait ». »
Sous la direction de Jeanne-Marie Debaisieux (ATILF | Université de Lorraine – CNRS) et Henri-José Deulofeu (Université Aix Marseille)
Thèse soutenue le 26 novembre 2012

Résumé

Les linguistes tentent depuis de nombreuses années d’expliquer les conditions requises pour qu’un élément en tête d’énoncé puisse être dépendant d’un verbe enchâssé. Pourquoi à qui crois-tu qu’il a dit ça est-il un énoncé grammatical et *à qui crois-tu qu’il a fait ce poème pour plaire ne l’est-il pas ? Chomsky (1977) et ses successeurs ont été les premiers à proposer des règles pour expliquer la possibilité pour un verbe de contrôler un élément à distance dans certains cas, et l’impossibilité dans d’autres cas. Ces travaux et d’autres plus récents prenant en compte la structure informationnelle (Erteschik-Shir 1997) sont cependant loin d’avoir exploré tous les types de contraintes qui pèsent sur ces constructions. Ainsi, en s’appuyant sur des corpus, Arie Verhagen (2005) a mis au jour des contraintes lexicales et pragmatiques sur le phénomène des dépendances à distance dans les interrogatives partielles en néerlandais. Il a remarqué dans l’usage une grande régularité dans le lexique verbal et pronominal utilisés entre un recteur et son objet extrait (penser et la 2ème personne). Une contrainte pragmatique se dégageait de ces observations : la séquence ‘pronom + verbe’ module une relation intersubjective entre les interlocuteurs.

Notre objectif est de décrire les propriétés syntaxiques, lexicales et sémantico-pragmatiques des constructions comportant des dépendances à distance en français contemporain puis d’en mesurer la fréquence. Une attention particulière est portée aux unités lexicales impliquées. La méthode utilisée est donc corpus-driven. Nous nous appuyons sur des corpus écrits et oraux variés : presse, littérature, forum internet, annonces, écrits scientifiques, discours politiques, échanges entre un ‘visiteur’ et un administratif, conversations du quotidien, entretiens, émissions de radio et de télévision, conversations téléphoniques, échanges entre adultes et enfants, etc. Après avoir décrit les tendances générales, il s’agit de préciser les différences observées selon les types de constructions (complétives et infinitives), de structures (relatives, interrogatives, clivées) et de situations de communication.

► Télécharger la thèse

Églantine Guély Costa

« Distance transactionnelle et apprentissage autodirigé de langue étrangère avec soutien : ouverture, dialogue, autonomie et appropriation de dispositif de formation. »
Sous la direction de Sophie Bailly (ATILF | Université de Lorraine – CNRS)
Thèse soutenue le 5 juillet 2012

Résumé

Cette thèse s’inscrit dans les recherches sur les dispositifs de médiations (Peraya, 2003, 2006, 2009), et plus spécifiquement les dispositifs de formation en langue étrangère, et sur les usages qui en sont faits (Rabardel, 1995) ; dans le contexte de la diversification des pratiques provoquée par l’essor des technologies d’information et de communication en formation. Elle cherche à interroger la notion de distance, et plus particulièrement de distance transactionnelle (Moore, 1993), c’est-à-dire les rapports entre structure d’un dispositif, dialogue et autonomie, au regard de l’hybridisme technique et pédagogique d’un dispositif contemporain de formation auto-dirigée de l’anglais avec soutien.

Pour cela, elle tente d’appréhender le processus d’appropriation (Paquelin, 2004, 2009) d’un dispositif de formation auto-dirigée de l’anglais (Holec, 1979, 1981, 1988) en s’appuyant sur la perception de l’ouverture (Jézégou, 2004, 2005, 2007, 2010) des acteurs à un moment T de la conception (dispositif prescrit), un moment T de la formation (dispositif perçu des formateurs et personnels), et un moment T de l’apprentissage (dispositif perçu des apprenants), grâce à des données issues de questionnaires, d’entretiens, et de traces d’apprentissage. Ces données sont comparées afin de montrer des mouvements en cours au sein du processus d’appropriation, puis des freins et des leviers sont analysés dans le double mouvement d’appropriation du dispositif et de développement de l’autonomie de l’apprenant. Les résultats tendent à montrer qu’il existe bien une relation de dépendance entre structure, dialogue et autonomie et à en étayer la hiérarchie au sein de ce dispositif particulier, représensatif d’une forme particulière de dispositif ouvert visant l’apprentissage auto-dirigé.

► Télécharger la thèse

Note : Pour des raisons de confidentialité, le volume d’annexes n’est pas disponible en ligne.

Coralie Reutenauer

« Vers un traitement automatique de la néosémie : approche textuelle et statistique. »
Sous la direction de Jean-Marie Pierrel (ATILF | CNRS – Université de Lorraine), Evelyne Jacquey (ATILF | CNRS – Université de Lorraine) et Mathieu Valette (ATILF | CNRS – Université de Lorraine)
Thèse soutenue le 20 janvier 2012

Résumé

L’enjeu de cette thèse est l’acquisition automatique de nouveaux sens lexicaux.
Nous définissons un modèle théorique sur l’émergence d’un nouveau sens pour une unité lexicale ayant déjà un sens codé. Le phénomène ciblé est la néologie sémantique, ou néosémie, définie comme une variation sémantique marquée en cours de diffusion. Nous la modélisons à partir d’indices quantitatifs articulés à des principes issus de la sémantique textuelle. Le sens codé est représenté
comme un ensemble structuré de traits sémantiques. Il est modulé en discours sous l’effet de récurrences d’autres traits. La dynamique du sens est représentée à l’aide de descripteurs de granularité sémantique variable.

Ensuite, nous proposons des ressources et outils adaptés, relevant de la linguistique de corpus. Les ressources sont de deux types, lexicographiques pour le sens codé et textuelles pour le sens en
discours. En pratique, le Trésor de la Langue Française informatisé fournit les sens codés. Une plateforme transforme ses définitions en ensembles de traits sémantiques. Trois corpus journalistiques des années 2000 servent de ressources textuelles. Les outils mathématiques, essentiellement statistiques, permettent de jouer sur la structure des ressources, d’extraire des unités saillantes et d’organiser l’information.

Enfin, nous établissons les grandes lignes d’une procédure pour allouer de façon semi-automatique un nouveau sens. Elles sont étayées par des expériences illustratives. Le déroulement de la procédure repose sur des niveaux de description de plus en plus fins (domaines, unités lexicales puis traits sémantiques). Il s’appuie sur des jeux de contrastes multiples, permettant de nuancer l’information
sémantique.

► Télécharger la thèse

Tiphanie Bertin

« Grammaticalisation du langage de l’enfant : processus interactionnel d’appropriation des articles et des clitiques sujets chez des enfants francophones entre 1 et 3 ans. »
Sous la direction de Denis Apothéloz (ATILF | Université de Lorraine – CNRS), Anne-Salazar-Orvig (Université Sorbonne Nouvelle) et d’Emmanuelle Canut (ATILF | Université de Lorraine – CNRS)
Thèse soutenue le 3 décembre 2011

Résumé

Le besoin social de l’enfant de communiquer avec son entourage entraine une grammaticalisation progressive de son langage, qui passe notamment par l’acquisition des morphèmes grammaticaux libres. Plusieurs études mentionnent et analysent la présence de formes précurseures de ces éléments, souvent appelées fillers. A partir de corpus longitudinaux de quatre enfants en interaction avec un adulte, nous nous sommes intéressées au rôle de ces formes dans l’acquisition des articles et des clitiques sujets. L’utilisation du terme « formes de transition », et non de « fillers », nous a permis de décrire des formes produites par les enfants notamment à la fin de l’acquisition des articles et des clitiques sujets. Alors qu’une majorité des études sur les fillers se focalise sur le langage de l’enfant, notre objectif est de mettre en évidence le rôle fondamental de l’interaction entre l’enfant et l’adulte dans le processus d’appropriation des articles et des clitiques sujets. Une étude de l’évolution de la production de formes de transition nous a permis de décrire des tendances générales de développement chez les enfants observés, suivant un certain nombre de variations de l’émergence jusqu’à la maîtrise complète des articles et clitiques sujets. Une analyse de l’évolution des reprises chez l’enfant et l’adulte et du déroulement de leurs échanges nous a conduite au repérage de séquences d’interaction où l’adaptation des reprises de l’adulte aux tâtonnements de l’enfant entraine une progression dans les essais et les productions de ce dernier nous permettant d’illustrer le rôle d’une interaction immédiate adaptée dans le processus d’appropriation des articles et des clitiques sujets.

► Télécharger la thèse

Iveta Chovanová

« Morphologie constructionnelle du slovaque et éléments de comparaison avec le français : les adjectifs dénominaux construits par composition et dérivation. »
Sous la direction de Fiammetta Namer (ATILF | Université de Lorraine – CNRS)
Thèse soutenue le 2 décembre 2011

Résumé

Ce travail, qui s’appuie sur une étude de corpus, analyse deux types d’adjectifs dénominaux en slovaque : les adjectifs suffixés en -ský (NskýA) et les adjectifs composés d’un adjectif et d’un nom (ANA). Les résultats obtenus pour le slovaque sont mis en correspondance, et seulement quand cela est pertinent, avec les réalisations sémantiquement équivalentes du français. Les analyses pour le slovaque sont vérifiées et testées à chaque fois à l’aide d’une expérience réalisée sous forme de questionnaires soumis aux locuteurs slovaques. La formation des ANA (MODROOKÝA « ayant les yeux bleus ») répond à un triple faisceau de contraintes (i) entre l’ANA et le nom recteur (Nr), e.g. modrookéA dievcaNr « fille aux yeux bleus », (ii) entre le composant nominal (N) et le Nr (OKON « oeil » et dievca « fille »), et (iii) entre le composant adjectival (A) et le N (MODRÝA « bleu » et OKON « oeil »). Ces adjectifs désignent une propriété inhérente de l’entité à laquelle réfère le Nr. L’interprétation sémantique majoritaire est la relation méronymique : le N dénote une partie constitutive et visible de l’entité désignée par le Nr. La suffixation en -ský sélectionne essentiellement les noms propres de lieu (toponymes) et de personne (anthroponymes) en position de base. Le contenu sémantique de ces adjectifs est identique à celui de leurs bases. Les NskýA toponymiques comme LIBANONSKÝA « libanais » peuvent référer au lieu ainsi qu’aux habitants d’un lieu. Seule la valeur du Nr permet de désambiguïser la référence d’un NskýA toponymique. Les NskýA anthroponymiques comme STALINSKÝA « stalinien » peuvent avoir, outre l’interprétation relationnelle : « de Staline », un sens qualifiant : « comparable à Staline ».

► Télécharger la thèse
► Télécharger les annexes
► Télécharger les données

Magali Husianycia

« Caractérisation de types de discours dans des situations de travail. »
Sous la direction de Richard Duda (ATILF | Université de Lorraine – CNRS) et Emmanuelle Canut (ATILF | Université de Lorraine – CNRS)
Thèse soutenue le 2 décembre 2011

Résumé

L’objectif de cette étude consiste en la caractérisation de types de discours dans des situations de travail. Nous avons tenté de définir des types de discours à partir de critères linguistiques et en considérant les cadres actionnels qui sous-tendent les discours. Dans un premier temps, nous précisons le cadre théorique et méthodologique de notre travail en nous positionnant sur le concept de « type de discours » que nous différencions de celui de « genre ». En outre, pour définir notre cadre théorique, nous avons mené une réflexion sur l’histoire de la place du langage dans les activités de travail depuis le XVIIè siècle, et nous nous sommes appuyée sur des analyses de pratiques langagières en situation de travail menées au sein de différentes disciplines. À partir de ce cadre théorique pluridisciplinaire, nous avons pu développer une méthodologie pour le recueil et la constitution de corpus et une méthodologie d’analyse fondée sur un découpage séquentiel des discours. Notre recherche a fait sept types de séquence regroupés en trois types linguistiques (langage expositif, langage de co-action et langage péri-professionnel) et correspondant à trois types de discours (langage sur le travail, langage comme travail et langage dans le travail). Chaque type de séquence est caractérisé par des critères linguistiques récurrents soumis à une analyse qualitative et quantitative. Le type de séquence dominant détermine le type linguistique majeur et donc le type de discours. Cette analyse, couplée avec une analyse du cadre actionnel des activités, nous permet de mettre en évidence l?interdépendance entre langage et activité, et nous conduit à caractériser des types de discours en lien avec le type d’activité.

► Télécharger la thèse
► Télécharger les annexes
► Télécharger le corpus complet

Sandrine Pescarini

« Analyse Synchronique et diachronique de l’item à choix libre "n’importe quel" : comparaison avec "tout". »
Sous la direction de Ileana Comorowski (ATILF | Université de Lorraine – CNRS)
Thèse soutenue le 9 décembre 2009

Résumé

Cette étude est consacrée à l’analyse synchronique et diachronique des déterminants tout et n’importe quel. Dans le cas de tout, nous nous intéressons à son emploi en tant que déterminant à choix libre. N’importe quel est par nature un déterminant à choix libre, contrairement à tout, qui a d’autres interprétations possibles. Un déterminant à choix libre indique le choix indiscriminé d’un référent parmi un ensemble d’individus possibles. L’analyse synchronique de tout et de n’importe quel a comme point de départ une considération des analyses proposées pour le déterminant anglais any. Puis, nous présentons la distribution des deux déterminants français. Leurs valeurs interprétatives et leurs forces quantificationnelles sont déterminées. Les différences entre tout et n’importe quel sont mises en évidence, tant au niveau syntaxique que sémantique. En ce qui concerne la diachronie, nous notons deux différences entre ces deux déterminants : leur origine et la période d?entrée dans le lexique français. Du fait de ces disparités, l’analyse diachronique menée pour tout est différente de celle menée pour n’importe quel. Concernant n’importe quel, il est décrit son processus de formation, dont le point de départ est l’apparition du verbe importer dans le lexique français. Des réponses sont avancées quant à l’apparition de n’importe quel malgré la présence d’autres items à choix libre ayant une signification très proche, comme un…quel qu’il soit. L’analyse de tout est surtout basée sur l’évolution de sa distribution et sur le fait qu’il n’est pas forcément un item à choix libre.

► Télécharger la thèse

Delphine Beauseroy

« Syntaxe et sémantique des noms abstraits statifs. Des propriétés verbales et adjectivales aux propriétés nominales. »
Sous la direction de Marie-Laurence Knittel (ATILF | Université de Lorraine – CNRS)
Thèse soutenue le 5 décembre 2009

Résumé

Le but de ce travail est d’examiner les propriétés sémantiques et morphosyntaxiques des noms abstraits apparentés à des prédicats verbaux ou adjectivaux. D’un point de vue sémantique, nous montrons que la notion d’aspect, généralement réservée au domaine verbal, est pertinente dans le domaine nominal et que les ‘noms abstraits intensifs’ (Van de Velde 1995 et Flaux & Van de Velde 2000) forment une classe aspectuelle homogène puisque tous partagent le trait [-DYNAMIQUE]. En nous fondant sur l’hypothèse que le caractère statif commun à ces noms permet une analyse unifiée, nous proposons une étude de leurs différents emplois et montrons notamment qu’outre une acception stative, ces noms peuvent avoir une seconde lecture et dénotent alors des occurrences. Dans la seconde partie, nous nous intéressons au comportement syntaxique des noms statifs, i.e. le nombre et la détermination, mais aussi la modification adjectivale. Ceci nous permet de dégager deux comportements morphosyntaxiques distincts, corrélés à la distinction entre les deux lectures mise en évidence dans la première partie. Dans leur lecture stative, ces noms ont un comportement proche de celui des noms massifs concrets et fonctionnent comme des noms relationnels : ils nécessitent un argument avec lequel ils entrent dans une relation syntaxique de prédication. Inversement, dans leur lecture d’occurrence, ces noms se comportent comme des noms comptables concrets et ne sont pas intrinsèquement relationnels. L’analyse des noms statifs que nous proposons tend à montrer que ceux-ci partagent leurs propriétés sémantiques avec certains types de prédicats verbaux et adjectivaux, et leurs propriétés syntaxiques avec diverses classes de noms concrets.

► Télécharger la thèse

Dorota Sikora

« Les verbes de manière de mouvement en polonais et en français. Eléments pour une étude comparée des propriétés structurelles de prédicats. »
Sous la direction de Denis Apothéloz (ATILF | Université de Lorraine – CNRS)
Thèse soutenue le Thèse soutenue le 5 décembre 2009

Résumé

La thèse a pour objectif d’observer le fonctionnement des verbes de manière de mouvement en tant que prédicats en polonais et en français. Il s’avère que les structures argumentales des prédicats sont responsables de certaines caractéristiques et des « comportements » grammaticaux des membres de cette classe verbale dans les deux langues. La thèse répertorie et analyse l’influence des différences structurelles des prédicats sur les propriétés grammaticales des verbes de manière de mouvement en polonais et en français. Le premier chapitre expose les bases théoriques et méthodologiques adoptées dans les analyses. Les chapitres suivants sont consacrés spécifiquement aux verbes déterminés polonais (chapitre 2), aux verbes indéterminés en polonais (chapitre 3) et aux verbes de manière de mouvement français (chapitre 4). Le chapitre 5 est un bilan comparatif. Il montre clairement qu’il n’y a pas d’équivalence entre la classe des verbes de manière de mouvement français et l’une des deux catégories de ces mêmes verbes en polonais. Marcher, rouler, courir, nager, voler, ramper partagent un certain nombre de propriétés avec les verbes indéterminés en polonais chodzic, jezdzic, plywac, biegac, latac, fruwac, pelzac, sans pour autant accepter les mêmes modifieurs. La différence principale entre les verbes polonais des deux groupes et leurs équivalents français se situe sur le plan du prédicat : en polonais, ils sélectionnent l’argument Terminus en formant ainsi des prédicats téliques. Par là même, ils acceptent de modifier les propriétés aspectuelles déterminées par le sens du lexème verbal. En français, à l’exception de courir, les prédicats que forment les verbes de manière de mouvement rejettent l’argument Terminus, car il est incompatible avec l’aspect lexical déterminé par le sens du lexème.

► Télécharger la thèse

Ciulla e Silva Alena

« Os processos de referência e suas funções discursivas – o universo literário dos contos. »
Sous la direction de Mônica Magalhães Cavalcante (Universidade Federal do Ceará, Fortaleza, Brasil) et Denis Apothéloz (ATILF | Université de Lorraine – CNRS)
Thèse soutenue le 24 avril 2008

Résumé

► Télécharger la thèse

Coralie Reutenauer

« Analyse et modélisation sémantiques à partir de ressources lexico-sémantiques. »
Sous le tutorat d’Evelyne Jacquey (ATILF | CNRS – Université de Lorraine), Mathieu Valette (ATILF | CNRS – Université de Lorraine), Jean-Marie Pierrel (ATILF | CNRS – Université de Lorraine) et Pierre Chauvet
Mémoire de stage réalisé en 2008

Résumé

► Télécharger le mémoire

Sébastien Haton

« Analyse et modélisation de la polysémie verbale dans une perspective multilingue : le dictionnaire bilingue vu dans un miroir. »
Sous la direction de Jean-Marie Pierrel (ATILF | CNRS – Université de Lorraine) et Bernard Combettes (ATILF | Université de Lorraine – CNRS)
Thèse soutenue le 25 novembre 2006

Résumé

On observe dans les dictionnaires bilingues une forte asymétrie entre les deux parties d’un même dictionnaire et l’existence de traductions et d’informations « cachées », i. E. Pas directement visibles à l’entrée du mot à traduire. L’objectif de cette thèse est de proposer une méthodologie de récupération des données cachées ainsi que la « symétrisation » du dictionnaire grâce au TAL. L’étude d’un certain nombre de verbes et de leurs traductions en plusieurs langues a conduit à l’intégration de toutes les données, visibles ou cachées, au sein d’une base de données unique et multilingue. La réflexion est enrichie par une étude du comportement de certains verbes en contexte. L’objectif est d’enrichir les données lexicographiques par les données attestées sans remettre en cause les premières. Enfin, l’exploitation de la base de données a été rendue possible par l’écriture d’un algorithme de création de graphe synonymique qui lie dans un même espace les mots de langues différentes.

► Télécharger la thèse

Virginie André

« Construction collaborative du discours au sein de réunions de travail en entreprise : de l’analyse micro-linguistique à l’analyse socio-interactionnelle. »
Sous la direction de Philip Riley (Université de Lorraine)
Thèse soutenue le 2 juin 2006

Résumé

Cette thèse cherche à explorer le fonctionnement discursif et interactif de réunions de travail. Différents champs disciplinaires sont convoqués pour les analyser étant donné que les pratiques et les activités discursives actualisées dans ce genre de discours sont imbriquées dans des situations de travail et de communication particulières insérées dans des enjeux sociaux, culturels, identitaires et relationnels complexes. Cette étude s’intéresse plus particulièrement aux corrélations entre les pratiques langagières des interactants et les facteurs extralinguistiques des réunions de travail. L’analyse d’un corpus de quarante heurres d’enregistrements et de 331 000 mots transcrits permet d’identifier les pratiques langagières contribuant à la collaboration du discours entre les participants. Quatre phénomènes discursifs et interactionnels sont étudiés : l’énonciation conjointe, la reprise, les apparitions du marqueur hein et du couple oui non.

► Télécharger la thèse

Thèses soutenues