Site de l'afls Site du laboratoire ATILF Site du CNRS Site de Nancy-Université

Thématique

Préambule
Le colloque annuel de l’Association for French Language Studies (AFLS – http://www.afls.net/) se fixe pour but de combiner généralisation et spécialisation. Autrement dit, tout en restant un colloque d’association, les organisateurs s’efforcent de trouver une thématique susceptible de fournir des présentations de qualité dans les domaines de prédilection du laboratoire local qui accueille le colloque (cette année, l’ATILF).


Thème et descriptif
Le colloque annuel de l’AFLS est un grand colloque de linguistique française. Le thème particulier du colloque AFLS 2011 concerne les données pour l’étude de la langue française. Les propositions de présentations pourront aborder les aspects théoriques, méthodologiques ou pratiques. En effet, ce colloque, qui marque à la fois les 30 ans d’existence de l’AFLS et les 10 ans d’existence du laboratoire ATILF, sera l’occasion de faire le point sur l’apport des données numériques pour l’étude de la langue française, ainsi que sur le rapport entre outils et analyses.

Rares sont les études en linguistique française qui aujourd’hui ignorent totalement les données attestées, sous quelque forme que ce soit. Au-delà de l’analyse d’exemples pris au vol, glanés ici et là, il existe aujourd’hui des collections de données électroniques très importantes ainsi que des outils et des méthodologies de travail qui ont profondément changé notre manière d’étudier la langue ainsi que notre manière d’appréhender la langue dans les applications diverses de la linguistique. Cependant, le recours à des exemples extraits de bases de données, à des occurrences relevées dans des corpus, nécessite des outils appropriés, d’extraction et d’analyse. Et la constitution de bases de données ou de corpus requiert également des outils facilitant la sélection, le traitement, le stockage, l’interrogation des types de textes ou des exemples qui intéressent le chercheur. Ce colloque sera ainsi l’occasion de confronter les pratiques existantes dans différents domaines de la linguistique s’appuyant sur l’exploitation de données informatisées, quelle que soit l’échelle à laquelle s’effectue le travail, et quel que soit le type d’analyse (quantitatif vs qualitatif). Nous attendons des propositions de communications en lien avec la problématique de l’exploitation de données attestées dans des domaines variés : linguistique descriptive, diachronie, pragmatique et interactions, acquisition-apprentissage, ingénierie linguistique, etc.


État de l’art
En linguistique diachronique du français, la constitution et l’utilisation de corpus a eu des résultats notables dans les années 1970 et 1980, mais leur grand développement semble plus lent aujourd’hui, et leur utilisation a également cessé de s’étendre. Le secteur en développement est maintenant celui des bases de données, qui se constituent à grande vitesse, que ce soit en lien avec certains grands projets lexicographiques (Dictionnaire du moyen français, Anglo-Norman Dictionary), par la récupération de bases déjà constituées (Nouveau corpus d’Amsterdam – voir Kunstmann & Stein 2007) ou, beaucoup plus massivement, par l’intégration aléatoire de tout ce qui se trouve (GoogleBooks). Leur existence, et en particulier celle de la dernière base mentionnée, a changé complètement certains aspects du travail en linguistique historique : les méthodes permettant d’exploiter ces nouvelles bases ne font que se mettre en place, et on en est même à découvrir les nouveaux objets d’étude rendus disponibles. Par exemple, l’étymologie des mots de formation récente en français, en particulier dans le vocabulaire scientifique, apparaît comme à récrire entièrement.

En ce qui concerne l’étude du français parlé et du discours en interaction, la situation concernant les données a fortement évolué ces dernières années. Des corpus et des transcriptions sont à l’heure actuelle disponibles pour toutes personnes désirant accéder à des illustrations de la langue française telle qu’elle se parle. On peut les consulter notamment via les Centres de Ressource pour la Description de l’Oral (CRDO – http://crdo.risc.cnrs.fr/exist/crdo/crn.htm) ou sur les sites du Corpus de Français Parlé Parisien (CFPP2000 – http://ed268.univ-paris3.fr/syled/ressources/Corpus-Parole-Paris-PIII/Corpus.html), du projet Phonologie du Français Contemporain (PFC – http://www.projet-pfc.net/), du Corpus de Langue Parlée en Interaction (CLAPI – http://clapi.univ-lyon2.fr/) et du projet nancéien TCOF mené à l’ATILF (http://www.cnrtl.fr/corpus/tcof/). La mise à disposition de données rend plus immédiat le travail sur le français parlé sans que l’on ait forcément besoin de constituer ses propres données (enquête, enregistrement, transcription, etc.). Mais cette mise à disposition est souvent partielle et la circulation des données est un problème en soi. D’ailleurs, cette situation n’est pas sans poser des questions théoriques et méthodologiques fondamentales (Cappeau & Gadet 2007). En effet, peut-on réellement se servir de données constituées par d’autres et avec des problématiques souvent très éloignées ? Est-il possible d’utiliser des sources hétérogènes ? En passant outre ces interrogations, on néglige de prendre en compte leur incidence sur les résultats des analyses linguistiques et ainsi on ne peut pas les contrôler totalement ni connaître exactement leur degré de fiabilité. En tout cas, ces données ne peuvent généralement pas être considérées comme un échantillon représentatif de la langue française parlée et se pose la question de la comparaison des résultats d’analyses.

La question des données est également devenue cruciale en morphologie ces dernières années. Si l’analyse morphologique s’est longtemps appuyée sur des données dictionnairiques, l’exploration de données numérisées offre désormais de nouvelles possibilités et a changé qualitativement la donne en morphologie. L’emploi de corpus pour la morphologie et la constitution de bases de données morphologiquement construites ont suscité ces dernières années de nombreux travaux, dans lesquels la méthodologie utilisée pour collecter et traiter les données ainsi que le rôle prépondérant que ces dernières jouent dans l’analyse occupent une place centrale. L’utilisation de données massives, en particulier de la Toile, permet de faire jaillir des régularités, impossibles à observer sur des échantillons de langue plus petits. Plusieurs des travaux font apparaître que la consultabilité de gros volumes textuels sur support électronique permet de mettre en évidence des phénomènes qui resteraient sinon inaperçus (cf. par exemple Plénat 1997 sur la suffixation en -esque, Plénat 2002 sur la suffixation en -issime, Hathout, Plénat & Tanguy 2003 sur la suffixation en –able, Lignon & Plénat 2009 sur la suffixation en -ien). De plus, l’accès a des corpus de grande taille a notamment permis de redéfinir précisément la notion de productivité morphologique, à l’issue notamment des travaux menés en France au sein du GDR 2220 Description et modélisation en morphologie, ce qui a donné lieu à une journée ATALA en novembre 2007, ainsi qu’à de nombreuses publications tant en France qu’à l’étranger (voir entre autres: Langue française n° 140; Baayen 1994; Plag 1999).

Concernant les travaux sur l’acquisition de la langue (L1 comme L2), les corpus de données ont notamment permis d’étudier des productions d’apprenants à différents moments tout au long du parcours d’acquisition (Granger 2002). Par ailleurs, dans l’apprentissage, les corpus jouent aujourd’hui un rôle important, surtout dans l’apprentissage de la langue par des non-natifs, permettant en quelque sorte d’accéder aux « intuitions de milliers de locuteurs natifs » (Frankenberg-Garcia 2005 : 192). En effet, depuis les débuts de l’utilisation de corpus pour l’enseignement/apprentissage du français langue étrangère, avec le corpus d’Orléans (Biggs & Dalwood 1976), l’accent a été mis sur l’accès aux données authentiques pour éviter les pièges de l’intuition mais aussi pour donner aux apprenants un accès direct à la langue cible. Si les débuts sont caractérisés par l’exploitation des corpus en amont de tout apprentissage (par exemple pour produire des manuels), sans parler des corpus d’apprenants, les approches les plus récentes, qui épousent la perspective actionnelle en matière d’enseignement des langues, ont tendance à vouloir rapprocher apprenant et corpus lors de la consultation de corpus généraux ou bien lors de la constitution de son propre corpus dans un domaine ou genre particulier à partir de logiciels spécialisés (voir Boulton 2009). L’utilisateur, qu’il soit enseignant ou apprenant, peut, grâce à des corpus et à des logiciels même disponibles gratuitement en ligne, retrouver et interpréter des occurrences pertinentes à des fins d’apprentissage, de rédaction, de correction, de traduction, etc.

Pour ce qui est de la normalisation, la mutualisation et l’informatisation, étant donné que la réalisation de corpus électroniques est coûteuse, qu’il s’agisse d’oral, de manuscrits ou d’annotations diverses, la tentation est donc grande de partager des corpus au sein d’une communauté (Wittenburg 2010). Pour autant, partager de façon fiable des corpus suppose au minimum :
  • que ces corpus, en particulier leurs conditions de réalisation, soient décrits aussi précisément que possible ;
  • que leurs formats soient compatibles ;
  • que l’identification des corpus soit fiable : deux chercheurs doivent pouvoir comparer leurs résultats sur un même corpus (même version, etc.) ;
  • que les conditions de distribution des corpus qui sont fixées par leurs auteurs soient garanties par la ou les archives qui le rendent disponible ;
  • que les corpus soient sauvegardés dans leur forme de départ et de telle façon qu’ils restent lisibles. En effet, que ferait-on aujourd’hui d’un corpus au format d’un traitement de textes des années 1980 ?
Garantir ce minimum suppose de mettre en place des plateformes et des infrastructures spécialisées telles que TalkBank (http://talkbank.org/) ou, pour le français, le CRDO pour l’oral, le CNRTL basé à Nancy (http://www.cnrtl.fr/) pour l’écrit et les ressources lexicales et TELMA (http://www.cn-telma.fr/) pour les manuscrits. En ce qui concerne le travail sur l’acquisition, il existe le système CHILDES (http://childes.psy.cmu.edu/). La réalisation de telles archives, avec mise à disposition d’outils d’analyse, pose de sérieux problèmes techniques qui, par de nombreux aspects, s’apparentent à des questions de recherche.


Bilan
L’existence de corpus et de bases de données a permis de transformer notre rapport à la langue, nous permettant de comparer les utilisations et les distributions, de nous interroger sur les catégories linguistiques et sur les processus de changement et de formation, de faire évoluer nos pratiques d’enseignement de la langue, etc. On assiste aussi à une certaine mise à plat de vieilles querelles en linguistique, notamment concernant le statut de l’« attesté » par rapport au « possible ». En revanche, d’autres positionnements ont vu le jour, et certaines préoccupations sociolinguistiques, notamment concernant le rapport entre le terrain et l’analyse des données, ont été mises en avant. Tous ces aspects, ainsi que ceux qui relèvent de la gestion des données et de l’outillage dans le stockage et dans l’analyse, forment l’objet de ce colloque qui sera alors l’occasion de faire le point sur la transformation des pratiques, sur les possibilités nouvelles et sur les résultats en termes d’analyses actuelles.

Les propositions de communications pourront porter sur la manière dont les chercheurs en linguistique française utilisent concrètement les ressources existantes et prennent en compte les différentes problématiques décrites ci-dessus. Ou bien elles pourront porter sur les raisons pour lesquelles ils éprouvent le besoin d’élaborer d’autres ressources ou sur toute problématique centrée sur l’exploitation de données. Ce colloque sera aussi l’occasion de proposer des communications traitant de questions récentes en sociolinguistique (enquêtes et projets sur le terrain) ou en lien avec l’acquisition-apprentissage de la langue française (L1 ou L2), en particulier ce sera l’occasion de présenter les avancées liées aux méthodologies de travail sur corpus et aux outils d’exploitation. Justement, les techniques d’interrogation et l’exploitation statistique des résultats, incluant la lexicométrie et la textométrie (Heiden & Pincemin 2008) sont des étapes importantes dans les analyses basées sur des corpus, étendus ou non (cf. Baayen 2009, Bilisoly 2008, Gries 2009). Les propositions présentant une utilisation et/ou une réflexion sur ces techniques sont aussi les bienvenues. Concernant la normalisation, la mutualisation et l’informatisation, les propositions pourront porter sur les aspects détaillés ci-dessus et, plus particulièrement, sur les thèmes liés à la réalisation d’archives fiables et la normalisation de ressources et de métadonnées.


Références
Anglo-Norman Dictionary. http://www.anglo-norman.net/
Baayen, H. 2008. Analyzing Linguistic Data. Cambridge: CUP.
Baayen, H. 1994. Derivational productivity and text typology. Journal of Quantitative Linguistics 1/1, 16-34.
Biggs, P.& M. Dalwood, 1976. Les Orléanais ont la parole. Londres: Longman.
Bilisoly, R. 2008. Practical Text Mining with Perl. Hoboken: Wiley.
Boulton, A. (dir.) 2009. Mélanges CRAPEL 31 (Des documents authentiques oraux aux corpus: questions d’apprentissage en didactique des langues). http://revues.univ-nancy2.fr/melangesCrapel/
Cappeau, P. & F. Gadet 2007. L’exploitation sociolinguistique des grands corpus. Maître-mot et pierre philosophale. Revue Française de Linguistique Appliquée, 121/1, 99-110.
Dictionnaire du moyen français. http://www.atilf.fr/dmf/
Frankenberg-Garcia, A. 2005. Pedagogical uses of monolingual and parallel concordances. ELT Journal, 59/3, 189-198.
Granger, S. 2002. A bird’s-eye view of learner corpus research. In S. Granger et al. (dir.) Computer Learner Corpora, Second Language Acquisition and Foreign Language Teaching, 3-33. Amsterdam: John Benjamins.
Gries, S. 2009. Statistics for Linguistics with R. Berlin: Mouton de Gruyter.
Hathout, N., M. Plénat & L. Tanguy 2003. Enquête sur les dérivés en -able. Cahiers de grammaire 28, 49-90.
Heiden S. & B. Pincemin (dir.) 2008. Actes des 9es journées internationales d’analyse statistique des données textuelles (JADT 2008), Lyon, 12-14 mars 2008. 2 vol. Lyon: Presses Universitaires de Lyon.
Kunstmann, P. & A. Stein 2007. Le nouveau corpus d’Amsterdam. Actes de l’atelier de Lauterbad (23-26 février 2006). Stuttgart: Franz Steiner Verlag.
Langue française 140 (4/2003). La productivité morphologique en questions et en expérimentations.
Lignon, S. & M. Plénat 2009. Echangisme suffixal et contraintes phonologiques (Cas des dérivés en -ien et en -icien). In B. Fradin et al. (dir) Aperçus de morphologie du français, 65-81. Saint-Denis: Presses Universitaires de Vincennes.
Plag, I. 1999. Morphological Productivity. Structural Constraints in English Derivation. Berlin: Mouton de Gruyter.
Plénat, M. 2002. Jean-Louis Fossat: fossatissime. Note sur la morphophonologie des dérivés en - issime. In L. Rabassa (dir.), Mélanges offerts à Jean-Louis Fossat [Cahiers d’Etudes Romanes (CERCLiD) 11-12], 229-248.
Plénat, M. 1997. Analyse morpho-phonologique d’un corpus d’adjectifs dérivés en -esque. Journal of French Language Studies 7/2, 163-179.
Wittenburg, P. 2010. Archiving and accessing language resources. Concurrency and Computing: Practice and Experience. Advance online publication. doi:10.1002/cpe.1605.