Corpus Les Vocaux

Le corpus Les Vocaux est réalisé dans le cadre du projet ORALIDIA : Oralité et diachronie : une voie d’accès au changement linguistique. Malgré le développement des corpus oraux, l’accès à l’oral spontané reste difficile. Le projet ORALIDIA vise à la constitution d’un corpus inédit de français parlé spontané : les «sms vocaux» ou «vocaux». Ces données sont spontanément produites en dehors de toute enquête ou entretien linguistique, et constituent une voie d’accès à la parole spontanée non surveillée, nécessaire pour la description de la langue naturelle. Ces données sont ainsi le lieu privilégié d’étude de la diffusion des formes émergentes ou de leur disparition, et du français parlé dans différents contextes, en particulier informels. Les SMS du corpus ont été recueillis en 2021 et en 2022. Le corpus comportera les fichiers audio, une transcription orthographique, un alignement phonétique au signal, une lemmatisation, une annotation morphosyntaxique et une annotation syntaxique de type UD.

Accès au corpus

Contact : julie.glikman [at] univ-lorraine.fr

Actualités

Podcast

Que nous racontent les notes vocales ?

Invitée par Pascal Paradou à l’émission de vive(s) voix consacrée à la langue française dans le monde et aux cultures orales, Julie Glikman (ATILF / UL – CNRS) a fait des messages vocaux son objet de recherche…

julie.glikman [at] univ-lorraine.fr

► Écouter le podcast

Appel à participation

Dans le cadre d’une étude sur l’utilisation de la langue dans les SMS écrits et vocaux

La science a besoin de vous !
Participez à une étude pionnière sur l’évolution de la langue à l’ère numérique.

julie.glikman [at] univ-lorraine.fr

► Télécharger le flyer

Récompense

Décembre 2025 | Le corpus Les Vocaux a reçu le prix Sciences Ouvertes des Données de la Recherche 2025, dans la catégorie « Jeux de données manquantes ».

Voir le site de la remise des prix

L’album photo de la remise du prix | 1^er décembre 2025

{"slidestoshow":3,"slidestoscroll":1,"dots":"true","arrows":"true","autoplay":"true","autoplay_interval":3000,"speed":300,"loop":"true","lazyload":""}

Photos © Christophe PEUS / Université-Paris-Saclay

Entretien

Lire l’interview dans Factuel de Julie Glikman, enseignante-chercheuse à l’Université de Lorraine, coresponsable de l’axe de recherche Diachronie de l’ATILF.

Membres du projet

Principaux membres

Julie Glikman (Université de Lorraine, ATILF), porteuse
Christophe Benzitoun (Université de Lorraine, ATILF)
Camille Fauth (Université de Strasbourg, LiLPa)
Nicolas Mazziotta (Université de Liège, Traverses)

Autres participants et stagiaires

Mélanie Lancien (U. Lorraine, collaboratrice)
Mathilde Hutin (U. Louvain, collaboratrice)
Thomas Verjans (U. Toulouse, collaborateur)
Auphélie Ferreira (U. Strasbourg, collaboratrice)
Lori Lamel (Limsi, collaboratrice)
Philippe Boula de Mareuil (Limsi, collaborateur)
Thalassio Briand (U. Strasbourg, stagiaire)
Salomé Klein (U. Strasbourg, stagiaire)
Elia Vertueux (U. Strasbourg, stagiaire)
Jonathan Fontaine (U. Strasbourg, stagiaire)
Hanji Kim (U. Strasbourg, stagiaire)

Financement

Le projet a reçu le financement de l’IDEX Exploratoire de l’Université de Strasbourg (oct. 2022-déc 2024 – 18 000 euros), du laboratoire ATILF et de l’Université de Lorraine (2022 – 4 100 euros), ainsi que le soutien du CNRS (délégation CNRS de J. Glikman 2021-2023)

Description complète du projet IDEX

Informations RGPD

Les participants au projet ont rempli un formulaire de consentement via un formulaire en ligne LimeSurvey hébergé par l’Université de Strasbourg. Le formulaire a été validé par la DPO de l’Université de Strasbourg. Le questionnaire contenait en outre quelques demandes d’informations facultatives afin d’enrichir les métadonnées des vocaux recueillis.

Pour plus d’informations :

Protection des données Vocaux 2022
Limesurvey Grande étude sur les Vocaux

Publications en lien avec le projet

Glikman J., C. Fauth (2022) « Un nouvel accès à la parole spontanée : les vocaux » 34e Journées d’Études sur la Parole, JEP2022, 154 162. ISCA. doi.org/10.21437/JEP.2022-17. https://www.isca-speech.org/archive/pdfs/jep_2022/glikman22_jep.pdf

Mazziotta, N. , & Glikman, J. (2023). Emplois discursifs et pragmatiques des formes du verbe écouter : Observations sur les corpus 88milSMS et Les Vocaux. In M. Saiz-Sánchez & S. Gómez-Jordana Ferary (Eds.), Études de sémantique et pragmatique en synchronie et diachronie. Hommage à Amalia Rodríguez Somolinos. Presses Universitaires de Savoie Mont Blanc. https://hdl.handle.net/2268/304614

Delferrière, F. (2023). Les marqueurs discursifs comme articulateurs d’énoncés : étude d’un corpus de messages vocaux contemporains. (Unpublished master’s thesis). Université de Liège, Liège, Belgique. http://hdl.handle.net/2268.2/17588

Communications et activités de diffusion autour du projet

Glikman J., Mazziotta N. (2022) « Projet “Les Vocaux” : Outils et formats », TraSoGal, Liège, 24 juin 2022. https://hdl.handle.net/2268/294441

Glikman J., C. Fauth, N. Mazziotta, C. Benzitoun (2022) « Une nouvelle voie d’accès au français populaire : les Vocaux », 13ᵉ congrès des francoromanistes, 21-24 septembre 2022, Université de Vienne. https://hal.science/hal-04312509

Glikman J., Mazziotta N., Fauth C., Benzitoun C. (2022) « Le projet Les Vocaux : bilan d’étape. » Sciences participatives et nouvelles données, Nancy, 30 sept. 2022. https://hal.science/hal-04312522

Glikman J. (2022) Présentation du projet Les Vocaux, entretien pour le magazine Savoir(s) de l’Université de Strasbourg : https://savoirs.unistra.fr/eclairage/les-enregistrements-vocaux-passes-a-la-loupe

Glikman, J., N. Mazziotta (2023). « Le projet Les Vocaux: premières analyses » Séminaire PRAXILING, Montpellier, France. [Paper presentation]. https://hdl.handle.net/2268/302120

Glikman J. (2023) « Le projet Les Vocaux : mise en place et chaîne de traitement », Université Saint-Louis, Bruxelles, Belgique, mars 2023.

Glikman J. (2023) « Les “vocaux” constituent-ils un “genre” ? », Séminaire CLLE, Toulouse, avril 2023. https://hal.science/hal-04312595

Glikman J. (2023) « Retour sur les verbes parenthétiques », Séminaire Lattice, Paris, avril 2023. https://hal.science/hal-04312574

Glikman J., C. Benzitoun, C. Fauth, N. Mazziotta (2023) « Étudier la variation intra-individuelle : exploitation à partir du corpus Les Vocaux. » JTTR L’ORATEUR & L’ORATRICE IN SITU : pluriphonie, agentivité et identités. ATILF, 20 novembre 2023. Vidéo de la conférence : https://ultv.univ-lorraine.fr/atilf-en-video/video/16229-journee-thematique-transversale-de-latilf-lorateur-loratrice-in-situ-pluriphonie-agentivite-et-identites/

Corpus Les Vocaux