Nous avons le plaisir de vous annoncer la mise à disposition de la version 0.0.1 du corpus Les Vocaux (Glikman, Mazziotta, Benzitoun et Fauth 2024). Ce corpus est issu de deux campagnes de recueil des sms vocaux menées en 2021 et 2022.
La version 0.0.1 contient 745 fichiers audio provenant des deux collectes (dont la totalité de la campagne 2021, y compris les extraits). Ces fichiers totalisent une durée de 10h19min08sec, correspondant à près de 128 000 mots transcrits. Chaque fichier correspond à un vocal authentique (sauf les extraits de la campagne 2021, identifiés comme tels dans le nom de fichier même).
Le corpus étant toujours en cours d’édition, la version distribuée doit être considérée comme une version provisoire. Certains choix éditoriaux sont susceptibles d’être modifiés (outre les corrections d’erreurs manifestes). Il convient ainsi de veiller à citer explicitement la version du corpus utilisée pour toute recherche.
Lien : https://www.atilf.fr/ressources/corpus-les-vocaux/
En vous souhaitant une bonne exploration !
Julie Glikman, Nicolas Mazziotta, Christophe Benzitoun et Camille Fauth