Un corpus pour l’étude du français contemporain: Outils et Ressources pour le Français Ecrit et Oral

Un corpus pour l’étude du français contemporain: Outils et Ressources pour le Français Ecrit et Oral

Chères et chers collègues,

J’ai le plaisir de vous annoncer que la plate-forme Outils et Ressources pour le Français Ecrit et Oral (Orfeo) est en libre accès à l’adresse suivante :

https://www.ortolang.fr/market/corpora/cefc-orfeo

La plate-forme permet d’interroger le Corpus d’Etude pour le Français Contemporain (CEFC) qui comprend 10 M. de mots :
– 4 M. de mots de français parlé correspondant à environ 350 heures d’enregistrements (2500 locutrices et locuteurs) provenant de France, de Suisse et de Belgique et illustrant différentes situations de parole : conversations, entretiens, réunions, cours, discours
– 6 M. de mots provenant de textes écrits de genres différents : littérature, textes scientifiques, presse nationale et régionale, écrits académiques, écrits non-standard.

Le corpus est interrogeable à partir des métadonnées ; noms des corpus, type de textes ou d’interactions, nombre de locuteurs ect… L’ensemble du corpus a été lemmatisé et annoté semi-automatiquement en catégories (POS) et en dépendances syntaxiques.

Deux outils de recherche permettent d’interroger le corpus. Les requêtes donnent accès au texte et à la transcription alignée avec le son ainsi qu’aux arbres de dépendances. Des guides sont disponibles pour toutes les annotations. Tous les fichiers : texte, transcription, son et annotations sont téléchargeable librement.

Jeanne-Marie Debaisieux <jeanne-marie.debaisieux(at)Sorbonne-Nouvelle.fr>

Orfeo (Tools and resources for written and oral French) is a portal which gives access to the Corpus for the Study of Contemporary French: (CEFC). The corpus consists of 10 M. words:

– 4 million words from spoken French transcriptions of about XXX hours of recordings, collected in France, Switzerland and Belgium and in different diaphasic situations (face-to-face conversations; interviews, debates, and classroom interactions; lectures, sermons, and speeches, as well as radio and television programs).
– 6 million words of written texts from a wide range of genres (e.g. literature, scientific texts, regional and national press, essays, academic, non-standard writings).
– CEFC is freely available on the portal : https://www.ortolang.fr/market/corpora/cefc-orfeo
– The portal gives access to the acoustic files and textual resources. The corpus is searchable for textual and register variables available from the metadata, as well as for lexical and morpho-syntactic (POS) annotations. The entire corpus is further semi-automatically annotated with syntactic dependencies. The search tool can return dependencies patterns. All the queries return orthographic transcriptions aligned with audio files. Guides are provided for all types of annotations. All files: texts, sounds and annotations are freely downloadable.