Travailler avec des données langagières ou textuelles : Outils et bonnes pratiques pour la collecte, le traitement, l’annotation, l’analyse et la diffusion des données
12-13 fév. 2026
Organisation:
- CORLI – consortium Corpus, Langues est Interactions
- PUD-T – la plateforme Universitaire de Données de Toulouse
- MSHS-T – la Maison des Sciences Humaines et Sociales de Toulouse
Cette formation aura lieu dans le cadre de la love data week, les 12 et 13 février 2026, à Toulouse.
Programme provisoire :
1er jour, 12 février 2026 – Gestion, préparation, annotation et diffusion des données
9h00-9h30 Introduction
Cécile Fabre (MSHS-T/ CLLE, UT2J), Céline Poudat (BCL, Université Côte d’Azur/ CORLI)
9h30-12h30 Atelier (1) TACTEO pour la transcription et le partage de données manuscrites, initiation à l’outil TACTEO pour une transcription guidée et collaborative, présentation de la norme TEI pour encoder les méta-données et les objets textuels et de ses avantages (dépôts pérennes, outils de vérification et d’exploration, communauté). Ouverture sur les espaces de dépôt : Nakala, Ortolang et l’accès à un concordancier (teaser pour la formation TXM du lendemain)
– animé par Céline Poudat (BCL, Université Côte d’Azur/ CORLI)
12h30-14h00 Pause déjeuner – buffet
14h00-17h00 Atelier (2) INCEpTION pour l’annotation complexe et collaborative de données textuelles avec manipulation des formats d’entrée (txt, XML TEI ou conllu) et de sortie (tsv ou conllu) et aperçu des projets gitlab et de l’outil grewmatch pour diffuser et exploiter les annotations – animé par Lydia-Mai Ho-Dac (CLLE, UT2J/ CORLI)
17h00-17h30 Pause café
17h30-18h30 Présentation Combined Audio and Chat Transcripts for Recorded Video Streams, Steven Coats, University of Oulu, Finland
In this talk we demonstrate a Jupyter-Notebook-based pipeline approach for the integration of speech transcripts with live chat content in order to create structured documents from streams recorded on the platforms YouTube and Twitch. Built on common streaming protocols and the open-source Python library yt-dlp, the notebook, accessible through Google’s Colab, comprises modular script components for data download and organization of streamed content, facilitating both corpus-based and qualitative analysis of streaming interactions.
20h00- Diner en ville (sous réserve)
2e jour , 13 février 2026 –– Analyse des données
9h30-12h30 Sessions parallèles :
Atelier (3a) Initiation à TXM pour l’exploitation des données textuelles – animé par Loïc Liégeois (sous réserve)
Atelier (3b) TXM avancé pour l’exploitation des données annotées – animé par Sascha Diwersy (PRAXILING, Université de Montpellier Paul Valéry)
12h30-14h00 Pause déjeuner – buffet
14h00-17h00 Atelier (4) R/Stats pour l’analyse des données langagières ou textuelles – animé par Ludovic Tanguy (CLLE, UT2J)
Dans cet atelier nous verrons comment analyser les données résultant de l’annotation, en utilisant des méthodes statistiques. Seront présentées les méthodes fondamentales de statistique descriptive (comment faire une synthèse) et de statistique inférentielle (comment croiser des caractéristiques et tester des hypothèses).
Contact : Florence.Chenu@univ-lyon2.fr ou pudt@univ-toulouse.fr
