Journée d’étude : “Corpus glosés: de la production à l’exploitation automatique”

Journée d’étude : “Corpus glosés: de la production à l’exploitation automatique”

Les GdR LIFT et TAL organisent le 28 juin 2023 à Paris une journée d’étude sur les corpus glosés.

Les gloses interlinéaires sont le format utilisé pour annoter les données sur les langues nouvellement décrites, notamment dans les cadres de la linguistique descriptive et de la typologie linguistique.  Elles font l’objet d’un intérêt croissant depuis plusieurs années de la part des chercheurs en linguistique informatique, du fait de la diversité empirique auxquelles elles donnent accès et des défis posés par la normalisation et la structuration de ce format.

Cette journée d’étude se penchera en particulier sur les questions de la conversion des données existantes, sur la normalisation et la sémanticisation des gloses, et sur les méthodes d’apprentissage pour assister la génération ou la validation de gloses et l’inférence de représentations linguistiques.

Cette journée a pour but de réunir des membres de communautés scientifiques différentes s’intéressant aux gloses interlinéaires et de favoriser les échanges entre points de vue.  Le séminaire sera entièrement gratuit et aura lieu en présence et en ligne via la plateforme Zoom.

La journée s’organisera entre des conférences invitées, des présentations courtes de travaux en cours et une session de posters.  Nous sollicitons donc des propositions de communication (2 page maximum) sur les thèmes suivants:

– retour d’expérience sur des projets d’aggrégation, de conversion ou d’homogénéisation de corpus de gloses interlinéaires ;
– exploration sur la diversité des formats et des conventions utilisés dans les différents corpus de gloses interlinéaires
– retour d’expérience sur des projets d’infrastructure pour la réalisation, l’archivage ou la diffusion de corpus glosés
– normalisation et standardisation, sémanticisation : élaboration de référentiels, conversion des étiquettes des corpus glosés vers des référentiels;
– projets portant sur  le développement de nouveaux outils d’annotation et d’exploration de corpus glosés;
– travaux en traitement  automatique des langues réalisés sur des corpus glosés, à des fins de constructions de représentations linguistiques, de transfert de connaissances, d’automatisation ou de validation des gloses

Calendrier:
– 15 mai 2023 : soumission des propositions de communication sur le site https://glose2023.sciencesconf.org
– 01 juin 2023: notification aux auteur-e-s
– 28 juin 2023: journée d’étude

Cet atelier est organisé sous l’égide du GDR LIFT (https://gdr-lift.loria.fr/) et du GDR TAL (https://gdr-tal.ls2n.fr/) avec le soutien des projets ANR CLD 2025 et Autogramm (https://autogramm.github.io/).

Organisation:
– Sylvain Loiseau (LACITO)
– Sylvain Kahane (MODYCO)
– François Yvon (CNRS)