L’objectif du projet a été de développer un protocole d’adaptation des outils d’analyse syntaxique (parsing) pour le traitement de corpus en diachronie longue et de le tester pour l’annotation des données d’intérêt patrimonial.
Dans le cadre du projet AUTOMATED, une procédure pour l’analyse syntaxique automatique, la correction des sorties du parsing automatique et le réentraînement de modèles en utilisant les outils existants librement disponibles a été élaboré. Un document détaillant un protocole adapté aux besoins des chercheurs en langues romanes a été mis à disposition de la communauté. Il s’agit d’un guide pratique pour les utilisateurs qui peut être appliqué sans compétences en informatique.
Romanova, N., Larrivée, P., & Ziane, R. (2025). Procedure for semi-automatic parsing of Romance corpora (Version 1). Zenodo. https://doi.org/10.5281/zenodo.17737727
En outre, une version abrégée du protocole, accompagnée d’une introduction au formalisme d’annotation Universal Dependencies et un exercice pratique pour le parsing d’un texte en français, a été testée en 2024 et en 2025 auprès des étudiants de M1 en Sciences du Langage à l’université de Caen.
Romanova, N., Larrivée, P., & Ziane, R. (2025, novembre 27). Introduction au parsing syntaxique automatique. Zenodo. https://doi.org/10.5281/zenodo.17728962
Le protocole a été mis en pratique lors de la constitution de deux collections de textes annotées syntaxiquement qui sont utilisables (1) pour la recherche en linguistique diachronique et (2) pour l’entraînement de modèles d’annotation syntaxique automatiques.
Il s’agit, premièrement, d’une collection de textes juridique normands (du quatorzième au seizième siècle) et, deuxièmement, d’un corpus de textes juridiques en ancien gascon (du treizième au quinzième siècle).
Les données sont consultables en ligne via la plateforme GrewMatch et les fichiers sont téléchargeables sur les dépôts GitHub du projet.
Le corpus AUTOMATED (textes juridiques normands) :
- ALTM (Automated Legal Texts Medieval) Old French
- ALTM (Automated Legal Texts Medieval) Middle French
- ALTS (Automated Legal Text Sixteenth Century)
Le corpus CorAG : Corpus d’ancien gascon (textes juridiques gascons) :
- https://universal.grew.fr/?corpus=UD_Old_Occitan-CorAG@2.17
- Données : https://github.com/UniversalDependencies/UD_Old_Occitan-CorAG
Un portail de parsing syntaxique facile à utiliser avec des modèles préentraînés pour le français en diachronie et le gascon ancien, élaboré dans le cadre du projet AUTOMATED en collaboration avec l’équipe ArboratorGrew à l’Inria Nancy va être disponible prochainement.
Porteur du projet : Pierre Larrivé.
Page de référence du projet : https://www.unicaen.fr/projet_de_recherche/automated/
