Journée d’étude : Le Nouveau Corpus d’Amsterdam (NCA) et la Base de Français Médiéval (BFM) : états et perspectives philologiques et linguistiques

Journée d’étude : Le Nouveau Corpus d’Amsterdam (NCA) et la Base de Français Médiéval (BFM) : états et perspectives philologiques et linguistiques

Journée d’études vendredi 9 avril 2021 (10h-17h)

https://www.sfl.cnrs.fr/journee-detudes-vendredi-9-avril-2021-10h-17h

Lieu : Conférence virtuelle (UJM Lyon 3 / UMR 7023 CNRS SFL U. Paris 8 / ENS Lyon)

Organisateurs : 

Michela Russo / Clémence Jaime / Céline Guillot-Barbance / Alexei Lavrentiev

Conférenciers invités :

Achim Stein (Institut für Linguistik/Romanistik, Universität Stuttgart)

&

Alexei Lavrentiev (ENS/ Lyon)

Outre les conférences invitées, cette journée scientifique inclut deux ateliers ayant pour objet le français médiéval et le numérique, ouverts à tous les étudiants de master et doctorants potentiellement intéressés 

Tous les collègues et les étudiants sont cordialement invités à participer sur inscription : contact michela.russo@cnrs.fr & celine.guillot@ens-lyon.fr

Le Nouveau Corpus d’Amsterdam (NCA) et la Base de Français Médiéval (BFM) :  états et perspectives philologiques et linguistiques

 

Cette journée d’études porte sur deux corpus de français médiéval, le Nouveau Corpus d’Amsterdam (NCA, 299 textes littéraires et extraits de textes, dont 57 en prose), accessible en ligne (TWIC online research https://sites.google.com/site/achimstein/research/resources/nca ) ou par TXM en installation locale, et la Base de Français Médiéval (BFM, 170 textes) accessible sur le portail d’analyse textométrique BFM-TXM (http://txm.bfm-corpus.org), mais aussi exploitable par TXM en installation locale.

Le Nouveau Corpus d’Amsterdam (NCA), corpus édité (révisé et lemmatisé) par Pierre Kunstmann et Achim Stein est la nouvelle version du Corpus d’Amsterdam, un corpus de textes littéraires de l’ancien français constitué au début des années 1980 par Anthonij Dees (Vrije Universiteit Amsterdam) et ses collaborateurs (Piet van Reenen et d’autres). Il a donné lieu à l’Atlas des formes linguistiques des textes littéraires de l’ancien français (Dees et al. 1987).

Les formes de ces textes ont été annotées manuellement par l’équipe de Dees avec un ensemble d’étiquettes numériques codant les parties du discours et d’autres catégories morphologiques. Certains textes sont des versions électroniques d’éditions existantes, d’autres sont des transcriptions de manuscrits faites spécialement pour ce corpus.

Cette journée vise à faire connaître le corpus informatique des textes littéraires du Nouveau Corpus d’Amsterdam (NCA), la version électronique des textes fournie par Piet van Reenen (U. libre d’Amsterdam), qui contient environ 200 textes différents, écrits entre le début du XIIe et la fin du XIVe siècle (certains d’entre eux dans plusieurs manuscrits, ce qui donne un total de 299 textes), son type d’annotation syntaxique et son étiquetage morphologique.

L’équipe de Dees disposait également d’un corpus de 3300 chartes locales, originales datées (réunies principalement par Anthonij Dees et Piet van Reenen). Le résultat de ce travail a été l’Atlas des formes et des constructions des chartes françaises du 13e siècle (Dees et al. 1980). Grâce à la Vrije Universiteit Amsterdam une partie importante de ces chartes a été informatisée (dans ses parties grammaticales, groupes nominaux, groupes pronominaux, etc.).

Dans cette journée un focus sera porté sur la description de ces chartes du XIIIe s., chartes parisiennes et anglo-normandes, chartes de l’Aube (rendues disponibles grâce à Piet van Reenen) et sur leur annotation morphologique (320.000 mots, annotés-POS, avec codes numériques).

Quant à la BFM, la Base de français médiéval, elle est implantée depuis l’origine au sein de l’ENS de Lyon. Fondée en 1989 par Christiane Marchello-Nizia, la BFM est actuellement gérée par Céline Guillot-Barbance, resp. scientifique, et Alexei Lavrentiev, resp. de la philologie numérique. Elle contient plusieurs corpus numériques de textes français écrits entre le IXe et la fin XVe siècle. Les textes sont annotés en morphosyntaxe, ils sont lemmatisés et les passages au discours direct sont encodés. L’accès à la BFM est ouvert et se fait par la plateforme d’analyse textométrique TXM, qui offre plusieurs fonctionnalités de recherche et d’analyse au travers de concordances de mots et de motifs textuels, etc.

Le NCA et la BFM constituent deux ressources précieuses pour le français médiéval.

Programme de la Journée (Conférences et Ateliers):

–        10h 11h :                    Achim Stein (Institut für Linguistik/Romanistik, Universität Stuttgart) Le Nouveau Corpus d’Amsterdam (NCA): origines, annotation et perspectives

–        11h-11h15                  Pause Café (salle scindée STEIN)

–        11h15-13h                  Atelier 1 pour étudiants en Master/Doctorat (resp. Achim Stein/Michela Russo/Clémence Jaime):  Le NCA soumis à l’analyse linguistique. L’exemple de la partitivité en ancien français.

–        13h-14h Pause Repas (salle scindée)

–        14h 15h Alexei Lavrentiev & Céline Guillot-Barbance (IHRIM – CNRS & ENS / Lyon) « La Base de Français Médiéval en 2021 : état actuel et évolutions en cours »

–        15h-15h15                  Pause Café (salle scindée LAVRENTIEV)

–        15h15-17h  Atelier 2 pour étudiants en Master/Doctorat (Resp. Alexei Lavrentiev/Zeina Tmart et Céline Guillot-Barbance) : Constitution et annotation manuelle d’un corpus dans le cadre d’un projet de recherche : le cas de la coordination.

Résumés Journées (Conférences et Ateliers 1 & 2)

Conférence Achim Stein (Institut für Linguistik/Romanistik, Universität Stuttgart)

Le Nouveau Corpus d’Amsterdam (NCA) : origines, annotation et perspectives

Dans la première partie de cette conférence, je présenterai la genèse du plus ancien corpus digital de français médiéval, à partir des fichiers établis par l’équipe d’Anthonij Dees à l’Université libre d’Amsterdam dans les années 1980 jusqu’à sa ré-édition 25 ans plus tard.  La deuxième partie sera consacrée à la conversion des données d’origine et aux tentatives et défis de la lemmatisation. Dans la partie finale, j’évoquerai la position que le NCA occupe aujourd’hui dans le paysage des corpus anciens et son utilité d’un point de vue philologique et technique.

Contenu Atelier 1 (resp. Achim Stein/Michela Russo & Clémence Jaime):

Le NCA soumis à l’analyse linguistique. L’exemple de la partitivité en ancien français (resp. Achim Stein/Michela Russo/Clémence Jaime)

Dans ce groupe les étudiants travailleront à partir des fonctionnalités du corpus avec l’installation locale NCA/TXM en utilisant des requêtes syntaxiques à partir de l’interface TigerSearch implémenté en ligne pour le GRAAL sur le portail BFM/TXM, aux indications diatopiques (code régional, localisation utilisée dans l’atlas) et à l’annotation originale du Corpus d’Amsterdam. Achim Stein montrera aux étudiants les différences entre les résultats de l’analyse manuelle (en se référant au SRCMF Syntactic Reference Corpus of Medieval French http://srcmf.org/) et de l’analyse automatique (du NCA). Il introduira également les étudiants à l’analyse syntaxique (dépendantielle) automatique de l’ancien français, en montrant par exemple une banque d’arbres en l’appliquant au NCA.

Au sein de cet atelier, Clémence Jaime (étudiante en M2 « Linguistique et dialectologie » à l’UJM Lyon 3) illustrera à partir de l’interface BFM/NCA/TXM en ligne et en installation locale (au travers aussi des expressions régulières) « L’exemple de la partitivité en ancien français », objet de son mémoire de recherche.

[Il est conseillé aux étudiants d’installer le logiciel TXM : http://textometrie.ens-lyon.fr/spip.php?rubrique61; le NCA https://sites.google.com/site/achimstein/research/resources/nca ainsi que TIGERSearch zip archive: nca3-for-tiger.zip]

 

Conférence Alexei Lavrentiev & Céline Guillot-Barbance (IHRIM – CNRS & ENS / Lyon)

La Base de Français Médiéval en 2021 : état actuel et évolutions en cours

Cette conférence/démonstration se focalisera sur les fonctionnalités moins connues des utilisateurs de la Base de français médiéval. Il sera question de l’étiquetage morphosyntaxique (Cattex et UD) et de la lemmatisation (automatique et vérifiée), ainsi que des outils d’analyse quantitative (progression, spécificités, analyse factorielle de correspondances, cooccurrences) fournis par l’application TXM et non encore disponibles sur le portail en ligne. Les nouveautés du corpus BFM 2021 dont la publication est prévue en juin-juillet seront présentées en guise de conclusion.

Contenu Atelier 2 : (Resp. Alexei Lavrentiev/Zeina Tmart & Céline Guillot-Barbance)

Constitution et annotation manuelle d’un corpus dans le cadre d’un projet de recherche : le cas de la coordination

Dans cet atelier, Zeina Tmart (doctorante à l’ENS de Lyon) présentera son projet de recherche portant sur l’évolution de la coordination en français du XIIe et au XVIe siècle. La présentation ira de la conception du corpus à son annotation avec TXM et à l’exploitation des résultats. L’atelier permettra aux étudiant(e)s de travailler à l’annotation de concordances avec le logiciel TXM. Cette fonctionnalité permet de corriger les erreurs de l’étiquetage et de l’annotation automatiques et d’ajouter des annotations supplémentaires aux mots du corpus.

 

Références

DEAFbibl = Möhren, Frankwalt (2007). Dictionnaire étymologique de l’Ancien Français – Complément bibliographique. Tübingen: Niemeyer.

DEAFCompl = Baldinger, Kurt/Möhren, Frankwalt (1993). Dictionnaire étymologique de l’ancien français. Complément bibliographique. Tubingue : Niemeyer.

Dees, Anthonij, avec le concours de Piet Th. Van Reenen et de Johan A. De Vries (1980). Atlas des formes et des constructions des chartes françaises du 13e siècle, Beihefte Zeitschrift für romanische Philologie 178, Tübingen : Niemeyer.

Dees, Anthonij, avec le concours de Marcel Dekker, Onno Huber et Karin Van Reenen-Stein (1987) : Atlas des formes linguistiques des textes littéraires de l’ancien français, Tübingen : Niemeyer.

Guillot-Barbance, Céline / Heiden, Serge & Lavrentiev, Alexei (2017). « Base de français médiéval : une base de référence de sources médiévales ouverte et libre au service de la communauté scientifiques », Diachroniques 7, 168-184. <halshs-01809581>.

Heiden, Serge, Magué, Jean-Philippe & Pincemin, Bénédicte (2010). « TXM : Une plateforme logicielle open-source pour la textométrie – conception et développement ». In JADT 2010 : 10th International Conference on the Statistical Analysis of Textual Data, Rome, Edizioni Universitarie di Lettere, Economica e Diritto, 1021-1032. <halshs-00549779>

Kunstmann, Pierre & Stein, Achim (éd.) (2007). Le Nouveau Corpus d’Amsterdam. Actes de l’atelier de Lauterbad, 23-26 février 2006, Stuttgart : Steiner (= Beihefte zur Zeitschrift für französische Sprache und Literatur 34).

Stein, Achim et al. (éd.) (2006). Nouveau Corpus d’Amsterdam. Corpus informatique de textes littéraires d’ancien français (ca 1150-1350), établi par Anthonij Dees (Amsterdam 1987), remanié par Achim Stein, Pierre Kunstmann et Martin-D. Gleßgen. Stuttgart: Institut für Linguistik/Romanistik, version 3.

van Reenen, Piet, avec le concours de Evert Wattel et Margôt van Mulken: Champagne 1270-1300, Chartes en langue française conservées aux Archives de l’Aube, Orléans: Paradigme 2006. (Chartes de l’Aube – version imprimée. La version électronique est fournie par Piet van Reenen avec l’autorisation de l’éditeur).

Tutoriel TXM pour la BFM, v. 3.1 (2019), en ligne. http://bfm.ens-lyon.fr/spip.php?article297.