Appel à contributions : Constitution de Corpus en Diachronie Longue, Novembre 2024, Lyon

Appel à contributions : Constitution de Corpus en Diachronie Longue, Novembre 2024, Lyon

La constitution de corpus en diachronie longue, entre tradition
philologique et analyse quantitative

ConCorDiaL 2024, Lyon

7-8 novembre 2024

Appel à communications

Le colloque ConCorDiaL 2024 : Constitution de Corpus en Diachronie Longue, entre tradition philologique et analyse quantitative se tiendra à Lyon (France) les 7 et 8 novembre 2024. Vous trouverez l’Appel à communication en pièce jointe.

Les propositions (500 mots maximum) sont à déposer sur le site d’ici le 15 mai 2024.

Plus d’information sur le site internet :https://concordial.sciencesconf.org

Comité d’organisation (ENS de Lyon) :

Laboratoire IHRIM UMR 5317 (Céline Guillot-Barbance, Alexey Lavrentev, Tanguy Lemoine), Laboratoire ICAR UMR 5316 (Matthieu Quignard) & Laboratoire CERCC (Raphaël Luis).

Depuis ses origines, la linguistique diachronique entretient des liens intimes avec la linguistique
de corpus, les diachroniciens ne pouvant par définition faire appel à leur compétence de
locuteurs et devant s’appuyer sur des données attestées et authentiques pour travailler
(Marchello-Nizia 2004, Prévost 2020). Les corpus numériques diachroniques et/ou de textes
anciens se sont ainsi considérablement développés, et en France, Frantext et la Base de français
médiéval ont joué un rôle moteur dans ce mouvement initié dans les années 1980. Ces corpus
se sont généralement construits sur des éditions imprimées et ont connu un développement
distinct de celui des éditions numériques natives, plus focalisées sur la transposition numérique
de l’apparat critique et de la représentation des sources primaires souvent manuscrites dans une
perspective philologique. Cette dissociation, qui recouvre en partie les frontières disciplinaires
entre linguistes et littéraires, s’est notamment traduite en France par la création de deux
consortiums distincts dans le cadre de l’infrastructure nationale de recherche Huma-Num, à
savoir un consortium pour les corpus linguistiques (aujourd’hui CORLI, CORpus, Langues et
Interactions) et un autre pour les éditions de texte et l’analyse littéraire et stylistique
(aujourd’hui ARIANE, Analyses, Recherches, Intelligence Artificielle et Nouvelles Éditions
numériques). On peut se demander si la dynamique actuelle des approches quantitatives en
littérature (Bernard et Bohet 2017, Diwersy et al. 2021, Barré, Camps et Poibeau 2023) et si la
création de données linguistiques nouvelles sous forme numérique ne rendent pas cette bi-
partition désormais en partie artificielle.
L’essor exponentiel des corpus numériques est par ailleurs à l’origine d’une surabondance,
voire d’un « déluge » de données (Habert 2005 : 41), et même si cette tendance est moins forte
dans le cas des corpus de langues anciennes – l’accès aux données primaires n’étant pas aussi
immédiat que pour les données langagières contemporaines –, ces corpus ne cessent de grossir
en taille et en diversité. Les outils permettant le traitement, l’annotation et l’interrogation des
textes, ont en parallèle considérablement enrichi les corpus textuels et leur exploitation
numérique. Toujours plus gourmands en données (cf. les avancées récentes de l’IA et des agents
conversationnels), les outils du Traitement automatique des langues ne font qu’amplifier la
demande d’accroissement et favorisent en même temps le développement des méthodes
statistiques en linguistique de corpus et dans l’analyse des données textuelles (Lebart, Pincemin
et Poudat 2019).
C’est dans ce contexte et dans la lignée du premier colloque ConCorDial (Grenoble 2022,
https://concordial2022.sciencesconf.org) que cette seconde édition propose d’approfondir la
réflexion sur les corpus numériques en diachronie longue, en articulant constitution et analyse
de corpus et en poursuivant les échanges entre créateurs et utilisateurs de données langagières.

Axe 1 : Traitement des corpus numériques diachroniques
L’accumulation de données numériques oblige à faire face au défi de leur hétérogénéité interne.
Cette hétérogénéité dérive de la diversité des sources qui peuvent avoir différentes provenances
avant d’être réunies dans un corpus particulier. Elle peut concerner aussi bien la qualité de
numérisation des textes, que leur format numérique (XML ou autre), les métadonnées qui
permettent de les décrire et bien sûr aussi leurs annotations linguistiques. À ces facteurs
généraux, peuvent s’ajouter pour les périodes les plus anciennes les variations graphiques et
morphologiques qui compliquent la reconnaissance des formes et le travail des outils de TAL.
On pourra s’intéresser aux différentes façons de traiter cette hétérogénéité en fonction des
usages escomptés et des contraintes (techniques, financières, etc.) qui s’imposent.
Ces questions pourront également être abordées sous l’angle de la compatibilité et de
l’interopérabilité entre différents corpus. Les référentiels communs (concernant les balises, les
métadonnées, la segmentation lexicale, les lemmes, les jeux d’étiquettes morphosyntaxiques,
les annotations syntaxiques ou sémantiques, etc.) sont une manière de répondre à cet objectif
qui devient de plus en plus nécessaire à mesure que les corpus se multiplient. Dans ce cadre,
les enjeux de la perennité et de la sauvegarde des données sont également à prendre en compte.
On pourra notamment se demander comment concilier une exigence de normalisation avec le
respect de la diversité et de la richesse des données d’origine (comment, par exemple, utiliser
un jeu d’étiquettes multilingue sans appauvrir l’étiquetage d’une langue particulière ?).
La dimension historique sur le temps long pourra faire l’objet d’une réflexion spécifique, la
variation diachronique étant d’autant plus importante que le corpus couvre une vaste période et
se manifestant à tous les paliers de traitement. Comment gérer les évolutions qui touchent les
genres textuels (apparitions/disparitions, évolutions à l’intérieur d’un genre donné, les genres
étant historiquement situés et évoluant dans le temps, cf. Winter-Froemel 2023) ? Doit-on
utiliser les mêmes lemmes quelle que soit la période ou se fonder sur des dictionnaires propres
à chaque état de langue ? Comment traiter les changements dans la segmentation en unités
lexicales et l’émergence de locutions grammaticalisées ?
Les questions soulevées ici ne sont pas exhaustives et toutes les propositions de communication
abordant la constitution et le traitement de corpus diachroniques seront examinées.

Axe 2 : Méthodes quantitatives et qualitatives pour l’exploitation de corpus diachroniques
Les méthodes quantitatives étant de plus en plus utilisées sur tous les plans de l’analyse
linguistique (lexique, phonologie, morphologie, syntaxe, etc.) et se diffusant dans le champ des
études stylistiques (stylèmes, phraséologismes) et littéraires (topiques, motifs narratifs, etc.), on
pourra interroger leur impact sur les corpus numériques diachroniques : comment tenir compte
de ces usages dans la sélection, la préparation, la description et l’organisation des données ?
quelles méthodes et quels outils employer pour le repérage et l’interprétation quantitative des
données ?
Dans ce cadre, on pourra s’intéresser plus spécifiquement aux apports et aux limites de
l’annotation linguistique et se demander quels types d’enrichissements privilégier pour faciliter
les recherches diachroniques, quel niveau de granularité adopter, quel équilibre viser entre
quantité et qualité des annotations, etc.

Les méthodologies quantitatives spécifiquement adaptées à l’analyse diachronique feront
l’objet d’une attention particulière. On pourra notamment traiter des différents types de
variation, des spécificités du facteur diachronique ou des manières de cibler ce facteur
particulier ou au contraire de décrire la façon dont il interagit avec d’autres (Hilpert et Gries
2016). De même, les nouvelles possibilités offertes par les outils de périodisation automatique
(Gries et Hilpert 2008, Diwersy et al. 2017), ou les méthodes permettant de mesurer et
d’interpréter des tendances (Hilpert et Gries 2009), etc. pourront être présentées.
L’articulation entre méthodes quantitatives et analyse qualitative sera également prise en
compte, de même que la dimension philologique des données construites pour une exploitation
linguistique ou littéraire.

Conférences invitées

• Sascha Diwersy (Université Montpellier, UMR Praxiling)
• Thierry Poibeau (CNRS, UMR Lattice)
• Céline Poudat (Université Côte d’Azur, UMR BLC)

Modalités

La durée des présentations sera de 30 minutes suivies d’une discussion de 10 minutes. Le
colloque se déroulera en mode hybride (présentiel souhaité pour les intervenants). Les langues
de communication acceptées sont le français et l’anglais.
Les résumés doivent comprendre entre 300 et 500 mots (sans compter les références
bibliographiques) et seront rédigés dans la langue de communication. Ils doivent être déposés
sur le site de la conférence (https://concordial.sciencesconf.org) en deux versions : une version
anonymisée (à copier-coller dans le formulaire) et une version précisant le nom et l’affiliation
de l’auteur ou des auteurs dans un document Word ou PDF. Merci d’utiliser le modèle de
document proposé.

Frais d’inscription

Les frais d’inscription seront communiqués à l’ouverture de l’inscription (entre 40 et 60 €).
Exonération :
• participants en ligne
• membres des laboratoires organisateurs
• doctorants

Calendrier

• Date limite de soumission de résumé : 15 mai 2024
• Retour des évaluations : 1er juillet 2024
• Soumission de la version définitive des résumés : 1er octobre 2024
• Inscription au colloque : du 1er septembre au 1er octobre
• Colloque : du 7 au 8 novembre 2024

****

CFP ConCorDiaL 2024: Corpus Building in Long-Diachrony, between philological tradition and quantitative analysis, Lyon (France), 7-8 November 2024

Dear colleagues,

The conference ConCorDiaL 2022 Building long-diachrony corpora, between philological tradition and quantitative analysiswill be held in Lyon (France) November 7 and 8, 2024. Please find the Call for Papers in attachment.

Proposals (500 words maximum) must be submitted on the website by May 15, 2024 (23:59 CEST).

More information on the website:https://concordial.sciencesconf.org

Organising Committee (ENS de Lyon) : Laboratoire IHRIM UMR 5317 (Céline Guillot-Barbance, Alexey Lavrentev, Tanguy Lemoine), Laboratoire ICAR UMR 5316 (Matthieu Quignard) & Laboratoire CERCC (Raphaël Luis)