Appel à contributions : revue Corpus, “Corpus textuels numériques & diachroniques, de la tradition philologique à l’analyse quantitative”

Appel à contributions : revue Corpus, “Corpus textuels numériques & diachroniques, de la tradition philologique à l’analyse quantitative”

Appel à articles pour la revue Corpus

https://journals.openedition.org/corpus

Corpus textuels numériques & diachroniques,
de la tradition philologique à l’analyse quantitative

Céline Guillot-Barbance (ENS de Lyon, UMR IHRIM)

Alexei Lavrentiev (CNRS, UMR IHRIM)

Depuis la fin du siècle dernier, le développement des corpus numériques a profondément renouvelé le domaine des Sciences humaines. Qu’il s’agisse de la linguistique, de l’histoire, de l’étude de la littérature, etc., ces corpus ont permis des avancées considérables. Leur essor exponentiel depuis quelques dizaines d’années est à l’origine d’une surabondance, voire d’un « déluge » de données (Habert 2005 : 41), et même si cette tendance est moins forte dans le cas des corpus de textes anciens – l’accès aux sources primaires n’étant pas aussi immédiat que pour les données textuelles contemporaines –, ces corpus ne cessent de grossir en taille et en diversité. Les outils permettant le traitement, l’annotation et l’interrogation des textes, ont en parallèle considérablement enrichi les bases textuelles et leur exploitation numérique. Toujours plus gourmands en données (cf. les avancées récentes de l’IA et des agents conversationnels), les outils du Traitement automatique des langues ne font qu’amplifier la demande d’accroissement et favorisent en même temps le développement de méthodes statistiques dans l’analyse des données textuelles (Lebart, Pincemin et Poudat 2019).

Au sein de cette dynamique d’ensemble, les corpus diachroniques occupent une place singulière, car ils offrent des possibilités incomparables pour l’analyse contrastive au fondement de l’approche diachronique. Ces corpus se distinguent également par les problèmes techniques et méthodologiques qu’ils sont susceptibles de poser, les données qu’ils rassemblent reposant souvent sur l’agrégation de sources hétérogènes qu’il s’agit d’uniformiser d’une manière ou d’une autre, soit par l’intermédiaire des formes proprement dites, soit au travers des annotations mobilisées lors de la recherche.

À la source de cette hétérogénéité figurent en premier lieu les changements linguistiques, objet qu’il s’agit précisément d’analyser pour les linguistes diachroniciens mais qui s’avère important aussi pour les historiens (Lamassé 2021) et toutes les disciplines s’intéressant aux données langagières, même s’il peut s’agir d’un facteur à prendre en compte parmi d’autres. Une seconde source de diversité tient plutôt au mode d’établissement des textes et à leur dimension philologique. Les corpus numériques se sont généralement construits sur des éditions imprimées, elles-mêmes hétérogènes dans leurs pratiques éditoriales (Duval 2006), et cela d’autant plus que la période représentée est longue. Le développement de ces corpus digitalisés a longtemps été distinct de celui des éditions numériques natives, davantage focalisées sur la transposition de l’apparat critique et sur la représentation plus ou moins fidèle des sources primaires. Cette dissociation entre éditions et corpus électroniques recouvre en partie les frontières académiques entre les littéraires/philologues et les autres disciplines. On peut se demander si les opérations de formatage et d’annotation de plus en plus appliquées aux données numériques ne rendent pas désormais cette bi-partition entre éditions et corpus, approches philologiques et autres, en partie artificielle.

La multiplication des méthodes quantitatives en Sciences humaines, y compris dans le champ littéraire (Bernard et Bohet 2017, Diwersy et al. 2021, Barré, Camps et Poibeau 2023), favorise également le rapprochement des disciplines par le partage d’outils et de procédures d’analyse. De ce point de vue, l’émergence de nouveaux outils statistiques spécialisés dans le découpage et la caractérisation du continuum temporel nous semble offrir un terrain de discussion et d’échange particulièrement fécond pour toutes celles et ceux qui s’intéressent à la dimension temporelle.

C’est donc dans une perspective interdisciplinaire assez large que nous souhaitons ancrer ce numéro de la revue Corpus. La thématique des corpus textuels numériques et diachroniques  a fait l’objet de la seconde édition du colloque ConCorDiaL, qui s’est tenu à Lyon en 2024 (https://concordial.sciencesconf.org). Les exposés présentés lors de ce colloque ont porté sur les outils et méthodologies pour l’étude diachronique du lexique, de la syntaxe, de la structure textuelle et de l’intertextualité dans une perspective linguistique, littéraire philologique et historique. Ces recherches pourront trouver leur place dans le numéro proposé, mais nous invitons également les collègues venant d’autres horizons à répondre à cet appel à articles.

Axe 1 : Traitement des corpus textuels numériques & diachroniques

L’accumulation de données numériques oblige à faire face au défi de leur hétérogénéité interne. Cette hétérogénéité héritée de la diversité des sources agrégées peut concerner aussi bien la qualité de numérisation des textes, que leur format numérique (XML TEI ou autre), les métadonnées qui permettent de les décrire et bien sûr aussi leurs annotations linguistiques. À ces facteurs généraux, peuvent s’ajouter pour les périodes les plus anciennes les variations graphiques et morphologiques qui compliquent la reconnaissance des formes et le travail des outils de TAL. On pourra s’intéresser aux différentes façons de traiter cette hétérogénéité en fonction des usages escomptés et des contraintes (techniques, financières, etc.) qui s’imposent.

Ces questions pourront également être abordées sous l’angle de la compatibilité et de l’interopérabilité entre différents corpus. Les référentiels communs (concernant les balises, les métadonnées, la segmentation lexicale, les lemmes, les jeux d’étiquettes morphosyntaxiques, les annotations syntaxiques ou sémantiques, etc.) sont une manière de répondre à cet objectif qui devient de plus en plus nécessaire à mesure que les corpus se multiplient. Dans ce cadre, les enjeux de la pérennité et de la sauvegarde des données sont également à prendre en compte. On pourra notamment se demander comment concilier une exigence de normalisation avec le respect de la diversité et de la richesse des données d’origine (comment, par exemple, utiliser un jeu d’étiquettes multilingue sans appauvrir l’étiquetage d’une langue particulière ?).

La dimension historique sur le temps long pourra faire l’objet d’une réflexion spécifique, la variation diachronique étant d’autant plus importante que le corpus couvre une vaste période et se manifestant à tous les paliers de traitement. Comment gérer les évolutions qui touchent les genres textuels (apparitions/disparitions, évolutions à l’intérieur d’un genre donné, les genres étant historiquement situés et évoluant dans le temps, cf. Winter-Froemel 2023) ? Doit-on utiliser les mêmes lemmes quelle que soit la période ou se fonder sur des dictionnaires propres à chaque état de langue ? Comment traiter les changements dans la segmentation en unités lexicales et l’émergence de locutions grammaticalisées ?

Les questions soulevées ici ne sont pas exhaustives et toutes les propositions abordant la constitution et le traitement de corpus diachroniques seront examinées.

Axe 2 : Méthodes quantitatives et qualitatives pour l’exploitation de corpus textuels numériques & diachroniques

Les méthodes quantitatives étant de plus en plus utilisées quel que soit le niveau d’analyse (formes lexicales, lemmes, catégories morphologiques, syntaxiques, etc.) et se diffusant de plus en plus dans le champ des études linguistiques, historiques, stylistiques (stylèmes, phraséologismes) et littéraires (topiques, motifs narratifs, etc.), on pourra interroger leur impact sur les corpus numériques diachroniques : comment tenir compte de ces usages dans la sélection, la préparation, la description et l’organisation des données ? quelles méthodes et quels outils employer pour le repérage et l’interprétation quantitative des données ?

Dans ce cadre, on pourra s’intéresser plus spécifiquement aux apports et aux limites de l’annotation linguistique et se demander quels types d’enrichissements privilégier pour faciliter les recherches diachroniques, quel niveau de granularité adopter, quel équilibre viser entre quantité et qualité des annotations, etc.

L’étude des méthodologies quantitatives spécifiquement adaptées à l’analyse diachronique (accroissements spécifiques, spécificités chronologiques, classification par contiguïtés, etc.) ou des stratégies permettant d’utiliser des outils plus « génériques » dans une approche diachronique (l’analyse factorielle des correspondances ou les classifications classiques, par exemple) sera particulièrement bienvenue. On pourra traiter des spécificités du facteur temps, des manières de cibler ce facteur particulier ou au contraire de décrire la façon dont il interagit avec d’autres (Hilpert et Gries 2016). De même, les nouvelles possibilités offertes par les outils de périodisation automatique (Gries et Hilpert 2008, Diwersy et al.2017), ou les méthodes permettant de mesurer et d’interpréter des tendances (Hilpert et Gries 2009, Lamassé 2021), pourront être abordées dans une optique purement linguistique aussi bien qu’historique ou littéraire. L’impact du découpage initial du corpus en parties de longueur temporelle plus ou moins étendue (Salem 2021) pourra également être mesuré.

Enfin, on pourra aborder à partir de cas concrets l’articulation entre les méthodes quantitatives et l’analyse qualitative, de même que la dimension philologique des données construites pour une exploitation linguistique, historique ou littéraire.

Calendrier

  • Réception des résumés : 15 octobre 2025
  • Réception de l’article (v1) : 15 avril 2026
  • Réception de la version finale de l’article : 15 septembre 2026
  • Publication : automne 2026

Les résumés d’une à deux pages sont à envoyer à Céline Guillot-Barbance (celine.guillot@ens-lyon.fr) et Alexei Lavrentiev (alexei.lavrentev@ens-lyon.fr) au plus tard le 15 octobre 2025. Les résumés et articles feront l’objet d’une double évaluation avant acceptation pour la publication définitive.

Références

Barré Jean, Camps Jean-Baptiste et Poibeau Thierry (2023) « Operationalizing Canonicity: A Quantitative Study of French 19th and 20th Century Literature », Journal of Cultural Analytics, vol. 8, n° 3. ‹DOI : 10.22148/001c.88113›.

Bernard Michel et Bohet Baptiste (2017) Littérométrie : outils numériques pour l’analyse des textes littéraires, Paris, Presses Sorbonne nouvelle.

Diwersy Sascha, Falaise Achille, Lay Marie-Hélène et Souvay Gilles (2017) « Ressources et méthodes pour l’analyse diachronique », Langages, vol. 206, n° 2, p. 21‑44. ‹DOI : 10.3917/lang.206.0021›.

Diwersy Sascha, Gonon Laetitia, Goossens Vannina, et al. (2021) « La phraséologie du roman contemporain dans les corpus et les applications de la PhraseoBase », Corpus, n° 22. ‹DOI : 10.4000/corpus.6101›.

Duval Frédéric (éd.) (2006) Pratiques philologiques en Europe actes de la journée d’étude organisée à l’École des Chartes le 23 septembre 2005, Paris, École nationale des chartes. ‹DOI : 10.4000/books.enc.692›.

Gries Stefan et Hilpert Martin (2008) « The identification of stages in diachronic data: variability-based neighbour clustering », Corpora, vol. 3, p. 59‑81. ‹DOI : 10.3366/E1749503208000075›.

Habert Benoît (2005) « Face à la disette dans la profusion », Scolia : Sciences Cognitives, Linguistiques et Intelligence Artificielle, vol. 19, n° 1, p. 41‑61. ‹DOI : 10.3406/scoli.2005.1065›.

Hilpert Martin et Gries Stefan (2009) « Assessing frequency changes in multistage diachronic corpora: Applications for historical corpus linguistics and the study of language acquisition », Literary and Linguistic Computing, vol. 24, n° 4, p. 385‑401. ‹DOI : 10.1093/llc/fqn012›.

Hilpert Martin et Gries Stefan (2016) « Quantitative approaches to diachronic corpus linguistics », In M. Kytö et P. Pahta (éd.), The Cambridge Handbook of English Historical Linguistics, Cambridge University Press, p. 36‑53. ‹DOI : 10.1017/CBO9781139600231›.

Lamassé Stéphane (éd.) (2021) « Textométrie et temporalité », Histoire & mesure, vol. XXXVI, n° 2. ‹DOI : 10.4000/histoiremesure.14769›.

Lebart Ludovic, Pincemin Bénédicte et Poudat Céline (2019) Analyse des données textuelles, Québec, Presses de l’Université du Québec.

Salem André (2021) « Le temps lexical », Histoire & mesure, vol. XXXVI, n° 2, p. 21‑56. ‹DOI : 10.4000/histoiremesure.14804›.

Winter-Froemel Esme (2023) « Discourse traditions research: foundations, theoretical issues and implications », In E. Winter-Froemel et Á.S. Octavio de Toledo y Huerta (éd.), Manual of Discourse Traditions in Romance, De Gruyter, p. 25‑58. ‹DOI : 10.1515/9783110668636-002›.