Appel: Approches numériques des corpus historiques des langues de France

Appel: Approches numériques des corpus historiques des langues de France

Vous trouverez ci-dessous et à cette adresse https://frankoromanistentag.univie.ac.at/fr/appel-a-contributions/linguistique/

l’appel à contribution à la section 14 des Francoromanistentag https://frankoromanistentag.univie.ac.at/fr/

qui se tiendra à Vienne en septembre 2020 pour sa 12e édition.

Robert Hesselbach1, Tanja Prohl2

1Universität Kassel
2Universität Bamberg

Section 14

Approches numériques des corpus historiques des langues de France

L’expansion de la numérisation ouvre aux sciences humaines et en particulier à la linguistique de nouvelles voies de recherche autant méthodiques qu’empiriques. Alors que les processus numériques se sont établis depuis longtemps dans la recherche sur les langues modernes, entre autres en phonétique expérimentale, acoustique ou perceptive (par ex. avec praat ou speechrecoder) ou encore en analyse syntaxique (par ex. Freeling; http://nlp.lsi.upc.edu/freeling/demo/demo.php), les corpus historiques eux, en tant qu’éléments de recherche linguistique, représentent encore, sous plusieurs aspects, un défi pour les sciences humaines numériques. La tâche qu’implique la numérisation de vieux manuscrits notamment, ne doit pas être sous-estimée, malgré la maîtrise des logiciels OCR et malgré leur facilité d’utilisation (par ex. OCR4all, Université de Würzburg).

En France, notamment à l’université de Lyon, un logiciel d’analyse de texte -TXM (Heiden et al. 2010)- a été mis au point et peut être utilisé aussi pour des corpus historiques, comme par exemple la Base de Français Médiéval (Guillot-Barbance et al. 2017), qui comprend 170 textes du IXe au XVe siècles (http://txm.bfm-corpus.org/). C’est une raison de plus pour donner à l’intersection entre historicité et numérisation un rôle primordial pour la recherche sur les langues de France.

Le but de notre section est de permettre la rencontre entre les franco-romanistes qui proposent des travaux actuels dans le domaine de la linguistique de corpus historique, et, ce faisant, travaillent avec des instruments numériques. Ainsi peuvent être thématisées entre autres des questions de lexicologie, de phraséologie, de syntaxe, d’orthographie ou encore de linguistique textuelle. L’éclairage est mis particulièrement sur l’accès aux méthodes employées.

Par ailleurs la section se donne pour but de prendre en compte également, à côté du français et de ses variétés diasystématiques, les autres langues de France (par ex. l’occitan, le catalan etc.). Concrètement la section se propose de discuter les problèmes méthodiques et pratiques suivants et d’en esquisser de possibles solutions :

  • Problèmes posés par l’annotation des corpus historiques (diverses orthographies, place des mots, …)
  • Problèmes liés à la numérisation des textes historiques
  • Défi concret posé par la constitution de corpus
  • Méthode de dépouillement numérique des corpus historiques

La section proposera ainsi un aperçu permettant de mesurer l’ampleur avec laquelle le potentiel des méthodes de recherches numériques dans le domaine de la linguistique historique, appliquée aux langues de France, est déjà exploité. Nous accueillons les communications concernant tous les aspects de la recherche numérique en matière d’histoire de la langue au sein de la Galloromania et nous nous réjouissons tout particulièrement de la participation de jeunes chercheurs et chercheuses.

Les langues du congrès sont le français et l’allemand. Les propositions de communication peuvent être envoyées jusqu’au 15 janvier 2020 aux adresses électroniques suivantes : robert.hesselbach@uni-kassel.de et tanja.prohl@uni-bamberg.de

Bibliographie

 

Guillot-Barbance, Céline/Heiden, Serge/Lavrentiev, Alexei (2017): “Base de français médiéval : une base de référence de sources médiévales ouverte et libre au service de la communauté scientifique“, in: Diachroniques 7, 168–184.

Heiden, Serge/Magué, Jean-Philippe/Pincemin, Bénédicte (2010): “TXM : Une plateforme logicielle open-source pour la textométrie – conception et développement”, in: I. C. Sergio Bolasco (ed.), Proc. of 10th International Conference on the Statistical Analysis of Textual Data – JADT 2010), Vol. 2, Roma, Edizioni Universitarie di Lettere Economia Diritto, 1021–1032.