Corpus numériques diachroniques

La SIDF propose de répertorier des corpus numériques, enrichis ou non, qui intéressent la linguistique historique. En cliquant sur le titre d’un corpus, vous accéderez à une page affichant plus de détails et éventuellement un lien d’accès.

Titre Taille* Domaine Annotation Accès
Anglo-Norman Correspondance Corpus très petit épistolaire Dep, lemma, POS en ligne, libre, TXM
Anglo-Norman Online Hub: Textes
Anglo-Norman Yearbooks Corpus petit juridique restreint
Automated (français et gascon) très petit juridique Dep, POS arborator, en ligne, en téléchargement, libre
Base de Français Médiéval (BFM) très grand mixte lemma, POS en ligne, en téléchargement, libre, TXM
Bibliothèque bleue de Troyes en ligne
CONDé – six siècles de coutumiers normands grand juridique lemma, POS en ligne, libre, TXM
Corpus de la littérature médiévale: des origines au XVe siècle en ligne
Corpus de la littérature narrative du moyen âge au XXe siècle en ligne
Corpus Français d’Amérique du Nord – FRAN grand mixte en ligne
Corpus LFFA (Français familier ancien) en ligne
Democrat (12e-20e siècle) moyen mixte en téléchargement, libre, TXM
EPISTEMON: Corpus des textes de la Renaissance en ligne
Français légal ancien de Normandie petit juridique Dep en téléchargement, restreint
FRANTEXT en ligne
FRANTEXT Moyen Français en ligne
HIGH-TECH / Corpus de Chroniques (Normandie, 12e-19e siècles) petit historique Dep, lemma, POS en ligne, libre, TXM
L’écriture des peu lettrés : français vernaculaire dans la normandie médiévale (epele) très petit mixte lemma, POS en ligne, libre, TXM
Le Lexicoscope
Les plus anciens documents linguistiques de la France (DocLing) en ligne
Macintosh : Corpus de correspondance des 17e et 18e siècles petit épistolaire lemma, POS en ligne, libre
Mazarinades (17e siècle)
MICLE : Corpus de MICro-indicateurs de L’Évolution grammaticale moyen juridique Dep, lemma, POS en ligne, libre, TXM
Nouveau Corpus d’Amsterdam grand littéraire lemma, POS en ligne, en téléchargement, libre
Old Gallo-Romance Corpus très petit mixte lemma, POS en ligne, en téléchargement, libre
Réseau Corpus Français Préclassique et Classique (RCFC)
SERMO : corpus de sermons genèvois moyen religieux lemma, POS en ligne, en téléchargement
Syntactic Reference Corpus of Medieval French (SRCMF) petit mixte Dep, lemma, POS en téléchargement, libre
Textes de Français Ancien (TFA) en ligne

*Taille : pour les besoins de ce tableau, les étiquettes de taille suivent les correspondances suivantes :

  • très petit : moins de 100 000 tokens
  • petit : de 100 000 à 500 000 tokens
  • moyen : de 500 000 à 1 million de tokens
  • grand : de 1 million de tokens à 5 millions de tokens
  • très grand : plus de 5 millions de tokens

Si vous souhaitez ajouter un corpus à cette liste, merci de nous écrire en utilisant le formulaire “Nous contacter” en bas de page, et en indiquant le nombre de mots, le domaine, les propriétés annotées et les conditions d’accès au corpus.