Offre d’emploi : (18 mois) Ingénieur d’études humanités numériques (ou TAL)

Offre d’emploi : (18 mois) Ingénieur d’études humanités numériques (ou TAL)

Date limite de candidature : 15/07/2023
Date de début de contrat : 1/10/2023 ou à convenir
Descriptif :
Dans le cadre de ce projet, l’ingénieur(e) d’études se chargera de définir un schéma TEI et un ODD adapté au corpus de l’édition numérique de lettres privées des 17e et 18e siècles. Elle ou il sera impliqué(e) dans la coordination d’une équipe de vacataires chargée de la tokenisation du corpus transcrit. En collaboration avec un ingénieur de recherche du CNRS, elle ou il s’occupera d’adapter un outil de lemmatisation automatique existant pour les besoins du projet. Elle ou il mettra au point un protocole d’annotation (POS-tag) en collaboration avec l’équipe de spécialistes en humanités numériques du projet, afin d’annoter le corpus. Elle ou il publiera le corpus édité sur TEI Publisher (docker, ODD). Enfin, elle ou il sera chargé(e) de configurer le corpus sur BlackLab (serveur, CQL/CQP) afin de le rendre interrogeable et d’effectuer une phase de tests.
Le contrat est d’une durée d’un an et demi. Un financement est prévu pour les équipements informatiques.
Profil recherché :
  • Connaissances : Expérience souhaitée dans le traitement de données XML. Maîtrise de la TEI. Logiciels et outils informatiques utilisés dans le cadre du projet : eScriptorium, Oxygen Editor, Pie, Pyrrha, TEI Publisher, BlackLab. La maîtrise d’un ou de plusieurs de ces outils représente un atout.
  • Diplôme réglementaire exigé : Master ou doctorat en humanités numériques ou formation équivalente (éventuellement TAL)

Le projet MACINTOSH Missing hAlf the picture : ClassIcal NoT sO claSsical FrencH est consacré à la constitution et à l’annotation d’un corpus de français de l’époque classique, à partir du témoignage qu’en donne une vaste collection de lettres privées : les « Prize Papers ». Le fonds d’archives auquel elles appartiennent a connu d’abord une vocation juridique, puisqu’il a servi à un ancien tribunal chargé des affaires relatives à la marine britannique, la High Court of Admiralty. L’une des missions de ce tribunal consistait à légiférer une importante activité économique, la guerre de course. Pratiquée surtout en temps de guerre, la guerre de course représentait l’une des plus grandes menaces pour le commerce atlantique au 17e siècle : elle consistait à affaiblir l’ennemi en capturant ses navires marchands en vue de les déposséder de leurs marchandises et de revendre aux enchères la cargaison saisie. Les recettes étaient ensuite réparties entre les corsaires et la couronne. La documentation transportée par les navires marchands, qui se chargeaient en même temps d’acheminer le courrier entre les Empires et leurs colonies, était aussi saisie puisqu’elle était requise comme pièce à conviction par le tribunal.

Les courriers ont été interceptés par la marine britannique sur plus de 30 000 navires qui effectuaient la traversée de l’Atlantique dans un sens ou dans l’autre ; y sont donc incluses des lettres ayant été rédigées dans les colonies qui venaient d’être fondées en Amérique du Nord et aux Antilles, dont les destinataires étaient le plus souvent des proches demeurant dans une ville portuaire en France. D’autres lettres ont été envoyées depuis l’un de ces ports vers le Canada, la Louisiane ou les Antilles. Le projet vise à étudier les témoignages alternatifs de cet ensemble dans l’objectif de combler les lacunes de la linguistique historique traditionnelle appliquée au français classique, tout en permettant de mettre en lumière les dynamiques et les mécanismes qui sont à l’origine des variétés de français et de créole en Amérique.

Au cours de l’année prochaine, il est prévu de procéder sur place aux Archives Nationales du Royaume-Uni à une sélection rigoureuse de 800 lettres, en en faisant la transcription (édition diplomatique) et en les balisant ensuite au moyen d’annotations linguistiques pour aboutir à une édition numérisée polyvalente. Chaque lettre fera l’objet d’une fiche signalétique renseignant sur l’expéditeur et le récipiendaire de la lettre (sexe, statut social), liens entre les deux, type de lettre (privée ou d’affaires), date, etc. La dimension relative au niveau de littératie et au genre sera prise en compte dans la sélection de l’échantillon, conduisant à une représentation équilibrée du français pratiqué par les femmes et les hommes des plus lettrés aux moins lettrés, ce qui n’est guère le cas dans les sources existantes pour l’époque concernée. À terme, le corpus annoté sera mis à disposition en ligne en libre accès et sera équipé d’un module de recherche permettant de l’interroger.

Dans le cadre de ce projet, l’ingénieur(e) d’études se chargera de définir un schéma TEI et un ODD adapté au corpus de l’édition numérique des lettres. Elle ou il sera impliqué(e) dans la coordination d’une équipe de vacataires chargée de la tokenisation du corpus transcrit. En collaboration avec un ingénieur de recherche du CNRS, elle ou il s’occupera d’adapter un outil de lemmatisation automatique existant pour les besoins du projet. Elle ou il mettra au point un protocole d’annotation (POS-tag) en collaboration avec l’équipe de spécialistes en humanités numériques du projet, afin d’annoter le corpus. Elle ou il publiera le corpus édité sur TEI Publisher. Enfin, elle ou il sera chargé(e) de créer une instance de la plateforme d’analyse linguistique BlackLab sur notre serveur Huma-Num afin de rendre le corpus interrogeable et d’effectuer une phase de tests.

Le contrat est d’une durée d’un an et demi. Un financement est prévu pour les équipements informatiques.

 

Statut : Ingénieur d’études
Catégorie d’emploi et corps : catégorie A
Localisation du poste : 8 avenue de Saint Mandé, 75012 PARIS / 4 rue des Irlandais, 75005 PARIS Quotité de travail : temps plein
Salaire : l’INM est situé entre 390 et 460 selon l’expérience
Date de prise de fonction : 1er octobre 2023 ou date à convenir

COMPÉTENCES PRINCIPALES

Connaissances : Expérience souhaitée dans le traitement de données XML. Maîtrise de la TEI. Logiciels et outils informatiques utilisés dans le cadre du projet : eScriptorium, Oxygen Editor, Pie, Pyrrha, TEI Publisher, BlackLab. La maîtrise d’un ou de plusieurs de ces outils représente un atout.