Appel à contributions : “développer des modèles pour la recherche en linguistique”, 1-3 septembre, Lille (LLcD)

Appel à contributions : “développer des modèles pour la recherche en linguistique”, 1-3 septembre, Lille (LLcD)

Atelier “développer des modèles pour la recherche en linguistique”, 1-3 septembre, Lille (2e rencontre annuelle Langues et Langage à la croisée des Disciplines)

L’avènement des technologies d’apprentissage profond, et en particulier des grands modèles de langue (LLMs) et de leurs variantes multilingues, promettait de faciliter une grande variété de tâches expertes et chronophages nécessaires pour constituer et analyser des corpus linguistiques, y compris la transcription de sources manuscrites (Kiessling et al. 2019) et orales (Michaud et al. 2020), la lemmatisation (Camps et al. 2022), l’étiquetage et analyse syntaxiques (Guiller 2020), la reconnaissance d’entités nommées (Ortiz Suárez et al. 2020), la segmentation de la parole (Algayres et al. 2023) et de l’écrit (Levenson et al. 2024), etc. Cela peut s’avérer particulièrement utile dans les cas où les données d’entraînement disponibles sont limitées, par exemple quand il s’agit de langues peu dotées ou de langues anciennes, disposant de peu de données numérisées. Pour ces langues, l’absence d’orthographe standardisée peut avoir un impact sur les tâches de transcription et d’annotation (la transcription de corpus oraux nécessite une prise de décision sur les conventions de transcription à adopter ; la variation orthographique dans un corpus écrit peut compliquer la tâche d’annotation automatique, etc.). D’autres exemples sont les corpus d’apprenants ou les corpus de parole pathologique. Pour les cas en question, un seul cycle d’affinage d’un LLM ne produit souvent qu’une sortie d’une qualité bien inférieure à l’état de l’art pour des tâches et des variétés linguistiques bien dotées. Comme Kantharuban et al. (2023) le montrent pour les données dialectales, il n’existe pas de remède miracle : l’approche optimale dépend de l’état ou de la variété de la langue, de la tâche, du modèle et du type de données ; non seulement la taille, mais aussi la qualité et la composition des données doivent être prises en compte. En outre, la puissance de calcul nécessaire pour entraîner et affiner les modèles requiert des investissements considérables et a un impact environnemental non négligeable (Bender et al 2021).

Cet atelier se propose de présenter les recherches récentes visant à optimiser le processus d’adaptation des modèles (en utilisant des LLM ou des alternatives), en particulier en se focalisant sur la distance entre les corpus d’entraînement et les corpus cible dans des contextes de ressources linguistiques, humaines et computationnelles limitées. Il peut s’agir des méthodes informatiques visant à optimiser l’entraînement (par exemple, curriculum learning, Bengio et al. 2009) et des protocoles linguistiquement motivés pour la sélection des données d’entraînement (voir Guibon et al. 2015, par exemple). Ces méthodes prennent en compte non seulement la quantité, mais aussi la composition et la qualité des données d’entraînement, qui sont progressivement mobilisées au cours d’une série de réentraînements consécutifs, ce qui permet une adaptation graduelle du modèle à l’état de la langue, au genre ou au type de données du corpus cible. Le comportement des systèmes entraînés pendant le processus d’adaptation peut, à son tour, informer les linguistes sur la distance entre le corpus d’entraînement et le corpus cible.

Pour plus d’information : développer des modèles linguistiques

Voir le site des Rencontres :  https://llcd2025.sciencesconf.org/resource/page/id/8

Coordonnées

Delphine Bernhard, Université de Strasbourg dbernhard@unistra.fr

Loïc Grobol, Université Paris Nanterre /CNRS, ENS-PSL & Sorbonne Nouvelle Université loic.grobol@gmail.com

Cristina Holgado,  Université de Poitiers,  cristina.garcia.holgado@univ-poitiers.fr

Aleksandra Miletić, CNRS / Université Paris Nanterre amiletic@parisnanterre.fr

Natasha Romanova, Université de Caen natalia.romanova@unicaen.fr

Marianne Vergez-Couret Université de Poitiers marianne.vergez.couret@univ-poitiers.fr