Bruit de fond ou valeur ajoutée ? Gérer le bruit lors des traitements informatiques des corpus linguistiques
Sous la direction de Elisa Gugliotta, Luca Pallanti, Olivier Kraif, Iris Fabry et Martina Barletta
Si l’on accepte le postulat selon lequel ” la donnée linguistique est un résultat ” (Benveniste, 1966), comment décoder le bruit causé par le recueil des données et leur enregistrement ? En effet, en fonction des objets de recherche, il existe des facteurs potentiels d’altération des données, comme par exemple les préconceptions du chercheur, ou les biais introduits par un système OCR donné (Jentsch & Porada, 2020). L’enjeu consiste alors à prédire ou à déterminer les biais potentiels induits par ces facteurs lors de la sélection et la mise en forme des données pour mieux contrôler les phases de recherche successives.
Les méthodes choisies pour affiner les données brutes et les rendre disponibles pour des manipulations avancées peuvent représenter une importante source de bruit (ou, au contraire, de silence si on applique un filtre pour éliminer le bruit) : c’est notamment le cas du processus de normalisation des données (Al Sharou et al., 2021). Qu’il s’agisse de transcrire des données ou de corriger des erreurs, le chercheur fait des choix qui impactent nécessairement la nature des données, soit en les réduisant, soit en les enrichissant. Il s’agit donc d’anticiper les conséquences des transformations produites par les méthodes de traitement des données (Tanguy, 2012).
À la base, l’annotation des corpus est une étape visant l’enrichissement des données : en fonction du modèle d’analyse mis au point, le chercheur tente de catégoriser des unités à travers un processus d’étiquetage (Péry-Woodley et al., 2011). Cependant, si d’un côté ce processus peut générer du bruit, de l’autre, il peut être une cause de silence fort préjudiciable aux résultats des recherches et à leur interprétation (des étiquettes absentes ou erronées pouvant générer des résultats lacunaires lors de l’analyse ou du requêtage des données). La notion de métadonnée peut également être mise en cause
: catégoriser une donnée signifie-t-il la transformer en quelque chose d’autre ? Par ailleurs, l’absence d’accord ou un faible accord dans les annotations produites par l’humain manifeste-t-il des variations interindividuelles assimilables à du bruit, ou au caractère trop vague des catégorisations en jeu ?
***
A chaque étape se posent des questions méthodologiques centrales : à partir de quel seuil peut-on considérer le bruit comme acceptable ? Comment différencier bruit et biais méthodologique ? Comment estimer le bruit sans vérité de terrain ? Quels outils statistiques spécifiques à l’étude des corpus permettent de délimiter des intervalles de confiance ? Comment atteindre l’équilibre nécessaire pour que le bruit causé par les traitements des données ne compromette pas les résultats des recherches ?
***
Les propositions d’article pourront aborder ces questions d’un point de vue général, sous un angle théorique et méthodologique, ou s’appuyer sur une ou plusieurs études de cas portant sur des observations particulières, en prenant soin de mettre en lumière les méthodes de gestion du bruit tout au long de l’étude.
Retro-planning
* 10 novembre 2023 : pré-sélection sur résumé
* Mars 2024 : remise des articles. Juin 2024 : réponse aux auteurs
* Juin-octobre 2024 : navette avec les auteurs pour remise de l’article en forme définitive.
* Novembre-décembre 2024 : édition.
* Janvier 2025 : publication.
Soumission des résumés
* Merci de soumettre vos résumés pour le 10 novembre 2023 aux adresses elisa.gugliotta@ilc.cnr.it et luca.pallanti@univ-lyon2.fr
Références
Al Sharou, K., Li, Z., & Specia, L. (2021). Towards a Better Understanding of Noise in Natural Language Processing. Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP 2021), 5362. https://aclanthology.org/2021.ranlp-1.7
Benveniste, É. (1966). Problèmes de linguistique générale. Gallimard.
Egbert, J., & Baker, P. (Eds.). (2019). Using corpus methods to triangulate linguistic analysis. Routledge. Fuchs, C., & Habert, B. (2004). Le traitement automatique des langues : Des modèles aux ressources.
Le Français Moderne – Revue de linguistique Française, CILF (conseil international de la langue française), LXXII: 1, online.
Goutte, C., Carpuat, M., & Foster, G. (2012). The impact of sentence alignment errors on phrase-based machine translation performance. In Proceedings of the 10th Conference of the Association for Machine Translation in the Americas: Research Papers.
Jentsch, P., & Porada, S. (2020). From Text to Data : Digitization, Text Analysis and Corpus Linguistics. In S. Schwandt (Éd.), Digital Humanities Research (1re éd., Vol. 1, p. 89128). transcript Verlag / Bielefeld University Press. https://doi.org/10.14361/9783839454190-004
Kraif, O., & Ponton, C. (2007). Du bruit, du silence et des ambiguïtés : Que faire du TAL pour
l’apprentissage des langues ? TALN 2007, 143152. https://hal.archives-ouvertes.fr/hal-01073706
Léon, J. (2018). Tal et linguistique : Application, expérimentation, instrumentalisation. ELA. Etudes de linguistique appliquee, 2(190), 195203.
Litosseliti, L. (Ed.). (2018). Research methods in linguistics. Bloomsbury Publishing.
Molinelli, P., & Putzu, I. (2015). Modelli epistemologici, metodologie della ricerca e qualità del dato. Dalla linguistica storica alla sociolinguistica storica. Franco Angeli.
Péry-Woodley, M.-P., Afantenos, S. D., Ho-Dac, L.-M., & Asher, N. (2011). La ressource ANNODIS, un
corpus enrichi d’annotations discursives. TAL, 52(3), 71101.
Sarrica, M., Mingo, I., Mazzara, B., & Leone, G. (2016). The effects of lemmatization on textual analysis conducted with IRaMuTeQ: results in comparison. JADT2016: 13ème Journées Internacionales d’Analyse Statistique de Données Textuelles.
Scaglione, F. (2018). “Lavorare”; il dato linguistico: Prospettive e limiti. Alcune considerazioni dall’esperienza dell’Atlante Linguistico della Sicilia (ALS). In G. Sampino (Éd.), Atti del convegno internazionale dei dottorandi (p. 101122).
Tanguy, L. (2012). Complexification des données et des techniques en linguistique : contribution du TAL aux solutions et aux problèmes. HDR dissertation, Université de Toulouse 2 – le Mirail.
Zalmout, N., Erdmann, A., & Habash, N. (2018). Noise-robust morphological disambiguation for dialectal Arabic. In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers) (pp. 953-964).
Zeroual, I. (2018). Building Arabic Corpora: Concepts, Methodologies, Tools, and Experiments (Doctoral dissertation, University of Maryland, USA).