Appel à contributions : revue Corpus 27, 2005 “Motifs, textométrie et stylistique des textes littéraires”

Appel à contributions : revue Corpus 27, 2005 “Motifs, textométrie et stylistique des textes littéraires”

Appel à contributions :
revue Corpus 27, 2005 “Motifs, textométrie et stylistique des textes littéraires”

Sous la direction de Dominique Legallois (Lattice, Université Sorbonne Nouvelle),
Dominique Longrée (Lasla, Université de Liège,) Iva Novakova (Lidilem, Université
Grenoble Alpes), Antoine Silvestre de Sacy (Thalim & Lattice, Université Sorbonne
Nouvelle)

English version below

Ce numéro de la revue Corpus invite les contributeurs à soumettre des analyses mettant
en relation la notion (ou les notions) de motif avec des études stylistiques, stylométriques ou
textométriques du texte littéraire – quelles que soient la période et la langue du corpus.
L’analyse informatisée des textes littéraires (ou non-littéraires) a permis de dépasser la
seule étude du mot, et même du segment répété (entendu ici comme suite de mots, de lemmes
ou de séquences morphosyntaxiques), pour identifier des configurations à la fois plus larges et
plus schématiques que les unités généralement prises en compte dans les travaux
lexicographiques, textométriques ou stylométriques. Ces avancées ont bien souvent conduit les
chercheurs à adopter une même terminologie – celle de motif – pour désigner des unités
répondant parfois à des définitions différentes. On peut se référer d’abord au travail pionnier de
Ganascia (2001) qui extrait automatiquement des séquences récurrentes de schèmes abstraits à
partir d’arbres syntaxiques. Appliquée à des corpus, la méthode permet d’identifier les
caractéristiques stylistiques des textes. Plus récemment, Ganascia et son équipe ont travaillé sur
un modèle plus simple, qui consiste à identifier des motifs de POS (part-of-speech) par analyse
factorielle (Frontini, Boukhaled, Ganascia. 2018).
À partir des années 2010, Longrée et Mellet (2013, 2018), travaillant sur les textes latins,
cherchent à identifier des configurations présentant de multiples variations lexicales,
morphologiques et syntaxiques, au point qu’elles peuvent ne plus avoir de points communs en
surface ; ces configurations ou motifs se définissent alors comme des micro-structures
récurrentes de n éléments pouvant avoir une fonction d’organisateur textuel (mais pas
seulement). Elles peuvent spécifier un type de texte, ou des parties de textes lorsque l’analyse
est topologique.
Dans un certain nombre de collaborations développées depuis 2012, Legallois propose
la conception suivante du motif : un motif est un patron lexico-grammatical séquentiel identifié
de manière non supervisée par sa surreprésentation statistique dans un texte ou groupe de textes.
Ce patron doit être interprétable : il remplit une fonction sémantique et /ou stylistique. Par une
annotation particulière, le motif ici se différencie des suites de formes simples (segments
répétés), ou des suites d’étiquettes morpho-syntaxiques (POS_ngrams), pour acquérir une
granularité satisfaisante (Legallois, Charnois et Poibeau (2016), Legallois, Charnois et
Larjavarra (2018) pour des explications plus développées).
Le terme de motif est également au cœur des travaux menés au laboratoire Lidilem
(Université Grenoble Alpes). Ces travaux visent à identifier des patterns de pivots lexicaux
spécifiques à des sous-genres littéraires (Novakova & Siepmann, 2020). Pour ce faire, est
utilisée une méthode basée sur des corpus syntaxiquement arborés en dépendances syntaxiques
(Arbres lexico-syntaxiques récurrents, ALR) afin d’extraire des données sur la combinatoire
lexico-syntaxique des unités lexicales (Kraif 2019) en s’appuyant sur la notion de cooccurrence
syntaxique. L’extraction de ces arbres prend comme point de départ un pivot lexical (verbal ou
nominal, simple ou complexe) et produit un ensemble de sous-arbres récurrents (Kraif, 2016),
qu’on peut généraliser sous forme de constructions. La saillance statistique d’un collocatif est
repérée sur la base de mesures telle que la keyness (Bertels & Speelman 2013). A la différence
de Quiniou et al. (2012), les objets extraits sont des structures hiérarchiques et non
séquentielles. La méthode a été implémentée dans le Lexicoscope http://phraseotext.univ-
grenoble-alpes.fr/lexicoscope_2.0/
Enfin, très récemment, une équipe de chercheurs du laboratoire BCL de l’Université de
Nice, en s’appuyant sur des outils d’aide à l’interprétation d’algorithmes de deep learning,
explore la « boite noire » des informations cachées dans les couches intermédiaires de
l’apprentissage profond de réseaux convolutionnels (Vanni L., Mayaffre D., Longrée D.
(2018) ; Vanni L., Corneli M., Mayaffre D., & Precioso F (2023)). Avec cette technique,
Hyperdeep, une extension du logiciel de logométrie Hyperbase (https://hyperbase.unice.fr/), est
à même, non seulement de prédire l’appartenance d’un texte à un style ou un auteur, mais aussi
d’identifier explicitement les caractéristiques linguistiques, apprises par le système, et sur
lesquelles reposent l’analyse. Certaines de ces caractéristiques sont là encore appelées motifs.
Au regard de ces multiples approches et définitions, à la fois différentes et
complémentaires, on pourrait se demander s’il y a… un motif émergeant dans ces différentes
définitions ou conceptions du motif.
Ces approches, conceptions et outils, pour divers qu’ils soient, doivent cependant être
considérés comme pouvant former un ensemble cohérent car ils ont pour but commun de tenter
de modéliser les textes littéraires en mettant au cœur du système l’interprétabilité des résultats
et le retour possible aux textes. Croisant le close et le distant reading, l’analyse des textes
littéraires à la lumière du concept de motif semble trouver son point d’unification dans
l’utilisation de méthodes mixtes mettant au cœur de son herméneutique le retour aux données.
Les contributions attendues développeront des analyses sur le texte littéraire qui
s’appuient sur différentes approches pour étudier des faits de style répondant, plus ou moins
directement, à la notion de motif. Les méthodes et outils automatiques de détection devront être
présentés et les unités dégagées feront l’objet d’une discussion concernant leur statut, leur
valeur et leurs divers cadres d’utilisation.

Calendrier :

 Mars 2024 : publication de l’Appel
10 juin 2024 : envoi des résumés (2 pages hors bibliographie)
10 juillet 2024 : pré-sélection sur résumé
30 novembre 2024 : remise des articles (30 000 signes)
Décembre – Mars 2025 : réponse aux auteurs, allers-retours pour la remise de l’article
en forme définitive
Avril-Mai 2025 : Publication du numéro
Mai 2025 : Parution

Les résumés doivent être envoyés à:

dominique.legallois@sorbonne-nouvelle.fr
dominique.longree@uliege.be
iva.novakova@univ-grenoble-alpes.fr
antoinedesacy@gmail.com

English Version:

Motifs, textometry
and stylistics of literary texts

This issue of the Corpus journal invites contributors to submit analyses relating the
notion (or notions) of motif with stylistic, stylometric, or textometric studies of literary texts –
regardless of the period and language of the corpus.
The computerized analysis of literary (or non-literary) texts has surpassed the mere
study of the word, and even of the repeated segment (understood here as a sequence of words,
lemmas, or morphosyntactic sequences), to identify configurations that are both broader and
more schematic than the units generally considered in lexicographic, textometric, or stylometric
works. These advances have often led researchers to adopt the same terminology – that of motif
– to designate units that sometimes respond to different definitions. One can first refer to the
pioneering work of Ganascia (2001), which automatically extracts recurrent sequences of
abstract patterns from syntactic trees. Applied to corpora, the method allows the identification
of the stylistic characteristics of texts. More recently, Ganascia and his team have worked on a
simpler model, which consists of identifying POS (part-of-speech) patterns through factor
analysis (Frontini, Boukhaled, Ganascia. 2018).
Since the 2010s, Longrée and Mellet (2013, 2018), working on Latin texts, have sought
to identify configurations presenting multiple lexical, morphological, and syntactic variations,
to the extent that they may no longer have surface commonalities; these configurations or motifs
are then defined as recurrent micro-structures of n elements that can have a function as a textual
organizer (but not only). They can specify a type of text, or parts of texts when the analysis is
topological.
In a number of collaborations developed since 2012, Legallois proposes the following
conception of the motif: a motif is a sequentially lexico-grammatical pattern identified in an
unsupervised manner by its statistical overrepresentation in a text or group of texts. This pattern
must be interpretable: it fulfills a semantic and/or stylistic function. Through a particular
annotation, the motif here differs from simple form sequences (repeated segments) or sequences
of morpho-syntactic tags (POS_ngrams), to acquire satisfactory granularity (Legallois,
Charnois et Poibeau (2016), Legallois, Charnois et Larjavarra (2018) for more detailed
explanations).
The term “motif” is also central to the work carried out at the Lidilem laboratory
(University Grenoble Alpes) . These works aim to identify patterns of lexical pivots specific to
literary sub-genres (Novakova & Siepmann, 2020). To do this, a method based on corpora
syntactically arborized in syntactic dependencies (Recurrent Lexico-Syntactic Trees, RLST) is
used to extract data on the lexical-syntactic combinatorics of lexical units (Kraif 2019) based
on the notion of syntactic co-occurrence. The extraction of these trees starts from a lexical pivot
(verbal or nominal, simple or complex) and produces a set of recurrent sub-trees (Kraif, 2016),
which can be generalized in the form of constructions. The statistical salience of a collocate is
identified based on measures such as keyness (Bertels & Speelman 2013). Unlike Quiniou et al.
(2012), the extracted objects are hierarchical structures and not sequential. The method has been
implemented in the Lexicoscope http://phraseotext.univ-grenoble-alpes.fr/lexicoscope_2.0/.
Finally, very recently, a team of researchers from the BCL laboratory at the University
of Nice, relying on tools to assist in the interpretation of deep learning algorithms, explores the
“black box” of information hidden in the intermediate layers of deep learning of convolutional
networks (Vanni L., Mayaffre D., Longrée D. (2018); Vanni L., Corneli M., Mayaffre D., &
Precioso F (2023)). With this technique, Hyperdeep, an extension of the Hyperbase logometry
software (https://hyperbase.unice.fr/), is able not only to predict the belonging of a text to a
style or an author but also to explicitly identify the linguistic characteristics learned by the
system, upon which the analysis is based. Some of these characteristics are also called motifs.
In view of these multiple approaches and definitions, both different and complementary,
one might wonder if there is… an emerging motif in these different definitions or conceptions
of the motif. These approaches, conceptions, and tools, diverse as they may be, must however
be considered as potentially forming a coherent whole because they have the common goal of
attempting to model literary texts by placing interpretability of results and possible return to the
texts at the heart of the system. Crossing close and distant reading, the analysis of literary texts
in light of the motif concept seems to find its point of unification in the use of mixed methods
placing the return to data at the core of its hermeneutics.
The expected contributions will develop analyses on literary texts based on different
approaches to study stylistic facts that respond, more or less directly, to the notion of motif.
Automatic detection methods and tools will need to be presented, and the units identified will
be discussed concerning their status, value, and various frameworks of use.

Schedule:

 March 2024: Call for Papers publication
 June 10, 2024: Submission of abstracts (2 pages excluding bibliography)
July 10, 2024: Pre-selection based on abstract
November 30, 2024: Submission of articles (30,000 characters)
December – March 2025: Response to authors, back-and-forth for the submission of the
final article
April-May 2025: Publication of the issue
May 2025: Release

Abstracts should be sent to :

dominique.legallois@sorbonne-nouvelle.fr
dominique.longree@uliege.be
iva.novakova@univ-grenoble-alpes.fr
antoinedesacy@gmail.com

Références :

Bertels, A., & Speelmann, D. (2013). “Keywords Method” versus “Calcul des Spécificités”: A
comparison of tools and methods. International Journal of Corpus Linguistics, 18(4), 536–560.
Cellier, P., Quiniou, S., Charnois, Th., & Legallois, D. (2012b). What About Sequential Data
Mining Techniques to Identify Linguistic Patterns for Stylistics? In Lecture Notes in Computer
Science, Springer Vol. 7181, 166-177.
De La Touanne, P., & Legallois, D. (2022). L’écriture de Yourcenar vue par ses “motifs”. Un
style classique? Observer la vie littéraires et numériques, sous la direction de D. Alexandre et
G. Roe, Paris, Classiques Garnier, 397-427.
Ganascia, J. G. (2001). Extraction automatique de motifs syntaxiques. In Actes de la 8ème
Conférence sur le Traitement Automatique des Langues Naturelles (TALN’2001). Tours
(France), edited by Jean Véronis, Laurence Danlos, Pierre Zweigenbaum, Nathalie Gasiglia,
and Pascal Amsili. Accessed January 28, 2019. http://talnarchives.atala.org/TALN/TALN-
2001/taln-2001-long-017.pdf.
Frontini, F., Amine Boukhaled, M., & Ganascia, J. G. (2018). Approaching French Theatrical
Characters by Syntactical Analysis: a Study with Motifs and Correspondence Analysis. In
Grammar of Genres and Styles. From Discrete to Non-Discrete Units, edited by Dominique
Legallois, Thierry Charnois, and Meri Larjavaara, 118–139. Berlin/Boston: de Gruyter.
Kraif, O. (2016). Le lexicoscope: un outil d’extraction des séquences phraséologiques basé sur
des corpus arborés. Cahiers de lexicologie, 108, 91-106.
Kraif, O. (2019). Explorer la combinatoire lexico-syntaxique des mots et expressions avec le
Lexicoscope. Langue française, 203, 67-83.
Legallois, D., Charnois, Th., & Poibeau, Th. (2016). Repérer les clichés dans les romans
sentimentaux grâce à la méthode des “motifs”. Lidil, 53, 95-117.
Legallois, D., Charnois, Th., & Larjavaara, M. (2018). The Grammar of Genres and Styles: The
balance between quantitative and qualitative literary stylistics – how the method of “motifs” can
help. Berlin/Boston: de Gruyter, 164-194.
Longrée, D., & Mellet, S. (2013). Le motif: une unité phraséologique englobante? Étendre le
champ de la phraséologie de la langue au discours. In Langages 189, 68-80.
Longrée, D., & Mellet, S. (2018). Towards a topological grammar of genres and styles: a way
to combine paradigmatic quantitative analysis with a syntagmatic approach. In The Grammar
of Genres and Styles: From Discrete to Non-Discrete Units, edited by Dominique Legallois,
Thierry Charnois, and Meri Larjavaara, 140–163. Berlin/Boston: de Gruyter.
Novakova, I., & Siepmann, D. (dir.) (2020). Phraseology and Style in Subgenres of the Novel:
A Synthesis of Corpus and Literary Perspectives. Londres: Palgrave Macmillan.
Quiniou, S., Cellier, P., Charnois, Th., & Legallois, D. (2012). Fouille de données pour la
stylistique: l’exemple des motifs émergents. Actes des 11èmes Journées Internationales
d’analyse statistique des données textuelles, Liège, 13-15 juin 2012, 821-833.
Vanni, L., Mayaffre, D., & Longrée, D. (2018). ADT et deep learning, regards croisés. Phrases-
clefs, motifs et nouveaux observables. 14es Journées internationales d’Analyse statistique des
Données Textuelles. JADT 2018, Rome, p. 459-466.
Vanni L., Corneli M., Mayaffre D., & Precioso F (2023). From text saliency to linguistic
objects: learning linguistic interpretable markers with a multi-channels convolutional
architecture, revue Corpus 24 https://journals.openedition.org/corpus/7667