Bonjour,
Je suis heureuse de vous faire part de la parution du livre suivant :
Ludovic LEBART, Bénédicte PINCEMIN, Céline POUDAT
Analyse des données textuelles
Presses de l’Université du Québec, 2019.
Collection Mesure et évaluation, 510 pages.
ISBN 978-2-7605-5052-0
41 euros (27,99 euros pour l’édition numérique pdf ou ePub)
Ce volume s’inscrit dans la lignée de l’ouvrage de référence de Lebart &
Salem de 1994, Statistique textuelle, épuisé, mais disponible en ligne
sur les sites des auteurs.
L’ouvrage situe la textométrie (ou analyse des données textuelles, ADT)
par rapport à des approches voisines telles que le text mining ou le
traitement automatique des langues. De façon actualisée, il présente les
principes et les calculs sous-jacents aux fonctionnalités d’analyse
textométrique usuelles, qu’on retrouve pour la plupart dans TXM :
– concordances et retour au texte,
– segments répétés,
– spécificités et cooccurrences,
– analyse en composantes principales, analyse des correspondances
(simple et multiple), et validation par rééchantillonnage (zones de
confiance bootstrap),
– classification non supervisée (principalement classification
hiérarchique et partitionnement, lien avec l’arbre de longueur minimale
et méthodes mixtes).
L’exposé indique les modélisations et formules mathématiques utilisées
(avec des encarts et annexes pour les parties les plus avancées), et en
explique les effets concrets, avec des repères pragmatiques pour la mise
en oeuvre et l’interprétation des sorties de calculs. Il présente
ensuite des stratégies d’analyse : complémentarité des analyses en axes
principaux et des classifications, fragmentation de corpus et analyse de
corpus avec nombreux textes très courts, articulation entre analyses
exploratoires et confirmatoires (notamment classification supervisée),
recherche de thèmes. En complément, des calculs ou méthodes plus
particulièrement développés dans certains logiciels d’ADT (comme
l’analyse arborée, les cartes auto-organisées, ou la méthode
Reinert/ALCESTE) sont situées et évoquées dans les grandes lignes.
La préparation des corpus et la modélisation des textes est discutée
principalement autour des questions de segmentation en mots, de
lemmatisation et d’étiquetage morphosyntaxique (communes à tous les
outils de textométrie), sans développer les possibilités spécifiques à
l’import de textes plus finement structurés.
Les illustrations sont majoritairement réalisées avec le logiciel
DtmVic, mais aussi avec TXM, Lexico 5, IRaMuTeQ, Le Trameur, Hyperbase
Web. Quatre des corpus utilisés pour les exemples sont téléchargeables
depuis la page du livre sur le site de l’éditeur. Une annexe présente
plusieurs familles d’outils pour l’analyse de données textuelles :
open-source, disponibles gratuitement pour l’enseignement et la
recherche, ou développés et maintenus par des sociétés spécialisées ;
dotés d’une interface utilisateur, ou briques pour élaborer soi-même des
scripts d’analyse.
Les exemples de programme donnés en annexe de chaque chapitre sont une
traduction formelle de plusieurs calculs fondamentaux (comme la
construction de table lexicale, ou l’analyse des correspondances avec
tracé de l’arbre de longueur minimale) et s’appuient sur des ressources
courantes des langages Python et R. Disponibles en ligne sur le site de
DtmVic, ils donnent un accès simplifié et pédagogique aux calculs, sans
avoir vocation à remplacer les programmes existants, interfacés,
optimisés et plus complets.
Cet ouvrage peut ainsi venir en complément de la documentation et des
ressources de formation déjà disponibles pour la mise en oeuvre de TXM
et de l’approche textométrique.
Bénédicte Pincemin.