Parution: Analyse des données textuelles

Bonjour,

Je suis heureuse de vous faire part de la parution du livre suivant :

Ludovic LEBART, Bénédicte PINCEMIN, Céline POUDAT

Analyse des données textuelles

Presses de l’Université du Québec, 2019.

Collection Mesure et évaluation, 510 pages.

ISBN 978-2-7605-5052-0

41 euros (27,99 euros pour l’édition numérique pdf ou ePub)

https://www.puq.ca/catalogue/livres/analyse-des-donnees-textuelles-3651.html

http://www.sudoc.fr/238571777

Ce volume s’inscrit dans la lignée de l’ouvrage de référence de Lebart &

Salem de 1994, Statistique textuelle, épuisé, mais disponible en ligne

sur les sites des auteurs.

L’ouvrage situe la textométrie (ou analyse des données textuelles, ADT)

par rapport à des approches voisines telles que le text mining ou le

traitement automatique des langues. De façon actualisée, il présente les

principes et les calculs sous-jacents aux fonctionnalités d’analyse

textométrique usuelles, qu’on retrouve pour la plupart dans TXM :

– concordances et retour au texte,

– segments répétés,

– spécificités et cooccurrences,

– analyse en composantes principales, analyse des correspondances

(simple et multiple), et validation par rééchantillonnage (zones de

confiance bootstrap),

– classification non supervisée (principalement classification

hiérarchique et partitionnement, lien avec l’arbre de longueur minimale

et méthodes mixtes).

L’exposé indique les modélisations et formules mathématiques utilisées

(avec des encarts et annexes pour les parties les plus avancées), et en

explique les effets concrets, avec des repères pragmatiques pour la mise

en oeuvre et l’interprétation des sorties de calculs. Il présente

ensuite des stratégies d’analyse : complémentarité des analyses en axes

principaux et des classifications, fragmentation de corpus et analyse de

corpus avec nombreux textes très courts, articulation entre analyses

exploratoires et confirmatoires (notamment classification supervisée),

recherche de thèmes. En complément, des calculs ou méthodes plus

particulièrement développés dans certains logiciels d’ADT (comme

l’analyse arborée, les cartes auto-organisées, ou la méthode

Reinert/ALCESTE) sont situées et évoquées dans les grandes lignes.

La préparation des corpus et la modélisation des textes est discutée

principalement autour des questions de segmentation en mots, de

lemmatisation et d’étiquetage morphosyntaxique (communes à tous les

outils de textométrie), sans développer les possibilités spécifiques à

l’import de textes plus finement structurés.

Les illustrations sont majoritairement réalisées avec le logiciel

DtmVic, mais aussi avec TXM, Lexico 5, IRaMuTeQ, Le Trameur, Hyperbase

Web. Quatre des corpus utilisés pour les exemples sont téléchargeables

depuis la page du livre sur le site de l’éditeur. Une annexe présente

plusieurs familles d’outils pour l’analyse de données textuelles :

open-source, disponibles gratuitement pour l’enseignement et la

recherche, ou développés et maintenus par des sociétés spécialisées ;

dotés d’une interface utilisateur, ou briques pour élaborer soi-même des

scripts d’analyse.

Les exemples de programme donnés en annexe de chaque chapitre sont une

traduction formelle de plusieurs calculs fondamentaux (comme la

construction de table lexicale, ou l’analyse des correspondances avec

tracé de l’arbre de longueur minimale) et s’appuient sur des ressources

courantes des langages Python et R. Disponibles en ligne sur le site de

DtmVic, ils donnent un accès simplifié et pédagogique aux calculs, sans

avoir vocation à remplacer les programmes existants, interfacés,

optimisés et plus complets.

Cet ouvrage peut ainsi venir en complément de la documentation et des

ressources de formation déjà disponibles pour la mise en oeuvre de TXM

et de l’approche textométrique.

Bénédicte Pincemin.

Parution: Analyse des données textuelles

Parution: Analyse des données textuelles

© Benjamin Pavone & SIDF - 2024