BÉNÉDICTE PINCEMIN
Résumé : Dans le contexte de documents écrits à dominante scientifique et technique, quatre facettes textuelles sont définies pour guider la conception des traitements informatiques : (i) la matière linguistique du texte (ii) son organisation interne, structurée, close et orientée (iii) l'intertextualité (iv) le rôle constitutif des lectures et la dynamique de l'interprétation. Ce modèle motive des innovations à toutes les étapes du traitement : codage du corpus, indexation, calcul de similarités texte-texte, interface.
DAMON MAYAFFRE et BÉNÉDICTE PINCEMIN
Résumé : Présentation critique de la textométrie - logométrie, notamment de leurs objectifs et des questions de méthode que ces approches soulèvent. Exposé réalisé en 2009, à Besançon, lors de la première école d'été MISAT (Méthodes informatiques et statistiques en analyse de textes).
BÉNÉDICTE PINCEMIN
Résumé : La textométrie propose une approche et des outils pour analyser les corpus numériques. Les chercheurs en sémantique interprétative ont expérimenté et précisé comment la cooccurrence mesurée par la textométrie pouvait être mise à profit pour la description
BÉNÉDICTE PINCEMIN
Résumé : La linguistique textuelle suivant une approche différentielle trouve un important terrain d'observation dans l'analyse statistique de corpus de textes. En particulier, chaque texte peut être représenté par un certain nombre d'informations liées à différents palliers (morphèmes et mots, phrases, paragraphes) à partir desquels le situer par rapport aux autres: par exemple, sa proportion d'usage des noms par rapport aux verbes, celle des différents temps verbaux, le rythme des ponctuations, la proportion de segments de discours direct contenant du discours indirect. Cette communication propose des repères méthodologiques et des outils pour la construction et l'exploitation de tels jeux de mesures, en veillant à leur interprétabilité linguistique et à leur cohérence. Elle en illustre une mise en oeuvre pour l'analyse de l'oral représenté en français, sur des textes du Moyen Age au XXe siècle, en utilisant le logiciel de textométrie TXM.