ÉTIENNE BRUNET
Résumé : Peut-on attribuer un texte à un auteur sur la base de distances lexicales ? Corneille et Molière défient-ils la lexicométrie ?
ÉTIENNE BRUNET
Résumé : Étienne Brunet dresse un panorama des bases de données linguistiques existantes, de Frantext au CD-ROM Rabelais et aux bases en ligne, et à l’intérêt d’Internet dans la diffusion de ces données. En poursuivant d’abord la piste du mot Corse, l’auteur parcourt les fonctions statistiques et les contrastes mobilisables d’un support à l’autre.
ÉTIENNE BRUNET
Résumé : Dans cette étude méthodologique, l’auteur plaide pour un usage maîtrisé et raisonné des statistiques dans les études linguistiques : en utilisant de nombreux exemples illustrés, il met en garde contre les illusions récurrentes et les conceptions superficielles de la scientificité. Il présente enfin les principales fonctionnalités du logiciel Hyperbase.
ÉTIENNE BRUNET
Résumé : Synthèse et illustration des types de questionnements que la lexicométrie permet de mener sur des corpus de textes littéraires numérisés.
ÉTIENNE BRUNET
Résumé : Une enquête sur la présence et l'emploi du latin en français écrit est menée sur le corpus Frantext, rassemblant des textes choisis de littérature française de 1500 à 1980, et à l'aide du logiciel de lexicométrie Hyperbase.
ÉTIENNE BRUNET
Résumé : Sur le corpus littéraire Frantext et à l'aide du logiciel Hyperbase, la notion de "temps" peut être observée sous de multiples angles : diachronie de la langue, usage des temps verbaux, lexique des divisions temporelles caractérisant les écrivains.
ÉTIENNE BRUNET
Résumé : Chaque signe de ponctuation, et quelques marques typographiques, sont méthodiquement observés dans le corpus du TLF, en distinguant les types de texte (7 sous-ensembles) et les époques (de 1800 à 1960).
ÉTIENNE BRUNET
Résumé : Sur les Rougon-Macquart, on mesure la longueur des phrases et l'usage des ponctuations : les variations s'interprètent par la diachronie globale de l'œuvre, mais aussi par différents types de romans, ou encore par un mouvement de "houle" interne au texte.
ÉTIENNE BRUNET
Résumé : Hugo marque une préférence globale pour le nom et le verbe. Ses usages des différentes catégories dépendent davantage du genre textuel que d'une évolution dans le temps. Une étude plus approfondie est menée sur les adjectifs classés selon leur terminaison
ÉTIENNE BRUNET
Résumé : Un corpus constitué des quatre évangiles dans trois traductions françaises (TOB, Maredsous, Chouraqui) permet d'observer ici que l'influence de l'auteur (Jean vs les synoptiques) est plus forte que celle du traducteur pour caractériser les textes.
ÉTIENNE BRUNET et LAURENT VANNI
Résumé : Les problèmes de paternité ou de datation peuvent être abordés avec les moyens habituels de l’histoire littéraire, mais aussi en recourant aux ressources de la statistique et de l’informatique. Diverses mesures intertextuelles ont été proposées pour tenter de distinguer les distances intra (entre les textes d’un même auteur) et les distances inter (entre les auteurs). Malheureusement aucune jusqu’ici n’a pu prétendre au rang de juge suprême, comparable à l’ADN dans les recherches de paternité ou de criminalité. L’Intelligence artificielle peut-elle jouer ce rôle? C’est l’objet de la présente étude, menée conjointement dans deux corpus. Dans le premier, on aborde le roman au XXème siècle en proposant à l’algorithme du Deep Learning un panel de 50 textes et de 25 écrivains (parmi lesquels Roman Gary et Émile Ajar). Il s’agit de reconnaître les textes qui ont le même auteur. Là où les méthodes classiques se trompent une fois sur trois, le Deep Learning réussit l’épreuve sans faillir. Fort de cette réussite, le même algorithme est appliqué au théâtre classique. La conclusion est catégorique : Racine, Corneille et Molière se distinguent parfaitement sauf dans deux cas (Don Garcie et Les Plaideurs) où le genre vient brouiller la signature. Le présent article s’interroge sur les mécanismes mis en œuvre dans le Deep Learning. Un développement plus étendu est prévu dans une publication ultérieure.