Mézaille : ÉTUDIER LES TEXTES LITTÉRAIRES NUMÉRIQUES


Chapitre 2 : Pour une interrogation du corpus ZOLA numérisé dans le CD-Rom du Catalogue des Lettres
Ou comment exploiter au lycée l’un des romans du cycle des Rougon-Macquart

 

Pour le professeur enseignant les Lettres en classe de 1°, c’est-à-dire avec l’optique de l’étude d’un roman naturaliste au programme du Bac de français, le choix de l’édition de l’auteur à étudier est aujourd’hui d’autant plus épineux
- que les bibliothèques en ligne (sur le WEB) proposent gratuitement un accès direct au texte numérisé de quelques-uns des titres les plus classiques de Zola, pour prendre l’exemple d’un auteur incontournable ;
- et que les établissements du secondaire sont de mieux en mieux équipés pour aborder le numérique, notamment dans les salles informatiques, où des cours assistés par ordinateur peuvent être dispensés.

Voilà pourquoi, étant dans cette situation, j’ai décidé de mener cette expérimentation, en me posant la double question de savoir
- comment utiliser de vastes corpus littéraires numérisés dans une application qui soit concrètement exécutable auprès d'une population de lycéens ;
- si cela allait entraîner le renouvellement de la traditionnelle étude de l’œuvre complète, à savoir La Bête humaine (1890).

Or du point de vue du contraste entre ce roman et le reste de la Saga des Rougon-Macquart, il est vite apparu que seul le CD-Rom Catalogue des Lettres fournissait la totalité du cycle, qui plus est avec le moteur de recherche TREVI offrant des possibilités inconnues des simples navigateurs (Internet Explorer, Netscape). Voilà pourquoi l’on a préféré se doter des capacités spécifiques au CD-Rom qu’interroger les bases de données textuelles, telles BIBLIOPOLIS, moins complètes concernant le corpus d’un auteur comme Zola.

Ainsi, dans une classe de 1°S, dont l’affinité avec les chiffres est somme toute naturelle, les élèves sont parvenus à contraster les fréquences absolues de mots récurrents, en isolant quatre domaines sémantiques [1] propres au roman retenu. Toutefois, à la différence d’autres logiciels d’interrogation tel Hyperbase, le fait que le relevé soit manuel et intuitif (puisque l’élève a tâtonné pour choisir ces mots, par imprégnation avec le roman déjà abordé en lecture cursive) ne permet pas de prétendre avoir cerné la totalité du vocabulaire spécifique de La Bête humaine.

Si l'intérêt du CD-Rom est qu'il donne une vue globale de la répartition des mots-vedettes sur l'ensemble des chapitres (au sein d'un roman) et sur l'ensemble des romans (au sein de l'œuvre), la difficulté était de déterminer quels pouvaient être ces mots au score élevé. Voilà comment la lettre et l’esprit n’ont cessé de guider le chiffre…

Après la phase de récolte grâce au logiciel, l'un après l'autre (toujours sans exhaustivité), des mots statistiquement caractéristiques du roman, l’idée est venue à certains élèves de les regrouper et de procéder à une requête non plus individuelle mais collective. A été activé pour ce faire l'opérateur booléen ET, utile pour localiser des zones textuelles d'apparition privilégiée des co-occurrents. dans l'ensemble du roman. Donnons un exemple de requête cumulative, ressortissant encore au domaine psychologique : INSTINCT* et OBSED* et BESOIN* et POSSESS* et JALOU* et IVRE et OBSTACLE* et TUNNEL ; soit 8 formes ayant 71 occ. réparties dans 3 chapitres devenant ainsi cruciaux : I avec 18 occ. ; IX avec 30 occ. ; XI avec 23 occ. La question se pose alors de savoir ce qui, dans l’étude thématique et narrative, peut justifier de tels pics de fréquence. Cela donne le pas à l’échelle globale sur l’échelle locale ; corrélativement, du niveau de l’interprétation sur le niveau lexical. Car la gageure du cours de littérature ainsi conçu est effectivement de ne pas en rester à l'étape du relevé (formel et quantitatif), mais de prendre appui sur lui pour découvrir ou confirmer une visée interprétative, dont l'élève est l'acteur.

Précisons qu’il sera une autre manière d’opérer des groupements lexicaux : non plus entre co-occurrents à fréquence élevée (point de départ statistique) mais entre co-occurrents par proximité sémantique, telle la synonymie ou l’antonymie qui unit la paire cœur & âme qui fait l’objet d’une interrogation dans la base A.B.U. en ligne.

Revenons au CD-Rom qui nous occupe. L’utilisation du logiciel ne saurait se limiter au contraste de l’un des roman par rapport au cycle entier du seul point de vue des disparates de fréquences . Il permet en outre, chose non négligeable pour rendre les pistes de lecture vérifiables, la justification de l’un des grands thèmes de la critique littéraire, en aidant à le construire par l’appui sur le repérage des régularités lexicales.

Ce thème pourrait être celui de "l'Héritage", génétique, d’après ce qu’on sait du projet physiologique & généalogique de cette famille, ainsi résumé par Zola à propos de La Bête humaine : "je voulais exprimer cette idée : l’homme des cavernes resté dans l’homme du XIXème siècle, ce qu’il y a en nous de l’ancêtre lointain." Or, paradoxalement, on est d’autant plus frappé par la rareté de la forme hérédit* (* = opérateur de troncature pour élargir à la famille lexicale) dont les 5 seules occ. dans le roman constituent un déficit et une absence révélatrice par rapport aux 66 occ. précisément dans Le Docteur Pascal (sur 111 occ. au total), qui conclut le cycle avec ce pic statistique.

Quantitativement, le thème de l’héritage n’est pas donc pas pertinent dans La Bête humaine . Tel n’est pas le cas de l’un des termes associés à la maladie héréditaire. Il s’agit de vertige , dont voici les 10 contextes (majoritaires sur 68 occ. au total ; la base BIBLIOPOLIS, elle, ne recense que 27 occ. du mot, qui ne vient ainsi qu’en deuxième position après le corpus d’Hugo), par ordre d'apparition chronologique :

Les remarquables reprises lexicales qui caractérisent le style zolien, repérées entre ces dix segments textuels, ont eu pour effet pédagogique non négligeable de provoquer de nombreux parcours interprétatifs . Voici leur teneur, pour autant que je puisse les reformuler sans les trahir : Rapprochements lexico-thématiques effectués en classe plénière [2].

On conclura sur le fait que, si elles doivent être dépassées par la mise en évidence de la cohésion sémantique qu’elles signalent, les régularités lexicales et disparates de fréquences, auxquelles l’outil informatique donne accès, constituent des indices non négligeables.

Un dernier exemple est particulièrement probant. Le lecteur attentif, ayant pratiqué une lecture cursive du roman, ne manquera pas de déceler intuitivement la présence d’un même moule façonnant les meurtriers et les victimes : grandeur, épaisseur, lourdeur, puissance sont des traits physiques caractéristiques des deux héroïnes du roman , Flore et Séverine. Or c’est sur ce fond – qui coïncide avec le registre de l’épique – que se détache un élément distinctif : Séverine est la seule à être définie par le syntagme ‘yeux de pervenche’ (avec une dominance quantitative de 6 occ. sur 10 au total dans les Rougon-Macquart du nom de fleur, ce qui donne au corpus Zola la première place par rapport à plus d’une centaine de classiques dans L’encyclopédie de la Littérature Française , numérisée, que présente BIBLIOPOLIS sur CD-Rom) : "Et ce qui, en ce moment, le rendait fou, c'était de la sentir comme jamais il ne l'avait eue, ardente, frémissante de passion sensuelle. Le noir reflet de sa chevelure assombrissait ses calmes yeux de pervenche , sa bouche forte saignait dans le doux ovale de son visage. Il y avait là une femme qu'il ne connaissait point. Pourquoi se refusait-elle ?" Le bleu calmant, rare couleur méliorative dans ce roman, ainsi que la douceur des courbes ont attisé la curiosité. Elles ont été lues soit comme une exception à l’univers de violence fait de sang et de noirceur, soit comme une simple apparence, un paraître masquant l’être fondamentalement violent de la jeune femme.

L’étude de l’œuvre complète sort renouvelée par les résultats que permet d’obtenir un logiciel performant, résultats chiffrés ou de recherche contextuelle qui ne sont nullement une "information toute faite" mais qui requièrent l’analyse et l’interprétation de groupes ou de la classe. Car si les programmes de l'enseignement secondaire font de plus en plus appel aux interrogations de bases de données dans l'optique de l’autonomie, c’est-à-dire d’apprendre à trouver "de l’information", celle-ci demande à être traitée lorsqu'elle est extraite de corpus numérisés. Il est donc normal que le professeur de français procède à des analyses sémantiques pour rendre les "données" signifiantes et pour forger une méthode dans la pratique en cours. Cette activité qui a eu lieu durant environ six heures de cours – sans compter les recherches personnelles hors cours – apparaît complémentaire et convergente vis-à-vis de l’élaboration des T.P.E. qui sont la nouveauté didactique des classes de 1°.

Voilà comment l’utilisation des TICE dans la matière Français a pu s’effectuer, constamment guidée par le souci de la saisie du sens des textes.

Aller au Chapitre 3

Retour au Sommaire

NOTES :

[1] Quatre domaines sémantiques : (A) psychologique \ physiologique : instinct * (28 occurrences pour 224 au total dans les Rougon-Macquart ) - spasme * (4 occ. pour 16) - somnambule (3 occ. pour 12) - besoin (103 occ. pour 1149) - obsed * (6 occ. pour 27, bien que "obsession*" domine dans la Joie de vivre ) - idée fixe (9 occ. pour 68) - possess * (18 occ. pour 102) - jalou * (35 occ. pour 329) - étrein * (18 occ. pour 160) - halet * (11 occ. pour 67) - ivre (non ivre* : 11 occ. pour 77 ; la dominance ne va pas à l' Assommoir comme on aurait pu s’y attendre).

(B) macabre : spectre * (6 occ. pour 19) - terrif * (13 occ. pour 119) - meurtre * (59 occ. pour 104) - assassin * (53 occ. pour 175) - tuer (61 occ. pour 267) - crime * (40 occ. pour 167) - couteau (86 occ. de pour 245) - lame (7 occ. pour 26) - sauvage * (29 occ. pour 216) - ( violen * et sang  : respectivement 590 occ. et 970 occ. en tout, La bête humaine ne venant qu’en deuxième position après La débâcle ).

(C) judiciaire : vérité (43 occ. pour 362) - aveu (16 occ. pour 80) - affirm * (22 occ. pour 181) vs interrog * (48 occ. pour 308) - instruction (36 occ. pour 112) - juge (87 occ. pour 424) - magistrat * (18 occ. pour 71) - volont * (37 occ. pour 437, ex-aequo avec La débâcle et Le docteur Pascal  ; du degré de volonté dépend la culpabilité des protagonistes) - conscien * (25 occ. pour 247)

(D) ferroviaire : tunnel (51 occ. pour 54) - train (222 occ. pour 734 ; non "train*" qui eût inclus le verbe traîner) - machine (125 occ. pour 313 ; mais non "locomotive", étrangement pourvue de 2 seules occ. dans La bête humaine ) - gare (125 occ. pour 208) - rail * (24 occ. pour 91) - sifflet (23 occ. pour 31) - signal (17 occ. pour 47) / " signaux " (9 occ. pour 20) - vapeur (22 occ. pour 117) - vitesse (39 occ. pour 56) - vertige * (cf. ci-dessous) - neige (67 occ. pour 259 en tout, dont 52 au seul chap. VII de l'accident) - glaça * (9 occ. pour 82) - obstacle * (20 occ. pour 124)

[2] Rapprochements lexico-thématiques effectués en classe plénière : A première vue, il s’agit d’un vertige moins physiologique que météorologique (lié le plus fréquemment au monde ferroviaire), par la " violence " du " vent ", qui unit 

D’autre part, la cooccurrence de " la bête " a fait dire à certains que l’amant Jacques (segment G) et le mari Roubaud participent d’une même nature (in-)humaine, de sorte que dans ce roman qui s’apparente au genre de l’épopée – comme l’ont observé maints commentateurs – héros et anti-héros ne sont pas radicalement distincts ; ils participent d’une même physiologie, conformément à la thèse du déterminisme zolien, équivalent scientifique de l’antique fatalité. Cela est corroboré par une piste lexicale convergente : la reprise de " l’ivresse " aux segments (A) et (H) fait de Séverine le type de la femme fatale qui déclenche le même excès masculin, que ce soit du mari ou de l’amant.

Cette relation physique extra-conjugale est frappée du sceau de la destruction, à l’image de l’univers ferroviaire (on ne peut s’empêcher de songer au " train fou " de J que rien n’arrête), comme en témoigne la coocc. du radical " anéanti- " aux segments (C) et (H) ou l’enchaînement de " bête / mordre " à " bête / morsures " du segment (G) à (H). Plus d’un élève a été frappé dans ces contextes amoureux par le pessimisme de Zola. Cela est corroboré par deux autres pistes lexicales :

Un " galop " d’autant plus justifié concernant Jacques que ce mot lexicalise la grande " vitesse " du train dans lequel le même héros avait entraperçu la scène de meurtre (segment B), centrale dans l’intrigue du roman.

En abordant le segment (I), un groupe d’élèves a décelé une extension quasi-épidémique de la " violence maladive " à la société elle-même, dans laquelle se déroule le procès. Le domaine judiciaire statistiquement si caractéristique du roman n’échappe donc pas au vertige social. Cette " fièvre " du pays apparaît indissociable des segments (G) et (H) où Jacques éprouvait ce mélange pathologique de brûlure et de gelure, occasionné par le contact charnel.

Le charnel prend d’ailleurs une tonalité militaire et non plus amoureuse au segment (J), où les " wagons à bestiaux emplis de troupiers ", hurlant comme le faisait la bête en Roubaud (segment A), sont une chair à canon qu’illustrera le roman suivant du cycle, La Débâcle … Cela ne serait qu’une allusion, si la chair n’était pas constamment meurtrie dans ce qui fait le sujet de La Bête humaine , à savoir l’histoire d’un " serial killer ", anglicisme que justifie le modèle ayant inspiré Zola (Jack l’Eventreur).

Avec cette " bête au fond de lui ", l’altérité que découvre Jacques en lui, au cours des relations physiques, explique le rapprochement de " n’être plus lui " au segment (G) et " ne plus être à lui " au segment (H) par le distinguo suivant : /identité par l’essence/ vs /identité par l’appartenance/. Voilà par où revient le problème héréditaire.

Sans aller plus avant, les gloses de ces dix extraits donnent une vue de la thématique du vertige, que les élèves sont parvenus à cerner – cela soit dit sans auto-satisfaction. En revanche, le rôle de l’enseignant aura consisté à rabattre sur le sens grammatical, moins populaire que le lexical ; ainsi à l’aspect ponctuel dû à vitesse et l’unicité (cf. " en coup de foudre " en B et J), corrélé aux passés simples, s’oppose le plus fréquent aspect duratif-itératif du vertige (cf. notamment ‘ne cessait’ et ‘continuelle’ en I), corrélé aux imparfaits.

Une dernière remarque d’élève retiendra notre attention : il s’agit de la seule occ. au pluriel des ‘vertiges’ de la vieille tante Phasie (segment D), dont la pathologie trop simple, plus exactement trop peu métaphorique (en comparaison avec le " sens figuré " animal ou météorologique), explique le jugement émis sur cette occ. par certains élèves : moins intéressant que les autres segments. Toutefois l’innocuité du " mal " disparaît si l’on replace Phasie, consciente de sa survie miraculeuse

On pourrait poursuivre l’analyse sémantique des coocc. lexicales. Abrégeons. Le fait que ces segments aient une portée à la fois thématique et pédagogique (puisqu’ils provoquent la prise de parole de l’élève) vient de ce qu'ils ne sont pas anodins mais se situent au moment d’une crise, d’une manifestation du mal profond des protagonistes, moments charnières où l’action bascule. Ils constituent des points nodaux et cruciaux du récit. En tant que corrélat du trouble héréditaire, ce vertige perd son aspect innocemment sensoriel et physiologique au profit de sentiments et passions qui ont une implication dans le déroulement dramatique du roman.