ANNEXE 1
NTIC, enseignement, littérature, lexicométrie : état des lieux

La conception de l'apprentissage (non de l'enseignement) qui est aujourd'hui la plus en vigueur dans le discours officiel de l'Education Nationale – à travers les formations dispensées par les Inspecteurs – fixant le cadre dans lequel s'inscrivent les différents projets liés aux NTIC (1), et les intégrant à un niveau ou un autre, s'appuie sur un modèle constructiviste et interactionniste.
  1. Constructiviste : les situations proposées permettent aux enfants de construire leurs propres représentations et leurs propres hypothèses. Dans ces situations qui présentent pour eux des "problèmes", l'erreur est considérée comme constitutive de l'apprentissage.
  2. Interactionniste : c'est également dans les relations avec l'adulte ou avec leurs pairs que les enfants apprennent. Il n'est donc pas envisageable de laisser un enfant seul devant un écran d'ordinateur.

Un tel modèle prôné par Linard (2001) se fonde sur "l'activité d’auto-structuration mentale, cognitive et affective, d’un sujet en relation avec les objets physiques et symboliques de son environnement socio-culturel". Elle ajoute pour valider un modèle triomphant : "Les théories constructivistes et interactionnistes (psychologie du développement, sémiologie de l'action, sociologie) sont les seules à fonder l’intelligence sur l’activité de l’individu en relation à son environnement social."

Ce modèle était développé il y a déjà bien longtemps par des auteurs comme Wallon, Bruner ou Vygotsky, mais il demeure encore peu mis en concurrence avec le modèle rhétorique traditionnel dans lequel les apprentissages se font par imitation d'un modèle, le plus souvent incarné par le maître. Si ce dernier modèle est efficace et a fait ses preuves pour un travail essentiellement axé sur les performances, il est en revanche très sélectif et impropre ou du moins peu adapté pour développer de réelles compétences chez les élèves.

Or quand Linard (2001) pose que "les NTIC ont les potentiels nécessaires pour instrumenter une pédagogie de formation des processus cognitifs qui conditionnent l’accès à la connaissance",  elle réactive une complicité entre l'homme, en tant qu'apprenant (novice ou expert), et la machine, en tant qu'outil ("il est vain de compter sur les seules machines pour faire apprendre"), un compagnonnage fondé sur le topos bien connu dans les recherches cognitives selon lequel l'ordinateur serait sinon une image, du moins un duplication du cerveau (cf. Rastier, 1991, ch. 1). C'est donc naturellement que la pédagogie de l'utilisation des NTIC apparaît comme étroitement soudée aux théories des processus cognitifs (2).

"Dans ce cadre, poursuit Linard, la connaissance n’est ni un algorithme, ni une communication d’objets : elle est un processus interactif de structuration réciproque entre sujets et environnement, externe et interne, qui se développe lentement dans le temps. Ce processus est en partie automatique, en partie intentionnel et s’auto-organise à partir de son propre fonctionnement et de ses propres résultats. En psychologie du développement, Piaget a montré que l'action pratique spontanée - dont la biologie nous a dotés avec toute une série de mécanismes automatiques auxquels on n’a pas besoin de penser - n'est que le premier stade de l'accès à la connaissance. Piaget a été justement critiqué, mais il reste l’auteur, avec Vygotsky, d’un apport fondamental : la connaissance humaine commence par s’enraciner dans l'action pratique en relation avec le milieu, mais elle n’évolue vers l’abstraction (de type savant) et ne se formalise qu’à condition de dépasser ce stade. "Voici le schéma qu'elle propose des phases du parcours d’une action intentionnelle (inspiré de la sémiotique narrative) :

"Dans un tel contexte, poursuit Linard, qu’apportent de plus les TIC ? Pour le public de ces rencontres, il est acquis que les TIC actuelles offrent des outils remarquables d’intelligence et de connaissance. On sait qu’elles ont toutes les qualités techniques nécessaires, mais aussi les défauts, pour se transformer en instruments efficaces, pour ou contre l’activité d’apprendre. Et on sait maintenant qu’elles non plus ne le font pas "toutes seules". C’est aux enseignants qu’il revient d’actualiser et d’exploiter le potentiel des outils en les mettant au service de la construction effective par les apprenants de leur propre connaissance."

Outre ce rétablissement du vrai médiateur de l'apprentissage (l'enseignant, non les TICE), Linard dénonce le technicisme : "Contre l'évidence, on persiste à croire que, quand un individu n'a pas les bases psycho- et socio-cognitives nécessaires pour se conduire et apprendre normalement, les outils vont pouvoir les produire à sa place."

D'autre part, l'interaction ainsi créée (prof\élève\outil\milieu socio-culturel) va bien entendu à l'encontre d'idées reçues concernant la création et la "compréhension au sens fort" (3), lesquelles voudraient que seul le cerveau humain, adulte ou enfant, soit capable de produire des œuvres littéraires par sa faculté imaginative et de comprendre les associations d'idées que suggère leur style, par sa faculté intellectuelle. Ainsi, au rebours d'une pseudo-incompatibilité entre informatique et littérature, particulièrement dans le domaine de la statistique, entre les mots et les chiffres qui les comptabilisent, on constate que les logiciels permettant une analyse littéraire assistée par ordinateur proposent des fonctionnalités et des applications toujours plus efficaces.
 

Voyons quelques applications concrètes, en commençant par deux logiciels fondés sur l'analyse distributionnelle et dont les mécanismes qu'ils mettent en œuvre sont indépendants du sens (selon la tradition de Harris) :

Concernant l'étude du vocabulaire d'un corpus donné, la "réelle convergence des résultats" et de la méthode entre l’analyse des données textuelles (Alceste de Reinert, élève de Benzécri comme le rappelle Beaudoin (2001), acronyme pour "Analyse des Lexèmes Cooccurrents dans les Enoncés Simples d'un Texte") et la statistique lexicale (logiciel Lexicométrie de Labbé, lequel, comme Brunet, prit le sillage de Ch. Muller) se traduit par un objectif commun, celui de la caractérisation des lexèmes et grammèmes, mais selon ce que Rastier appelle "la problématique du signe", par opposition à "la problématique du texte". Aussi les "hypothèses interprétatives" auxquelles invitent les résultats ne peuvent s'éprouver loin des contextes, qui sont précisément le lieu où s'élabore leur thématique. Quand Reinert (2000) étudie chez Rousseau les trois classes "(a) Nature et vie Simple, (b) Vie Affective et Subjective, (c) Jugement [sur le vrai et sur le faux]", le contenu lexical censé les justifier (par une série "d'unités de contexte élémentaires") apparaît arbitraire car il n'est pas res(t)itué en contexte. Il manque une confirmation sémantique des régularités lexicales, textuelles et statistiques que repère la machine, sur une hypothèse humaine.

De même pour Hyperbase, dont une excellente initiation aux étapes méthodologiques de recherche est donnée par Brunet & Sjöblom (2000) sur le lexème 'mer' chez Le Clézio : ce logiciel (dont se confirme la facilité d'utilisation des fonctions documentaires, et la complexité des statistiques), comme les précédents, fournit des résultats qui, centralisés et exploités par l'enseignant en classe plénière, ne sont qu'un point de départ pour les travaux d'élèves sur corpus donné. Car l'étude du le thème de la mer chez Le Clézio implique une mise en évidence de la cohésion textuelle, fruit d'une activité interprétative, que ne réalise pas le logiciel de lexicométrie.

Un commentaire de V. Delavigne (2002) sur Alceste plaide pour le même dépassement herméneutique : "L'ensemble de ces documents lexicométriques offre ainsi des pistes pour une analyse de contenu du corpus. Cependant, ces documents présentent également un intérêt certain pour une analyse de discours et une étude du fonctionnement des termes dans la mesure où le logiciel dénombre des formes lexicales et en montre les cooccurrences."

Toutefois, il y a loin de la quantité chiffrée à son interprétation, de l'analyse statistique à l'utilisation qui en est faite, relativement aux pistes qu'elle trace. Ainsi quand on compare l'utilisation remarquable que fait É. Bourion de la base hypertextuelle Balzac de Brunet, notamment dans la constitution de la molécule sémique des acteurs du Père Goriot en fonction de cooccurrences sélectionnées par le test statistique (2001, ch. 6), on ne peut en revanche qu'être frappé de l'indigence d'autres propos sur le même roman dans Hyperbase, tel celui d'A. Oliver (1998), selon qui la fréquence élevée de mots relevant du thème de la féminité se mesure – de façon très superficielle – à l'aune de la banalité de leur destin :

"Que dire à propos de l’importance apparente accordée par Balzac à ces figures féminines, femmes mariées d’une part et celles qui ne le sont pas d’autre part ? car les chiffres nous invitent à peser leur rôle : sur les 471 emplois de madame, 127 visent directement "madame Vauquer", 84 s’appliquent à mme de Beauséant, 83 à mme de Nucingen, 63 à mme de Restaud, 8 à mme la duchesse de Langeais, 5 à mme d’Ambermesnil, 3 à mme Marcillac, 2 à une certaine mme Morin, et 1 à chacun des personnages féminins suivants : mesdames Lanty, Firmiani, Taillefer, Carigliano et Sérizy ; le même calcul peut se faire pour les personnages désignés par mademoiselle : mlle Michonneau (60 occ.), Taillefer (36 occ.), mlle Rochefide (5 occ.), Anastasie (1) et mlle de la Vallière (1). Les 4 femmes mariées principales, mme Vauquer, mme de Beauséant, mme de Restaud et mme Nucingen appartiennent à des mondes différents et pourtant il y a de fortes ressemblances de situation qui les relient. À vrai dire, indépendamment d’évidentes divergences de caractère, ces quatre femmes vivent chacune la variante d’un même destin que l’on pourrait décrire en fonction d’un mouvement essentiel qui se résume à ceci : après une période de bonheur ou de calme relatif intervient un événement qui apporte le malheur et l’instabilité auxquels peut succéder une nouvelle période de bonheur ou de calme relatif dans un mouvement cyclique perpétuel. Il s’agit là de la vieille thématique balzacienne de la grandeur suivie de la décadence […]"

Ces logiciels statistiques sont aujourd'hui sur les devants de la scène culturelle par le retentissement médiatique qu'a eu l'un d'entre eux (dernière en date, la chronique de M. Winckler sur "France Inter" du 28 Avril 2003 donne accès aux pièces du dossier), en aboutissant à un résultat subversif. Au total, les chercheurs sont formels, seize pièces de Molière sont réattribuées à Corneille, à qui en reviendrait ainsi la paternité : L'étourdi (1658), Le Dépit amoureux (1656), Sganarelle ou le cocu imaginaire (1660), Dom Garcie de Navarre (1661), L'Ecole des maris (1661), Les fâcheux (1661), L'Ecole des femmes (1662), La princesse d'Elide (1664), Le Tartuffe (1664), Dom Juan (1665), Le Misanthrope (1666), Mélicerte (1666), Amphytrion (1668), L'Avare (1668), Psyché (1671), Les Femmes savantes (1672). Les Labbé père et fils (2001) s'expliquent sur leur expertise dans Journal of Quantitative Linguistics, 8-3 :

"Corneille a très probablement écrit la majorité des pièces de Molière. De leur vivant, cette collaboration avait été révélée pour l'une des comédies en vers de Molière (Psyché). Depuis, plusieurs personnes ont signalé les nombreuses ressemblances existant entre les deux œuvres – notamment le poète P. Louÿs au début du XXe siècle. Mais un faisceau de présomptions ne constitue pas une preuve. Cette preuve, la statistique appliquée au langage est en mesure de l'apporter grâce au calcul de la distance inter-textuelle, c'est-à-dire l'écart entre les vocabulaires employés dans les différents textes dont on cherche à déterminer les auteurs."

Ce coup d'éclat de la démonstration scientifique en littérature est d'autant plus frappant qu'il converge avec l'intuition et le doute qui la précédaient. Par leur méthode de statistique lexicale, les Labbé ont ainsi mis au point une mesure qui permet d'estimer le degré de similitude entre des textes d'après les vocabulaires employés. Ceux – parmi lesquels les 16 pièces citées – dont la distance mutuelle est inférieure à 0,2 sont obligatoirement du même auteur. "Cet indice est influencé par quatre facteurs : l'auteur, le vocabulaire de l'époque, le thème traité, le genre." (ibid.) (4)

Or la polémique persiste, non seulement chez les universitaires, spécialistes de Molière (cf. la synthèse fouillée et éclairante de G. Forestier, 2003, "D’un vrai canular à une fausse découverte scientifique", ainsi que le site de R. Duchêne qui présente notamment la réfutation de R. Pommier), mais surtout chez les linguistes, dont voici quatre avis convergents :

  1. P. Lafon, directeur de recherche au CNRS : "La lexicologie statistique ne peut pas fournir avec certitude le nom d'un auteur. Elle permet seulement d'étayer une hypothèse. La méthode de Labbé, c'est du bricolage, un faux scoop."
  2. Ch. Muller, pionnier de la lexicologie statistique : "Ses conclusions sont probablement hâtives et ont pu dévoyer certains journalistes avides de sensation... Il manque de prudence."
  3. É. Brunet : "Soyons sérieux, l'analyste statistique peut, au mieux, distinguer les comédies des tragédies et, secondairement, les œuvres en vers de celles en prose." Et d'ajouter : "pourquoi chercher à confondre Corneille et Molière, quand le partage du même genre comique et de la même expression versifiée suffit à expliquer la ressemblance ?" (communication personnelle)
  4. Enfin et surtout, depuis mai 2003, le site créé par J.-M. Viprey - auteur dont il sera question pour d'autres raisons - Morneille, Colière et Messieurs Labbé, où la récusation est sans appel : "l’indice de distance intertextuelle de MM.Labbé n’a pas du tout la rigueur et la solidité minimales pour pouvoir servir à la comparaison des vocabulaires de 2 textes, moins encore de n textes, dans l’établissement de présomptions raisonnables, notamment en matière d’attribution d’auteur, sans parler évidemment de preuves, notion radicalement étrangère aux statistiques probabilistes." Et pour expliquer le tapage médiatique, Viprey d'ajouter : "M.Labbé s’est montré impatient. Il a voulu à tout prix que l’on s’intéresse à ses découvertes, toutes affaires cessantes. Et comme les sorbonnards ne lui donnaient pas la publicité qu’il escomptait, il en a appelé au grand public, sous couvert notamment de vulgarisation." Pour déplorer l'atmosphère de la controverse scientifique au coeur de l'Affaire : "Le ton de cette discussion n’est en effet pas honorable. Si nous avons tous peu ou prou « dérapé », D. Labbé me semble avoir été le seul à proférer de franches injures et des attaques ad hominem."

N'ayant pas les compétences pour entrer dans le débat, où les chiffres tiennent le haut du pavé, dans de savantes équations qui dépassent le littéraire, on retiendra que l’outil informatique n’est pas en soi remis en cause, mais seulement l’ambition des objectifs que lui fixe le chercheur. Encore une fois, nous nous accorderons avec les récents propos de Rastier à ce sujet : "Des questions essentielles restent ouvertes : A quel seuil un tel calcul de proximité permet-il de conclure à une attribution ? Puisqu'un texte n'est pas une suite de mots, en quoi son vocabulaire permet-il de caractériser sa spécificité ?

Il est vraisemblable que Labbé ait eu une idée fausse, mais je souhaite que cela ne joue point en sa défaveur. Outre que cela n'est pas donné à tout le monde, la connaissance progresse plus par des expériences qui ratent que par des protocoles qui réussissent toujours. Encore faut-il faire un bilan de l'affaire pour faire progresser la réflexion." (liste de diffusion SdT du 11/07/2003)

Enfin, plus récent qu'Hyperbase et pourtant proche de lui par les fonctionnalités qu'il présente (en effet, "il est constitué de deux grandes sortes de fonctions : de lecture et de consultation, d'une part, d'analyse statistique d'autre part; mais le principe même de l'hypertexte exige que ces deux modalités de travail soient constamment reliées, aidées l'une par l'autre." in notice-manuel joint sur CD-Rom), l'hypertexte (5) des Fleurs du mal de J.-M. Viprey (2002) – dont E. Brunet fut au jury de thèse – constitue un excellent logiciel statistique, bien que restreint au corpus d'un seul auteur (Baudelaire). Présenté sous forme de CD-Rom, le livre qui l'accompagne témoigne du souci de ne jamais occulter la réalité littéraire au service de laquelle est mis l'explorateur informatique.

Voilà pourquoi l'auteur s'inspire aussi bien de la méthode stylistique de Spitzer – fondée sur "le dialogue étroit du global et du local, de l'ensemble et du détail" – que la linguistique textuelle de J.-M. Adam (cf. citations pp. 10-11). Nous évoquions le piège de la technicité logicielle pour le professeur ; Viprey ajoute l'écueil insidieux du "technicisme" pour l'analyse textuelle, celui "qui consiste en effet à décortiquer le texte, à lui appliquer la boîte à outils, à s'emparer des instruments de chirurgie et\ou des nomenclatures jargonneuses avant même d'avoir engrangé une première impression d'ensemble." Est ainsi stigmatisée la plus célèbre des "grilles de lectures", celle de Jakobson & Lévi-Strauss sur les Chats : "ce qui caractérise cette tendance (qui pourrait aussi être dite descriptiviste), c'est tout autant son incapacité à s'engager vers une interprétation, que ses tendances à hyper-interpréter (les deux ne sont nullement contradictoires)." (p. 14) Le parti pris de la description poussée du matériau linguistique est clair : "Rien ne doit être décrit qui n'augmente l'interprétation." (p. 28), "la carence du sens étant l'un des travers les plus courants de la mode des nouvelles technologies" (p. 12). Option théorique qui converge donc avec notre approche de la thématique textuelle.

A ce propos, Viprey propose de réformer celle-ci par un "outil informatique plus sophistiqué" que ne l'est la recherche d'occurrences dans le texte numérisé traditionnelle et manuelle (fût-elle assistée par ordinateur), laquelle implique selon lui les trois seules opérations suivantes : "on procède donc par annotation marginale, relevé, classement, des contextes dans lesquels on repère le thème" (p. 91). Or l'alternative proposée consiste en une "carte" statistique, dite "atlas de l'hypertexte", permettant de visualiser les rapports de voisinage graphique témoignant de la structuration lexicale chez Baudelaire :

"La 3ème carte est issue de l'analyse de la micro-distribution des vocables les uns dans le contexte des autres, à l'échelle de la strophe. Les vocables proches les uns des autres ont tendance à avoir des contextes similaires, en termes de contenu lexical. Ces proximités, nous les appelons des isotropies (6). Elles servent à repérer, notamment sur le plan lexical (et en conjonction avec les cartes de macro-distribution), la véritable configuration thématique propre à ce texte et qui contribue à le distinguer de tout autre. Ainsi chaque vocable indexé sur la carte y montre-t-il, mieux que partout ailleurs, son activité propre aux Fleurs du mal." (in Notice – Manuel)
 

Car selon Viprey un tel usage de la cartographie statistique fondée sur les Analyses Factorielles de Correspondances (dues à l'algorithme "canonique" de J.-P. Benzécri) est à même de renouveler l'approche thématique, d'un premier coup d'œil, en restant fidèle à un impératif philologique clairement revendiqué : "la relativité des positionnements individuels et la nécessité d'une très forte activité d'interprétation et de retour au texte : aucune vérité clé en main ici, ni aucun éblouissement techniciste." (ibid.) En effet, dans une vue d'ensemble de cette 3ème carte, qu'apporte le constat immédiat de la forte isotropie entre le vocable TEMPS et ses voisins TOUJOURS, ÂME, HOMME, VOULOIR, VIEUX, DOULEUR (pp. 88-92) ? Le thème du temps requiert selon nous le dépassement de tels cooccurrents statistiques au profit d leurs corrélations sémantiques, lesquelles ne peuvent être établies que par le retour au contexte d'où ces vocables ont été extraits. Viprey d'ailleurs ne le conteste pas, lorsqu'il admet que "la signification, surtout dans le cas de vocables fortement occurrents, est faite […] d'une sorte de noyau en perpétuel remaniement, avec les contextes d'emploi" (p. 17).

Si l'on conclut ainsi à la faible interprétabilité des factorielles, le logiciel présente néanmoins un réel intérêt dans l'analyse statistique procédant sur la limite contextuelle de la strophe. Pour reprendre l'exemple du vocable CHAT(S), crédité de 10 occ. dans le recueil, et l’un des 30 termes les plus spécifiques du corpus (selon les tableaux d’Hyperbase ci-dessous, mais non d'après la 3ème carte de Viprey d'où CHAT(S) est absent), il appert du tableau suivant que ses cooccurrents à fort écart réduit ont pour coloration sémantique l’isotopie /transcendance/ (cf. « ange, séraphique, subtil, puissant, doux, aimer, harmonieux, voix, étrange, mystérieux »), dont l’euthymie masque à peine la dysthymie – pour reprendre la terminologie de Viprey concernant cette double modalité affective :

Légende du graphique
Indice est l’écart réduit, lequel n’est significatif que si son seuil est > +2 ou < -2.
Occ. est le nombre de cooccurrences (par rapport au vedette, ici CHAT) dans la limite d’une strophe, sous forme de lemme. Effectif est l’ensemble des occurrences dans le recueil ; quant à la valeur de référence, elle représente la proportion des contextes limités à la strophe rapportés à la totalité des occ. dans le recueil.
Enfin, le cadre de droite énumère les faibles cooccurrences, par ordre alphabétique.

Une comparaison avec le vocable CHIEN(S), crédité seulement de 4 occ. manifeste au contraire la coloration négative de ses corrélats statistiques, triviale et dénuée de toute transcendance :

Le logiciel présente en outre une capacité intéressante, celle de fournir la concordance simultanée de plusieurs lexèmes. "Si le lecteur détient une liste de vocables qu'il estime représenter un thème, un groupe cohérent, etc, il peut souhaiter en examiner globalement la concordance, la répartition dans les poèmes, le contexte global. Dans le champ de saisie du dialogue principal de requête, il peut saisir cette requête multiple" (Manuel).
Pour reprendre l'exemple du vocable GOUFFRE marin, dont on a vu supra la portée métaphysique chez Hugo, la même requête que ci-dessus pour ‘chat’ et ‘chien’ montre qu'on obtient pour ce mot pôle deux cooccurrents paradoxaux, ŒIL et ÂME (7) : crédités d’une valeur de référence dans le recueil respectivement de 3,5 de 1,5, leur score est supérieur à celui de MER (0,99), ce qui incite à se reporter aux contextes correspondants pour établir le lien sémantique :

N. B. : Le graphique présente ici les concordances dans l’ordre des poèmes. Cela a pour avantage d’opérer une restitution contextuelle et de faciliter la cohésion.
D’autre part, comparer les résultats statistiques de deux logiciels n’est pas inintéressant.  On constate ainsi que la liste des "principaux vocables du recueil" (donnée par Viprey, 2002, p. 67) diffère de celle qui provient de la commande SPECIFICITES de Hyperbase, telle qu’elle apparaît dans les deux tableaux suivants, enchaînés par ordre décroissant. Par exemple, YEUX n’arrive qu’en fin du second alors que le lemme ŒIL arrive en tête chez Viprey :


Mais la vraie originalité du logiciel réside dans la prise en compte du signifiant poétique, entendons par là son interrogation du corpus à partir de « mannequins phonétiques », lesquels permettent de cerner des allitérations et assonances remarquables. Ainsi, concernant les analyses statistiques, Viprey précise que "pour l'option phonèmes, le principe d'analyse est identique à celui des items lexicaux". Quant à l’étude de la versification, l’assistance informatique permet la sélection de vers d’après leur structure métrique, ainsi que la "requête de rime" ; pour revenir à l’exemple précédent, celle du vocable ABÎME présente une consistance intéressante, comme en témoigne le relevé de concordances suivantes, où l’on note la capacité du logiciel à opérer une transcription phonétique de chaque vers :

Enfin, last but not least, parmi les autres "facilitations" que procure le logiciel, mentionnons l’accès à la totalité du texte baudelairien, en clair, par traitement de texte, dans le fichier "texte_intégral.txt". Il s'agit là d'une aide immédiate à la citation. Elle complète la "consultation plein texte" dont l'avantage était de fournit les variantes génétiques visualisées par différentes couleurs.
 

Ceux-ci demeurent plus faciles d'accès pour l'élève du secondaire. Citons
    Tropes (version gratuite sur CD-Rom), dont l'analyse de contenu par la délimitation de champs lexicaux (dénommés "univers de référence") s'accompagne d'éléments de stylométrie, ou données servant à quantifier le style, telle la fonction des "catégories de mots fréquentes", ici dans OCEANO NOX de Hugo :
     

 

De telles données statistiques ont pour vertu d'intriguer par leurs irrégularités. Tel ce pic des "adjectifs objectifs", atypiques dans un poème lyrique; à quasi égalité avec celui des "verbes factifs" affinitaires de l'épique… Bref, de telles mesures contraignent à remettre en question la codification des variables morphosyntaxiques par les genres littéraires.

    ThemeEditor dont P. Beust (2002) présente l'intérêt : "Le principe du coloriage thématique consiste à affecter une couleur à chaque isotopie et à « surligner » les mots du texte sur lesquels elles s’appuient. Le coloriage de textes électroniques permet ainsi de faire apparaître les différentes isotopies qui recouvrent un texte. On peut alors en examiner les répartitions au long du texte, leurs alternances et leurs enchaînements. De ce point de vue, le coloriage est aussi une méthode pour rendre objectif (et donc partageable) certains aspects fondamentaux des interprétations que l’on peut produire. En cela, l’outil que nous proposons s’inscrit dans le même courant d’étude que le logiciel Pastel développé par Tanguy (1997). A la différence de Pastel (autre acronyme pour "Programme d'Aide à l'analySe de TExtes, même Littéraires") conçu pour la visualisation des isotopies d’un texte, ThemeEditor est dédié à la construction de classes sémantiques à partir de corpus." En outre par comparaison avec un logiciel de lexicométrie, Beust précisait que "la valeur ajoutée de l'outil logiciel par rapport aux méthodes statistiques est, qu'en plus des lexies repérées dans le texte, le rapport d'analyse fournit des informations (les taxèmes et les domaines d'interprétation) sur la thématique du document telle qu'elle est perçue à l'issue du processus interprétatif." (1998: 194) L'avantage de notre point de vue de ces deux logiciels est que leur formalisme se fonde sur la théorie de la sémantique interprétative (Rastier). Dans ce cas, plus que dans celui des applications de statistique littéraire, lexicales ou textuelles, "ce type d'approche possède au moins l'avantage de permettre un rapprochement plus aisé entre l'informatique et la linguistique", comme le disent les auteurs de Pastel (Tanguy, & Thlivitis, 1996).
    En outre, quand les mêmes rappellent utilement le truisme suivant : "Tout comme les textes que nous tapons ne proviennent pas de la machine sur laquelle ils sont simplement mis en forme, une interprétation, ou une attribution de sens à un texte relève uniquement de l'humain, avec tout ce que cette notion peut supporter de psychologique et de social." (ibid.) la tonalité semble corroborer le modèle de Linard pour l'intégration des NTIC (supra). Or il en diffère dans la mesure où le constructivisme et l'interactionnisme que celle-ci préconise sont des conditions pragmatiques englobantes du processus pédagogique. A ce titre, elles ne sauraient conduire à assimiler l'actualisation des isotopies (réalité intra-linguistique) à des représentations mentales (8) ou à des propriétés de référents (réalités extra-linguistiques). Bref, c'est au cours de sa pratique des segments textuels récoltés dans un corpus que l'élève apprend à utiliser l'ordinateur pour leur conférer un sens, à élaborer leur thématique.
    Or pour cette tâche à accomplir, parmi les outils que l'enseignant peut lui proposer, certains sont plus efficaces que d'autres. Aussi Rastier (2001, pp. 78-9) est-il amené à constater la nécessité d'optimiser les logiciels mentionnés afin de mieux les adapter au plan du contenu :

    "La demande sociale a évolué, et les besoins des milieux professionnels vont croissant, notamment dans les domaines de l'extraction d'expertise et de l’analyse de contenu. [...] Dans le domaine du marketing ou la communication politique, on cherche à dépasser les méthodes lexicométriques par analyse factorielle, aussi éprouvées que limitées. Or, sur le plan de l’aide à l’analyse sémantique, des logiciels très utilisés comme Tact, Alceste ou Candide en restent pour l’essentiel à des collocations de chaînes de caractères. Les unités supérieures au syntagme, les unités non lexicales, les structures textuelles, les paramètres de genre, tout cela reste encore à peu près insaisissable. Entre les applications classiques d’intelligence artificielle et d’automatique documentaire, on ressent le besoin de créer des instruments de recherche et d’exploration assistées. Cela demande la mise au point de nouvelles applications linguistiques : l’accès sémantique aux banques textuelles, la création de sous-corpus à pertinence enrichie, l’interrogation texte \ texte sans thésaurus, la diffusion ciblée automatique de documents  (9) ; d'où l’essor des recherches dans le domaine de l’interprétation assistée (cf. Tanguy & Thlivitis, 1996) […] qui dépasse les méthodes fondées sur les co-occurrences de mots clé".

Sans être obnubilé par l’utilisation des mots vedettes comme entrées dans un corpus, nous pensons qu'il est difficile de s'en passer au niveau de l'enseignement secondaire, où ils sont d'emblée requis par le simple usage d'un moteur de recherche – par exemple pour des consultations documentaires. Reste qu'effectivement dans le cadre littéraire ils ne font que lexicaliser, chacun à sa façon, les parties d'un thème.

Aussi a-t-on pu voir dans l'étude d'une œuvre intégrale que sur une étendue de huit chapitres de La Bête humaine (Zola) les 10 occ. du mot pôle VERTIGE(S) s'accompagnaient dans la même phrase, donc à proximité immédiate, d'un ensemble lexical récurrent (VIOLENCE / VIOLEMMENT, ANÉANTI /ANÉANTISSEMENT, EMPORTAIENT /EMPORTÉE, MORDRE / MORSURE, FLAMME / FLAMBANTE, FUREUR / FURIEUX, HURLAIENT / HURLANTE, NU /NUDITÉ, MAL / MALADIVE,  BÊTE / BESTIAUX, SENTIR / SENSATION, EMPLIR, JETER, TOMBER, REVENIR, GALOP, JAMBE, TÊTE, COU, BRAS, AMANT, HALEINE, DÉSIR, IVRESSE, GRANDES, TOUT, WAGON), lequel consiste en fait en une série de lexicalisations d'un thème – sur un registre naturaliste conforme au genre du roman –, dont l'enquête scolaire devrait établir les composants sémantiques (c'est-à-dire la molécule sémique, en termes techniques). De tels sèmes formant un groupement stable sont alors le résultat de relations sémantiques qui confèrent une cohésion contextuelle au puzzle lexical dont on a énuméré les pièces principales. Dans une seconde étape comparative, grâce au CD-Rom des Rougon-Macquart, on a pu contraster ce thème avec ses lexicalisations par rapport aux autres romans de la saga (crédités au total de 68 occ. de VERTIGE(S), parmi lesquelles les 10 de La Bête humaine sont majoritaires). (10) Mais comment interroger la base pour y effectuer ces rapprochements intertextuels sans passer par des mots clé ? Telle est la difficulté de l'enquête thématique.

Comme nous le disions en début d'exposé, ce sont les "démarches alternées" sémasiologique (quel sens acquiert et permet de construire le mot vedette en contexte ?) et onomasiologique (quels sont ces composants thématiques qui peuvent se lexicaliser différemment et qui, par leur récurrence contextuelle, assurent la cohésion de l'extrait ou des "passages parallèles" ainsi mutuellement mis en rapport à forte distance dans le corpus ?) – dont É. Bourion souligne leur étroite complémentarité (2001 : 73-4) – qui permettent de rompre avec l'éclatement et l'éparpillement que ne manque pas de générer la requête par mot ou par syntagme isolé.


Retour au sommaire

Vers Annexe 2


NOTES :

[1) Et qui sont divers et variés, dans une mosaïque d'usages pédagogiques, à l'heure où fleurissent le "cartable numérique" et le "e-learning" ; scolairement, on recense 4 finalités : les TICE pour apprendre du professeur (i.e. ressources), pour apprendre par soi-même, pour apprendre en communiquant, pour apprendre en produisant.

[2] L'autre option théorique retenue par les programmes de l'enseignement secondaire du Français (depuis 1993) est la pragmatique (avec la mise au premier plan de l'énonciation, mais surtout de "l'objectif central : la maîtrise des discours"), dont on sait le lien qui l'unit au niveau cognitif (cf. Sperber & Wilson, La Pertinence). Preuve de l'effort de cohérence dans l'intégration des NTIC qui sont d'ailleurs prévues dans le cadre de ces programmes pour assister l'analyse du discours.

[3] Cf. Rastier (1994: 10-16), qui précisément la dé-psychologise dans sa théorie sémantique : "La compréhension, déliée des réquisits psychologiques, est une interprétation". De sorte que si on la suit - ce qui est notre cas - on ne peut entrer dans le débat cognitiviste que pose Linard (2001), du fait de son "oubli" de l'objet textuel qui est soumis à l'analyse sémantique par l'élève : "Les TIC accélèrent et amplifient les fonctions mentales (perception, action, représentation). Elles dynamisent les processus de structuration, coordination, adaptation et signification qui fondent l'intelligence et la relation sociale. Elles ouvrent l'exploration au monde entier. Leurs défauts (surexcitation et surcharge mentale, déréalisation, déresponsabilisation, repli sur soi) ne sont que le verso du recto."

[4] Résultat qui ne dissipe pas la défiance de Cl. Allègre (2002), lequel, en commentant cette étude, plaide pour un pastiche involontaire entre les auteurs du XVIIe s., et pour un sain dépassement des données statistiques par une étude sémantique des textes comparés : "Or, pendant toute sa jeunesse, Molière a beaucoup joué les pièces de Corneille. Il a donc retenu dans sa mémoire le vocabulaire, les tournures de phrases, les rimes, aussi, de Corneille. Quand il a lui-même commencé à écrire, il était naturel qu'il empruntât ce style! Molière en était tellement conscient que, lorsque le roi lui demanda d'écrire Psyché, pressé par le temps, il demanda à Corneille d'écrire les derniers actes. Mais ce qui distingue fondamentalement les deux hommes, c'est le sens, le sens du message que leurs pièces contiennent, et qui n'est pas le même. Molière est un novateur, un révolutionnaire, et c'est pourquoi il eut tant de déboires avec la censure. Voilà les limites de l'informatique: la quête du sens !"

[5] L'auteur précise : "hypertexte : désigne ici, de façon très restreinte, un environnement d'exploration des textes permettant une lecture non linéaire, le déplacement rapide d'un point des ressources à l'autre suivant un critère explicite (un lien) ; les ressources sont des textes "traditionnels" numérisés, des présentations de texte sous forme de tableaux statistiques, de concordances, de graphiques et de cartes, des sommaires, des listes, etc." (ibid.)

[6] D'iso- (égal) et tropie (attraction, inclination), concept destiné à saisir la "parenté distributionnelle" (p. 90). Son paronyme isotopie, qui demeure notre concept central pour la thématique, est stigmatisé par l'auteur, en des termes qui l'assimilent aux champs lexicaux : "il va s'agir de champs à tout faire, préfabriqués et en cela tristement triviaux, que l'on va plaquer sur l'énoncé sans discernement, alors que la signification contextuelle de chaque unité n'est pas du tout dessinée." (p. 24)

[7] Ils sont cependant absents de la liste des cooccurrents de ABIME, lequel n'a pas en outre de relation avec MER, contrairement à GOUFFRE, bien que par ailleurs les deux parasynonymes appartiennent au thème baudelairien du temps (cf. Viprey, 2002, pp. 83, 93-94). Toujours à propos de la distribution des vocables, pour laquelle Viprey convoque Harris (p. 82), dont on sait pourtant la théorie asémantique, ŒIL comme AME et surtout CŒUR, font partie de ces vocables fréquents cooccurrents de MER (Viprey p. 86) ; ils constituent une clique de corrélats contribuant au thème marin chez Baudelaire.

[8] Cf. encore Rastier (1994: 71) : "La sémantique se définit par rapport à la psychologie comme un ensemble de contraintes sur la formation des représentations mentales."

[9] Voici le résumé qu'en proposent Bommier & Pincemin (1999) : "Le serveur DECID (Diffusion Electronique Ciblée d'Informations et de Documents), sur l'Intranet EDF, est utilisé pour trouver les personnes les plus concernées par un document ou les experts sur un sujet. La diffusion ciblée repose sur trois principes fondateurs : (i) l'automatisation et la robustesse des traitements ; (ii) le texte, aussi bien comme mode d'interrogation du système (les documents sont soumis tels quels, sans passer par des mots clés), que comme moyen de caractériser des intérêts et compétences des personnes (les profils sont calculés à partir d'un corpus de textes) ; (iii) la base formée par les profils des destinataires potentiels : toutes les activités de l'organisme sont systématiquement prises en compte. Dans le contexte de documents écrits à dominante scientifique et technique, quatre facettes textuelles sont définies pour guider la conception des traitements : (i) la matière linguistique du texte ; (ii) son organisation interne, structurée, close et orientée ; (iii) l'intertextualité ; (iv) le rôle constitutif des lectures et la dynamique de l'interprétation. […] Pour la caractérisation des textes, des unités descriptives, plus contextuelles que des mots clés, sont définies. Elles prennent en compte la détermination du local par le global et la formation des isotopies sémantiques." Dans l'état de l'art de la pédagogie du français, de telles unités sémantiques remplaçant les requêtes par mots clés ne sont pas d'actualité concernant l'étude de l'œuvre littéraire. Elle n’ont pas l’immédiateté du vocable proposé à la requête ; et pour être établies, elles requièrent un travail en amont mené avec les élèves.

[10] Une troisième étape, dont l'enjeu serait transgénérique, consisterait à comparer ces emplois avec ceux du deuxième auteur, quantitativement parlant, à savoir Hugo, crédité de 40 occ. de VERTIGE(S) dans le CD-Rom Bibliopolis "Encyclopédie de la littérature française", au premier rang desquelles les 14 occ. dans La Légende des siècles. Nous les donnons ci-dessous, au sein de leur quatrain respectif. C'est sans difficulté que ressort l'élan biblique et païen, bien évidemment étranger au roman naturaliste, et dont le vertige volontiers spirituel et cosmique contraste avec le pessimisme et la violence physiologiques, bien plus terre-à-terre. Comparons ainsi l'écart qui sépare les deux genres poétique et prosaïque, mais sans masquer la présence d'un lyrisme chez Zola, dû à la puissance des comparants météorologiques et mythologiques :

Je regardais ce mur d'abord confus et vague,
Où la forme semblait flotter comme une vague,
Où tout semblait vapeur, VERTIGE, illusion;
Et, sous mon oeil pensif, l'étrange vision

Les horizons, pleins d'ombre et de rocs chevelus
Et d'arbres effrayants que l'homme ne voit plus,
Luisaient, comme le songe et comme le VERTIGE,
Dans une profondeur d'éclair et de prodige,

Quels festins! Comme ils sont contents! Comme ils s'entourent
De VERTIGES, de feux, d'ombre! Comme ils savourent
La gloire d'être grands, d'être dieux, d'être seuls!
Comme ils raillent les vieux géants dans leurs linceuls!

O VERTIGE!
O gouffres! l'effrayant soupirail d'un prodige
Apparaît; l'aube fait irruption; le jour,
Là, dehors, un rayon d'allégresse et d'amour,

Les marquis de Lusace ont une haute tige,
Et leur source est profonde à donner le VERTIGE;
Ils ont pour père Antée, ancêtre d'Attila;
De ce vaincu d'Alcide une race coula;

Vos deux tiares sont les deux lueurs du monde;
Tous les monts de la terre et tous les flots de l'onde
Ont, altiers ou tremblants, vos deux ombres sur eux;
Vous êtes les jumeaux du grand VERTIGE heureux;

L'archer noir souffle dans son cor,
Ces bruits s'ajoutent aux VERTIGES,
Et c'est nous qui dans ces prodiges
Faisons rôder des spectres d'or,

La poursuite s'acharne, et, plus qu'auparavant
Forcenée, à travers les arbres et le vent,
Fait peur à l'ombre même, et donne le VERTIGE
Aux sapins sur les monts, aux roses sur leur tige.

Un flot rouge, un sanglot de pourpre, éclaboussant
Les convives, le trône et la table, de sang.
Alors dans la clarté d'abîme et de VERTIGE
Qui marque le passage énorme d'un prodige,

De l'aube jusqu'à l'heure où le soleil se couche,
Je veux faire à ma tour un fossé si farouche
Qu'un homme ait le VERTIGE en regardant au fond.
On creuse, et le travail que les ouvriers font

Les arbres tiennent l'ombre enchaînée à leurs tiges;
Derrière le réseau ténébreux des VERTIGES,
L'aube est pâle, et l'on voit se tordre les serpents
Des branches sur l'aurore horribles et rampants;

La révolte autour d'eux se brise, échoue et sombre;
Ils ont le flamboiement, l'ordre et l'épaisseur sombre;
Le VERTIGE me prend moi-même dans les airs
En regardant marcher cette forêt d'éclairs.

Elle était l'astre à qui tout un monde s'appuie.
Un jour, tout à coup, folle, ivre, elle s'est enfuie.
Un VERTIGE l'a prise et l'a jetée au fond
Des chaos où Moloch avec Dieu se confond.

Je ne me sentais plus vivant; je me retrouve,
Je marche, je revois le but sacré. J'éprouve
Le VERTIGE divin, joyeux, épouvanté,
Des doutes convergeant tous vers la vérité;
- Les 10 occ. dans La Bête humaine :

A) Chap. 1 : La
fureur de Roubaud ne se calmait point. Dès qu'elle semblait se dissiper un peu, elle revenait aussitôt, comme l'ivresse, par grandes ondes redoublées, qui l'emportaient dans leur VERTIGE. Il ne se possédait plus, battait le vide, jeté à toutes les sautes du vent de violence dont il était flagellé, retombant à l'unique besoin d'apaiser la bête hurlante au fond de lui.

B) Chap. 2 : c'était une apparition en coup de foudre: tout de suite les
wagons se succédèrent, les petites vitres carrées des portières, violemment éclairées, firent défiler les compartiments pleins de voyageurs, dans un tel VERTIGE de vitesse, que l'œil doutait ensuite des images entrevues. Et Jacques, très distinctement, à ce quart précis de seconde, aperçut, par les glaces flambantes d'un coupé, un homme qui en tenait un autre renversé sur la banquette et qui lui plantait un couteau dans la gorge

C) Chap. 6 : Et lui (Jacques),
tombé près d'elle (Séverine), sans que leurs bras se fussent dénoués, sentait ses jambes en travers des siennes. Ils ne pouvaient se voir, leurs haleines les enveloppaient comme d'un VERTIGE, dans l'anéantissement de tout ce qui les entourait. Mais, sous l'ardent appel de leur baiser, le tutoiement était monté à leur bouche, comme le sang mêlé de leurs cœurs.

D) Chap. 7 : elle se soulagea, à voix très basse. "- Oh! oui, sérieux! c'est miracle si tu me retrouves en vie... Je n'ai pas voulu t'écrire, parce que ces choses-là, ça ne s'écrit pas... J'ai failli y passer; mais, maintenant, ça va déjà mieux, et je crois bien que j'en réchapperai, cette fois-ci encore." Il l'examinait, effrayé des progrès du
mal, ne retrouvant plus rien en elle de la belle et saine créature d'autrefois. "- Alors, toujours vos crampes et vos VERTIGES, ma pauvre tante Phasie."

E) Le frisson du
désir se perdait dans cet autre frisson de mort, revenu en elle. C'était, comme au fond de toute volupté, une agonie qui recommençait. Un instant, elle resta suffoquée par une sensation ralentie de VERTIGE. Puis, le nez de nouveau dans le cou de son amant, [...]

F) Chap. 8 : ""Va donc, va donc!" Mais je n'osais pas,
emportée dans le VERTIGE de la course, flagellée par le vent qui soufflait en tempête."

G) Chap. 9 : Il l'
aimait pourtant toujours, d'un désir exaspéré qui n'avait fait que s'accroître. Mais, dans ses bras, maintenant, l'affreux mal le reprenait, un tel VERTIGE, qu'il s'en dégageait vite, glacé, terrifié de n'être plus lui, de sentir la bête prête à mordre.

H) Chap. 11 : des
morsures de feu, derrière les oreilles, lui trouaient la tête, gagnaient ses bras, ses jambes, le chassaient de son propre corps, sous le galop de l'autre, la bête envahissante. Ses mains n'allaient plus être à lui, dans l'ivresse trop forte de cette nudité de femme. Les seins nus s'écrasaient contre ses vêtements, le cou nu se tendait, si blanc, si délicat, d'une irrésistible tentation; et l'odeur chaude et âpre, souveraine, achevait de le jeter à un furieux VERTIGE, un balancement sans fin, où sombrait sa volonté, arrachée, anéantie.

I) une fièvre ne cessait d'agiter le pays, pareille à ce VERTIGE qui précède et annonce les
grandes catastrophes. C'était, dans la société de cette fin d'Empire, dans la politique, dans la presse surtout, une continuelle inquiétude, une exaltation où la joie elle-même prenait une violence maladive. [...]

J) Chap. 12 : C'était le
galop tout droit, la bête qui fonçait tête basse et muette, parmi les obstacles. Elle roulait, roulait sans fin, comme affolée de plus en plus par le bruit strident de son haleine. A Rouen, on devait prendre de l'eau; et l'épouvante glaça la gare, lorsqu'elle vit passer, dans un VERTIGE de fumée et de flamme, ce train fou, cette machine sans mécanicien ni chauffeur, ces wagons à bestiaux emplis de troupiers qui hurlaient des refrains patriotiques.

© Texto! 2003 pour l'édition électronique