Annexe 2

ANNEXE 2
Un témoignage de professeur de Lettres en Lycée, J. Gysin, sur l'utilisation d'Hyperbase

(Article téléchagé à l'adresse : http://www.cafepedagogique.net)

"Vouloir limiter le potentiel informatique du professeur de français aux outils bureautiques, aux outils de création de pages Web ou à des logiciels comme HotPotatoes apparaîtra réducteur à certains. Word, avec ses fonctions de recherche-remplacement ou des macros appropriées, peut se révéler un instrument bien commode voire tout à fait indispensable. Mais se borner à ce seul logiciel reviendrait à tourner le dos à un vaste domaine que le professeur de français n’est pas tout à fait censé ignorer. C’est celui de la statistique lexicale ou textuelle, de l’indexation documentaire ou de l’analyse de données. Les spécialistes du dépouillement de questionnaires, du marketing, de veille technologique ou du datamining se sont depuis longtemps appropriés des logiciels plus spécialisés. Les universitaires les connaissent aussi. Ils utilisent Hyperbase, ils n’ignorent pas non plus Sphinx, Ethnos, Alceste, SATO et sans doute Tropes. Deux de ces programmes (Sphinx et Ethnos) sont souvent utilisés par les professeurs d’économie-gestion. Le succès rencontré par la version bridée de Tropes auprès des co-listiers de Profs-L est sans doute la confirmation d’un besoin.

Je me propose ici, en tant que professeur de lycée, de décrire Hyperbase. Ce logiciel a vu le jour en 1989 (la version 2.0 d’Hyperbase remonte à mai 1997, la version 5.2 date de mai 2001). Défini en 1993 par le professeur Etienne Brunet comme un « hypertexte statistique », il est depuis devenu un outil de « traitement documentaire et statistique des corpus textuels ». L’éditeur Champion n’a pas craint de l’ajouter, sous une forme fermée, à son édition numérique des œuvres de Rimbaud et de la Recherche de Proust. Dans ces deux variantes Hyperbase contient des fonctions qu’ignore la version 2.0, celle que j’utilise.

Le programme peut se décomposer en deux parties : la recherche documentaire et l’analyse lexicométrique, reposant largement sur le calcul de l’écart réduit. Analyse binomiale, loi normale, test de Chi deux, analyse factorielle des correspondances (AFC) ne doivent pas nous effrayer. Sans trop entrer dans les détails, un littéraire peut tenter, à sa manière, de l’apprivoiser.

La partie du programme la plus accessible aux néophytes (la recherche documentaire) permet de trouver aisément et très rapidement n’importe quel terme dans son contexte, un paragraphe par exemple. Il est possible de rechercher une expression, deux termes co-occurrents, une forme lemmatisée, etc. Il est donc loisible d’établir ce que l’on appelle des « concordances » : une chaîne de caractères limitée précédant le mot choisi et une chaîne de même longueur le suivant (autrement dit le mot dans une chaîne de caractères rigoureusement limitée à droite et à gauche). Un clic, et le terme est resitué dans son paragraphe. La fonction « contexte » donne toutes les occurrences d’une chaîne ou d’un mot dans un contexte dont on peut éventuellement déterminer l’amplitude.
Hyperbase permet également d’établir pour l’ensemble du texte un index ou un dictionnaire pour tous les mots (ponctuation incluse). Il ne rechigne pas devant des ensembles considérables et « avale » sans problème Les Châtiments ou Les Aventures de Télémaque. Je ne doute pas qu’il vienne à bout des Mémoires d’Outre-tombe. Si l’on va sur Internet, c’est La Comédie humaine tout entière que l’on pourra explorer.

Le logiciel ne se contente pas de donner un index des vocables et de leurs occurrences. Il calcule la spécificité, positive ou négative, (la spécificité est un indicateur qui caractérise la décision, volontaire ou involontaire, de choisir un mot plutôt qu’un autre, Muller, 1979) pour une partie du texte (chapitre, livre ou découpage automatique), par rapport à sa totalité mais aussi par rapport à un corpus externe auquel Hyperbase se réfère. Ni plus ni moins que le TLF découpé en périodes. (Au moment de la préparation du programme, l’utilisateur a la possibilité de choisir l’époque de référence.)

Ce qui peut rebuter certains utilisateurs ce sont justement les colonnes de nombres à l’aspect hermétique. Hyperbase permet en effet de calculer l’évolution du lexique, la factorielle de la distance lexicale, les hautes fréquences, l’accroissement lexical (ordre inverse et ordre normal), la richesse du vocabulaire et les hapax, etc. Pour beaucoup d’entre nous c’est sans doute du chinois. Ajoutons qu’il offre des représentations graphiques sous forme d’histogrammes ou de cartes factorielles, exportables via le presse-papiers dans un traitement de texte. On peut cependant se contenter de quelques fonctions qui, pour l’usage d’un professeur de lycée, apparaîtront bien suffisantes et que nul logiciel grand public ne saurait offrir. Michel Bernard, dont les explications sont d’une grande clarté (voir à la fin la bibliographie), n’entre pas trop avant dans le détails.
On peut regretter qu’il n’y ait pas eu à ce jour d’entreprise de vulgarisation du logiciel pour un usage pédagogique. Il y a bien une aide mais elle explique le seul maniement du programme sans donner le bon usage des données recueillies. Aucune démarche d’exploitation n’est suggérée. Evelyne Bourion sur le site Texto fait bien part d’une telle intention mais jusqu’à ce jour et à ma connaissance rien n’a été fait. Après information auprès de Texto, il semblerait qu’un lieu rompu soit à l’origine de cette lacune. Pour autant Hyperbase n’est pas inconnu de tous les professeurs de français comme l’attestent les pages à cette adresse.

Le repérage thématique est ma fonction préférée. Après avoir construit préalablement un dictionnaire des mots du corpus, on le déclenche, avec l’icône « thème » du menu « contexte ». A titre d’illustration, nous pouvons, par exemple, après avoir téléchargé sur le site Gallica Les Aventures de Télémaque appliquer cette fonction au mot « sagesse ». Ce terme arrive en effet en 9ème position des substantifs, parmi les « spécificités », où il est représenté par 118 occurrences.
Les cinq mots qu’il attire, en excluant un nom propre, sont dans l’ordre de l’attirance : « vous », « mine », « éloquence », « vertu », « valeur ».
Le rang élevé du vocable « sagesse » parmi les termes les plus caractéristiques de l’œuvre, le champ sémantique implicitement, mais très partiellement, défini par les mots cités constituent, à n’en pas douter, une contribution intéressante à la construction ponctuelle du sens.
Le champ lexical du pouvoir et de l’art de gouverner est bien attesté par ailleurs. En tête des substantifs qui figurent dans les « spécificités » on trouve : « O », « île », « dieux », « alliés », « peuples », « hommes », « sagesse », « rois », « méchants », « siège », « sage(s) », « guerre », « régner », « paix », « lois », « vertu », « terre », « gloire », « paroles », « gouverner ».
Qui pourrait douter alors que Les aventures de Télémaque ait été conçu pour l’éducation d’un prince. Mentor, c’est largement le précepteur Fénelon, dispensateur de maints conseils sur l’art de bien régner et sur l’État idéal auprès du duc de Bourgogne, qui à cette date semblait appelé au trône.

Un autre exemple sera peut-être encore plus parlant. On se souvient de Paul, l’indigne fils de Jeanne, dans Une Vie de Maupassant. Si on applique à ce nom propre la fonction « thème » on obtient les résultats suivants. Environnement thématique (ordre hiérarchique) :

Ecart Corpus Extrait Mot Ecart Corpus Extrait Mot Ecart Corpus Extrait Mot

40.26
62

62
Paul
3.38

24
4 tard 2.64 74 7 enfant

6.95
8

4
haine
3.25

234
18 cette 2.62 231 16 sans

6.54
38

9
M
3.20

423
28 pour 2.57 33 4 as

6.02
6

3
écrivit
3.20

16
3 part 2.38 23 3 bon

5.24
19

5
lettre
3.20

16
3 Lamare 2.32 51 5 trois

4.94
14

4
midi
3.06

17
3 affection 2.22 53 5 sentait

4.90
21

5
lendemain
3.03

39
5 francs 2.22 53 5 Peuples

4.72
9

3
notaire
2.90

695
40 qu' 2.19 1613 76 le

4.15
46

7
fils
2.89

41
5 faut 2.18 39 4 vite

4.15
11

3
Havre
2.89

29
4 parents 2.12 40 4 chez

3.71
13

3
Paris
2.81

30
4 Poulet 2.05 27 3 parlait

3.56
435

30
lui
2.80

19
3 lettres 2.05 27 3 avant

3.52
14

3
nouvelles
2.70

44
5 mois 2.01 42 4 matin

3.52
14

3
cents
2.65

32
4 mot 2.01 42 4 disait

Ecart	Corpus	Extrait	Mot	Ecart	Corpus	Extrait	Mot	Ecart	Corpus	Extrait	Mot
40.26	62	62	Paul	3.38	24	4	tard	2.64	74	7	enfant
6.95	8	4	haine	3.25	234	18	cette	2.62	231	16	sans
6.54	38	9	M	3.20	423	28	pour	2.57	33	4	as
6.02	6	3	écrivit	3.20	16	3	part	2.38	23	3	bon
5.24	19	5	lettre	3.20	16	3	Lamare	2.32	51	5	trois
4.94	14	4	midi	3.06	17	3	affection	2.22	53	5	sentait
4.90	21	5	lendemain	3.03	39	5	francs	2.22	53	5	Peuples
4.72	9	3	notaire	2.90	695	40	qu'	2.19	1613	76	le
4.15	46	7	fils	2.89	41	5	faut	2.18	39	4	vite
4.15	11	3	Havre	2.89	29	4	parents	2.12	40	4	chez
3.71	13	3	Paris	2.81	30	4	Poulet	2.05	27	3	parlait
3.56	435	30	lui	2.80	19	3	lettres	2.05	27	3	avant
3.52	14	3	nouvelles	2.70	44	5	mois	2.01	42	4	matin
3.52	14	3	cents	2.65	32	4	mot	2.01	42	4	disait

Que relève-t-on ? Des rapports d’éloignement, des termes se rapportant à l’argent, des rapports familiaux. Tout est dit. La surprise vient du mot « haine » surgissant tout de suite après Paul. Le mot est présent huit fois dans tout le roman et quatre dans la proximité de Paul. Jeanne aurait-elle des sentiments fortement ambivalents pour Poulet ? Nullement, après une vérification rapide on constate que le mot s’applique en réalité aux sentiments que Jeanne éprouve pour la maîtresse de son fils ! Trois des occurrences de « haine » se trouvent dans le même paragraphe du onzième chapitre. N’a-t-on pas là comme un abrégé de la position du fils chéri par rapport à sa mère ?
Ajoutons que lors de la préparation du texte, il est tout à fait possible d’indiquer une pagination ce qui rend plus performante encore la navigation dans le corpus.

Quelles critiques adresser au logiciel Hyperbase ? Dans quelle mesure peut-on envisager de l’utiliser avec des élèves ? Risque-t-il de réifier les méthodes d’approches du texte, de figer les protocoles d’étude ? Dit autrement encore, que devient la liberté du lecteur dans l’activité de création de sens ? Vastes questions. Il me semble cependant que le logiciel ne fait que fournir avec promptitude des éléments irréfutables pour accréditer des hypothèses. Les démarches bien maîtrisées, il peut sans doute aider aussi à en formuler.

Dans le cadre d’une utilisation avec un public d’élèves, il serait sans doute souhaitable d’acquérir des compétences en lexicométrie et en statistiques textuelles."

Retour au sommaire

Vers Annexe 3