ANNEXE 2
Un témoignage de professeur de Lettres en Lycée,
J. Gysin, sur l'utilisation d'Hyperbase
(Article téléchagé à l'adresse : http://www.cafepedagogique.net)
"Vouloir limiter le potentiel informatique du professeur de français aux outils bureautiques, aux outils de création de pages Web ou à des logiciels comme HotPotatoes apparaîtra réducteur à certains. Word, avec ses fonctions de recherche-remplacement ou des macros appropriées, peut se révéler un instrument bien commode voire tout à fait indispensable. Mais se borner à ce seul logiciel reviendrait à tourner le dos à un vaste domaine que le professeur de français n’est pas tout à fait censé ignorer. C’est celui de la statistique lexicale ou textuelle, de l’indexation documentaire ou de l’analyse de données. Les spécialistes du dépouillement de questionnaires, du marketing, de veille technologique ou du datamining se sont depuis longtemps appropriés des logiciels plus spécialisés. Les universitaires les connaissent aussi. Ils utilisent Hyperbase, ils n’ignorent pas non plus Sphinx, Ethnos, Alceste, SATO et sans doute Tropes. Deux de ces programmes (Sphinx et Ethnos) sont souvent utilisés par les professeurs d’économie-gestion. Le succès rencontré par la version bridée de Tropes auprès des co-listiers de Profs-L est sans doute la confirmation d’un besoin.
Je me propose ici, en tant que professeur de lycée, de décrire Hyperbase. Ce logiciel a vu le jour en 1989 (la version 2.0 d’Hyperbase remonte à mai 1997, la version 5.2 date de mai 2001). Défini en 1993 par le professeur Etienne Brunet comme un « hypertexte statistique », il est depuis devenu un outil de « traitement documentaire et statistique des corpus textuels ». L’éditeur Champion n’a pas craint de l’ajouter, sous une forme fermée, à son édition numérique des œuvres de Rimbaud et de la Recherche de Proust. Dans ces deux variantes Hyperbase contient des fonctions qu’ignore la version 2.0, celle que j’utilise.
Le programme peut se décomposer en deux parties : la recherche documentaire et l’analyse lexicométrique, reposant largement sur le calcul de l’écart réduit. Analyse binomiale, loi normale, test de Chi deux, analyse factorielle des correspondances (AFC) ne doivent pas nous effrayer. Sans trop entrer dans les détails, un littéraire peut tenter, à sa manière, de l’apprivoiser.
La partie du programme la plus accessible aux néophytes (la recherche
documentaire) permet de trouver aisément et très rapidement
n’importe quel terme dans son contexte, un paragraphe par exemple. Il est
possible de rechercher une expression, deux termes co-occurrents, une forme
lemmatisée, etc. Il est donc loisible d’établir ce que l’on
appelle des « concordances » : une chaîne de caractères
limitée précédant le mot choisi et une chaîne
de même longueur le suivant (autrement dit le mot dans une chaîne
de caractères rigoureusement limitée à droite et à
gauche). Un clic, et le terme est resitué dans son paragraphe. La
fonction « contexte » donne toutes les occurrences d’une chaîne
ou d’un mot dans un contexte dont on peut éventuellement déterminer
l’amplitude.
Hyperbase permet également d’établir pour l’ensemble
du texte un index ou un dictionnaire pour tous les mots (ponctuation incluse).
Il ne rechigne pas devant des ensembles considérables et «
avale » sans problème Les Châtiments ou Les
Aventures de Télémaque. Je ne doute pas qu’il vienne
à bout des Mémoires d’Outre-tombe. Si l’on va sur
Internet, c’est La Comédie humaine tout entière que
l’on pourra explorer.
Le logiciel ne se contente pas de donner un index des vocables et de leurs occurrences. Il calcule la spécificité, positive ou négative, (la spécificité est un indicateur qui caractérise la décision, volontaire ou involontaire, de choisir un mot plutôt qu’un autre, Muller, 1979) pour une partie du texte (chapitre, livre ou découpage automatique), par rapport à sa totalité mais aussi par rapport à un corpus externe auquel Hyperbase se réfère. Ni plus ni moins que le TLF découpé en périodes. (Au moment de la préparation du programme, l’utilisateur a la possibilité de choisir l’époque de référence.)
Ce qui peut rebuter certains utilisateurs ce sont justement les colonnes
de nombres à l’aspect hermétique. Hyperbase permet en effet
de calculer l’évolution du lexique, la factorielle de la distance
lexicale, les hautes fréquences, l’accroissement lexical (ordre
inverse et ordre normal), la richesse du vocabulaire et les hapax, etc.
Pour beaucoup d’entre nous c’est sans doute du chinois. Ajoutons qu’il
offre des représentations graphiques sous forme d’histogrammes ou
de cartes factorielles, exportables via le presse-papiers dans un traitement
de texte. On peut cependant se contenter de quelques fonctions qui, pour
l’usage d’un professeur de lycée, apparaîtront bien suffisantes
et que nul logiciel grand public ne saurait offrir. Michel Bernard, dont
les explications sont d’une grande clarté (voir à la fin
la bibliographie), n’entre pas trop avant dans le détails.
On peut regretter qu’il n’y ait pas eu à ce jour d’entreprise
de vulgarisation du logiciel pour un usage pédagogique. Il y a bien
une aide mais elle explique le seul maniement du programme sans donner
le bon usage des données recueillies. Aucune démarche d’exploitation
n’est suggérée. Evelyne
Bourion sur le site Texto fait bien part d’une telle intention mais
jusqu’à ce jour et à ma connaissance rien n’a été
fait. Après information auprès de Texto, il semblerait qu’un
lieu rompu soit à l’origine de cette lacune. Pour autant Hyperbase
n’est pas inconnu de tous les
professeurs de français comme l’attestent les pages à cette
adresse.
Le repérage thématique est ma fonction préférée.
Après avoir construit préalablement un dictionnaire des mots
du corpus, on le déclenche, avec l’icône « thème
» du menu « contexte ». A titre d’illustration, nous
pouvons, par exemple, après avoir téléchargé
sur le site Gallica Les Aventures de Télémaque appliquer
cette fonction au mot « sagesse ». Ce terme arrive en effet
en 9ème position des substantifs, parmi les « spécificités
», où il est représenté par 118 occurrences.
Les cinq mots qu’il attire, en excluant un nom propre, sont dans l’ordre
de l’attirance : « vous », « mine », « éloquence
», « vertu », « valeur ».
Le rang élevé du vocable « sagesse » parmi
les termes les plus caractéristiques de l’œuvre, le champ sémantique
implicitement, mais très partiellement, défini par les mots
cités constituent, à n’en pas douter, une contribution intéressante
à la construction ponctuelle du sens.
Le champ lexical du pouvoir et de l’art de gouverner est bien attesté
par ailleurs. En tête des substantifs qui figurent dans les «
spécificités » on trouve : « O », «
île », « dieux », « alliés »,
« peuples », « hommes », « sagesse »,
« rois », « méchants », « siège
», « sage(s) », « guerre », « régner
», « paix », « lois », « vertu »,
« terre », « gloire », « paroles »,
« gouverner ».
Qui pourrait douter alors que Les aventures de Télémaque
ait été conçu pour l’éducation d’un prince.
Mentor, c’est largement le précepteur Fénelon, dispensateur
de maints conseils sur l’art de bien régner et sur l’État
idéal auprès du duc de Bourgogne, qui à cette date
semblait appelé au trône.
Un autre exemple sera peut-être encore plus parlant. On se souvient de Paul, l’indigne fils de Jeanne, dans Une Vie de Maupassant. Si on applique à ce nom propre la fonction « thème » on obtient les résultats suivants. Environnement thématique (ordre hiérarchique) :
Ecart | Corpus | Extrait | Mot | Ecart | Corpus | Extrait | Mot | Ecart | Corpus | Extrait | Mot |
40.26 |
62
|
62
|
Paul |
3.38
|
24
|
4 | tard | 2.64 | 74 | 7 | enfant |
6.95 |
8
|
4
|
haine |
3.25
|
234
|
18 | cette | 2.62 | 231 | 16 | sans |
6.54 |
38
|
9
|
M |
3.20
|
423
|
28 | pour | 2.57 | 33 | 4 | as |
6.02 |
6
|
3
|
écrivit |
3.20
|
16
|
3 | part | 2.38 | 23 | 3 | bon |
5.24 |
19
|
5
|
lettre |
3.20
|
16
|
3 | Lamare | 2.32 | 51 | 5 | trois |
4.94 |
14
|
4
|
midi |
3.06
|
17
|
3 | affection | 2.22 | 53 | 5 | sentait |
4.90 |
21
|
5
|
lendemain |
3.03
|
39
|
5 | francs | 2.22 | 53 | 5 | Peuples |
4.72 |
9
|
3
|
notaire |
2.90
|
695
|
40 | qu' | 2.19 | 1613 | 76 | le |
4.15 |
46
|
7
|
fils |
2.89
|
41
|
5 | faut | 2.18 | 39 | 4 | vite |
4.15 |
11
|
3
|
Havre |
2.89
|
29
|
4 | parents | 2.12 | 40 | 4 | chez |
3.71 |
13
|
3
|
Paris |
2.81
|
30
|
4 | Poulet | 2.05 | 27 | 3 | parlait |
3.56 |
435
|
30
|
lui |
2.80
|
19
|
3 | lettres | 2.05 | 27 | 3 | avant |
3.52 |
14
|
3
|
nouvelles |
2.70
|
44
|
5 | mois | 2.01 | 42 | 4 | matin |
3.52 |
14
|
3
|
cents |
2.65
|
32
|
4 | mot | 2.01 | 42 | 4 | disait |
Que relève-t-on ? Des rapports d’éloignement, des termes
se rapportant à l’argent, des rapports familiaux. Tout est dit.
La surprise vient du mot « haine » surgissant tout de suite
après Paul. Le mot est présent huit fois dans tout le roman
et quatre dans la proximité de Paul. Jeanne aurait-elle des sentiments
fortement ambivalents pour Poulet ? Nullement, après une vérification
rapide on constate que le mot s’applique en réalité aux sentiments
que Jeanne éprouve pour la maîtresse de son fils ! Trois des
occurrences de « haine » se trouvent dans le même paragraphe
du onzième chapitre. N’a-t-on pas là comme un abrégé
de la position du fils chéri par rapport à sa mère
?
Ajoutons que lors de la préparation du texte, il est tout à
fait possible d’indiquer une pagination ce qui rend plus performante encore
la navigation dans le corpus.
Quelles critiques adresser au logiciel Hyperbase ? Dans quelle mesure peut-on envisager de l’utiliser avec des élèves ? Risque-t-il de réifier les méthodes d’approches du texte, de figer les protocoles d’étude ? Dit autrement encore, que devient la liberté du lecteur dans l’activité de création de sens ? Vastes questions. Il me semble cependant que le logiciel ne fait que fournir avec promptitude des éléments irréfutables pour accréditer des hypothèses. Les démarches bien maîtrisées, il peut sans doute aider aussi à en formuler.
Dans le cadre d’une utilisation avec un public d’élèves, il serait sans doute souhaitable d’acquérir des compétences en lexicométrie et en statistiques textuelles."
Retour au sommaire |
Vers Annexe 3 |
© Texto! 2003 pour l'édition électronique