PRESENTATION D'ALCESTE

Valérie DELAVIGNE
Université de Rouen

(Extrait de Valérie Delavigne, Les mots du nucléaire : Contribution socioterminologique à une analyse de discours,
Thèse, Université de Rouen, 2000, p. 324-329)


1. Quels sont ses principes d’Alceste ?

Alceste est issu des travaux de Max Reinert qui a développé dans l’équipe de Jean-Paul Benzécri au CNRS une méthode de classification originale. Généralement, les logiciels d’analyse statistique partent des mots et, en recherchant leurs cooccurrents, forment des classes. Ce type d’analyse s’appelle une classification hiérarchique ascendante. Alceste inverse la démarche, à savoir qu’il utilise une méthode de classification descendante : le logiciel opère des fractionnements successifs du texte et en extrait des classes représentatives en rapprochant les segments qui contiennent les mêmes vocables.

Des « documents lexicométriques » sont obtenus à partir des formes segmentées : calculs des fréquences des vocables ; index alphabétique et hiérarchique (par ordre de fréquence) qui permettent de localiser l'ensemble des occurrences et de visualiser leur contexte immédiat ; concordanciers qui, en mettant en rapport les différents contextes d’une même forme, offrent une vision bien plus synthétique qu’une lecture séquentielle [1] ; inventaire des segments répétés qui peuvent être des locutions ou de simples associations syntagmatiques ; repérage des cooccurrences (associations privilégiées de formes au sein d’une unité de contexte donnée). Ces documents peuvent être obtenus sur le corpus entier ou sur plusieurs fragments du corpus que l’on peut ensuite comparer entre eux. Il faut bien voir que les données numériques n’ont de valeur qu’en tant qu’éléments de comparaison, soit à l’intérieur d’un même corpus, soit entre corpus comparables. L’avantage de tels documents tient au fait qu’en sortant de la linéarité du texte, le regard porté sur le corpus est différent. Mais il semble évident qu’un retour au texte dans sa globalité reste nécessaire pour une analyse complète. 

Comment Alceste procède-t-il ? A partir d’un corpus mis en forme, le logiciel découpe le texte en « phrases », les « unités de contexte » (u.c.), découpage qui peut reposer sur la ponctuation si elle existe, puis, en cours de traitement, sur le nombre de mots présents au sein de ces u.c.. Alceste reconnaît ensuite les formes dans les u.c. suivant trois phases :

  • une phase de segmentation découpe le corpus en formes grâce aux délimitateurs que constitue la ponctuation ;
  • la phase suivante identifie les occurrences de chaque forme grâce à un dictionnaire ; les mots outils sont distingués des mots pleins ;
  • la dernière phase lemmatise et désambiguïse les formes repérées.
  • Trois types d’unités de contextes sont nécessaires à Alceste.

  • Les unités de contexte initiales (u.c.i.) sont définies par l’analyste. Elles permettent de croiser les textes en leur affectant des variables. Pour notre part, chaque u.c.i. est constituée par les textes provenant de nos douze énonciateurs.
  • La deuxième unité de contexte, l’unité de contexte élémentaire (u.c.e.) est définie par Alceste. Comme nous l’avons dit, elle est fondée sur la ponctuation, puis sur le nombre de mots. L’u.c.e. correspond grosso modo à la phrase.
  • Nous ne nous préoccupons pas de la troisième unité de contexte, également définie par le logiciel. C’est un regroupement d’u.c.e. consécutives qui permet les calculs.
  • Le logiciel est fondé sur l’analyse statistique distributionnelle. Les mécanismes qu’il met en œuvre sont donc indépendants du sens : Alceste classe de façon statistique des « phrases » du corpus étudié en fonction de la distribution du vocabulaire à l’intérieur de ces « phrases ». Le logiciel repère ensuite les formes réduites dans les différentes unités de contexte du texte et les met en relation : le logiciel calcule les liens entre ces unités de contextes, c'est-à-dire qu’il relie les contextes qui ont des mots communs. Il croise les unités de contexte et la présence/absence de ces formes dans les u.c. En d’autres termes, il forme des classes à partir des « phrases » qui contiennent les même mots.

    Le principe d’Alceste est d’effectuer diverses classifications en partitionnant les u.c. et les formes. Puis, de façon itérative, le logiciel fait varier le nombre de formes par u.c., compare les classes obtenues et conserve les classes qui sont associées au plus grand nombre d’u.c.. En fin de course, on obtient un certain nombre de classes représentatives du texte analysé. Il met ainsi en évidence les principaux « mondes lexicaux » (1995 : 3) du corpus traité, c'est-à-dire des ensembles de mots plus particulièrement associés à une classe.

    L’analyse se déroule en quatre phases subdivisées en plusieurs opérations (le « plan d’analyse »), modulable selon son gré. Pour notre part nous avons conservé le plan d’analyse standard.

  • L’étape A. Cette première étape reconnaît les u.c.i. et les « mots étoilés », c'est-à-dire les mots que l’on marque à l’aide d’une étoile et qui, considérés comme hors corpus, ne seront pas analysés (ex : les énonciateurs). Grâce à un dictionnaire s’effectuent l’identification des locutions et des mots-outils, une catégorisation et une lemmatisation. Alceste établit alors un dictionnaire des formes réduites du corpus analysé à partir de la racine des mots quelle que soit leur catégorie syntaxique. Par exemple, act+ion regroupe tout à la fois les adjectifs actif et actifs et les noms  action, activité et  activités.
  • L’étape B. La deuxième étape découpe le corpus en unité de contexte élémentaire (u.c.e., grossièrement : les phrases) et les classe en fonction de leur distribution. Alceste constitue ainsi une classe sur la base du contenu lexical de chaque u.c.e. : il rapproche les u.c.e. contenant les mêmes formes lexicales.
  • L’étape C fournit les résultats sous forme de fichiers : les classes obtenues, les formes les plus fréquentes de chacune d’elles…
  • C’est au cours de l’étape D que sont effectués des calculs complémentaires : deux types de tris croisés (une partie du texte est croisée avec une variable ou un mot particulier ; c’est ce qui permet de se rendre compte de qui utilise quoi, avec quels autres mots), l’analyse factorielle des correspondances (croisement du vocabulaire et des classes) visualisée sous forme de représentations graphiques très parlantes, et une classification ascendante hiérarchique qui montre les liens plus ou moins proches que les mots entretiennent entre eux. Ces analyses constituent une aide à l’interprétation des résultats statistiques et à la description des classes.
  • Chaque classe peut être ensuite examinée grâce à un « profil » : pour chacune, Alceste donne accès à la liste des mots les plus significatifs (mots pleins, mots outils, mots étoilés), aux u.c. les plus significatives, aux cotextes caractéristiques des classes, aux concordances. L’analyse par le calcul du Chi22) permet de déterminer la forte ou la faible appartenance d’un mot à une classe : le Chi2 met en évidence les termes les plus représentatifs d’une classe donnée. D’autres méthodes viennent compléter cette analyse par classe (tris-croisés, analyse factorielle des correspondances, classification ascendante hiérarchique).


    2. Pourquoi utiliser Alceste ?

    En procédant à l’analyse statistique d’un corpus, Alceste présente l’avantage d’offrir des pistes interprétatives. Il ouvre la voie à un certain type d’analyse et éclaire sur des faits statistiques du corpus. C’est donc une aide informatique que nous utiliserons comme un guide vers une description d’usage des formes linguistiques dans le corpus. Comme nous l’avons dit, il offre un autre regard sur le corpus, même s’il ne saurait suffire à une analyse réellement linguistique.

    Le logiciel réclame, afin d’être optimisé, que le corpus qu’on lui soumet présente une certaine cohérence thématique (autrement dit, que les différentes parties du corpus aient des mots en commun), ce qui est le cas de notre corpus. L’analyse de type statistique effectuée par Alceste découpe ensuite le corpus en sous-parties homogènes d’un point de vue thématique (les différents motifs abordés dans ce thème général). Le logiciel offre alors un découpage du corpus en classes thématiquement homogènes. Dans chacune de ces classes, les mots coprésents sont associés. Nous pouvons ainsi examiner quelles occurrences apparaissent dans ces classes et fonctionnent en cooccurrence.

    A partir du plan d’analyse qui peut être modulé par l’analyste, Alceste classe les ressemblances et les dissemblances de vocabulaire. L’intérêt de ce logiciel est de fournir plusieurs types d’outils qui permettent des commentaires informés.

    Ainsi, il permet d’avoir accès à un certain nombre de données comme [2] :

  • Le dictionnaire des formes analysées ;
  • Le dictionnaire des formes réduites avec leur affectation à chaque classe et leur distribution ;
  • La liste des formes réduites les plus fréquentes ;
  • La liste des hapax [3] du corpus ;
  • Des dendrogrammes qui permettent de visualiser le liens que les formes d’une même classe entretiennent entre elles  ;
  • Le profil des classes en fonction des absences significatives ;
  • Le profil des classes en fonction des présences significatives ;
  • La carte correspondant à l’analyse factorielle des correspondances ;
  • La liste des segments répétés par fréquence décroissante sur l'ensemble du corpus et par classe.
  • L'ensemble de ces documents lexicométriques offre ainsi des pistes pour une analyse de contenu du corpus. Cependant, ces documents présentent également un intérêt certain pour une analyse de discours et une étude du fonctionnement des termes dans la mesure où le logiciel dénombre des formes lexicales et en montre les cooccurrences. Cet outil a été validé en terminologie par les travaux de Josette Rebeyrolle (1995) dans le domaine spatial et ceux de Sylvie Normand (1999) sur le vocabulaire de la dégustation par exemple.


    3. Les limites du logiciel

    Les outils contraignent parfois les objectifs de recherche. Ainsi Alceste permet d’effectuer une analyse sur un certain volume de documents numérisés. Afin que les résultats statistiques gardent leur pertinence, le corpus soumis à Alceste doit être suffisamment volumineux. Cependant, la version du logiciel que nous avons exploitée dans un premier temps ne peut traiter de corpus supérieur à 1,5 mégaoctets [4]. Aussi avons-nous dû fractionner notre corpus. Ce n’est pas inintéressant dans la mesure où cette partition permet d’avoir une description énonciateur par énonciateur ou de regrouper certains énonciateurs (le corpus institutionnel rassemble EDF, ANDRA et COGEMA ; le corpus vulgarisation rassemble Science & vie et Sciences et Avenir ; le corpus média rassemble le Monde diplomatique, le Paris-Normandie, le Courrier cauchois, L’Express et le Nouvel Observateur), ces deux derniers sous-corpus ayant également été analysés ensemble.

    Nous avons tenté de nous familiariser avec un certain nombre de méthodes statistiques, nécessaires à l’exploitation des résultats. Cependant, malgré la transparence affirmée par l’auteur, le logiciel reste une « boîte noire », qui, de fait, « donne à voir sa complexité » (Alceste, 1995 : 5) ! Les résultats obtenus permettent néanmoins une utile analyse de contenu du corpus et fournissent d’intéressantes pistes de réflexion.

    Une bonne connaissance du corpus est cependant nécessaire avant l’utilisation d’Alceste. Certains traitements sont un peu trop elliptiques sur le plan de l’analyse. Par exemple, la lemmatisation [5] peut constituer un non-sens de l’analyse : utiliser un terme au singulier peut ne pas être la même chose que de l’utiliser au pluriel. De la même façon, Alceste classe sous la même forme arme+ : arme, armées, armement, armements, armes ou sous incid+ent : incidence, incidences, incident et incidents, ce qui est bien évidemment contestable. De même, il regroupe sous américa+, les formes américain, américaine, américaines, américains, ce qui se justifie tout à fait d’un point de vue de lemmatisation, mais également américano-soviétique(s), ce qui là, pose plus de problèmes. D’autre part, dans la mesure où Alceste ne prend pas le sens en compte, il ne peut départager les cotextes dans lesquels une forme est utilisée au sens propre et ceux dans lesquels elle prend un sens métaphorique.

    D’autre part, le traitement auquel procède Alceste est sous-tendu par l’hypothèse selon laquelle que les structures sémantiques sont liées à la distribution des mots dans le texte et que cette distribution est pertinente. C’est une hypothèse forte qui doit être gardée à l’esprit afin de jeter un regard critique sur les résultats que le logiciel propose. Si Alceste repère par des méthodes statistiques ce qu’il y a de commun entre les différents points de vue sur un objet de discours particulier, rappelons que l’analyste a une part essentielle en ce qui concerne l’interprétation des résultats. Par exemple, la construction de classes peut laisser croire que le logiciel livre une « vérité intrinsèque » sur le corpus, mais il s’avère que, dès lors que l’on change quelques paramètres (introduction de variables par exemple), ces classes peuvent changer. D’autre part, c’est l’analyste qui attribue un nom aux classes obtenues, en fonction du travail exploratoire qu’il a pu mener sur le corpus, donc qui produit une interprétation. En dernier ressort, dans l'ensemble des résultats, seules les données pertinentes pour la problématique envisagée sont retenues. La connaissance préalable que l’on a du corpus induit la sélection de tel ou tel fait aux dépens d’autres. Sont passées sous silence certains faits « anormaux » ou difficilement interprétables. En fait, cette sélection vise à montrer ce que l’analyste devine ou pressent et ne sont recherchés que les résultats qui viennent corroborer ses hypothèses implicites ou explicites.

    Il existe donc un risque de dérapage interprétatif qui nécessite de se poser la question de la fiabilité des résultats de ce type d’analyse. Une méthodologie d’analyse des réponses doit être élaborée afin de minimiser ce risque. Il faut donc considérer que les données fournies par le logiciel ne sont que des pistes qui réclament un retour à la linéarité des textes et que les résultats doivent être croisés avec d’autres types de faits.


    NOTES

    [1] Ce que l’on obtient également avec Lexter.

    [2] Nous ne citons ici que les documents lexicométriques qui nous ont été utiles.

    [3] Mot ou expression qui n’apparaît qu’une seule fois dans un corpus donné.

    [4] Ni inférieur à 20 kilooctets.

    [5] Cette remarque doit donc être étendue à tous les logiciels qui effectuent une lemmatisation.


    Vous pouvez adresser vos commentaires et suggestions à : valerie.delavigne@normandnet.fr

    ©  décembre 2004 pour l'édition électronique.

    Référence bibliographique : DELAVIGNE, Valérie. Présentation d'Alceste. Texto! [en ligne], décembre 2004, vol. IX, n°4. Disponible sur : <http://www.revue-texto.net/Corpus/Manufacture/pub/Alceste2.html>. (Consultée le ...).