Beaudoin : Statistique textuelle

STATISTIQUE TEXTUELLE :
UNE APPROCHE EMPIRIQUE DU SENS A BASE D'ANALYSE DISTRIBUTIONNELLE

Valérie BEAUDOUIN
France Télécom Développement

SOMMAIRE
1. Statistique lexicale
2. Statistique textuelle

Les origines de la statistique textuelle remontent au début des années 60. Pour simplifier, nous nous restreindrons au cadre francophone, le plus développé, où nous pouvons distinguer deux courants : la statistique lexicale dont le fondateur est Charles Muller et l’analyse statistique des données linguistiques ou textuelles inventée et animée par Jean-Paul Benzécri.

1. Statistique lexicale

La statistique lexicale est née à la fin des années 50 entre Besançon et Strasbourg. Le Centre d’Étude du Vocabulaire Français de Besançon avait entrepris le dépouillement mécanographique des œuvres de Corneille. En 1957, lors d’un colloque à Strasbourg qui devait donner naissance au projet du Trésor de la Langue Française, cette entreprise de dépouillement fut présentée et encouragea Charles Muller à exploiter cette incroyable ressource, les œuvres de Corneille sur support informatique, pour en faire une analyse lexicométrique [Muller, 1967] [1].

La démarche statistique adoptée revient à comparer les données observées aux données calculées à partir d'un modèle théorique. Implicitement, il y a l'idée que le texte analysé est un échantillon représentatif de la langue et que par l'étude de ce corpus, on pourra inférer des informations sur la langue.

On part d'un corpus de taille T et d'une fréquence F constatée pour un certain vocable x ; on calcule à partir d'elle dans un échantillon quelconque de taille t une "fréquence théorique" pour le dit vocable (il vaudrait mieux dire "espérance mathématique de la fréquence"). (...) La valeur théorique E (espérance) érigée en norme peut alors être comparée aux sous-fréquences réellement rencontrées f dans les fragments du corpus étudiés de même taille t que l'échantillon aléatoire. De là les calculs d'écarts E-f entre la norme et le constat, puis les tests sur ces écarts qui forment la base de la "statistique lexicale".
[Tournier, 1980]

Ainsi, dans ce cadre, on compare la sous-fréquence observée d’un mot dans une sous-partie d'un corpus à la sous-fréquence théorique (calculée à partir de la fréquence du mot dans l'ensemble du corpus) et on mesure l’écart entre les deux. On obtient ainsi la liste des mots significativement plus présents ou absents dans chaque sous-partie du corpus. Plutôt qu'une référence interne (l’ensemble du corpus), on peut choisir une référence externe comme celle que représente le TLF (fréquence de tous les mots présents dans la base textuelle Frantext) ou une norme du français courant... Dans cette approche, probabiliste, de la lexicométrie où la constitution d'un texte est assimilée à des tirages dans une urne, le modèle est donc construit de façon empirique à partir de données, provenant soit du corpus dans son ensemble, soit d'un corpus externe.

Les recherches ont principalement porté sur la richesse, la spécificité, l'accroissement et l'évolution chronologique du vocabulaire...

La statistique lexicale s’est également bien développée dans les pays anglo-saxons où elle a surtout été utilisée en analyse stylistique, notamment pour des recherches de paternité d’œuvres.

Comme outil issu de cette branche, nous avons utilisé le logiciel Hyperbase développé par Étienne Brunet, (INALF, Université de Nice) [Brunet, 1989 et 1993]. Hyperbase est plutôt conçu pour analyser des unités "naturelles" ou macrostructurales : une pièce, un ensemble de pièces (les comédies de Corneille, toutes les pièces de Racine...). Il permet entre autre de mettre en évidence les termes les plus spécifiques d’une œuvre ou d’un ensemble d’œuvres par rapport à l’ensemble du corpus. Le logiciel a bien d’autres fonctionnalités que nous n’avons pas utilisées dans cette partie : concordancier qui nous a été précieux pour l’analyse de la diérèse, richesse du vocabulaire, évolution du vocabulaire, analyse factorielle...

2. Statistique textuelle

L'autre branche, l’analyse statistique des données linguistiques (ou textuelles), a été animée par Jean-Paul Benzécri [1981], père de l’analyse des données à la française. Les origines de l’analyse des données remontent au début du siècle. Les psychologues ont été les pionniers de l'exploration des données multidimensionnelles et de l'analyse factorielle [2 ]. Spearman, psychologue anglais, en analysant les liens entre les résultats scolaires et les aptitudes sensorielles d’élèves, croit démontrer l’existence d’un facteur général d'aptitude ou d'intelligence qui sera désigné plus tard par la lettre g. Ultérieurement, non seulement un mais plusieurs facteurs seront recherchés à partir de données de plus en plus nombreuses. C’est là que se situent les origines de l’analyse factorielle.

L’analyse des correspondances, branche de l'analyse factorielle, trouve ses origines chez Fisher, dans les années 40. Puis Kendall et Stuart en 1961 mettent au point des méthodes d'analyse canonique des tables de contingence. Cela leur permet de calculer les paramètres servant à tester l'hypothèse d'indépendance entre lignes et colonnes. Benzécri s'intéresse à ces méthodes à partir de 1963. Il s'initie donc aux théories et méthodes du " multidimensional scaling ". Il revient en France et professe en 1964 un cours à la faculté des sciences de Rennes où il expose l’analyse des données. Son apport principal est d'avoir mis en évidence toutes les propriétés algébriques de la méthode et montré son intérêt : tester l'indépendance des lignes et des colonnes, mais surtout décrire comment les données s'éloignent de cette hypothèse en représentant par des "proximités" les associations existantes entre les lignes et les colonnes [Diday et Lebart, 1977, p. 16]. L’apport de Benzécri (la représentation des associations) a fortement contribué à leur diffusion en France : elles ont connu et connaissent un très grand succès, au point que l’on trouve des analyses factorielles même dans la presse grand public.

Le principe consiste à " mettre en tableau " rectangulaire, sous formes de matrices, les données pour pouvoir appliquer les méthodes d’analyse des données à ces tableaux. Ces méthodes permettent de synthétiser l’information contenue dans ces matrices. Maintenant que les méthodes existent, que les progrès de l’informatique permettent de les mettre en œuvre, la difficulté principale vient de la mise en tableau : quelles unités retenir pour les lignes et les colonnes du tableau ?

Revenons maintenant à Benzécri. Il a mis au point et permis la diffusion de très nombreuses méthodes d'analyse de " grands tableaux ", mais avant tout guidé par une ambition théorique et philosophique, qui nous intéresse directement ici.

En tant que mathématicien tourné vers la linguistique, Benzécri s’est intéressé aux méthodes d’analyse des données non pas en psychologie (discipline qui a été à l’origine des développements les plus nombreux), mais bien comme outil de recherche en linguistique : "C'est principalement en vue de l'étude des langues que nous nous sommes engagés dans l'analyse factorielle des correspondances" [Benzécri, 1981]. Il avait pour ambition théorique d’ouvrir les portes à une nouvelle linguistique à une époque dominée par la linguistique générative. Benzécri s'oppose à la thèse idéaliste de Chomsky qui, dans les années 60, affirme, selon Benzécri, " qu'il ne peut exister de procédures systématiques pour déterminer la grammaire d'une langue, ou plus généralement les structures linguistiques, à partir d'un ensemble de données tel qu'un recueil de textes que les linguistes nomment corpus " [Benzécri, 1981, p. X]. Contre cette thèse, Benzécri propose une méthode inductive d’analyse des données linguistiques "avec à l'horizon l'ambitieux étagement des recherches successives ne laissant rien dans l'ombre des formes, du sens et du style" [Benzécri, 1981, p. X]. En ce sens, il est assez proche des objectifs de distributionalistes comme Bloomfield et Harris qui escomptaient construire les lois de la grammaire à partir de corpus d’énoncés.

Nous proposons une méthode portant sur les problèmes fondamentaux qui intéressent un linguiste. Et cette méthode (…) effectuera une abstraction quantitative, en ce sens que partant de tableaux de données les plus divers, elle construira, par le calcul, des quantités qui pourraient mesurer des entités nouvelles, situées à un niveau d'abstraction supérieur à celui des faits recensés d'abord.
[Benzécri, 1981, p. 4]

En identifiant les facteurs, il ne fait pas de doute qu'une opération d'abstraction a été réalisée. L'ordinateur ne donne pas de nom, ni de sens à ces entités qu'il a abstraites ; c'est au spécialiste d’apporter son interprétation.

L’ambition philosophique de Benzécri est de redonner toute sa valeur à la démarche inductive et de s'opposer par là même à l'idéalisme :

Car nous condamnons que, de principes reçus à la légère, l'idéalisme prétende par une dialectique, fut-elle sous l'emprise des mathématiques, tirer des conclusions sûres ; puis à cette déduction a priori nous opposons l'induction qui a posteriori, des faits observés veut monter à ce qui les ordonne.
[Benzécri, 1968, p. 11]

Il critique les théories idéalistes qui posent l'existence d'un modèle et en vérifient approximativement la pertinence avec l'observation. Si cette démarche est encore vaguement acceptable pour la physique, elle ne l'est pas du tout pour l'économie. En effet, il n'existe pas de situation expérimentale suffisamment schématique pour satisfaire l'économiste. Il doute qu'il soit possible de réduire un objet complexe en un combinaison d'objets élémentaires, "car l'ordre du composé vaut plus que les propriétés élémentaires des composants" [Benzécri, 1968, p. 16].

L'objectif qu'il lui paraît possible d’atteindre avec l'analyse des données est de pouvoir dégager "de la gangue des données le pur diamant de la véridique nature". Le passage des données aux entités abstraites, de l’ombre à la lumière, est rendue possible à ses yeux grâce à l'analyse des données et au " novius organum " qu'est l'ordinateur.

Les moyens de calculs nouveaux permettent de confronter des descriptions complexes d'un grand nombre d'individus, pour aboutir à placer ceux-ci sur des cartes planes ou spatiales, image fidèle et accessible à l'intuition de la nébuleuse des données initiales.
[Benzécri, 1968, p. 21]

Somme toute, on voit comment l'analyse affranchit des idées a priori. Des données aux résultats, l'ordinateur, insensible aux espérances comme aux préjugés du chercheur, procède sur la base ample et solide de faits définis et acceptés d'abord dans leur ensemble, puis dénombrés et ordonnés suivant un programme qui, parce qu'il ne sait pas comprendre, ne sait pas non plus mentir.
[Benzécri, 1968, p. 24]

Enfin, parmi toutes les idées a priori, souvent contradictoires, que chaque problème suscite en si grand nombre, un choix opportun s'opère : bien plus, l'idée qui a posteriori, après examen statistique des données, semble avoir été a priori fort naturelle ne se serait pas toujours présentée d'elle-même à l'esprit.
[Benzécri, 1968, p. 24]

Auxiliaire de la synthèse, l'ordinateur est un outil mental : après l'organum d'Aristote et le Novum Organum conçu par Bacon, n'est-il pas le Novius Organum, " l'outil le plus nouveau " ?
[Benzécri, 1968, p. 24]

Ces ambitions sont sans doute démesurées, ont été et sont largement critiquées, mais elles ont le souffle des grands projets. L’analyse des données offre certes un ensemble de méthodes exploratoires efficaces, mais elle n’a pas atteint le statut de théorie scientifique.

Le rôle de Benzécri est fondamental pour une autre raison inattendue : il a fait entrer la créativité dans l’aridité des statistiques. Benzécri a en effet ouvert le champ de l’interprétation sur les résultats des analyses, formes éminemment projectives surtout quand il s’agit de mots.

La méthodologie ALCESTE (Analyse des Lexèmes Cooccurrents dans les Énoncés Simples d’un Texte) mise au point par Max Reinert [1983, 1993] s’inspire du courant de l’analyse des données de J.-P. Benzécri, dont Reinert fut l’élève. Les préoccupations de Reinert constituent cependant une orientation particulière :

Il s’agit, non pas de comparer les distributions statistiques des " mots " dans différents corpus, mais d’étudier la structure formelle de leurs cooccurrences dans les énoncés d’un corpus donné.
[Reinert, 1993, p. 9]

Reinert considère un corpus comme une suite d’énoncés élémentaires produits par un sujet-énonciateur. Ainsi le texte est modélisé dans un tableau qui contient en ligne les énoncés, qui portent la marque du sujet énonciateur et en colonne les mots ou léxèmes, qui renvoient à des objets du monde (sans aucunement préjuger de la " réalité " de ces objets).

Un énoncé traduit davantage un point de vue particulier plutôt qu’une représentation, le point de vue : impliquant en son centre l’existence d’un " sujet " dans une certaine modalité du faire ou de l’être. (…) Notre hypothèse consiste justement à considérer le vocabulaire d’un énoncé particulier comme une trace pertinente de ce point de vue. Il est à la fois la trace d’un lieu référentiel et d’une activité cohérente du sujet-énonciateur. Nous appelons mondes lexicaux, les traces les plus prégnantes de ces activités dans le lexique.
[Reinert, 1993, p. 11]

Un monde lexical, est donc à la fois la trace d’un lieu référentiel et l’indice d’une forme de cohérence liée à l’activité spécifique du sujet-énonciateur que l’on appellera une logique locale.
[Reinert, 1993, p. 9]

Grâce aux procédures statistiques, qui rapprochent des énoncés employant le même type de lexique, la méthode permet d’identifier différents mondes lexicaux, qui pourront être révélateurs de " visions du monde ". Par exemple, dans son étude sur Aurélia de Nerval, Reinert [1990] identifie trois types de mondes en classant les énoncés : le monde imaginaire, le monde réel et le monde symbolique qui portent chacun la marque d’un certain rapport au monde du narrateur.

Si l’outil a été conçu dans une visée d’identification des visions du monde [Reinert, 1993] il a pu et il peut être utilisé dans d’autres perspectives. Plus généralement, la méthodologie Alceste permet d’identifier des univers de discours, des classes d’énoncés, qui doivent être l’objet d’une interprétation spécifique en fonction de la nature du corpus et des objectifs de l’analyse.

Les deux branches de la statistique textuelle se sont développées parallèlement, chacune avec ses propres publications, ses propres collections [3] . Les échanges existent puisque certains chercheurs sont à la frontière de ces deux disciplines, que des logiciels d’une branche intègrent des modules de la seconde (Hyperbase (première branche) a un module d’analyse factorielle, Spad.T et Alceste (seconde branche) utilisent le calcul des spécificités pour caractériser les classes de discours…) et que les colloques actuels réunissent les deux communautés.

Pour notre corpus, nous avons utilisé deux des méthodologies statistiques qui nous paraissent complémentaires : Alceste et Hyperbase, sans toutefois explorer sur ces corpus toutes les fonctionnalités de ces outils.

Alceste découpe les textes en segments de taille homogène (unités de contexte élémentaires ou UCE) de longueur variable (un à trente alexandrins). Chaque texte (dans notre cas, chaque pièce) est considéré comme un ensemble de segments de texte ou d’unités de contexte (UCE). Chaque UCE est décrite par les mots qu’elle contient. Plus précisément, par les mots tels qu’ils apparaissent, par les mots lemmatisés (réduits à leur racine), ou par les mots pleins lemmatisés (à l’exclusion des mots grammaticaux). En gros, les unités de contexte constituent les lignes du tableau, et les mots retenus les colonnes ; à l’intersection d’une ligne et d’une colonne on a un " 1 " si le mot apparaît dans l’unité de contexte, " 0 " sinon. L’objectif est de construire sur la base de cette matrice une typologie des segments de textes. L’ensemble des unités de contexte est séparé en deux de manière à ce que les unités de contexte de chaque classe soient les plus cohérentes possible en termes de vocabulaire et que les différences de contenu lexical soient maximales entre les deux classes. Le processus de classification est itératif et conduit à une typologie. En fin de compte, chaque unité de contexte appartient à une classe [4].

Précisons davantage. Partant du constat qu’il est impossible d’avoir un découpage automatique d’un texte en énoncés, Reinert propose de fait deux types de découpages en unités de contexte qui donnent lieu à la constitution de deux tableaux et de deux typologies. Les typologies obtenues sont ensuite comparées et seules sont conservées les classes les plus stables.

Chaque classe de la typologie est caractérisée par une liste de mots qui constitue le vocabulaire spécifique de la classe par rapport à l’ensemble du corpus, par les vers les plus caractéristiques de la classe, par les pièces sur-représentées dans la classe.

Revenons sur le vocabulaire spécifique de chaque classe qui est une liste de termes significativement plus présents dans la classe que dans l'ensemble du corpus. Cette liste peut donner lieu à une analyse sémantique qui cherchera à identifier les isotopies sous-jacentes. On montre ainsi comment sont entrelacés dans des petites séquences de texte différentes isotopies. Les classes permettent de repérer des grandes catégories de discours au sein d’un grand corpus. Par rapport à la démarche proposée par Rastier [1989, et 1987 pour les aspects théoriques], la thématique est ici construite avec l’aide de l’ordinateur, qui identifie les grands thèmes de discours, puis ensuite, c’est une analyse manuelle qui identifie à l’intérieur des grands thèmes des isotopies plus fines et montre leur articulation dans le texte.

NOTES

[1] Le projet du Trésor de la Langue Française est inséparable de celui de la constitution d’une grande bibliothèque informatisée, la base Frantext. Les articles du dictionnaire devaient pouvoir être illustrés par des citations puisées dans Frantext. Le projet initial était plus ambitieux encore puisqu’il devait permettre une navigation libre entre dictionnaire et textes.

[2] Pour une histoire précise des origines de la mesure en sciences sociales, on pourra se reporter aux travaux d'Olivier Martin [1995].

[3] Les Travaux de linguistique quantitative, publiées sous la direction de Charles Muller chez Slatkine-Champion ; Les Cahiers de l'analyse des données, publiées sous la direction de Jean-Paul Benzécri chez Dunod.

[4] Sauf les unités qui ne sont pas classées parce qu'elles emploient un vocabulaire trop marginal ou qu'elles sont "à cheval" entre deux classes.

BIBLIOGRAPHIE

Benzécri Jean-Paul (1968). " La place de l'a priori, "Organum" ", Encyclopedia Universalis, pp. 11-24.

Benzécri Jean-Paul éd., (1981). " Introduction I ", Pratique de l'analyse des données, Linguistique et lexicologie, Paris, Dunod.

Benzécri Jean-Paul et coll. (1981). Pratique de l'analyse des données, Linguistique et lexicologie, Paris, Dunod.

Brunet Étienne (1989). " L'exploitation des grands corpus : le bestiaire de la littérature française ". Literary and Linguistic Computing, t. 4, n°2, pp. 121-132.

Brunet Étienne (1993). "Un hypertexte statistique : Hyperbase". In S. J. Anastex (eds.), (1993). JADT 1993, Paris, TELECOM.

Diday E. et Lebart L. (1977). "L’analyse des données", La Recherche, n°74, pp. 15-25.

Lebart Ludovic, Salem André (1994). Statistique textuelle, Paris, Dunod, 342 p.

Muller Charles (1967, 1992). Étude de statistique lexicale. Le vocabulaire du théâtre de Pierre Corneille, Paris, Larousse, 1967, réimpression aux éditions Slatkine, 1979, 1992 382 p.

Muller Charles (1977, 1992). Principes et méthodes de statistique lexicale, Larousse, 1977, réimpression Champion-Slatkine, 1992, 211p.

Rastier François (1987). Sémantique interprétative, Paris, PUF, 279 p.

Rastier François (1989). Sens et textualité, Paris, Hachette, 287 p.

Reinert Max (1983). " Une méthode de classification descendante hiérarchique : application à l'analyse lexicale par contexte ", Les cahiers de l'analyse des données, Vol VIII, n° 2, p 187-198.

Reinert Max (1990). " ALCESTE : Une méthodologie d'analyse des données textuelles et une application : Aurélia de Gérard de Nerval ", Bulletin de méthodologie sociologique, n°26, pp. 24-54.

Reinert Max (1993). " Les "mondes lexicaux" et leur logique ". Langage et société, Paris, Maison des Sciences de l’Homme, n°66, pp. 5-39.

Tournier Maurice (1980). " D'où viennent les fréquences de vocabulaire ? ", Mots, Paris, Presses de la fondation nationale des sciences politiques, n° 1, pp. 189-209.

Vous pouvez adresser vos commentaires et suggestions à : valerie.beaudouin@rd.francetelecom.fr

Référence bibliographique : BEAUDOUIN, Valérie. Statistique textuelle : une approche empirique du sens à base d'analyse distributionnelle. Texto ! septembre 2000 [en ligne]. Disponible sur : <http://www.revue-texto.net/Inedits/Beaudouin_Statistique.html>. (Consultée le ...).