Pincemin : Compte rendu du n°2 de la revue Corpus : La distance intertextuelle

COMPTE RENDU
du n°2 de la revue Corpus sur « La distance intertextuelle »,
coordonné par Xuan Luong, 2003, ISSN 1 638-9808

Par Bénédicte PINCEMIN
CNRS & LLI, Université Paris 13

SOMMAIRE :
1. Introduction
2. L'étape de l'indexation des textes
2.1. Que faut-il préférer pour représenter les textes : les mots, les lemmes, les codes grammaticaux ?
2.2. Pondérations : présence, fréquences, rangs
2.3. Prendre en compte le déroulement linéaire du texte
3. Le choix de la mesure pour le calcul des distances intertextuelles
3.1. La palette des mesures et les critères de choix
3.2. La distance de Labbé
4. Du bon usage des représentations graphiques
4.1. Illusoire clarté des représentations graphiques : la question de l'interprétation
4.2. Convergence et différences entre deux représentations graphiques
5. Compléments
6. Conclusion

1. Introduction

La jeune revue Corpus consacre son numéro 2 (2003) à « la distance intertextuelle ».

Elle s'ouvre sur un article de synthèse de Jean-Pierre Barthélémy, Xuan Luong et Sylvie Mellet : « Prenons nos distances pour comparer des textes, les analyser et les représenter », pp. 5-18. Plutôt qu'une synthèse technique détaillée, les auteurs présentent succinctement les principaux lieux de débat, et y apportent l'éclairage issu de leur expérience : la subjectivité et les limites de tout calcul appliqué aux textes, la caractérisation des mesures de distance les unes par rapport aux autres, l'éventail des questions auxquelles le calcul de distances intextextuelles peut apporter des éléments de réponse significatifs.

En particulier, les auteurs pointent et commentent les trois choix significatifs que requiert la mise en œuvre d'une distance intertextuelle :
(i) le mode d'indexation et de représentation du texte ;
(ii) l'adoption d'une métrique ;
(iii) et bien souvent, comme cela est systématisé dans ce numéro, un mode de présentation graphique et spatial des proximités et écarts entre les textes. La visualisation graphique apporte une forme de synthèse de l'articulation interne du corpus telle que quantifiée par la mesure de distance.

Ce troisième point, bien que mis en parallèle avec les deux autres, est cependant d'un autre ordre. En effet, (i) et (ii) participent directement à la détermination du calcul de la distance, alors que (iii) n'intervient qu'ensuite, une fois les distances calculées. Pour autant, ce choix de présentation peut être compris comme une manière d'inviter à penser l'analyse comme un tout, non seulement pour des considérations techniques (certaines techniques de visualisation posent des contraintes sur le choix de la métrique), mais aussi pour des raisons scientifiques (ce qui doit guider les premiers choix, c'est bien l'adoption d'un point de vue singulier mais englobant, prenant en considération la nature des données, les hypothèses à explorer, et le type d'observations que l'on vise).

Chacun des trois choix (i) (ii) et (iii) est le lieu de compromis et d'introduction de biais. Aussi, « La vocation des méthodes de statistique descriptive en analyse de données textuelles n'est pas de trancher entre des hypothèses, mais d'en suggérer. (Nous les aimons lorsqu'elles sont contre-intuitives). [...] compte-tenu des réserves présentées [correspondant aux trois choix] (i), (ii) et (iii), le calculateur ne saurait se substituer au linguiste. » (p. 8) Plus loin (p. 47-48), Brunet confirmera : « La distance entre deux textes, c'est comme la distance entre deux êtres ou entre deux cultures. Il ne semble pas qu'on puisse appliquer là la mesure. [...] Cette difficulté ne tient pas seulement au caractère approximatif des mesures, que cache la précision illusoire des décimales, mais surtout à la multiplicité des points de vue, des angles et des perspectives, l'objet à cataloguer étant aussi rebelle à la géométrie et à la régularité qu'un rhizome de gingembre ou de topinambour. » Ainsi les uns et les autres prennent-ils discrètement mais clairement position dans le débat si vif concernant l'utilisation des distances intertextuelles pour l'attribution d'auteur.

Une bibliographie développée et structurée conclut cette présentation, riche de nombreuses références tant françaises qu'internationales. Son organisation, bien que pas pleinement convaincante, souligne l'équilibre recherché pour la représentation des différentes approches techniques finalement recensées (analyse factorielle, multidimensional scaling, analyse arborée – cf. choix (iii)). La question en amont de la mise au point d'un calcul de distance (choix (ii)) est également présente même si quelque peu dispersée (propriétés mathématiques, techniques ordinales, inventaires et constructions de mesures) : signalons en outre l'intéressante analyse (Rajman & Lebart 1998), oubliée dans cet inventaire. Quant au choix (i) (indexation), il ne fait pas l'objet d'une rubrique dédiée dans cette bibliographie, sans doute du fait du caractère très général et fondamental de cette question de la représentation du texte, qui déborde évidemment le débat ici centré sur le calcul de distances intertextuelles.

Huit articles viennent ensuite nourrir le dossier ouvert :

Mónica Bécue-Bertaut : Comparaison des structures induites sur un ensemble de réponses ouvertes par le choix de l'unité statistique, pp. 27-45
Etienne Brunet : Peut-on mesure la distance entre deux textes ?, pp. 47-70
Margareta Kastberg Sjöblom : La distance lexicale dans l'œuvre de J.M.G. Le Clézio, proximité et éloignement, pp. 71-94
Cyril Labbé, Dominique Labbé : La distance intertextuelle, pp. 95-118
Dominique Longrée, Xuan Luong : Temps verbaux et linéarité du texte : recherches sur les distances dans un corpus de textes latins lemmatisés, pp. 119-140
Xuan Luong, Sylvie Mellet : Mesures de distance grammaticale entre les textes, pp. 141-166
Thomas Merriam : An Application of Authorship Attribution by Intertextual Distance in English, pp. 167-182
Dominique Valentin, Sylvie Chollet, Hervé Abdi : Les mots du vin : experts et novices diffèrent-ils quand ils décrivent des vins ?, pp. 183-200

2. L'étape de l'indexation des textes

2.1. Que faut-il préférer pour représenter les textes : les mots, les lemmes, les codes grammaticaux ?

L'indexation du texte (i), préalable nécessaire pour traduire le corpus en tableau de données se prêtant au calcul statistique, est toujours une réduction, avec sa part d'arbitraire et sans doute d'inconscience (sait-on jamais ce dont on se prive ?) : selon le point de vue, tel aspect du texte sera considéré et tel autre neutralisé, gommé. Dans le contexte de la maturité des techniques d'analyse morphosyntaxique automatique des corpus, la discussion porte actuellement principalement sur l'incidence de l'identification et du décompte des mots selon leur forme graphique (fléchie), ou bien selon leur lemme, ou bien selon leur étiquette morphosyntaxique (partie du discours accompagnée éventuellement d'informations de flexion). L'intérêt du repérage des unités polylexicales, indûment segmentées par un découpage en mots graphiques, reste également souligné (Bécue-Bertaut).

Certains insistent sur la rigueur à apporter à cette étape d'indexation du texte puisque, étant en amont, elle conditionne la finesse des mesures effectuées ensuite (Labbé et Labbé), alors que d'autres soulignent la convergence et l'étonnante stabilité des résultats par delà les multiples traductions et appauvrissements -voire maltraitements- du matériau textuel (Kastberg, Brunet) : ces deux points de vue ne s'opposent pas fondamentalement dans la mesure où l'on s'accorde sur l'importance première de la régularité du processus d'indexation, déjà mise en avant aux débuts de la statistique textuelle par Muller (1977).

D'autres encore préfèrent mettre l'accent sur la complémentarité des différentes indexations, la robustesse de leurs aspects convergents et l'apport propre de chacune. Bécue-Bertaut illustre alors l'intérêt de recourir à l'analyse factorielle multiple pour allier ces différentes représentations sans les confondre ni les disperser. De fait, notre question initiale (« Que faut-il préférer pour représenter les textes...? ») n'est, bien sûr, pas tout à fait la bonne, et plutôt que de hiérarchiser les formes d'indexation on s'attachera à les caractériser pour différents usages. Ainsi, les approches fondées sur les formes fléchies ou les lemmes sont a priori plus sensibles à la thématique des textes que celles fondées sur les codes grammaticaux ; l'usage de la morphosyntaxe n'est pas moins reconnu comme une dimension essentielle de la textualité, et une étude qui vise le contraste des styles d'écriture pourra préférer une approche plus grammaticale que lexicale (Luong et Mellet, Brunet). Bref, il faudrait se garder de lire le titre de ce numéro de Corpus comme une quête de « la » distance intertextuelle, exacte et définitive, quête évidemment illusoire puisque fondamentalement le texte ne se prête qu'à une multiplicité d'interprétations sans qu'aucune n'épuise ni ne fixe son sens.

Notons que l'étiquetage morphosyntaxique peut être exploité soit complètement, soit sélectivement. Dans le premier cas (illustré par exemple par Brunet ou Kastberg) toutes les informations morphosyntaxiques associées à chaque occurrence sont conservées et reprises telles quelles : cette approche a le mérite d'être plus neutre peut-être à l'égard du corpus (puisqu'il n'y a pas de choix de certaines informations, sinon malgré tout les choix descriptifs des concepteurs de l'analyseur utilisé pour l'étiquetage), en revanche elle conduit à une forte dispersion des données, alors difficilement interprétables. L'autre manière de conduire une analyse à partir des codes grammaticaux consiste à reconstruire à partir d'eux les informations que l'on juge pertinentes pour la description visée. Par exemple, sur un corpus d'historiens latins, Longrée et Luong focalisent l'étude sur les temps verbaux de l'indicatif et l'infinitif de narration, en distinguant les occurrences dans les propositions principales et dans les subordonnées, mais en neutralisant par exemple les variations en personne et en nombre. Ou encore, sur le même corpus, Luong et Mellet choisissent de considérer la distribution des parties du discours (substantifs, adjectifs, pronoms autres que relatifs, verbes, subordonnants, adverbes, autres), la distribution des cas et des nombres nominaux, et la distribution des temps et des modes verbaux combinés. A l'instar de Biber (1988), la détermination des grandeurs à mesurer est guidée par un critère de faisabilité technique (possibilité de repérage et de décompte (semi-)automatique) et bien sûr par un critère de pertinence scientifique au vu de l'état de l'art des études textuelles (mesures déjà présentées comme pertinentes pour l'analyse et la caractérisation des textes).

2.2. Pondérations : présence, fréquences, rangs

Les unités relevées dans le texte peuvent lui être attribuées de diverses façons, les plus classiques étant soit d'enregistrer leur présence ou leur absence, soit de dénombrer leur fréquence. Ces deux tactiques sont ici généralement commentées au titre du choix de la mesure de distance, en opposant l'indice de Jaccard (s'appliquant à un tableau de données binaire de présence / absence) et une mesure de distance prenant en compte les fréquences (dans ce numéro, la distance de Labbé typiquement). Un codage en fréquence rétablit la dominance des fortes fréquences (en particuliers les formes grammaticales), alors que par contraste un codage en présence / absence donne une place importante au vocabulaire employé et à la thématique du texte (Brunet). Les fréquences traduisent par ailleurs des variations dans le degré d'usage, et s'avèrent donc indispensables quand les items observés sont a priori toujours présents et ne contrastent que par leur dosage, cas par exemple d'informations morphosyntaxiques (catégorie grammaticale, temps verbal, etc.) (Luong et Mellet). En revanche les faibles fréquences peuvent s'avérer problématiques pour les calculs d'analyse des données : Luong et Mellet proposent alors une caractérisation par les rangs, permettant de mettre en valeur une unité significativement représentée dans un texte relativement à son usage dans l'ensemble du corpus, et ce indépendamment de l'ordre de grandeur de sa fréquence. Cette recherche d'une quantification de la présence d'une unité dans un texte plus significative que la simple fréquence serait à rapprocher des fonctions de pondération développées dans le domaine de la Recherche d'information (Salton et McGill, 1983), autre courant de recherche qui caractérise les textes par des techniques statistiques.

Plus généralement encore, s'agissant de caractériser un texte, les chiffres à soumettre au calcul n'ont pas nécessairement à être les fréquences (ou pondérations) d'items linguistiques (formes fléchies, lemmes ou fréquences) : ils peuvent être conçus plus souplement comme une série de mesures. Les données ne s'imposent pas au chercheur : c'est à lui de définir d'une part les composantes du texte pertinentes pour son analyse (par exemple telle catégorie grammaticale, tels temps verbaux), et d'autre part leur mode de mesure sur le texte (proportion -par rapport à quoi-, moyenne, rang, etc.). Les articles de Longrée et Luong, et de Luong et Mellet, amorcent une telle démarche. Cela ouvre de nouvelles perspectives de recherche quant à la manière de former des jeux de mesures pertinents et cohérents pour chaque analyse.

2.3. Prendre en compte le déroulement linéaire du texte

Une voie nouvelle et plus sensible à la linéarité textuelle est explorée dans la contribution de Longrée et Luong : plutôt que de caractériser les œuvres des historiens latins par la fréquence des temps et modes verbaux employés, l'idée est de rendre compte des effets de succession, d'enchaînement et de rupture au fil de chaque texte. Cela conduit à la mise au point de mesures syntagmatiques. Une première méthode consiste à considérer la suite des temps verbaux des propositions principales (le choix du temps dans la subordonné étant plus ou moins contraint par le temps de la principale), et de mesurer, pour chaque temps verbal et pour chaque texte, le rapport entre le nombre d'occurrences du temps suivi par lui-même et le nombre total d'occurrences du temps pour le texte, soit en quelque sorte une « proportion de continuité (ou de contiguïté) » du temps. Cette méthode donne une image du texte qui fait ressortir les temps apparaissant en séquences continues, et qui occulte les temps se manifestant par occurrences isolées et dispersées, ce qui en latin chez ces auteurs historiens donne un poids dominant à l'infinitif de narration. Pour avoir une caractérisation plus détaillée de cse séquences de temps en faisant intervenir leur longueur, une seconde méthode a été introduite. Pour chaque texte et pour chaque temps, on calcule le nombre de séquences de neuf occurrences successives (ou plus) du temps rapporté au nombre total d'occurrences du temps dans le texte, de même le nombre de séquences de longueur huit sur le nombre total d'occurrences du temps, etc. jusqu'aux séquences de longueur deux.

Cette représentation des textes par la répartition des temps et modes verbaux, utilisée pour évaluer les similarités et écarts entre textes, confirme l'importance prépondérante de l'époque et du genre littéraire pour la différenciation des textes, et dans une moindre mesure celle de l'auteur, comme cela a déjà été observé dans d'autres domaines avec d'autres méthodes (Brunet). L'observation des séquences apporte en outre un éclairage nouveau par rapport au simple décompte des fréquences, et permet d'autres types de rapprochements intertextuels : par exemple, « si les œuvres de César et de Suétone s'opposent quant aux proportions de présents et de parfaits en principale, les deux auteurs affectionnent l'un comme l'autre les longues séquences de parfaits. » (Longrée et Luong, p.138).

3. Le choix de la mesure pour le calcul des distances intertextuelles

3.1. La palette des mesures et les critères de choix

En ce qui concerne le choix de la métrique (ii), l'usage visé peut imposer que soient vérifiées certaines propriétés mathématiques. Il n'en reste pas moins que « en fonction de l'usage qui en est fait, toute métrique présente une part d'arbitraire et des biais. Lorsqu'elle est libre relativement à une méthode de représentation, elle peut avoir une grande influence sur les résultats. » (p. 7)

Les contributions rassemblées pour ce numéro de Corpus illustrent essentiellement trois distances. Les analyses factorielles sont dressées à partir d'une distance du chi-2 ; Bécue introduit néanmoins une « distance compromis », appropriée au cas d'un tableau multiple juxtaposant plusieurs descriptions. Les analyses arborées sont réalisées avec le logiciel Hyperbase, qui implémente deux mesures de distance : l'indice de Jaccard et la distance de Labbé. L'article de Brunet expose de façon claire et illustrée les principes et les limites du premier, intuitif mais peu significatif dès que les tailles des textes sont inégales ; il explique l'introduction de la distance de Labbé notamment par le souci de prendre en compte les fréquences des mots (et pas simplement leur présence / absence, qui valorise la thématique mais aussi les variantes et coquilles, et neutralise les écarts d'usage sur les mots les plus courants, sans doute plus révélateurs des choix stylistiques). Dans le même article, Brunet évoque encore quelques autres mesures expérimentées pour le calcul de distances textuelles, principalement la statistique binomiale de Muller sur la gamme de distribution des fréquences, plus complexe à mettre en œuvre et sans supériorité nette sur les autres méthodes.

3.2. La distance de Labbé

Une bonne partie des contributions recourt à la distance de Labbé, une des deux principales mesures de distance disponible dans le logiciel Hyperbase. Soulignons que la présentation de cette mesure est très différente et succincte chez Brunet, concepteur et développeur d'Hyperbase ; si bien que si l'on veut être sûr de bien interpréter la formule mathématique donnée par Brunet il est vivement recommandé de lire sa présentation chez Labbé, dans l'article de référence cité par Brunet ou tout simplement dans ce numéro de Corpus. Cette distance est en effet présentée par son auteur dans ce même numéro de Corpus : « la distance intertextuelle », C. Labbé & D. Labbé, pp. 95-118. Cet article important résume la démarche de conception de la mesure, puis s'attache à préciser les biais de cette mesure et à en définir les conditions et limites d'usage.

La mesure est développée à partir de deux idées : prendre en compte les fréquences et donc valoriser les mots de forte fréquence et les écarts quantitatifs d'usage ; et rendre les textes comparables par une réduction homothétique (règle de trois) du plus grand au plus petit, en élaguant les fréquences réduites inférieures à 1 (soit en particulier tous les hapax du grand texte, décision apparemment secondaire mais à notre avis cruciale et discutable, car introduisant une forte dissymétrie).

Les auteurs observent d'abord que les cumuls de décimales finissent par engendrer une dérive : en effet les fréquences théoriques, obtenues par règle de trois, sont des nombres à virgule (ce qui est évidemment artificiel pour une fréquence de mot), et comme le calcul soustrait les fréquences observées (qui sont par nature des nombres entiers) à ces fréquences théoriques, on obtient un reste qui augmente indésirablement la distance. La parade proposée consiste à s'assurer d'une portion suffisante de mots de fréquence moyenne ou haute, en se donnant la règle que « la taille du [texte le] plus court doit dépasser 1 000 mots » (p. 104), et les résultats doivent être considérés avec une « marge d'incertitude de +/- 1,5 % » (p. 104), voire de 5 %, « lorsque l'on compare des textes de longueur différentes ou dont l'un au moins est assez hétérogène » (p. 107).

Les auteurs soulignent ensuite que les variations de taille d'un texte à l'autre restent sensibles, un facteur dix étant « un maximum à ne pas dépasser » (p. 106). En particulier, pour certains algorithmes de classification automatique, qui agrègent les textes en classes, la distance au « texte » sommant les textes d'une même classe est sensiblement inférieure à la moyenne des distances à chacun des textes (on s'intéresse donc à une tactique de classification parmi d'autres, celle dite du « saut moyen », ou average linkage, voir par exemple Volle 1985), et cet écart s'accentue à mesure que la classe grandit (il « dépasse systématiquement 5 % lorsque la fusion dépasse cinq fois la dimension des autres textes » (p. 106)) ; néanmoins, cela peut pas perturber l'ordre général d'agrégation de la classification. Pour neutraliser la variable taille, Merriam choisit de réduire tous les textes à des échantillons de même longueur, fixée par exemple par la taille du plus petit texte considéré : il montre l'application de cette méthode à l'attribution d'auteur dans un corpus mêlant des pièces de théâtre de Shakespeare et de Middleton (Merriam). Le texte de chaque pièce est tronqué de sa fin (en général ici de l'ordre de sa seconde moitié), ce qui, reconnaît-il, pourrait s'avérer problématique dans le cas d'une pièce dont le début serait écrit par un auteur et la fin par un autre. Une méthode générale à mettre au point devrait alors consister à recourir à plusieurs échantillons pour chaque texte (Labbé et Labbé, p.115). Rappelons simplement ici que l'échantillonnage des textes est déjà largement débattu dans la communauté des linguistiques de corpus (autour de la constitution de corpus représentatifs de la langue générale notamment) ; le débat est non seulement technique (comment déterminer un échantillon statistiquement représentatif quant à la distribution des mots et à l'usage de la langue) mais aussi scientifique (légitimité et validité d'une telle réduction du texte à une partie). Un certain nombre de chercheurs marquent leurs réserves voire leur hostilité à un tel découpage, qui malmène la textualité et l'importance sémantique du texte comme unité linguistique globale (Péry-Woodley 1995, Rastier 2001 pp. 84-87).

Enfin, le cœur de l'étude de Labbé et Labbé est consacré à l'analyse des contributions des différents types de mots au calcul de la distance, et il ressort que les plus influents (pour la distance de Labbé) sont les mots du groupe nominal (noms propres, substantifs, adjectifs), et plus généralement les basses fréquences, - alors même que le but initial de la mesure était de revaloriser les hautes fréquences.

4. Du bon usage des représentations graphiques

4.1. Illusoire clarté des représentations graphiques : la question de l'interprétation

En ce qui concerne ce troisième point de choix (iii), s'il est bien reconnu ici que les représentations graphiques des distances intertextuelles comportent toujours une part de biais, il est fait peu cas en pratique des précautions interprétatives absolument nécessaires pour déjouer les illusions générées par la réduction de l'information. Car la modélisation mathématique ne retient qu'une certaine vision du texte, et la représentation spatiale n'est ensuite qu'une approximation de l'espace géométrique construit, représentation certes optimale selon un certain critère mais inévitablement déformante. Ce que l'on oublie trop souvent, c'est que l'approche mathématique développe conjointement aux techniques de représentation des outils pour évaluer la qualité et les incertitudes des graphiques calculés.

Sans doute les auteurs des différentes contributions ont-ils eu soin de recourir aux indicateurs fournis par les méthodes de calcul (tels que cosinus carrés et contributions pour l'analyse factorielle, dont l'utilisation méthodique est décrite par exemple dans Volle 1985), et n'ont pas détaillé ce dépouillement pour en épargner l'austérité au lecteur (on se limite à préciser la part d'inertie des axes considérés, rendant compte du degré de fidélité globale de la projection). Néanmoins, signalons que Ludovic Lebart a mis au point plusieurs outils à la fois parfaitement rigoureux au plan de la statistique et très parlants par leur expression graphique, « permettant de transformer une visualisation plaisante en un document scientifique » (Lebart 2004) :

- tracé de la marge d'incertitude sur la position d'un point, qui se traduit par une ellipse autour de celui-ci. Selon la taille de ces zones, on fait tout de suite la part entre les proximités et oppositions qui structurent effectivement fortement le corpus, et celles en fait purement apparentes, qui se métamorphosent ou s'évanouissent pour des perturbations statistiquement faibles des données (Lebart 2004).

- pour chaque point sélectionné, liaison de celui-ci avec les points effectivement les plus proches dans l'espace complet, avant déformation de celui-ci par sa réduction à deux dimensions. On peut aussi lier le point avec ses plus proches voisins déterminés par une mesure complémentaire, et ainsi à la fois enrichir et préciser la représentation graphique : (Lebart 1998) ajoute ainsi les indications d'un calcul textométrique des spécificités (Lafon 1980, Lebart et Salem 1994) à la projection plane obtenue par analyse factorielle des correspondances.

Enfin, par delà même ces problèmes de réduction d'information et de perspective, la question herméneutique reste entière : « A supposer qu'on puisse avec sûreté répartir les textes dans l'espace, comme on distribue les villes sur une carte, il resterait à décrire et à expliquer les oppositions et les rapprochements. » (Brunet, p. 68). Et Brunet de poursuivre en soulignant l'intérêt de ne pas se focaliser sur les textes comme seul objet et niveau d'analyse, mais d'éclairer leurs relations par celles que tissent entre eux les mots qui s'y répartissent.

4.2. Convergence et différences entre deux représentations graphiques

Les représentations graphiques servent de support à la lecture des distances intertextuelles, en donnant une vision d'ensemble de la structuration du corpus. Ainsi cherche-t-on à percevoir les textes qui s'attirent et ceux qui s'opposent, les groupements qui se forment et les axes d'opposition. Les graphiques sont alors comparés entre eux pour évaluer la stabilité de la structuration globale trouvée à travers différents procédés d'analyse (indexation, distance) et pour identifier l'incidence des modifications apportées.

La dernière contribution (Les mots du vin : experts et novices diffèrent-ils quand ils décrivent des vins ?, Valentin, Chollet et Abdi) présente une utilisation de distance en psychologie, où les « textes » sont des termes choisis pour la description d'un vin dans une liste structurée (« la roue des vins » : trois niveaux de généralité / spécificité sur lesquels se répartissent une centaine de descripteurs). Des analyses factorielles des correspondances (classiquement basées sur la distance du chi-2) synthétisent les descriptions produites d'une part par des novices et d'autre part par des experts. Une « distance procustéenne » permet alors d'évaluer l'écart entre les graphiques factoriels, en l'occurrence entre la configuration de points obtenue pour les experts et celle obtenue pour les novices. A part peut-être cette technique qui pourait être mise en œuvre pour quantifier des écarts entre plusieurs représentations graphiques de distances intertextuelles, cette contribution s'écarte donc sensiblement du thème du numéro, puisque les données ne sont pas des textes (ensembles de mots-clés et graphiques factoriels), et que le choix de la distance n'est pas problématisé. Signalons à l'attention des lecteurs du bulletin Sémantique des Textes que ce domaine de la dégustation des vins a également fait l'objet d'études passionnantes en linguistique et notamment en sémantique interprétative, en particulier l'ouvrage (Normand 2002) préfacé par François Rastier (texte de l'avant-propos de Rastier peut être retrouvé dans les archives du bulletin Sémantique des Textes, volume 8 numéro 3).

5. Compléments

Le dossier thématique de ce numéro de Corpus est complété par des présentations de publications devant intéresser la plupart des lecteurs attirés par les distances intertextuelles. Jean-Pierre Anfosso présente sa thèse intitulée « Quelques utilisations possibles de la modélisation du langage par des chaînes de Markov ». Cet exposé assez technique propose d'ajuster des modèles markoviens à des séquences textuelles, en s'inspirant de démarches en biochimie génétique pour le séquençage du génome, dans le but de caractériser des styles d'écriture et d'apporter ainsi des éléments pour le découpage d'un texte en partis homogènes ou pour l'attribution d'auteur. Le volume se termine par deux comptes-rendus détaillés, le premier de Benoît Habert et Michèle Jardino sur Word Frequency Distributions de R. Harald Baayen, le second de Sylvie Mellet sur Matemáticas y Tratamiento de Corpus (actes du deuxième séminaire de l'Ecole interlatine des hautes études en linguistique appliquée).

6. Conclusion

Cette livraison de Corpus rassemble donc d'importantes et passionnantes contributions au terrain de la statistique textuelle (Lebart et Salem 1994). Elle rend compte à la fois des acquis méthodologiques (conduite d'une analyse avec des techniques confirmées) et scientifiques (incidence -faible- des choix d'indexation ; incidence textuelle majeure des différences d'époque et de genre littéraire qui dominent les variations d'auteur ; présentation très complète de la distance de Labbé), tout en présentant plusieurs recherches innovantes ouvrant des perspectives prometteuses (la possibilité d'allier des descriptions multiples et de définir une « distance compromis » qui les coordonne ; la recherche de nouveaux modes de caractérisation des textes plus sensibles à leur nature et à leur structure, notamment linguistique et syntagmatique).

(Diffusion : Edizioni dell'ORSO, Via U. Rattazzi 47, 15100 Alessandra, Italie
Courriel : edizionidellorso@libero.it)

BIBLIOGRAPHIE

Biber Douglas (1988) - Variation across speech and writing, Cambridge University Press, 315 pages.

Lafon Pierre (1980) - « Sur la variabilité de la fréquence des formes dans un corpus », M.O.T.S, 1, pp. 127-165.

Lebart Ludovic (1998) - « Visualizations of textual data », in Joerg Blasius and Michael Greenacre (eds), Visualization of Categorical Data, Academic Press, San Diego, USA, pp. 133-147 (chapitre 11).

Lebart Ludovic (2004) - « Validité des visualisations de données textuelles », Actes des 7emes Journées internationales d'Analyse statistique des Données Textuelles, Louvain-la-Neuve, 10-12 mars 2004, pp. 708-715.

Lebart Ludovic, Salem André (1994) – Statistique textuelle, Dunod, 1994.

Muller Charles (1977) - Principes et méthodes de statistique lexicale, Champion, coll. Unichamp, 1992, réédition de Hachette, 1977.

Normand Sylvie (2002) – Les mots de la dégustation du champagne, Paris, éditions du CNRS.

Péry-Woodley Marie-Paule (1995) - « Quels corpus pour quels traitements automatiques ? », Traitement Automatique des Langues, 36 (1-2), pp. 213-232.

Rajman Martin, Lebart Ludovic (1998) - « Similarités pour données textuelles », Actes des 4emes Journées internationales d'Analyse statistique des Données Textuelles, Nice, pp. 545-556.

Rastier François (2001) – Arts et sciences du texte, Paris : Presses Universitaires de France.

Salton Gerard, McGill Michael J. (1983) - Introduction to Modern Information Retrieval, McGraw-Hill

Volle Michel (1985) – Analyse des données, Paris : Economica.

Vous pouvez adresser vos commentaires et suggestions à : pincemin@lli.univ-paris13.fr

Référence bibliographique : PINCEMIN, Bénédicte. Compte rendu du n°2 de la revue Corpus sur " La distance intertextuelle ". Texto ! décembre 2004 [en ligne]. Disponible sur : <http://www.revue-texto.net/Parutions/CR/Pincemin_CR.html>. (Consultée le ...).