L'ACCÈS AUX BANQUES TEXTUELLES - DES GENRES À LA DOXA

François RASTIER
C.N.R.S.

(Texte paru dans Cabré T. et Gelpi, C. (éd.), Lèxic, corpus i diccionaris,
Cicle de confèrencies i seminaris 97-98
, IULA, Université Pompeu Fabra,
Barcelone, 2000.)

Après le rouleau et le codex, le numérique ouvre une troisième époque de l’écrit, caractérisée par l’accès immédiat au corpus et la lecture non-linéaire. Les priorités deviennent alors la normalisation et la codification (pour transformer les banques textuelles en véritables corpus) ; la mise en réseau des ressources ; la création de logiciels de recherche évolués.

L’accès immédiat au corpus permet de développer l’analyse thématique assistée, l’étude de la stéréotypie et de la canonicité sémantiques, les techniques de différenciation et de caractérisation de textes et de sous-corpus.

Cela accompagne le développement d’une linguistique différentielle et empirique. Il convient en effet de lier, par une sémantique des normes, la diversité des textes à la diversité des genres et des pratiques sociales. Aussi, le codage préalable des genres est crucial pour l’ergonomie des banques textuelles. Les critères de leur typologie sont à la fois intralinguistiques (structures et unités) et extralinguistiques (objectifs et situation des textes).

L’accès informatique à de grands corpus permet enfin d’étudier avec des moyens nouveaux la stéréotypie textuelle. Fournir une assistance à l’interprétation conduit d’une part à créer des sous-corpus enrichis, et d’autre part à définir des régimes de pertinence variables selon les applications.

Il faut tenir compte en outre que le développement des lectures non-linéaires a renouvelé les parcours interprétatifs propres aux usages traditionnels de l’écrit.

1. SÉMANTIQUE DE CORPUS

Le recueil et l’étiquetage de grands corpus informatisés permet à la linguistique de définir un nouvel objectif : l’accès sémantique aux banques textuelles. Ce type d’application fait l’objet d’une large demande sociale mais exige un approfondissement théorique en sémantique interprétative. D’une part, elle doit renouer avec la philologie, qui reste à la base de tout traitement des textes ; d’autre part, étudier les pratiques interprétatives pour proposer des formes de codage et les exploiter. Tout codage résulte en effet d’une interprétation, et guide ou contraint les interprétations futures.

Plus généralement, les théories linguistiques ont souffert d’une triple limitation qui les a dissuadées de décrire les textes, et qui procède de la tripartition entre syntaxe, sémantique et pragmatique instaurée par le positivisme logique : limitation au syntaxique et donc à la phrase ; sémantique vériconditionnelle inadéquate pour les langues et incapable de penser leur diversité ; pragmatique débouchant sur une microsociologie des interactions verbales, inadéquate pour traiter des textes écrits et découplés de l’interlocution.

La situation est en train de changer, par deux mouvements convergents :   au plan épistémologique, l’empirisme l’emporte sur le dogmatisme, et l’on en vient par exemple à réhabiliter le distributionnalisme ou les méthodes quantitatives ; au plan méthodologique, les traitements automatiques du langage changent corrélativement leur rapport à l’objet : on voulait analyser des phrases, on subordonne à présent cet objectif au codage et à l’exploitation des corpus numérisés.

(i) L’essor de la linguistique de corpus. — La linguistique de corpus [ 1] a mis longtemps à s’imposer. Les premiers corpus informatisés ont d’ailleurs été constitués et utilisés pour fabriquer des produits traditionnels : concordances, dictionnaires (en France, le Trésor de la Langue Française ). Longtemps, l’enjeu du traitement automatique des corpus n’a guère été discerné. Malgré les travaux de pionniers comme Roberto Busa ou Jean-Claude Gardin, il a fallu attendre le scanneur et l’informatisation de l’édition elle-même pour que l’on dispose de corpus importants. Depuis une quinzaine d’années, les corpus informatisés se multiplient et croissent très vite : de 1983 à 1993, par exemple, la taille du British National Corpus a décuplé, passant de un à dix millions de mots.

Si beaucoup de corpus sont amassés sans principes clairement définis, la qualité des informations attachées à certains corpus s’améliore. Des corpus arborés (treebanks ) ont été constitués, et des logiciels d’analyse morphosyntaxique sont maintenant dans le domaine public.

Tout cela conduit vers une repossession, voire une mutation de l’objet empirique de la linguistique, et l’on porte une attention nouvelle à la diversité interne des langues, telle qu’elle s’exprime dans la variété des discours, des genres et des textes (comme en témoignent par exemple les travaux de Douglas Biber).

(ii) La nouvelle demande sociale. — En outre, la demande sociale a évolué : alors que des problématiques classiques de l’IA et des TAL comme celles du dialogue Homme-Machine (ou Personne-Système) connaissent une obsolescence accélérée, les besoins des milieux professionnels vont croissant, notamment pour ce qui concerne l’analyse de contenu. Dans des domaines comme le marketing ou la communication politique, on cherche à dépasser les méthodes lexicométriques par analyse factorielle, aussi éprouvées que limitées. Tous ces facteurs sont favorables à l’essor des recherches dans le domaine de l’interprétation assistée (cf. Tanguy, 1997, Thlivitis, 1998). Or, sur le plan de l’aide à l’analyse sémantique, des logiciels très utilisés comme Tact, Alceste ou Candide en restent pour l’essentiel à des collocations de chaînes de caractères. Les unités supérieures au syntagme, les unités non lexicales, les structures textuelles, les paramètres de genre, tout cela reste encore à peu près insaisissable.

Par ailleurs, l’essor du Web a mis au premier plan le problème de la “navigation” dans les textes. Parallèlement se crée le besoin, entre les applications classiques d’intelligence artificielle et d’automatique documentaire, de créer des instruments de recherche et d’exploration assistées. Cela demande la mise au point de nouvelles applications linguistiques : l’accès sémantique aux banques textuelles, la création de sous-corpus à pertinence enrichie, l’interrogation texte -texte sans thésaurus, la diffusion ciblée automatique de documents (cf. Pincemin, 1999).

(iii) Les communautés de recherche. — Parallèlement, les communautés scientifiques et académiques ont connu des évolutions notables. Certaines se fixent pour objectif la description des systèmes linguistiques assistée par ordinateur (la linguistique informatique) ; d’autres le traitement informatique de données linguistiques, sans d’ailleurs que ces deux objectifs soient clairement distingués. Les applications sont diverses : création de dictionnaires informatisés et de réseaux sémantiques (Wordnet, Eurowordnet) ; veille terminologique ; traduction automatique utilisant de plus en plus des corpus alignés comme base de connaissances, informatique documentaire (Information Retrieval ) et moteurs de recherche.

Des convergences nouvelles entre communautés de recherche se sont établies, non sur les objectifs, mais sur l’objet, autour de la Text Encoding Initiative (TEI), lancée en 1987 à l’initiative de l’Association for Computers and the Humanities, et qui revêt pour notre propos une importance épistémologique particulière. Outre qu’elle marque une reconnaissance du problème de la textualité par toutes les communautés (littéraires, linguistiques, informatiques) des traitements automatiques du langage, elle requiert une réflexion nouvelle sur le problème des critères typologiques.

L’évolution vers l’informatique linguistique de corpus s’accompagne ainsi d’un essor inattendu de la philologie, restée jusqu’ici à peu près sans lien avec l’informatique linguistique. Dès lors que l’on décrit et traite des textes (et non des exemples), une déontologie s’impose en effet : il s’agit de définir et respecter des conditions de recueil, d’établissement, de transcription ; puis de coder les articulations de ces textes.

Bref, l’évolution des Traitements automatiques du langage et l’essor des nouvelles linguistiques de corpus depuis le début des années 90 sont en passe de donner une nouvelle base empirique à la problématique rhétorique-herméneutique [2] .   (i) L’accès aux textes est désormais possible avec des moyens techniques légers et puissants (CD, Web, etc.) qui vont renouveler la linguistique. (ii) L’étendue des textes disponibles oraux et écrits, de mieux en mieux codés, croît exponentiellement et permet l’expression de nouveaux besoins sociaux. (iii) Le renouveau de la réflexion philologique sur le codage des textes accompagne celui de la problématique rhétorique / herméneutique nécessaire à leur étude. (iv) La sémantique des textes a progressé : émancipée de l’objectivisme structuraliste comme de l’atomisme grammatical de l’analyse du discours, elle peut formuler des hypothèses qui tiennent compte de la textualité, et interpréter en ce sens les résultats de traitements purement quantitatifs et lexicométriques. Comme elle conjoint la critique philologique et les pratiques interprétatives différenciées en fonction des tâches et des situations, elle trouve dans les corpus numérisés un nouveau domaine d’applications.

2. GENRES

Comme tout texte procède d’un genre, et tout genre d’un discours, il convient de rapporter, par une sémantique des normes — et non plus seulement de la “langue” —, la diversité des textes à la diversité des genres et des pratiques sociales. Si la description linguistique traditionnelle lisse les genres pour créer l’illusion d’une langue générale et neutre, le codage préalable des genres reste crucial pour restituer la diversité des normes et des usages. Cependant, les critères proposés par la Text Encoding Initiative, qu’ils soient fonctionnels (plaire, informer, exprimer, persuader) ou référentiels (“factualité” ou fictionnalité) sont trop généraux, sans fondement linguistique, et ne correspondent ni à des discours ni à des genres. Aussi proposons-nous des critères de typologie intralinguistiques (structures et unités) et extralinguistiques (objectifs et situation des textes) : dans les deux cas, la contextualisation opérée par la sélection du corpus conditionne les résultats d’analyse. Cela permet d’utiliser des méthodes contrastives et d’étudier ainsi les normes sémantiques à l’œuvre dans les textes.

La caractérisation raisonnée des genres reste un préalable à la constitution de corpus pleinement utilisables. Quels que soient les critères choisis, on ne peut tirer grand-chose un corpus hétérogène, car les spécificités des genres s’annulent réciproquement, et les disparates qui demeurent ne peuvent être interprétées pour caractériser les textes.

Or, avec l’essor de la numérisation, on se trouve fréquemment devant des corpus hétérogènes : par exemple, les corpus issus d’une même entreprise de presse (cf. Illouz, Habert et coll., 1999, à propos du journal Le Monde), voire d’autres, qui sont simplement glanés sur la Toile. Aussi faut-il envisager le profilage des corpus (cf. ibid.), ce qui exige la mise au point d’outils permettant de les homogénéiser, ou plus exactement de travailler sur des sous-corpus homogènes, et suppose évidemment une réflexion sur les critères. La création de tels outils donnera des moyens d’avenir à une poétique expérimentale.

Mais elle en dépend aussi. Est-il possible de faire émerger des genres d’un amas ou ramas de textes non documentés, d’un corpus “ nu ” ? On peut craindre qu’il s’agisse d’une illusion empiriste : d’une part, même si l’on étiquette   le corpus — avec des catégories morphosyntaxiques,   les seules ordinairement utilisées dans l’état de l’art—, on se trouve affronté aux disparates internes aux genres, qui peuvent être considérables. Certes, on pourra peut-être, avec des méthodes de classification mathématique faire émerger des regroupements de critères et qualifier des genres ; cette question, d’un grand intérêt scientifique, reste ouverte.

A l’inverse, travailler sur des corpus “ nus ”, en se privant des données philologiques élémentaires,   sans exploiter les indications intertextuelles   de genre et de discours créée peut-être un artéfact irréversible — de même qu’à une autre échelle les listes de phrases décontextualisées restent ininterprétables.

La demande sociale d’une théorie opératoire des genres est croissante, aussi bien pour la linguistique de corpus que pour l’accès aux banques textuelles. Enfin, la typologie des genres textuels paraît indispensable pour les traitements automatiques, car ils ont affaire à des textes, non à des phrases, et leur typologie conditionne leur analyse.

L’étude des corpus en situation montre que le lexique, la morphosyntaxe, la manière dont se posent les problèmes sémantiques de l'ambiguïté et de l'implicite, tout cela varie avec les genres. Les systèmes d’analyse et de génération doivent tenir compte de ces spécificités. Les projets de systèmes universels sont ainsi irréalistes, linguistiquement parlant [ 3] . Soit en parti­culier, car les genres sont déterminés par des pratiques sociales spécifiques, dans lesquelles les applications informatiques prennent place. Elles doivent donc tenir compte des contraintes propres aux pratiques où elles s’insèrent.

Pour parvenir à des traitements automatiques spécifiques et efficaces de gros corpus, il convient de spécifier les fonctionnements propres aux différents genres textuels, pour adapter les stratégies d’interrogation à ces genres. Le paramétrage préalable des genres permet enfin de simplifier les traitements automatiques, par exemple en éliminant les ambiguïtés. Ainsi, exemple élémentaire, dans les compte rendus d’hospitalisation, pense ne correspond qu’à la troisième personne ; il en irait tout autrement dans un corpus de lettres aux collègues.

Dans un corpus homogène, on peut poser la question de la structure du genre. En premier lieu, on peut étudier la structure syntagmatique. Certaines parties des textes peuvent en effet être systématiquement éliminées, pour constituer des sous-corpus pertinents.

Par un mouvement inverse, la linguistique de corpus qui se développe actuellement permet de refonder ou d’affiner la distinction intuitive et empirique en genres. Les variations morphosyntaxiques selon les genres sont notables. Par exemple, les textes littéraires contiennent trois fois moins de passifs que les autres ; la position de l’adjectif, la nature des déterminants, des pronoms et des temps, l’usage du nombre varient aussi notablement. Ou encore, dans le domaine technique même, les variations sont importantes entre un manuel et une brochure commerciale : au premier les acronymes, les impératifs, les ellipses de déterminants ; au second les phrases longues, les pronoms nombreux, etc. (cf. Slocum, 1986). La typologie textuelle peut ainsi apporter du nouveau en morphosyntaxe. Bref, l’étude des normes linguistiques complète utilement celle des règles, et permettra sans doute de préciser leurs conditions d’application.

Pour la caractérisation assistée des textes, on peut envisager trois stratégies : (i) L’indexation contrastive de tous les textes d’un corpus sans préanalyse sémantique, au moyen de logiciels qui permettent de mettre en évidence des pics et dépressions statistiques. (ii) La caractérisation des séquences (paragraphes, par exemple) pertinentes pour une application, et des critères de leur mise en évidence (position [ 4] , indices ). (iii) La création de sous-corpus sémantiquement enrichis pour répondre aux objectifs de la tâche en cours.

Encore faut-il, en linguistique de corpus, adopter une déontologie touchant les textes (le British National Corpus partout cité en exemple ne comprend que des extraits, et pas un seul texte intégral !) et bien entendu les genres. Or les critères typologiques proposés par les recommandations de la Text Encoding Initiative passablement insuffisants. Ils se limitent à des types de “ factualité ”, d’interactions et de fonctions [5] .

Par ailleurs, la TEI prévoit huit types de genres fondamentaux, pour le codage desquels sont ménagées des balises de base : prose, poésie (versifiée) théâtre, transcriptions de l’oral, dictionnaire, terminologie ; à quoi s’ajoutent deux genres mixtes. Il est clair qu’il ne s’agit pas de genres, mais de formes de l’expression (prose, catégorie qui transcende tous les discours ; transcription de l’oral), de champs pratiques du discours littéraire (le théâtre, la poésie). Seul le dictionnaire, et la terminologie (au sens de glossaire ) sont des genres (dans l’acception que nous retenons).

Or, les recherches qu’autorise une banque textuelle seront plus ou moins productives selon qu’elle classe correctement ou non les textes qu’elle recueille ; un exemple permettra d’évaluer l’état de l’art en France et les problèmes à résoudre.

La classification des genres dans la banque Frantext de l’Institut National de la langue française compte 76 catégories dans la version la plus étendue. Sans préjuger de l’issue des travaux de révision en cours, elle appelle diverses observations, dont nous ne mentionnerons que quelques-unes.

(i) Elle utilise un critère transdiscursif en séparant tous les discours et genres en deux catégories (vers vs prose). Ce critère d’expression reste improductif, car les critères de genre sont d’abord sémantique ; et surtout, il divise en rubriques séparées la poésie et le théâtre, voire les traités (la banque en compte un en vers).

(ii) Pour ce qui concerne la division des discours, elle ne distingue pas les sciences et les techniques, alors que ces deux discours n’ont rien de commun, car ils ne relèvent pas des mêmes pratiques. Elle n’établit pas non plus de différence claire entre discours littéraire et non littéraire (les traités et la presse, rangés dans la littérature, dépendent cependant d’autres discours).

(iii) Quant à la division des genres, si par exemple on conserve dans une seule catégorie les romans et les nouvelles, l’utilisateur ne pourra jamais constituer de sous-corpus permettant de les contraster. Une banque textuelle devrait cependant permettre de vérifier les hypothèses sur les différences génériques.

(iv) Enfin, l’identification et la nomenclature gagneraient à une révision. Par exemple, la classification actuelle confond les catégories d’ouvrages et les genres d’œuvres : ainsi un mélange est une indication bibliographique, non un genre [ 6] .

La classification restreinte de Frantext, pour l’accès par internet, ne distingue plus que dix catégories  : correspondance, éloquence, mémoires, pamphlet, récit de voyage, roman, théâtre, poésie, traité, essai. Ces catégories transcendent les frontières entre discours : l’éloquence peut être politique, religieuse ou judiciaire ; les traités et les essais entrent également dans divers discours (philosophique, scientifique) ; la correspondance et les mémoires relèvent soit des écrits intimes, soit du discours littéraire. Enfin, théâtre et poésie sont des champs pratiques du discours littéraire, et comprennent plusieurs genres.

Pour favoriser des recherches différenciées, nous proposons cinq niveaux de description, qui pourraient figurer dans une description de type de document (document type definition ou DTD), bien que jusqu’à présent les DTD ne tiennent pas compte du plan sémantique en tant que tel : (i) Le discours correspond linguistiquement à un domaine sémantique, et extralinguistiquement à un ensemble de pratiques sociales (ex. religion, littérature, politique). (ii) Le champ pratique, sous-ensemble du discours, correspond à un ensemble de pratiques spécialisées (ex. liturgie, morale, poésie). (iii) Le genre proprement dit (ex. oraison funèbre, sonnet). (iv) Les sections : parties et genres inclus (ex. : titre, chapitres). (v) Les configurations, comme l’exemple, l’anecdote, la description.

Le discours et le champ pratique sont à coder au niveau du corpus et de l’en-tête du corpus (<teiCorpus>), et le genre proprement dit au niveau de l’unité de texte et de l'en-tête du texte (<teiHeader>). Pour les niveaux inférieurs, un premier pas pourrait être de distinguer les parties (comme le premier paragraphe) et les fonctions de ces parties (comme l’introduction, articulée dans le premier paragraphe) ; un second, de coder, en fonction des besoins, les unités sémantiques. Cela demande évidemment une préanalyse, car ces unités (par exemple, les molécules sémiques) ne sont pas codables a priori, car elles ne sont pas isolables par les méthodes de segmentation classiques.

3. STRUCTURES ET UNITÉS

Faute de compositionnalité du sens, la problématique logico-grammaticale s’applique mal aux textes : les procédures de segmentation utilisant des balises sont utiles pour traiter de l’expression, mais sans plus. Aussi, la sémantique des textes a dû (re)définir d’autres formes d’unités et de relations qui en sont indépendantes : isotopies, thèmes et topoï, motifs et fonctions dialectiques, etc. (cf. l’auteur, 1989, 1994). Les isotopies sont des fonds sémantiques, les thèmes et topoi des formes (décrites comme des molécules sémiques, petits réseaux sémantiques dont les nœuds sont des sèmes et les liens des cas). Des rapports forme/fond du même ordre peuvent être décrits dans les autres composantes sémantiques dialectique (narrative) ou dialogique (modale), voire tactique (séquentielle).

Nos hypothèses théoriques de base postulent ceci :

(i) Sans égard pour le dualisme, l’unité contenu/expression est établie par les parcours interprétatifs : par exemple, dans un corpus romanesque, E. Bourion a ainsi pu confirmer la corrélation entre des noms de sentiments et les ponctuations dans les contextes ou ces noms apparaissent.

(ii) La diffusion sémantique qui rend compte des phénomènes d’isotopie. Comme tout trait sémantique est actualisé et a fortiori propagé à partir et en fonction du contexte immédiat et lointain, les contextes manifestent des redondances locales multiples.

De là découlent des propositions méthodologiques :

(i) Les cooccurrents d’un mot-pôle sélectionnés par le test statistique de l’écart réduit peuvent être qualifiés sémantiquement et devenir des corrélats sémantiques, c’est-à-dire des sémies voisines comportant au moins un trait sémantique commun. Les unités de rang supérieur, comme un thème ou un acteur sont alors caractérisés par des cliques de corrélats. On peut ainsi passer, non sans conditions, du quantitatif au qualitatif et du lexical au textuel.

(ii) Comme le paragraphe ou du moins la période sont les unités de base de la textualité (l’alinéa inhibe les propagations), l’interrogation par mots doit être abandonnée au profit de l’interrogation texte-texte : ainsi, par exemple, le système DECID de B.Bommier-Pincemin (1999) systématise et applique la technique herméneutique des passages parallèles.

(iii) La recherche documentaire doit être conçue une exploration des textes pour l’aide à l’interprétation, par sélection de sous-corpus à pertinence enrichie, en fonction de la tâche en cours.

4. PARCOURS INTERPRÉTATIFS

Le développement des lectures non-linéaires est en voie de renouveler voire de bouleverser les parcours interprétatifs propres aux usages traditionnels de l’écrit. Au-delà de la problématique logico-grammaticale, les systèmes d’assistance à l’interprétation   doivent pour décrire les formes textuelles s’appuyer sur la problématique rhétorique / herméneutique. En effet :

(i) Les objectifs et contraintes pratiques, différenciés en discours, genres et styles, configurent les formes textuelles.

(ii) Elles sont caractérisées par des inégalités qualitatives (masquées par les théories propositionnelles), codifiées ou non. Parmi ces inégalités, il faut noter les degrés de concentration des formes sémantique selon que leur manifestation est compacte (lexicalisation synthétique, par exemple) ou diffuse (tours périphrastiques, par exemple).

(iii) Un autre régime d’inégalités qualitatives, la pertinence par rapport à la tâche en cours réorganise ces saillances relatives des formes sémantiques.

Les systèmes d’assistance à l’interprétation procèdent par extension (recontextualisation) ou restriction (caractérisation). Leurs fonctionnalités sont globalisantes quand ils permettent des mouvements d’extension ou de restriction du corpus de référence ou du corpus de travail. Fournir une assistance à l’interprétation conduit ainsi à créer des sous-corpus enrichis, et d’autre part à définir des régimes de pertinence variables selon les applications.

Elles sont localisantes quand elle permettent des discrétisations (soit par analogie : recherche des passages parallèles, comme dans l’interrogation texte/texte, soit par contraste). L’identification de formes textuelles, qui relève de la reconnaissance de formes et non du calcul, peut alors se faire par sommation qualitative.

Les parcours interprétatifs élémentaires qui décrivent les opérations d’actualisation (et de virtualisation) sémantiques au palier du mot sont préactivés par des parcours globaux. Le paramétrage de ces rapports entre global et local reste un problème ouvert : il diffère vraisemblablement selon les genres et les discours.

5. STÉRÉOTYPIE ET DOXA

L’accès à de grands corpus permet d’étudier avec des moyens nouveaux la stéréotypie textuelle et les normes de la doxa. L’exemple le plus simple est celui de la canonicité : dans le corpus roman 1830-1970 de la banque Frantext, qui compte environ 350 œuvres, on trouve seulement 5 sortes de fractions de seconde, et 12 nombres de secondes (sur une infinité théoriquement possible). Sur 4488 mentions d’âge — 2650 hommes (59 %) et 1838 (41%) femmes — , certains âges n’apparaissent pas : 41 ans pour les femmes (en revanche 40 ans est un âge canonique), 49 ans pour les hommes (en revanche 50 ans est un âge canonique), 71 ans ou encore 92 ans ; d’autres sont sur-représentés, par exemple 15, 18 et 20 ans pour les deux sexes ;   16 ans pour les personnages féminins (résultats dus à N. Deza). Dans le roman français, on a presque toujours vingt ans...

Par ailleurs, l’étude de la stéréotypie permet de lier les occurrences de lexies à des formes textuelles : par exemple, dans le même corpus, au pied de(singulier) est toujours un localisant dans une description, aux pieds de (pluriel) appartient toujours à un récit d’imploration ou de vénération (résultats dus à E. Bourion). Ces deux syntagmes n’ont aucun contexte commun. Dans un lexique de ce corpus, cette lexie devrait donc figurer sous deux entrées différentes.

On peut considérer que la concrétisation la plus simple d’une doxa (ou système axiologique) est un lexique : la doxa commande en effet la constitution des classes lexicales minimales (taxèmes), et par là la définition différentielle des sémèmes et des sèmes en leur sein. La méthodologie de construction de lexiques ouvre ici un domaine d’application crucial, y compris pour les traitements automatiques du langage.

Enfin, l’étude des normes sémantiques, en tant qu’elles manifestent ou instituent des doxa, peut permettre de revenir par un voie nouvelle au problème du rapport entre idéologies et formations discursives, posé non plus au sein d’une philosophie politique, mais des sciences du langage.

Un excursus final, en guise d’exemple, nous permettra d’illustrer très brièvement cette direction de recherche.

Excursus : Le travail et l’œuvre, le mariage et l’adultère

L’opposition entre le travail et l’œuvre remonte sans doute à l’opposition platonicienne entre prattein et poïen, la praxis et la poiesis. Toutes les théories romantiques de la création opposeront le poète au fabricant ou faiseur. Dans Condition de l’homme moderne, Hannah Arendt porte cette opposition à un plan métaphysique, en opposant le travail (labour) et l’œuvre (work). Cela rappelle fort la polarité romantique, d’abord hégélienne puis marxiste, entre le travail aliéné et la possession ; voire, sans persifler, l’opposition romanesque — bovaryenne —   entre le mariage et l’adultère. Voici, en littérature française, quelques indices qui justifient cette analogie.

Le travail s’oppose à l’adultère. — Dans Pierrot mon ami, Queneau écrit : “ allons au travail, dit Léonie en retirant brusquement sa main de l'étreinte adultère. ” (1942, p. 45).

L’œuvre s’oppose au mariage. — Montherlant, dans Pitié pour les femmes, formule cette hypothèse panique : “ Supposé que ce mariage se fît, il était fatal qu'un jour vînt où il lui faudrait divorcer, à la fois pour sauver son œuvre, et sauver son âme ”(1936, p. 1130). Il y revient dans Le démon du bien  : “ Après quelque temps, il voit, d'évidence, que le mariage nuit à ce qu' il appelle son œuvre ”(1937, p. 1272).

Jean Dutourd renchérit sur un autre ton : “ Il faut dire ce qui est, si irritant que cela soit pour un célibataire et un philosophe du célibat: Boulard, s'il a manqué son œuvre, a réussi son mariage. ”(Pluche ou l’amour de l’art, 1967, p. 141).

Le travail complète le mariage. — Dans la première conversation de la troisième partie de La Prétieuse, l’abbé de Pure remarquait : “ comme le travail sied bien à un nécessiteux et décrie un homme aisé, de même aussi le mariage est honneste à un homme sensuel ” (1658, p. 237).

Cette heureuse convenance se retrouve dans les contes de fées : “ Je ne vous ai pas dit que, dès le premier mois, j'avais obtenu son consentement au mariage de ses six garçons avec six jeunes filles pauvres, mais belles, sages, pieuses et pleines d'amour pour le travail, qui en étaient adorées. ” (Nodier, La fée aux miettes , 1831, p. 171).

On le sait, les romans réalistes sont des formes rassises du conte de fées : “ Sandoz expliqua ses idées sur le mariage, qu'il considérait bourgeoisement comme la condition même du bon travail, de la besogne réglée et solide, pour les producteurs modernes. ” (Zola, L’œuvre , 1886, p. 174).

Le lien entre le mariage et le travail est évidemment l’argent et la propriété : le code civil français, dit code Napoléon, commence son chapitre Des moyens d’acquérir la propriété par une section intitulée Le mariage. On en voit l’incidence dans des exemples comme ceux-ci : “ Son père, ingénieur intelligent, inventif et débrouillard, ouvert aux idées nouvelles, avait fait sa fortune grâce à son travail, ses relations politiques et son mariage. ” (Romain Rolland, Jean-Christophe, 1910, p. 1103) [ 7 ].

L’adultère fait son œuvre. —  Paul Bourget en atteste : “ Ce venin de l'adultère, dont il avait infecté cette créature, accomplirait son œuvre de destruction. ” (Un crime d’amour, 1886, p. 271 ; cf aussi p. 286 ; et Cruelle énigme , 1886, p. 108). Le lien établi entre l’adultère et l’œuvre (ou du moins entre ces mots en français) tient à un stéréotype verbal issu de la traduction autorisée du Décalogue : “ l’œuvre de la chair ne désireras qu’en mariage seulement. ” (cité par exemple par Maupassant, La confession de Théodule Sabot, Contes et nouvelles, 1883, p. 43 ; Roger-Victor Pilhes, La rhubarbe, 1965, p. 225) [ 8] .

Alors que le mariage et le travail sont liés par la loi civile, l’œuvre et l’adultère sont liées par la loi religieuse. Ces deux lois ne sont évidemment sans rapport, mais retenons que la littérature, surtout la mauvaise, reflète la doxa, formée et sous-tendue par ces lois.

Enfin, l’esthétique romantique, du moins sous la forme affadie et vulgarisée qui fait à présent partie du sens commun, ne pouvait qu’opposer l’œuvre au travail, comme l’amour à l’argent, la possession à la propriété, le poète au bourgeois, et l’amant au mari.


NOTES

[ 1] On s’étonne que l’on ait pu pratiquer une linguistique sans corpus, où des exemples forgés et sans contexte tenaient lieu de domaine empirique.

[ 2] Voir notamment la revue TAL , 1995, 36, 1-2 (numéro spécial dirigé par Benoît Habert). Cette évolution n’a rien de linéaire, et Benoît Habert note justement que l’on nomme les corpus arborés tree-banks (comme si un texte pouvait se réduire à une suite de phrases).

[ 3] Ils reposent en effet sur le préjugé que la langue est homogène et identique à elle-même dans tous les textes et dans toutes les situations de communication.

[4] Par exemple, le premier paragraphe d’un résumé d’observation médical a une sémantique ouverte, car il décrit le malade et non le mal.

[ 5] Les voici : (i) factuality type : “fiction, fact, mixed, inapplicable”; (ii) interaction type : “none, partial, complete (e.g. face to face conversation), inapplicable”; (iii) purposes (“purpose type”) : persuade : didactic, advertising, propaganda ; express : self-expression, confessional ; inform : convey information, educate ; entertain : amuse, entertain).

[ 6] À cela s’ajoutent des problèmes propres à toute taxinomie : par exemple, sur 76 catégories, 22 sont improductives, et ne correspondent qu’à une seule œuvre. Ou encore, les catégories mixtes comme Traité ou Essaipourraient être évitées, surtout quand on dispose déjà de Traité et Essai.

[7] Cf. aussi Georges Duhamel, dans sa préface au Notaire du Havre : “ Issu de paysans très pauvres, il acquit, moitié par son travail et moitié grâce à son mariage, un petit bien dont il vécut. ” (1933, p. 14).

[8] On trouve aussi diverses mentions obliques, comme celle de Joséphin Péladan, Le vice suprême, 1884, p. 234) : “ celles qui désirent d'accomplir l’œuvre de chair hors le mariage, bien que l'effet ne s'en suive pas, pèchent mortellement. ”


BIBLIOGRAPHIE

Berkenkotter, C. & Huckin, T. N. (éd.) (1995). Genre Knowledge in Disciplinary Communication. Hillsdale (N. J.) Lawrence Erlbaum.

Bhatia, V. K. (1993). Analysing Genre : Language Use in Professionnal Settings. Londres, Longman.

Biber, D. (1988). Variations across Speech and Writing , Cambridge, CUP.

Biber, D. (1993). Using register-diversified corpora for general language studies. Computational Linguistics, 19(2), 243-258.  

Biber, D. (1995). Dimensions of register variation : a cross-linguistic    comparison. Cambridge: Cambridge University Press.  

Bommier-Pincemin, B. (1999) Diffusion ciblée automatique d’informations : conception et mise en œuvre d’une linguistique textuelle pour la caractérisation des destinataires et des documents, Thèse de l’Université Paris IV, 805 p.

Cavazza, M. (1997). Sémiotique textuelle et contenu linguistique, Intellectica, 23, pp. 53-77.

Church, K. and Hanks, P. (1989). Introduction to the special issue on computational linguistics using large corpora, Computational linguistics, 19, 1, pp. 1-24.

Habert, B., Fabre, C. & Issac, F. (1998). De l'écrit au numérique : constituer, normaliser, exploiter les corpus électroniques. Paris, InterEditions/Masson.  

Habert, B., Nazarenko, A. & Salem, A. (1997). Les linguistiques de corpus. U Linguistique. Paris, Armand Colin/Masson.

Illouz, G., Habert, B. et al. (1999) Maîtriser les déluges de données hétérogènes, in Condamines, A. et al., éds. Corpus et traitement automatique des Langues : pour une réflexion méthodologique ,   Actes de l’atelier thématique TALN, Cargèse, pp. 37-46.

Jacobs, P. (1990) To Parse or not to Parse: Relation-Driven Text Skimming, Proceedings of COLING'90 Conference, Helsinki.

Leech, G., Garside, R. & Bryant, M. (1994) The large-scale grammatical tagging of text : experience with the British National Corpus. In N. Ooostdijk & P. de Haan, Eds., Corpus-based research into language, number 12 in Language and computers : studies in practical   linguistics, pp. 47-64. Amsterdam: Rodopi.

Rastier, F. (1987) Sémantique Interprétative . Paris, Presses Universitaires de France.

Rastier, F. (1989) Sens et Textualité. Paris, Hachette.

Rastier, F. (1991) Sémantique et Recherches Cognitives . Paris, Presses Universitaires de France.

Rastier, F. (1995). L’analyse thématique des données textuelles — L’exemple des sentiments. Paris, Didier.

Rastier, F.(1997a) Problématiques du signe et du texte, Intellectica, 23, pp. 7-53.

Rastier, F. (1997b) Herméneutique matérielle et sémantique des textes, in Salanskis, J.-M. et al. (éds) Herméneutique : textes, sciences. Paris, PUF.

Rastier, F., Cavazza, M. et Abeillé, A. (1994) Sémantique pour l'analyse. Paris, Masson.

Slocum, J. (1986) How one might automatically identify and adapt to a sublanguage, in R. Grihsman et R. Kittredge, éds., Analysing Language in restricted domains, Hillsdale, Erlbaum, pp. 195-210.

Swales, J. M. (1990) Genre Analysis. — English in Academic and Research Settings. Cambridge, Cambridge University Press.

Tanguy L. (1997) Traitement automatique de la langue naturelle et interprétation : contribution à l’élaboration informatique d’un modèle de la sémantique interprétative, thèse de doctorat, Informatique, Université de Rennes I, Brest, ENST.

Thlivitis T. (1998) Sémantique Interprétative Intertextuelle : assistance informatique anthropocentrée à la compréhension de textes, Thèse de Doctorat, Informatique, Université de Rennes I.


Vous pouvez adresser vos commentaires et suggestions à : Lpe2@ext.jussieu.fr

©  juin 2002 pour l'édition électronique.

Référence bibliographique : RASTIER, François. L'accès aux banques textuelles - des genres à la doxa. Texto ! juin 2002 [en ligne]. Disponible sur : <http://www.revue-texto.net/Inedits/Rastier/Rastier_Acces.html>. (Consultée le ...).