LA SEMANTIQUE DES THEMES OU LE VOYAGE SENTIMENTAL

François RASTIER
C.N.R.S.

 

Il aurait fallu juger des paroles par les sentiments
et non pas des sentiments par les paroles.

Bossuet

Le problème de la thématique intéresse toute description sémantique de textes : comment définir et identifier des thèmes, retracer leurs liens privilégiés, dessiner leur évolution diachronique ?

Nous avons sélectionné un corpus de romans, car c'est le genre textuel le mieux représenté dans la banque textuelle Frantext. Il regroupe 350 romans et recueils de nouvelles français publiés de 1830 à 1970. En choisissant le thème des sentiments, nous ne prenons guère de risques, et cependant les résultats de l'enquête engagent à reconsidérer des idées reçues.

Le nombre des oeuvres retenues assure en tout cas au corpus une masse critique qui permet des traitements statistiques significatifs, et surtout se prête à débats et conjectures.

Les bornes chronologiques se justifient ainsi : l'unification des normes typographiques remonte à 1827, et la date de 1830 met à l'abri de variations qui gêneraient l'interrogation. Après 1970, le corpus des romans saisi est insuffisant, en quantité sinon en qualité. Cette étendue temporelle permet de retracer des évolutions significatives.

Ce n'est pas sans malice que nous avons choisi d'étudier les sentiments. La vogue des passions et des sentiments, de la sémiotique à l'éthique, comme l'irruption des émotions dans les recherches cognitives jusqu'ici dominées par un paradigme computationnel ne justifient rien par elles-mêmes.

En outre, les sentiments sont souvent exclus du champ de la thématique à la française : influencée notamment par Bachelard et Merleau-Ponty, elle s'est attachée à décrire plutôt les qualités sensibles que les qualités morales - ou le moral dans la mesure où il est manifesté dans le sensible, conformément au principe de l'esthétique romantique qui fait de l'art la manifestation sensible des idées morales. Il n'était pas désagréable d'explorer la région des sentiments, réputée nébuleuse et intime, sans craindre d'y faire souffler un zéphir de relativisme historique.

Les grands problèmes demeurent évidemment : comment passer du quantitatif au qualitatif, des données aux faits, du lexique au texte, du sémantique à l'herméneutique ? Sans prétendre les résoudre, nous souhaitons les préciser.

Si le besoin d'une analyse sémantique pour le traitement automatique des textes est aujourd'hui bien reconnu, l'usage de méthodes informatiques pour l'étude des textes littéraires reste sujet à caution. Entendons bien que nous considérons l'informatique comme un moyen technique, à utiliser avec sang-froid, mais sans pruderie : ses ressources principales restent la rapidité et la mémoire, et il faut la considérer en premier lieu comme un nouveau moyen d'accès au texte, comme jadis le passage du rouleau au codex avait favorisé l'étude.

Malgré les prétentions formulées au nom de l'Intelligence artificielle, nous ne considérons pas l'informatique comme un organon théorique ; et son usage ne préjuge en rien le bien-fondé d'une science de la littérature. Nous nous cantonnons en-deçà de l'esthétique ; cependant, les résultats de cette recherche peuvent intéresser les études littéraires à plusieurs titres.

D'une part l'étendue du corpus permet de rompre avec l'histoire monumentale : il comprend de grandes oeuvres, mais elles s'y profilent sur un fond constitué d'autres qui le sont moins. En répondant à une requête, un système peut juxtaposer sans vergogne Jean Dutourd et Marcel Proust, alors qu'aucun étudiant de littérature ne l'oserait. Même si l'esthétique romantique nous a accoutumés à considérer les grandes oeuvres comme incomparables, dès lors qu'elles ne sont pas seules, il faut bien les caractériser par contraste avec les autres.

En outre, les grandes oeuvres s'avèrent beaucoup moins prévisibles que les autres, et les méthodes statistiques ordinaires s'y appliquent assez mal. Le mot ennui, par exemple, n'apparaît guère dans Madame Bovary, mais pullule chez des auteurs mineurs. Peut-être sont-ils mineurs parce qu'ils disent lourdement ce que les grands ne font que suggérer ? Il faut d'autant plus leur porter attention. Malgré tous ses inconvénients, le lissage statistique initial permet de suggérer quelles sont les normes à l'oeuvre dans un corpus.

Or la littérature en tant que discours est d'abord faite de ces normes. En discerner l'usage particulier permet de préciser la spécificité historique de l'oeuvre littéraire singulière, non pas bien sûr par rapport à un illusoire langage neutre, mais à l'emploi ordinaire des normes littéraires.

Contribuer à l'histoire consiste non à projeter notre époque dans le passé, mais le passé dans notre époque. Dans l'ordre des textes, c'est faire un pari philologique : restituer les points de vue qui n'existent plus mais qui éclairent le sens alors immanent à la première situation d'interprétation. On voit combien cette immanence est transitoire. L'objectivité d'aujourd'hui consiste à restituer des subjectivités d'hier, ou du moins les contraintes linguistiques qui se sont exercées sur elles.

1. Pour définir le thème

La notion de thème tient une place particulière dans le paysage intellectuel français. La critique thématique issue de Bachelard a été si bien acceptée par les autorités académiques que les programmes des concours l'honorent régulièrement, et les sujets de mémoire ou de thèse qui s'en inspirent se comptent par centaines chaque année. Elle s'est tant diffusée que bien des recueils de textes à l'usage des écoliers, du petit classique au manuel, sont maintenant organisés par thèmes.

Fort utilisée, la notion de thème reste en général intuitive. Du moins, les définitions ordinaires n'ont pas de rapport précis avec les sciences du langage. Par exemple J.-P. Richard, dont les études thématiques se signalent par leur finesse inégalée, définit le thème comme " un principe concret d'organisation, un schème ou objet fixe autour duquel aurait tendance à se constituer un monde " (1961, p. 24). Ce vocabulaire d'inspiration philosophique rend hommage à Merleau-Ponty, et plus généralement à la phénoménologie existentielle.

La notion philosophique de thème nous paraît insuffisante. Soit elle désigne une catégorie transcendantale, ou un schème, voire un archétype au sens jungien, alors que notre objectif est de montrer la formation et l'évolution des thèmes au sein d'une sémantique historique et comparée, partie intégrante d'une sémiotique des cultures - non d'une anthropologie philosophique. Soit elle s'applique à la relation d'un sujet au monde, et veut en faire la cause de son langage, alors même que cette relation est médiatisée par son expression. Dans les deux cas l'autonomie relative du sémiotique se trouve éludée, le monde ou le sujet philosophique gouvernant la problématique du thème.

Définir plus généralement le thème comme un concept ou comme une " relation affective " le maintiendrait à l'écart des sciences du langage. Du moins, les définitions qui ont cours doivent-elles être rapportées à l'analyse linguistique des textes, et réélaborées dans ce cadre.

En linguistique, le thème pourrait se définir par diverses voies, selon qu'on privilégie le signe ou le texte, et dans le signe, le signifiant ou le signifié.
a) La voie lexicographique définit le thème comme un mot-vedette, généralement un substantif, auquel sont rapportés divers parasynomymes ou équivalents partiels. Un dictionnaire de thèmes sera donc un sous-ensemble d'un dictionnaire. Cette voie est liée à une linguistique du signe.
b) La voie sémantique ne confère pas de prééminence à un mot-vedette identifié par son signifiant. Elle met en évidence des réseaux de récurrences sémantiques. Elle relève plutôt de la linguistique du texte que de la linguistique du signe. Explorons donc cette voie.

a) La voie sémantique

Nous nommerons thème une structure stable de traits sémantiques (ou sèmes), récurrente dans un corpus, et susceptible de lexicalisations diverses. Cette définition provisoire va être spécifiée, en caractérisant ces traits, ce corpus, et ces lexicalisations ; puis en posant la question de l'interrelation des thèmes entre eux et des paradigmes thématiques.

(i) La notion de catégorie sémantique est trop vague et l'on convient de distinguer entre sèmes génériques et spécifiques (cf. Pottier, 1974) : les uns indexent les sémèmes dans des classes (taxèmes, domaines et dimensions), les autres les opposent aux membres de leur classe de définition.

La récurrence d'un sème générique induit une isotopie générique. Et parfois, dans son acception générale, le mot thème est employé pour désigner le " sujet " d'un texte, c'est-à-dire son isotopie générique dominante, ordinairement un domaine sémantique. Par exemple, on pourra caractériser (très faiblement) La Princesse de Clèves comme un roman d'amour. Nous avons parlé à ce propos de thème générique , ce qui est quelque peu abusif, car une isotopie n'est pas une structure.

En revanche, un thème spécifique peut se définir comme une molécule sémique, c'est-à-dire un groupement structuré de sèmes spécifiques. Une molécule se représente par un graphe sémantique, dont les noeuds sont étiquetés par des sèmes, et les liens, par des primitives sémantiques (cas et relations structurales). En voici un exemple.

La capacité descriptive de cette représentation peut être mise à l'épreuve sur des exemples, de manière à souligner aussi comment les écrivains s'approprient le thème. Quand Prévert écrit : "  ceux qui crèvent d'ennui le dimanche après-midi parce qu'ils voient venir le lundi " (Paroles, 1946, pp. 19-20), il remotive le dimanche, fréquemment associé à l'ennui, par le sème /imperfectif/. Par la menace du lundi, topos du populisme de l'époque, il fait du travail ce qui gâche même l'inaction.

Ou encore, Barthes note : " L'ennui n'est pas loin de la jouissance : il est la jouissance vue des rives du plaisir " (1973, p. 43), il instancie par la jouissance l'objet du désir dont Ego est séparé (graphe N). La séparation est figurée par l'image du fleuve, qui reprend les traits /imperfectivité/ et /itérativité/. Et classiquement, le plaisir reste associé à l'ennui (E. Martin, op. cit., p. 108, relève dans des contextes antérieurs : l'air d'ennui dans les étreintes ardentes, l'ennui de cet accouplement), et il se trouve dans le graphe N à sa place. Le remaniement lacanien du thème aura consisté à mettre la jouissance là où les poètes fin de siècle plaçaient l'azur.

(ii) Un thème, défini comme molécule sémique, peut recevoir des expressions diverses, par des unités qui vont du morphème au syntagme. Nous les nommerons, pour simplifier, lexicalisations. On peut distinguer des lexicalisations synthétiques qui manifestent au moins deux sèmes, et des lexicalisations analytiques, qui n'en manifestent qu'un. Ainsi, un thème peut être manifesté de manière diffuse, par exemple dans un paragraphe où divers sèmes seront lexicalisés tour à tour. La lexicalisation la plus synthétique ne jouit d'aucune prééminence théorique par rapport aux autres lexicalisations : elle n'est pas le " mot juste " dont toutes les autres expressions ne seraient que d'imparfaits avatars.

Selon les discours et les genres, les normes de lexicalisation des thèmes varient : la poésie lyrique (la seule qui nous reste) cultive les lexicalisations analytiques, alors que dans les discours techniques, les synthétiques sont de rigueur.

Même si leur lexicalisation la plus synthétique relève d'une classe bien identifiée, les thèmes sont indépendants d'une classe sémantique, ou plus exactement peuvent se manifester sur diverses isotopies génériques. Par exemple, si l'on nomme Ennui la molécule sémique qui comprend les traits /privation/ (notamment : /inactivité/), /imperfectif/, /itératif/ (souvent combinés en /monotonie/), ce thème peut se manifester par araignée, par dimanche, ou par monotone. Il ne s'agit pas de métaphores, car un thème spécifique est par principe indépendant de toute isotopie générique ; en d'autres termes, il n'y pas de mot propre, même si le mot ennui reste une dénomination commode. Et alors que ce mot se rencontre seulement quatre fois dans Madame Bovary, les composants du thème apparaissent souvent, notamment à propos de Charles. Par exemple, dans cette phrase célèbre : " La conversation de Charles était [/imperfectif/] plate [/imperfectif/, /monotonie/] comme un trottoir de rue [/monotonie/], et les idées de tout le monde [/itératif/, /monotonie/] y défilaient [/imperfectif/, /itératif/], dans leur costume ordinaire [/itératif/, /monotonie/], sans [/privation/] exciter d'émotion [/euphorie/], de rire [/euphorie/] ou de rêverie [/euphorie/] " (I, VII).

Cela rappelle le principe - souligné par Hjelmslev - qu'il n'y a pas d'isomorphisme entre les plans de l'expression et du contenu, malgré les voeux d'une certaine linguistique du signe.

Les molécules sémiques sont des formes sémantiques simples, alors que les isotopies génériques sont des fonds sémantiques sur lesquels elles se présentent à la perception. Dans certains discours, le rapport entre formes et fond est univoque ; mais dans le discours littéraire, des formes analogues peuvent se présenter sur des fonds différents, qui sont entre eux dans des relations de hiérarchie et de dominance. Quand deux occurrences de la même molécule sont relevées sur deux isotopies différentes, on peut les dire en relation métaphorique. Mais l'orientation de cette relation dépend de la dominance entre isotopies et du parcours interprétatif qui l'établit. En d'autres termes, frisson n'est pas une métaphore de peur ; ces deux mots lexicalisent sur des isotopies génériques différentes le même thème. L'opposition entre les dimensions //physique// et //moral// est alors secondaire pour l'analyse thématique.

Il reste bien sûr à préciser l'incidence des fonds sur les formes, et les remaniements que peut apporter à une molécule sémique l'adjonction d'un trait générique. Mais on voit pourquoi une théorie des classes sémantiques reste utile, mais ne suffit pas à constituer une thématique, car elle ne concerne que les fonds. En prenant pour exemple les sentiments, nous entendons inventorier et décrire les formes sémantiques reliées à un même fond de référence par le déploiement d'une classe sémantique.

Le rapport entre forme et fond souligne la dépendance de la perception sémantique à l'égard du contexte (cf. l'auteur, 1991, ch. VIII). Ce rapport n'est pas statique, et ne doit pas être conçu à l'image d'une figure géométrique sur un plan ; la comparaison avec la composition musicale ne serait pas mauvaise. Les formes elles-mêmes ont en effet des modes de diffusion divers, et peuvent passer à l'arrière-plan en constituant des faisceaux d'isotopies spécifiques. Ainsi un thème peut être latent ou saillant, selon que des constituants sont épars ou regroupés.

b) Le palier de l'analyse thématique

La notion d'unité textuelle est quelque peu ambiguë. Une analyse de texte peut en rester au palier du mot, comme le fait par exemple la statistique lexicale. Rappelons donc qu'un texte peut être analysé à trois paliers principaux : micro-, méso-, et macrosémantique, qui correspondent au sémème, au contenu de la période, et à la structure textuelle.

Ces trois paliers correspondent d'une part à des degrés de systématicité dominants : système fonctionnel de la langue, normes socialisées, normes idiolectales. D'autre part, à des zones de localité qui intéressent la propagation des traits sémantiques : elle est maximale au sein du syntagme ; bonne entre les syntagmes d'une même période ; entre périodes, cette propagation demande une prise en charge par des structures macrosémantiques.

Chaque trait sémantique a un potentiel d'activation, qui se diffuse localement, en fonction des inhibitions et facilitations régulées par les structures morphosyntaxiques. Selon la nature des traits, et le mode de propagation de l'activation, on peut distinguer trois cas remarquables.

L'actualisation d'un trait favorise sa réitération. En ce cas, et selon le statut de ce trait, cela constitue une isotopie générique ou spécifique. La production des antonymes, massivement attestée par les associationnistes du siècle dernier, est un exemple d'activation au sein d'un même taxème, par la constitution d'une isotopie générique minimale.

L'actualisation d'un trait favorise aussi la réitération des traits voisins dans la même molécule sémique : c'est pourquoi des lexicalisations partielles d'un même thème sont fréquemment cooccurrentes dans la même période, voire dans le même syntagme. Ce phénomène pourrait être appelé paratopie. Il est à l'oeuvre dans ce que l'on nomme les anaphores associatives. Ces diffusions d'activation sont le corrélat sémantique des phénomènes que la Gestalt nommait lois de bonne continuité, et que la psychologie cognitive étudie sous le nom général d'amorçage (priming). Elles justifient sémantiquement l'étude statistique des cooccurrences lexicales pour l'analyse thématique.

Le thème, par ses récurrences, intéresse la macrosémantique. Mais en tant qu'unité, il relève de la mésosémantique. D'après nos relevés, ses lexicalisations diverses apparaissent généralement dans un espace inférieur à trois cents mots. Un espace de cinquante mots environ suffit pour identifier quatre occurrences d'un thème sur cinq.

Présenter la thématique relativement aux différents domaines de l'analyse textuelle excéderait l'objectif de cette contribution. Notons simplement les relations du thème par rapport aux autres composantes textuelles (cf. l'auteur, 1989, I). Relativement à la tactique, le thème a des positions identifiables - dans ses manifestations denses - on peut relever des rythmes thématiques. Relativement à la dialectique, les occurrences groupées des corrélats d'un thème ont une même position dans un intervalle dialectique ; et relativement à la dialogique, elles sont situées dans un même monde et dans un même univers. Cela spécifie les thèmes par rapport aux unités des autres composantes sémantiques, qui mettent en jeu des différences dialectiques, dialogiques, ou tactiques. Par exemple, un thème récurrent dans plusieurs intervalles dialectiques et intégré à des structures dialectiques se définit alors comme un acteur.

c) Les structures thématiques et topiques

Aux conditions statistiques de définition du thème s'ajoutent des conditions structurales.

Le problème de l'organisation paradigmatique des thèmes se pose d'une façon différente de celle des paradigmes lexicaux proprement dits, car ils relèvent d'un palier de complexité supérieur. Les classes de thèmes ne relèvent donc pas de la lexicologie, encore moins de la lexicographie, mais de la thématique ; ou de la topique, si l'on convient de nommer ainsi l'étude des formes sémantiques stéréotypées au palier mésosémantique. Pour tracer la limite entre thème et topos, admettons qu'un thème est récurrent au moins une fois dans le même texte ; un topos au moins une fois chez deux auteurs différents.

S'il existe des paradigmes thématiques, la méthodologie de leur (re)constitution diffère sans doute de celle des paradigmes lexicaux, car ils n'ont pas le même statut. Par rapport aux thèmes, les sémèmes sont des unités primaires, et qui sont réputées appartenir au système de la langue, alors que les thèmes relèvent de normes socialisées.

La relation structurale la plus simple est l'antonymie. Et les études de cooccurrence lexicale, quand elles sont menées avec soin, montrent qu'un nom de sentiment est fréquemment associé à son antonyme. Mais si l'antonymie est fréquente au palier lexical, il n'est pas certain qu'elle soit généralisée au palier thématique. Parmi les lexicalisations de thèmes, certaines peuvent se trouver en relation d'antonymie, d'autres non.

Quand elle est attestée, elle se manifeste par des séries d'oppositions sémiques (alors que les sémèmes antonymes ne diffèrent ordinairement que par un sème). Par exemple, le topos complexe de la fleur au bord de l'abîme, fort récurrent à l'époque romantique, comprend deux thèmes, Fleur et Abîme, qui peuvent être lexicalisés par rose, plante, gouffre, précipice, vertige, profondeur, etc. Ils s'opposent par les catégories sémiques /saillant/ vs /creux/, /fragile/ vs /puissant/, /attirant/ vs /repoussant/, /vivant/ vs /mortel/, /coloré/ vs /sombre/ (cf. l'auteur, 1989, p. 63). Mais on ne saurait généraliser cet exemple, car l'antonymie lexicale entre sémèmes ne se traduit pas au palier supérieur par une antonymie entre les molécules sémiques qui constituent les thèmes.

Retenons que thèmes et topoï sont susceptibles de divers types de groupements. Une seule molécule sémique comme celle de l'Épée peut devenir partie d'un groupement qui met en relation deux molécules (ex. la Plume et l'Epée ; les Armes et les Amours ; la Maman et la Putain). Les groupements ternaires sont légion dans la tradition indo-européenne, en liaison de ce que Dumézil a appelé l'idéologie trifonctionnelle ; les groupement quinaires abondent en Chine (comme l'a souligné notamment Gernet) ; les septénaires dans l'antiquité moyen-orientale (sans doute sous l'influence du culte astral babylonien). Bref, ces groupements sont l'homologue des taxèmes au palier lexical, mais leurs structures reflètent des normes d'un autre ordre. Par ailleurs, les couples antithétiques, comme les Armes et les Amours opposent et relient des domaines et dimensions topiques.

On ne peut cependant transposer directement ce que l'on sait des structures lexicales aux structures thématiques. C'est précisément un des buts de la thématique de repérer les regroupements de thèmes, de faire la part entre topoï et thèmes personnels ; enfin, montrer les traitements personnels des topoï, ou plus précisément souligner comment les topoï sont spécifiés, voire remaniés par leur contexte.

d) L'étude des motifs

Après le topos, un mot du motif, car thème et motif sont fréquemment associés, dans une tradition qui remonte à la folkloristique du siècle dernier. Cette notion libérale appelle des clarifications : malgré les propositions théoriques des formalistes russes, les listes de motifs ne sont pas distingués des inventaires de thèmes, et selon les bibliographies, on y trouve aussi bien le Juif errant, le féminisme dans l'Enéide, le mesmérisme et le tabac. Trousson a naguère proposé une distinction : un motif est " une toile de fond, un concept large, désignant soit une certaine attitude - par exemple la révolte - soit une situation de base, impersonnelle, dont les acteurs n'ont pas encore été individualisés ", alors qu'un thème serait " l'expression particulière d'un motif, son individualisation […] On dira que le motif de la séduction s'incarne, s'individualise et se concrétise dans le personnage de Dom Juan "  (1981, pp. 21-22). Il reste une confusion des relations type/instance et fonction/acteur qui se conjoignent dans le rapport séduction/Dom Juan  ; en outre, ces relations ne sont pas distinguées des relations fond/forme (le motif est comparé à une toile de fond, comme chez Sauer).

Les motifs peuvent être (re)définis comme des structures textuelles complexes de rang supérieur (macrosémantique) qui comportent des éléments thématiques, mais aussi dialectiques (par changement d'intervalle temporel), et dialogiques (par changement de modalité). Par exemple, le motif du mort reconnaissant, relevé par le Motif-Index of Folk-Literature de Thompson, est une structure thématique et dialectique complexe, qui met en jeu des fonctions décès, bienfait, et gratitude, ainsi que des acteurs humains. En somme, le motif est un syntagme narratif stéréotypé, et partiellement instancié par des topoï, alors que le thème est une unité du palier inférieur, non nécessairement stéréotypée, et qui se trouve dans toutes les sortes de textes. Bref, le thème est au syntagme narratif ce que le topos est au motif. Soit, en bref :

 

Unités thématiques

Unités dialectiques

D'un discours ou d'un genre

Topos

Motif

D'un texte

Thème

Fonction, syntagme narratif

Ces formes sont susceptibles de degrés de typicité, selon que l'on considère - dans une représentation par graphes - seulement les étiquettes des liens, certaines étiquettes des noeuds, ou toutes les étiquettes des noeuds.

N.B. : Le type, tel qu'il est défini par Panofsky en iconologie (1967, p. 17), correspond explicitement au topos en histoire de la littérature chez Curtius. Proposons une précision, d'après l'exemple de Panofsky : le topos de la femme à l'épée devient un type dès lors par exemple qu'on l'identifie comme Judith. En ce cas un type est une sorte de topos, dont la molécule sémique contient un nom propre.

Topoï et motifs sont deux sortes de formes sémantiques. Comme tels, ils ont une histoire, et sont tributaires de corpus. Leur étude relève de la sémantique historique et comparée, partie intégrante de la sémiotique des cultures. En étudiant les sentiments nous avons voulu contribuer à cette entreprise. Cela impose une déontologie philologique dans la délimitation et l'exploitation des corpus ; cela suscite parallèlement des questions herméneutiques.

e) Le problème de la pertinence et l'assise herméneutique de la thématique

Comme toutes les unités sémantiques, un thème est un construit, non un donné : en cela, la thématique dépend de conditions herméneutiques.

Les dictionnaires et index thématiques reflètent l'état moyen des conceptions contemporaines du thème. Si par exemple, comme l'a relevé F. Surdel, le thème de la pitié en est absent, c'est que les sentiments, a fortiori les sentiments charitables, sont de fait exclus du champ de la thématique à la française - qui influencée notamment par Bachelard et Merleau-Ponty, s'est attachée à décrire plutôt les qualités sensibles que les qualités morales. A notre connaissance, aucun dictionnaire de thèmes n'est encore construit à partir d'un corpus, aucun ne part de considérations linguistiques. La plupart se bornent à compiler des listes sans principe de définition commun, et dont des classements de bon sens cachent le caractère hétéroclite. L'intuition, indispensable, doit être soumise à un contrôle méthodologique. De prétendus thèmes comme l'agressivité sont des catégories descriptives générales qui peuvent correspondre à des hypothèses anthropologiques, non à des thèmes dans un corpus littéraire classique. Le caractère anachronique des catégories descriptives doit être problématisé : si l'agressivité est vieille comme Caïn, le concept d'agressivité est éminemment moderne. Rendre justice aux textes du passé, pouvoir leur donner sens, c'est aussi apprécier ce qui nous en sépare.

En outre, l'interprétation des données textuelles se place dans un cercle méthodologique - dépendant du cercle herméneutique. L'analyse lexicale, dont la statistique est un auxiliaire, ne propose pas d'elle-même des indices à l'analyse thématique. Toute sélection de corpus, tout prélèvement dans un corpus, tout recueil de données est tributaire de choix qu'il importe de rendre explicites. En d'autres termes, pour atteindre ses objectifs, la thématique doit guider l'analyse lexicale, puis interpréter ses résultats qui sans cela resteraient inutilisables pour une sémantique textuelle. Les logiciels d'interrogation imposent certaines démarches, mais ne proposent rien. Ils servent à confirmer ou infirmer des hypothèses, qui dépendent de la stratégie d'interprétation.

Remarque : Plus généralement, la notion de donnée invite à la prudence. En premier lieu, les informations non interprétables - comme les fréquences absolues - ne méritent pas d'être considérées comme des données. D'autre part, les données textuelles n'ont rien de sémantique, ce sont des chaînes de caractères localisées par quelques précisions philologiques minimales : l'auteur, l'oeuvre, la date de l'oeuvre et la place dans l'oeuvre. Les chaînes de caractères ont le même type d'objectivité que les suites de chiffres. Elles sont également dépourvues de sens : on peut les identifier, non les interpréter.

En somme, une donnée est " donnée " non à l'observateur, mais par l'observateur, du seul fait qu'une hypothèse a présidé à son recueil. D'une part, toute acception est liée à un genre et à un discours. Il importe donc, pour la rendre interprétable, de restituer cet entour. De la même façon qu'en archéologie, mêler des vestiges d'un même champ de fouilles conduit à l'échec, mêler des textes hétérogènes par le type de discours, le genre et l'époque, interdirait de restituer les normes sémantiques - qui sont notamment l'objet de la thématique.

Le choix d'un corpus répond à une attente globale. En outre, tout sous-ensemble du corpus convoqué par une requête répond à une attente plus précise. L'art de l'interprétation - j'adapte ici l'expression de Schleiermacher - consiste alors à croiser les requêtes pour objectiver les attentes.

2. De l'analyse lexicale à l'analyse thématique

2.1. Difficultés de principe

Détaillons les difficultés théoriques rencontrées pour passer de l'analyse lexicale à l'analyse thématique. À la différence des lexèmes, les thèmes ne sont pas des signes, ni, corrélativement, des unités du français : ils dépendent en effet d'autres normes que la langue. Si le lexème et le thème diffèrent aussi bien par le niveau que par le palier d'analyse, le premier étant un signe, et relevant de la morphologie et de la microsémantique, le second une unité du contenu au palier mésosémantique, il est clair que tout lexème n'est pas un thème.

Une analyse thématique qui en resterait au palier lexical compterait potentiellement autant de thèmes que de mots de la langue. Sauf bien sûr à restreindre cet inventaire, comme le font les dictionnaires de thématique, de façon normative et non critique. On objectera que les thèmes sont ordinairement dénommés par un lexème. Mais ce lexème est simplement une lexicalisation privilégiée du thème. Et l'on pourrait fort bien rencontrer des thèmes sans lexicalisation privilégiée (comme celui que nous avons décrit chez Zola, 1989).

Comment savoir si un lexème donne ou non accès à un thème ? Nous retrouvons ici le problème de la pertinence. Pour l'éclaircir, posons-le à propos d'un mot, nombril chez Flaubert. Après enquête, nous pouvons faire état de quelques modestes découvertes.

Résumons. Un lexème peut ne lexicaliser aucun thème ; par exemple le mot thème ne correspond à aucun thème dans le corpus romanesque que nous avons étudié Mais il peut aussi en lexicaliser plusieurs. Enfin, son lien avec le palier thématique est relatif à un discours (littéraire, médical, etc.), un genre, et un corpus.

Par suite, le rapport au corpus n'est pas le même pour l'analyse lexicale et l'analyse thématique. Le corpus doit être maximal pour une étude lexicographique qui entend mettre en évidence toutes les possibilités de la langue. Dans l'analyse thématique, il doit être restreint à bon escient pour pouvoir caractériser la spécificité des discours et des genres : les thèmes du roman ne sont pas ceux de l'essai ni du poème. Ainsi, en dépouillant un corpus trop étendu qui mêlait des romans et des essais dans la période 1830-1870, nous nous sommes aperçu que les sentiments du roman n'étaient pas ceux de l'essai. Par exemple, le sentiment de fraternité, récurrent dans les ouvrages de Leroux, et celui d'équité chez Proudhon, n'ont pas été relevé dans les romans, à l'exception confirmatrice des Misérables, qui alterne des chapitres romanesques et d'autres qui relèvent du genre de l'essai.

À supposer même que le même mot se rencontre dans des genres différents, rien n'assure qu'il se rapporte aux mêmes thèmes : amour se rencontrera certes en poésie et dans le roman, mais le thème de l'Amour diffère pourtant avec ces genres. Il n'a pas la même molécule sémique, ni les mêmes lexicalisations, ni les mêmes antonymes - et l'on remarque que l'Ambition n'est pas un thème en poésie, alors que dans le roman elle est fréquemment couplée avec l'Amour.

Tout cela éloigne la thématique de la lexicologie, et a fortiori de la lexicographie. En particulier, les méthodes lexicographiques visant à l'élargissement du corpus sont impropres pour l'analyse thématique. Les éléments encyclopédiques qui se mêlent souvent aux définitions seraient alors oiseux. La structure de l'article de dictionnaire ne conviendrait pas à un répertoire thématique : la distinction des acceptions et leur hiérarchisation reflète une ontologie ; en outre, les dictionnaires, par leur fonction même, ont un rôle normatif, alors que la thématique ne peut être que descriptive.

Pour progresser, la thématique doit donc dépasser l'analyse lexicale. Elle en est cependant tributaire, notamment pour des raisons de fait qui tiennent à l'état de l'art. D'une part, seule l'interrogation de banques informatisées permet de vérifier certaines hypothèses, et de recueillir des faits là où personne n'aurait l'idée d'en chercher. D'autre part, les logiciels d'interrogation acceptent pour unité la chaîne de caractères, simple signifiant, et ne constatent que des cooccurrences de signifiants qui peuvent être soumises à traitement statistique. L'enjeu consiste à passer de ce zero meaning à l'analyse thématique, à pallier l'absence de " données sémantiques " en tirant profit de la théorie sémantique.

Cette situation est sans doute temporaire, et l'évolution des architectures connexionnistes laisse prévoir des logiciels qui permettront de faire émerger, par apprentissage et discrétisation sur de grands corpus, des faisceaux de cooccurrences spécifiques. Cela permettra de guider la formulation des hypothèses, mais sans modifier pour autant les conditions herméneutiques que nous avons soulignées.

Si l'on veut préciser encore le rapport de l'analyse lexicale à l'analyse thématique, il faut préciser que le mot à partir duquel commence la recherche n'en est pas l'objet, à la différence d'un mot-vedette qui ferait l'objet d'une recherche lexicographique. On va certes chercher, en utilisant les moyens d'assistance informatisés, d'autres mots et expressions qui sont cooccurrents. Une fois interprétés, les cooccurrents pour lesquels on aura identifié une relation sémantique seront considérés comme des corrélats, c'est-à-dire comme des lexicalisations complémentaires de la même molécule sémique.

Le réseau des corrélats relie les manifestations lexicales du thème. Mais il faut pouvoir discerner le(s) meilleur(s) point d'entrée(s) dans ce réseau. La " vedette " n'est alors qu'un mot d'entrée, choisi pour sa fréquence, et dans l'hypothèse qu'il présente une lexicalisation synthétique du thème que l'on cherche à décrire.

2.2 Qu'est-ce qu'un sentiment ?

En analysant le champ lexical des sentiments, nous ne postulons pas que ce champ soit uniforme, ni qu'il constitue une unité de langue. Il contient sans doute plusieurs taxèmes. Il ne constitue pas un domaine délimité par l'incidence d'une pratique sociale. Il s'agit donc d'un regroupement ad hoc, convoqué par la pratique descriptive en cours.

En dénombrant les noms de sentiments, nous ne prétendons pas compter autant de thèmes. Certains peuvent lexicaliser le même thème (pitié, compassion), d'autres des thèmes différents : par exemple, le mot sentiment signifie par défaut ëamour' (cf. Le Rouge et le Noir, p. 406 ; Eugénie Grandet, p. 57) et prend pour antonymes : mariage (Nucingen, p. 627) ; malheur (Le Rouge et le Noir, p. 407) ; intérêt (La Duchesse de Langeais, p. 249).

Pour mettre en évidence les difficultés, retraçons rapidement les étapes d'une recherche lexicale préparatoire à certaines contributions de ce volume. Il s'agissait de faire manuellement - c'est-à-dire intellectuellement - un inventaire des sentiments dans un sous-corpus constitué de 138 romans, soit un par an dans l'intervalle chronologique choisi (à l'exception de deux années où la banque ne comptait aucun roman). Nous avons pour cela sélectionné les contextes de sentiment et de sentiment de ou d', dans l'étendue d'une phrase.

La liste ainsi obtenue, détaillée ci-dessous, a été ensuite croisée sur elle-même : en appelant tous les passages qui contenaient au moins deux membres de cette liste, nous avons pu sélectionner un sous-corpus à haute teneur sentimentale et éviter pour l'essentiel les ambiguïtés qui peuvent s'attacher aux occurrences isolées.

a) Réserves d'inventaire

Au cours de cette enrichissante lecture, nous avons rencontré deux problèmes classiques. Celui de la polysémie : sentiment, qui désignait d'abord la faculté de sentir, qu'il s'agisse de la sensibilité physique ou de la conscience, est venu à désigner aussi, au cours du XVIIIe siècle, les affections et passions de l'âme. Cette évolution a sans doute accompagné la conquête de l'intériorité. Mais dans notre corpus, la première acception perdure, et l'on relève par exemple le sentiment de son costume. Elle se rencontre jusqu'au premier tiers de ce siècle, notamment chez des auteurs conservateurs en politique (Barrès) et qui se plaisent à quelques archaïsmes, innocents moyens de retrouver le bon vieux temps.

Certains sentiments n'ont pas de lexicalisation synthétique, et sont manifestés par des lexies complexes. Dans le meilleur des cas, elles sont récurrentes, mais parfois plusieurs sont employées de façon apparemment équivalente. On pourrait alors parler de sentiments sans nom, comme le sentiment du beau, que Balzac nomme sentiment inexprimable (Le Colonel Chabert, p. 48) ; ou le sentiment maternel, dit aussi de la maternité (le plus saint de tous, Dumas, Monte Cristo, II, 254 ; tendresse des tripes, Groult, p. 883), d'être mère ; de mère (Rops, p. 597).

Il s'agit, plus techniquement, de thèmes sans lexicalisation privilégiée. Ces sentiments sans nom mériteraient à eux seuls une étude particulière. Ils engagent à souligner encore les limites d'une approche purement lexicale. D'autant plus que les méthodes d'interrogation et les calculs statistiques diffèrent selon qu'il s'agit de lexicalisations synthétiques, de syntagmes intégrés, ou de syntagmes non intégrés. Or il faudrait, pour l'analyse sémantique, intégrer les résultats de ces traitements divers dans un protocole commun.

Faut-il considérer comme équivalents les parasynonymes comme espoir, espérance ? Pour les homologuer, il convient de chercher s'ils se trouvent en relation de collocation. Si ce n'est pas le cas, ils sont sémantiquement assez proches pour être substituables en contexte. Cela n'entraîne cependant pas qu'ils aient les mêmes corrélats ; espérance, par exemple, convient mieux à des contextes religieux. En somme, les parasynonymes ont des distributions complémentaires. Cela explique que leurs collocations soient rares ou nulles.

b) Anatomie des corps étrangers

Les relevés font apparaître des contenus qui ne sont pas ordinairement classés comme des sentiments. Par exemple, ëdignité' avait été chassé d'une première liste par un " sentiment linguistique " majoritaire dans un groupe de travail. Cependant, on trouve " un sentiment de dignité personnelle et d'orgueil " (Maupassant, p. 177). On peut conclure que localement ëdignité personnelle' entre dans la classe des sentiments.

Mais comment interpréter des coordinations comme " de fureur et de vengeance " (France, p. 333), " d'autre sentiment que l'orgueil et la force " (Tharaud, p. 324), " de malaise et d'aversion " (Aymé, p. 478), " de colère et de revendication " (Rops, p. 537), " de sérénité, de puissance, de liberté " (Martin du Gard, p. 691), " de regret, de mortification " (id., p. 693). Il est vraisemblable que coexistent ici des deux acceptions de sentiment que nous relevions plus haut, par une sorte d'antanaclase diachronique qui apparaît notamment dans : " sentiment de joie inconnue et d'élection merveilleuse " (Gracq, p. 812), ou " sentiment de permanent dégoût, de permanente impuissance et de permanente décomposition " (Simon, p. 929). Dans ces cas là, plutôt que de considérer le sentiment inattendu comme le corrélat d'un autre, mieux vaut admettre que l'inventaire des sentiments n'est aucunement arrêté, et que les variations contextuelles reflètent des normes individuelles propres à des auteurs particuliers.

Ici encore, il faut tenir compte du fait que le syntagme est la zone de localité qui facilite le plus la propagation des traits sémantiques. La parataxe notamment instaure des relations d'équivalence (cf. " l'amour, la tendresse, la fidélité " (Abellio, p. 746), de même que la comparaison (cf. " sentiment d'étonnement comparable à l'angoisse " (Duhamel, p. 704), la gradation (ex. : " sentiment de responsabilité, voire de culpabilité ", Martin du Gard, p. 674 ; " sentiment d'admiration, presque d'envie ", Green, p. 786).

On ne saurait oublier non plus que le mélange des sentiments fait partie de la psychologie romanesque, et l'on trouve des énumérations comme : " amitié, sentiment, tentation, oubli, silence, érotisme " (Sabatier, p. 915), qui semblent, plutôt que des coq-à-l'âne poétiques, des romans miniature.

c) Classement proposé

Les sentiments ont été classés selon deux critères. D'une part, leur structure actantielle : ego passif, réflexif, actif sur un ou plusieurs congénères ou objets ; d'autre part, le taxème où ils sont indexés. Le premier critère domine le premier : les rubriques finales comprennent des sentiments relationnels. La présentation ci-dessous est grossière, car il y manque une classification croisée :

On compte 98 désignations de sentiments, avant réduction des parasynonymes, pour les rubriques I et II ; et 34 pour les rubriques III et IV. Soit 128 en tout. Ce chiffre dépend sans doute pour une part du corpus traité, mais nous avons relevé un effet de saturation : au fil de la lecture, les sentiments nouveaux deviennent de plus en plus rares.

La distinction déterminante est certainement celle de l'évaluation positive ou négative. Ces dimensions sémantiques divisent le champ des sentiments, ce que confirme par d'autres moyens l'analyse factorielle conduite par Brunet (cf. la fig. 5 de son étude, p. 35, dont la partie gauche, dysphorique, s'oppose à la partie droite). On vérifie subsidiairement la distinction entre les sentiments ontiques (dans le bas du tableau) et les sentiments relationnels (dans le haut). Plus généralement, il est remarquable que les résultats de notre analyse sémantique et ceux de son analyse statistique concordent globalement, bien que ces études aient été conduites séparément. Cela confirme que les proximités statistiques sont bien fondées sur des proximités sémantiques.

2.3. Cooccurrence et corrélation

Le passage de l'analyse lexicale à l'analyse thématique conduit de signes non interprétés à des unités sémantiques qui résultent d'un parcours interprétatif. Il se concrétise par le passage des cooccurrents aux corrélats.

a) La cooccurrence intéresse les signifiants

Les cooccurrents ne sont que des signifiants - certains disent aussi formes, ou chaînes de caractères - associées statistiquement par la méthode de l'écart réduit ou de l'écart hypergéométrique. Il convient de distinguer plusieurs zones de cooccurrence : immédiate, proche, et large.

Contrairement à l'intuition, les cooccurrents immédiats ne sont pas toujours d'un grand intérêt pour l'étude thématique. Si l'on interroge la banque textuelle à partir de mots isolés, le bruit le plus sensible est dû aux constituants des expressions phraséologiques reviennent avec insistance. On peut distinguer ici entre les expressions complètement intégrées comme avoir à coeur, ou savoir par coeur, qui fausseront par exemple les résultats d'une interrogation sur les parties du corps ; et les phénomènes de cooccurrence restreinte, propres à des syntagmes moins intégrés (comme éprouver un sentiment), et que Mel'cuk a étudié sous le nom de fonctions lexicales. Par exemple, dans son analyse de joie (1981, p. 25) et de désespoir (p. 22), il relève la fonction Oper 1, qui prend la même valeur éprouver. Il est clair que ce cooccurrent ne permet pas de différencier la joie du désespoir. En règle générale, on relève dans les syntagmes en voie de figement une désémantisation des constituants, dont les lexies se confondent en une seule. Aussi la cooccurrence de ces constituants n'a-t-elle qu'une pertinence faible ou nulle.

C'est dans le contexte indépendant des figements phraséologiques que l'on trouve les cooccurrents les plus pertinents. Par extrapolation, peut-on faire l'hypothèse que le contexte proche soit plus sensible aux normes sociolectales que le contexte large, de l'ordre du paragraphe ? La question est délicate, car l'on trouve des usages individuels des topoï aussi bien au palier du syntagme qu'au palier du paragraphe.

Retenons cependant que le paragraphe est l'homologue (non l'analogue) sur le plan de l'expression de la période sur le plan du contenu. C'est ainsi dans l'espace du paragraphe que l'on trouve l'essentiel des cooccurrents correspondant au thème recherché.

Selon l'étendue du corpus et les objectifs de la description, on peut faire varier les seuils de pertinence quantitative retenus. Les listes de cooccurrents ainsi établies contiennent de bons candidats à la qualification sémantique.

b) La corrélation intéresse les signifiés

Les unités de cooccurrence sont des chaînes de caractères, et ne correspondent pas terme à terme aux unités de corrélation qui sont des lexies. Ces dernières connaissent deux zones de localité qui favorisent de façon décroissante la propagation des traits sémantiques : le syntagme et la période (cf. l'auteur, 1994, ch. V).

La qualification des cooccurrents est cruciale, car elle permet le passage du quantitatif (les cooccurrents) au qualitatif (les corrélats). Elle se règle sur les principes herméneutiques que le global détermine le local, et que l'hypothèse gouverne l'objectivation. Ainsi, les cooccurrents ne sont élevés à la dignité de corrélats que s'il est possible d'établir une relation d'isotopie ou de paratopie avec d'autres cooccurrents. Par exemple, parmi les cooccurrents d'ennui, dimanche et araignée se sélectionnent mutuellement, dans le contexte d'inaction. Ils lexicalisent un des composants du thème recherché, et c'est à ce titre qu'ils sont qualifiés. Comme les corrélats sont des signifiés, les classes morphologiques qui les manifestent n'ont pas d'importance à ce niveau d'analyse, et l'on sait que le même sème peut être lexicalisé par un préfixe, un nom, un adjectif, un verbe, etc.

L'hypothèse qui fonde la transformation de la cooccurrence en corrélation est celle-ci : le contexte proche est structuré par des isotopies qui marquent l'appartenance à un même fond sémantique, ou des paratopies - qui marquent l'appartenance à la même forme sémantique.

Tout corrélat peut être relié par une relation casuelle avec un autre corrélat, ou partage au moins un sème avec au moins un autre corrélat. Ainsi, un corrélat X peut partager le sème a avec le corrélat Y, et le sème b, avec le corrélat Z, etc. ; cependant Z partage le sème c avec X ou W, etc. Le réseau des relations casuelles ou d'équivalence partielle ainsi dessiné constitue le thème. Si ces relations ne peuvent être établies, l'hypothèse initiale doit être révisée, car l'on n'a pas choisi un bon point d'entrée, et l'on a conduit l'interrogation à partir d'un sémème faiblement corrélé au thème recherché ; soit encore on n'a pas affaire à un thème - ou du moins à un thème stabilisé dans le corpus choisi.

La recherche des coocurrents et la promotion de certains au rang de corrélat reprend, à un palier inférieur, mais à une échelle quantitative nouvelle, l'antique technique herméneutique des passages parallèles, déjà théorisée avant notre ère par Hillel l'ancien.

Bref, résumons les principales étapes d'une recherche thématique assistée :
1. Choix des hypothèses, en fonction de l'objectif général de la recherche. Une préanalyse statistique peut guider la recherche d'hypothèse, mais la fréquentation préalable du corpus reste indispensable pour guider les intuitions.
2. Recherche de cooccurrents par la méthode statistique des écarts réduit ou hypergéométrique.
3. Transformation interprétative des cooccurrents en corrélats, et constitution des réseaux thématiques. Cette étape est facilitée si l'on a pratiqué une interrogation simultanée sur plusieurs cooccurrents .
4. Validation des résultats : par croisement de l'analyse thématique avec l'analyse d'autres composantes du même corpus ; par test sur un corpus de contrôle ; par confrontation avec d'autres recherches thématiques.

3. Problèmes épistémologiques: de la philologie à l'herméneutique

Tout protocole méthodologique se règle sur des principes épistémologiques, explicites ou non. Aussi, plutôt que de détailler ces protocoles eux-mêmes, qui dépendent de l'état de l'art, et doivent se régler sur le type de corpus choisi, comme sur le type d'hypothèse à valider, il nous paraît plus utile de préciser leurs principes déontologiques.

La philologie et l'herméneutique sont les deux disciplines concernées au premier chef. Une sémantique du texte doit les concilier, car elle ne peut se satisfaire de la séparation entre la lettre et l'esprit, quand bien même la philologie a connu naguère une dérive positiviste, et l'herméneutique une involution spéculative.

3.1. Les choix méthodologiques et la philologie

Même si l'on convient de dépasser par l'étude des corrélations le stade de la cooccurrence lexicale, comment formuler l'hypothèse initiale, comment choisir le ou les mots qui permettent d'entrer dans le réseau thématique ? Une recommandation générale suggère de choisir des mots du corpus. J'emprunte par exemple les résultats préliminaires d'une étude restée inédite de R. Choné. Voulant étudier le sentiment d'infériorité dans le roman du XIXème siècle, elle n'en a pas trouvé d'attestation ; en revanche, le sentiment d'écrasement n'est pas rare, bien qu'il ne figure pas dans les dictionnaires thématiques, et soit étranger à la doxa contemporaine en matière de sentiments. Si bien que l'hypothèse qui a présidé à l'interrogation doit être reformulée, ou abandonnée. Le sentiment d'écrasement affecte des personnages situés au bas de l'échelle sociale, et résulte de l'oppression et de l'injustice qui s'exerce sur eux ; il est décrit pour ainsi dire de l'extérieur. En revanche le sentiment d'infériorité est une création contemporaine, qui affecte des personnages vus de l'intérieur, et n'a pas de cause sociale bien identifiée.

Faut-il, peut-on rechercher les thèmes contemporains dans les textes des siècles passés ? Cette question dépasse la distinction entre l'approche onomasiologique qui part de signifiés ou de concepts pour en rechercher l'expression, et l'approche sémasiologique qui prend le chemin inverse. Elle engage aussi bien la philologie que l'herméneutique, et nous allons l'illustrer par un parallèle.

Les deux études de Brunet (1995) et Béhar & Bernard (1995) se placent explicitement dans le cadre d'une histoire des mentalités.

Béhar et Bernard compilent neuf listes de sentiments " à la manière d'un sondage d'opinion ". La liste résultante, qui ne retient que les termes figurant déjà dans le thésaurus de la Banque de données d'histoire littéraire, soit 106, reste hétérogène, puisqu'on y trouve l'alcoolisme, le culte, la dépression nerveuse, le mysticisme, la soif, la toxicomanie. La garantie d'une attestation majoritaire dans les listes de départ réduit ce nombre à une liste homogène de vingt. Cela entraîne l'élimination de quatre-vingts noms de sentiments attestés par ailleurs dans le corpus romanesque de langue française de 1830 à 1970. Ici apparaît le caractère normatif d'un thésaurus, qui, pour une étude de thème conduit à ne sélectionner que ce qui peut répondre à une indexation préalable. Les auteurs soulignent bien dans leur conclusion que l'étude de la littérature " a affaire à des opinions ", mais " en se plaçant du côté du lecteur, se range du côté de l'histoire des mentalités ". Il s'agit bien entendu du lecteur d'aujourd'hui. La question du lecteur d'hier et des mentalités du siècle dernier ne se pose pas dans ce cadre.

Pour sa part, Brunet ne prend en considération que le corpus Frantext et part de notre relevé indicatif. Il fixe comme seuil de pertinence un seuil de fréquence. Il trouve statistiquement 124 mots-cooccurrents du mot sentiment. Ils ne sont pas nécessairement des noms de sentiment, mais des formes comme éprouvait, éprouvais ou visage, cri, vie. Dans l'environnement de ces 124 entrées, il trouve 164 noms de sentiment, et le mot sentiment lui-même. Il accroît ainsi d'un quart la liste indicative initiale, établie à partir du tiers du corpus. Et à partir de cette liste étendue, il construit des données nouvelles sur la structure du champ des sentiments, son histoire et son évolution.

Si ces deux études partageaient les mêmes objectifs, on pourrait par généralisation opposer deux stratégies. La première semble accueillante, car elle multiplie les sources. Mais elle reste normative, dans la mesure où elle ne retient que ce qu'elles ont de commun, et conduit à une restriction des hypothèses. La seconde, simplement descriptive, conduit à une extension des hypothèses et à la constitution de données riches.

Cette symétrie reste fausse, car la sélection des oeuvres par indexation et leur exploration assistée n'obéissent pas aux mêmes objectifs. Une question reste posée : comment choisir les thèmes qui servent à indexer les oeuvres ? Ou bien l'on reflète la doxa contemporaine en la matière, ou bien l'on cherche à restituer les thèmes importants à l'époque - tâche qu'un logiciel d'analyse thématique pourrait précisément assister.

La question philologique reste posée. L'exploration d'un corpus exige des précautions - à l'image de tout travail historique. La première est le respect des limites du corpus. Si l'on convient que tout relevé, pour être pertinent, doit correspondre au corpus, c'est-à-dire à des coordonnées précises dans le temps et dans l'espace textuel, les sources annexes sont par là-même oiseuses. Enfin, un corpus inanalysé ne peut en éclairer un autre que si l'on démontre que l'on peut les confondre.

Nous n'avons pas l'illusion pour autant de nous transporter par la thématique dans la mentalité de naguère. L'entreprise même d'une sémantique des textes et les moyens d'assistance informatique sont bien de notre temps. Du moins, pour éviter le narcissisme des recherches qui ne retiennent que ce qui conforte leurs hypothèses, pouvons-nous soumettre à révision les nôtres, pour accueillir par exemples des sentiments sans nom, mêlés ou disparus. Sans quoi la thématique, comme la plus belle fille du monde selon Proust, ne donnerait que ce que l'on croit recevoir.
 

4. Directions de recherche

4.1. Ouvertures méthodologiques

Ce n'est pas le lieu ici de revenir sur les problèmes classiques de l'analyse statistique et de la consultation de banques de données, comme la polysémie, le bruit, et le silence.

Il faut cependant souligner que l'amélioration des outils logiciels et l'enrichissement des corpus conditionnent en pratique l'analyse sémantique. Les résultats magistraux présentés ici-même par Brunet n'auraient pas été obtenus sans l'usage des logiciels qu'il a élaborés. Plus généralement, retenons que le quantitatif et le qualitatif ne s'opposent aucunement : seule une analyse qualitative peut rendre significatifs des phénomènes quantitatifs remarquables, et interpréter leurs variations. La sémantique des textes est d'ailleurs la partie de la linguistique la plus utile pour cela, dans la mesure aussi où elle permet de relativiser les phénomènes quantitatifs. Par exemple, Erlich (1995) a figuré les rafales thématiques de l'Ambition et de l'Amour dans Le Père Goriot. Mais les silences lexicaux, comme il le souligne, ne sont pas pour autant des silences thématiques : ces thèmes, pour n'être pas nommés, sont intégrés ailleurs et d'une autre manière à des structures dialectiques. L'on pourrait par paradoxe soutenir que dans ce roman l'Ambition et l'Amour sont partout à l'oeuvre quand ils ne sont pas nommés, et culminent à la mort du personnage éponyme, où leurs lexicalisations privilégiées font pourtant défaut.

4.2. Pour une thématique historique et comparée

Les thèmes, en tant que formes sémantiques, sont liés à l'histoire culturelle, dont ils sont une expression privilégiée, surtout quand leur récurrence les promeut au rang de topoï. L'exemple des sentiments est révélateur.

Les dates d'apparition de nouveaux sentiments ne manquent pas d'intérêt, qu'ils soient liés à l'histoire politique, comme le sentiment patriotique qui apparaît en 1912 et reparaît en 1940, ou à l'histoire de la métapsychologie, comme ce sentiment de frustration qui apparaît en 1960.

L'évolution diachronique des sentiments, et de leur évaluation trouve un excellent exemple dans l'histoire de la piété : à partir des années 1870, elle devient un sentiment suspect. Nous ne nous chargerons pas d'accuser les Communards ou leurs adversaires. Mais il faut souligner que les attaques venues des écrivains catholiques, de Bloy à Mauriac, ont accompagné sa fin, si bien que ce sentiment, perdant ses derniers soutiens, s'est absenté du roman, et sans doute de la vie. L'humanitaire a pris sa place, dans de tout autres contextes.

Plus généralement, une histoire globale du monde sentimental devient possible. Par exemple, le tableau que présente Brunet (figure 9) est éloquent : on assiste à un assombrissement continu des sentiments dans le roman depuis 1830.

Enfin, et là encore les résultats de Brunet sont pleins d'enseignements, une thématique comparée selon les genres permettrait de spécifier les particularités de chacun, et de restituer l'articulation générale du discours littéraire.

4.3. Des formes culturelles au vécu : les sentiments et les affects

Nous avons défini les thèmes comme des unités sémantiques, mais ils correspondent sans doute à des représentations socialisées. Comment sont-elles liées à leur expression linguistique ?

Gardons l'exemple des sentiments. Une première voie de réponse consiste à rechercher comment les sentiments éprouvés trouvent leur expression linguistique. Mais le monde sentimental n'est-il pas lié à sa représentation ? Pour les écrivains peut-être, et pour leurs lecteurs assidus. Hors même de la culture littéraire, les sentiments ne sont-ils pas inséparables de leur verbalisation ?

La demi-douzaine d'émotions de base répertoriées par les éthologistes expliquent peut-être l'existence des affects, mais non la variété des sentiments, et encore moins le caractère historique et culturel de leur expression. L'acédie érémitique et la dépression nerveuse ont peut-être les mêmes substrats biochimiques, mais non la même définition. Les sentiments, en tant que formes culturelles, varient selon les époques et les sociétés ; ils ne sont d'ailleurs pas nécessairement individualisés comme tels, car ils supposent un sujet autonome et doué d'une vie intérieure. Et chacun sait combien d'une langue à l'autre les sentiments sont difficiles à traduire, même dans des sociétés très proches culturellement.

Bref, une culture transforme les affects en sentiments. Un homme normal, dit Sacks, est un homme qui peut se raconter son histoire. Mais ce récit demande une verbalisation, et qui sait si notre vécu, du moins ce qui en demeure hors de l'instant, n'en dépend pas ?


BIBLIOGRAPHIE

Béhar, H. et Bernard, M. (1995) La nébuleuse des sentiments, in Rastier, F. (dir.)L'analyse thématique des données textuelles, Paris, Didier, 1995, pp. 54-84.

Bouchez, M. (1973) L'ennui de Sénèque à Moravia, Paris, Bordas.

Bourion, E. (1994) L'expérience d'extraction des contenus thématiques à l'aide du test de l'écart réduit, ms, 5 p.

Bourion, E. (1995) Le réseau associatif de la peur, in Rastier, F. (dir.)L'analyse thématique des données textuelles, Paris, Didier, 1995, pp. 107-145.

Brunet, E. (1994) THIEF, in Martin, E. (éd.) Traitements informatisés de corpus textuels, Paris, Didier, pp. 239-261.

Brunet, E. (1995) Cardiogrammes, in Rastier, F. (dir.)L'analyse thématique des données textuelles, Paris, Didier, 1995, pp. 25-52.

Collot, M. (1988) Le thème selon la critique thématique, Communications, 47, pp. 79-92.

Ducrot, O. & Todorov, T. (1972) Dictionnaire encyclopédique des sciences du langage, Paris, Seuil.

Erlich, D. (1995) Une méthode d'analyse thématique - Exemples de l'amour et de l'ambition, in Rastier, F. (dir.) L'analyse thématique des données textuelles, Paris, Didier, 1995, pp. 85-103.

Lafon, P. (1994) Relations syntagmatiques, recherches des cooccurrences et segments répétés, in Martin, E., (éd.), Traitements informatisés de corpus textuels, Paris, Didier, pp.

Lebart, L., Salem, A. (1988) L'analyse statistique des données textuelles, Paris, Dunod.

Martin, E. (1993) Reconnaissance de contextes thématiques dans un corpus textuel, Paris, Didier.

Meunier, J.-G. (1990) Le traitement et l'analyse informatique des textes, Actes de l'ICO Québec, pp. 9-18.

Nef, F. (1992) Sémantique et ontologie II, Sémiotiques, 2, pp. 7-18.

Panofsky, E. (1967) Essais d'iconologie, Paris, Gallimard.

Rastier, F. (1987), Sémantique interprétative, Paris, PUF.

--- (1989), Sens et textualité, Paris, Hachette.

--- (1991), Sémantique et recherches cognitives, Paris, PUF.

---(1992 a) Thématique et génétique, Poétique, 90, pp. 205-228.

---(1992 b) Réalisme sémantique et réalisme esthétique, TLE, 10, pp. 81-119.

---(1994) Sémantique pour l'anal.yse, Paris, Masson [Avec la collaboration de Anne Abeillé et Marc Cavazza].

Richard, J-P. (1961) L'univers imaginaire de Stéphane Mallarmé, Paris, Seuil.

Robert, R. (1990) Jalons pour une étude du traitement des Topoï romanesques dans le roman sentimental, in Le roman sentimental, Limoges, Pulim, pp. 13-27.

Sagnes, G. (1969) L'ennui dans la littérature française de Flaubert à Laforgue, Paris, Armand Colin.

Segre, C. (1988) Du motif à la fonction, et vice versa, Communications, 47, pp. 9-22.

Sowa, J. (1984) Conceptual Structures, New York, Addison-Wesley.

Trousson, R. (1981) Thèmes et mythes littéraires, Bruxelles, Editions de l'Université de Bruxelles.


Vous pouvez adresser vos commentaires et suggestions à : Lpe2@ext.jussieu.fr

©  1996 pour l'édition électronique.

Référence bibliographique : RASTIER, François. La sémantique des thèmes - ou le voyage sentimental. Texto ! 1996 [en ligne]. Disponible sur : <http://www.revue-texto.net/Inedits/Rastier/Rastier_Themes.html>. (Consultée le ...).