Exploiter des données morphosyntaxiques pour l'étude statistique des genres -
Application au roman policier

Précédent :: Sommaire :: Suivant

Les traitements informatiques que l'on peut appliquer aux données textuelles ont élargi le champ de l'analyse des genres en la tirant hors du champ littéraire qui était traditionnellement le sien ; la linguistique computationnelle se doit de reconsidérer la notion de genre sous cette nouvelle perspective. Il importe de proposer une nouvelle définition du genre qui englobe la totalité des productions textuelles et qui permette d'élaborer des méthodes d’analyse automatique.

A.  Genre, discours et situation

1.  Nécessité d’une caractérisation informatique des genres

L'approche informatique de la définition des genres élargit la perspective de travail en ouvrant au champ de la recherche toute production langagière ; dans le même temps, en arrachant la question des genres à l'univers clos de la littérature, elle apporte de nouveaux besoins et de nouvelles applications liés au caractère utilitaire de l’informatique. Deux perspectives peuvent être dégagées, qui orientent les recherches dans deux directions apparemment différentes : la première, directement applicative, s'attache à la mise au point d’outils de reconnaissance automatique des genres ; la seconde intéresse plus les chercheurs et ne vise pas tant à classer qu'à étudier ce qui peut rapprocher des textes sur le plan générique. Derrière ces deux perspectives, deux visées s'opposent, mais elles se retrouvent confrontées au même problème, celui de la mise en évidence de traits discriminants permettant d’identifier les genres textuels.

La reconnaissance automatique des genres intéresse de près, et de plus en plus, les acteurs du monde de l'ingénierie documentaire. Tout d'abord, dans le cadre d'une recherche à l'intérieur d'une base de documents, qu'elle soit close (base locale, plus ou moins enrichie sémantiquement) et quasi-insondable (le Web), pouvoir fournir à un utilisateur une indication sur le genre du texte, ou même lui permettre de filtrer des documents sur un critère générique (textes de loi par exemple), serait une valeur ajoutée incontestable. Les outils de recherche documentaire et d'indexation aujourd'hui disponibles sur le marché, tout autant que les moteurs de recherche sur le Web, sont incapable de travailler sur ce plan, et la question de l'identification automatique des genres est encore peu étudiée.

D'autre part, ces mêmes outils auraient un grand parti à tirer d'un repérage des genres dans l'élaboration des recherches, même thématiques : la plupart des logiciels se fondent sur des bases terminologiques nécessaires à leur bon fonctionnement, et le critère générique permettrait d'affiner grandement ces terminologies. Sans être spécifiquement lexical (nous reviendrons sur ce point par la suite), le genre d'un texte a une influence sur son lexique, et ce à deux niveaux :

De ce fait, la caractérisation par la linguistique informatique des genres textuels intéresse plus largement toutes les applications confrontées au problème de la désambiguïsation sémantique, de l'étiquetage à la traduction, en passant par l'analyse de discours : selon le genre, un terme donné n'entrera pas dans les mêmes réseaux d'association de termes, et les différentes molécules sémiques qu'il contient seront mobilisées différemment. Il apparaît donc important pour l'ingénierie linguistique de donner des genres textuels une caractérisation opératoire et d'élaborer des méthodes  et des techniques qui en permettent une reconnaissance automatique.

2.  Replacer le genre dans le cadre du discours

Définir ce qu'est un genre n'est pas chose facile : une première définition intuitive est toujours possible, mais elle se heurte systématiquement à un problème de cohérence qui la rend rapidement non valide. La question soulevée est double : que doit-on faire entrer dans la définition d'un genre, et comment peut-on justifier, sinon prouver, l'existence d'un genre ? En d'autres termes, sur quoi peut-on solidement fonder les catégories génériques, et à quel niveau de l'analyse se placent-elles ?

François Rastier, dans Sémantique pour l'analyse , définit dans le chapitre consacré à la macrosémantique, établit une distinction qui apporte une réponse à ces problèmes : « Il faut reconnaître d'une part qu'il n'existe pas de texte sans genre , et en outre que tout genre relève d'un discours (ex. politique, juridique, religieux, etc.). Par exemple, dans le discours médical, on peut distinguer les genres écrits dont dispose un professeur des hôpitaux dans sa pratique professionnelle : ils sont au nombre de trois, l'observation clinique, l'article scientifique et la lettre au collègue. » [1] De cela découle le fait que « les genres sont déterminés par les pratiques sociales. Ils sont reconnus et décrits par la linguistique, mais c'est une réalité intertextuelle, par laquelle peuvent s'expliquer certaines affinités et certaines régularités entre des textes. » (Rastier et Pincemin, 1999).

En replaçant ainsi les genres dans le cadre de l'action et des interactions sociales, on résout le problème soulevé précédemment : « On peut trouver un intérêt théorique à comparer la structure dialectique de notices de montage et de recettes de cuisine, mais on ne peut négliger qu'elle ne relèvent pas du même discours, et ne sont pas interprétées ni appliquées de la même façon (les bons cuisiniers savent suivre leur inspiration). En outre, les discours mettent en jeu plusieurs genres, et il faut restituer la systématique de ces genres pour comprendre les spécificités de chacun. Comment par exemple étudier les réquisitoires sans les distinguer des plaidoiries ? » [2]

On comprend mieux pourquoi les systèmes de typage automatique de textes existant, qui travaillent sur le lexique, sont capables d'identifier un thème mais butent sur la reconnaissance des genres. Car les discours dépassent les thèmes, et les classements thématiques regroupent différents types de discours : on prendra bien garde alors à ne pas confondre thème et genre, et l'on ne cherchera pas à donner une base lexicale aux thèmes, même si le lexique peut être un élément important de la spécificité d'un genre par rapport à un autre.

Une telle définition du genre nous permet à la fois de sortir du carcan littéraire où il a longtemps été cantonné, et surtout d'introduire dans l'étude des genres textuels une dimension étrangère au texte, celle de la pratique sociale dans laquelle il s'inscrit. De ce fait, la question de savoir ce qui fonde un genre n'est plus de l'ordre de l'autoproclamation de ce genre, comme cela a pu être le cas dans la création littéraire, mais de la situation des discours. C'est donc sur une typologie des discours que se fondera une typologie des genres, à travers laquelle nous pourrons regrouper des textes dans la perspective d'un linguistique de corpus.

3.  Les différents paliers de l'analyse

Il importe dès lors de définir différents niveaux d'analyse, afin de savoir où se placent exactement le genre et le sous-genre. François Rastier et Denise Malrieu en distinguent quatre :

A chacun de ces paliers, correspondent des caractéristiques textuelles propres : nous considèrerons, avec F. Rastier et D. Malrieu, que « les genres sont définis par l'interaction normée de composantes textuelles ». De cela découlent des éléments importants de la définition des genres : d'une part, leurs caractéristiques sont variables selon le genre considéré, et s'appréhendent à travers des champs génériques distincts où différents genres s'opposent. On pourra donc avoir la curiosité de comparer, pour reprendre un exemple déjà cité, des recettes de cuisine et des notices de montage, cela n'aura pas de sens du point de vue des situations de discours.

D'autre part, la qualification d' « interactions normées » nous rappelle que les genres ont un caractère normatif. Nous pourrions dire que pour un champ d'activité donné, différents genres sont proposés au locuteur, qui sont plus ou moins prescriptifs selon l'activité : rien n'empêche quelqu'un à la recherche d'un emploi d'écrire sa lettre de candidature en alexandrins, mais il s'écarterait alors sensiblement des canons du genre en même temps qu'il introduirait un jeu avec le genre poétique. C'est cet aspect de variation possible mais plus ou moins tolérée qui nous amène à envisager nécessairement l'étude des genres dans la perspective d'une linguistique de corpus, seule à même de détecter les constantes et les variations au sein d'un genre donné, et d'identifier les éléments fondamentaux de l'écriture pour ce genre.

Des différents aspects définitoires du genre, découle une démarche méthodologique particulière, qui devra prendre en compte le genre comme un donné, mais en même temps tenter de le caractériser et de lui donner une unité qui ne soit plus liée à la situation ou à l'intuition, mais qui soit proprement textuelle.

Précédent :: Sommaire :: Suivant