Exploiter des données morphosyntaxiques pour l'étude statistique des genres -
Application au roman policier

Précédent :: Sommaire :: Suivant

B.  Enjeux méthodologique

1.  Entre une démarche inductive et une démarche déductive

L'entreprise typologique de Douglas Biber, qui peut être qualifiée de pionnière, nous intéresse car elle s'inscrit dans la logique d'une linguistique de corpus et tend à faire apparaître des traits discriminants entre individus au sein de corpus de textes. L'optique retenue par Biber consiste à faire émerger des types de textes grâce à un traitement statistique de textes étiquetés ; son travail a porté sur les cooccurrences entre 67 traits linguistiques dans les 1000 premiers mots de 481 textes d'anglais contemporain écrit et oral. Ces textes relèvent de genres divers : articles de recherche, reportages, conversations, nouvelles radiophoniques, etc. Les traits étudiés sont identifiés automatiquement et renvoient  à seize catégories distinctes qui sont les marqueurs de temps et d'aspect, les adverbes et locutions adverbiales de temps et de lieu, les pronoms et proverbes, questions, passifs, modaux, coordination, négation, etc.

La statistique multidimensionnelle est mise à contribution pour repérer les oppositions majeures entre associations de traits linguistiques. Elle rassemble les traits qui ont tendance à apparaître ensemble, et constitue dans le même temps les configurations de traits qui sont systématiquement évités par les mêmes rassemblements. Cette démarche permet d'obtenir des pôles multiples, positifs et négatifs, correspondant à ces constellations. Chaque texte, par son emploi des traits linguistiques étudiés, se situe en un point déterminé de l'espace à n dimensions déterminé par cette analyse. C'est en ce sens que la démarche ainsi suivie est déductive et non inductive : les traits pertinents qui permettent d'opposer ou de rapprocher différents textes sont issus des textes, et non d'un savoir qui leur serait hétérogène.

Les travaux de D. Biber sont intéressant pour l'étude des genres en ce qu'ils introduisent l'idée fondamentale que l'énonciation de traits pertinents pour différencier des groupements de textes doit venir des textes eux-mêmes. Nous sommes ici dans une linguistique de corpus pour laquelle les textes doivent être le matériau des travaux d'ingénierie linguistique, l'objet, la source d'observation et non le moyen de vérifier des hypothèses.

Dans le même temps, le parti-pris déductif de cette démarche n'est pas sans poser problème dans l'étude des genres textuels, car elle va à l'encontre de l'idée que les genres préexistent aux textes. Si l'on observe les huit types de textes définis par Biber à partir des cinq dimensions précédemment évoquées, on voit qu'elles diffèrent d'un classement par genres :

1.  interaction interpersonnelle intime ( intimate interpersonal interaction ) ;
2.  interaction informationnelle (
informational interaction ) ;
3.  exposé « scientifique » (
« scientific » exposition ) ;
4.  exposé savant (
learned exposition ) ;
5.  Fiction narrative (
imaginative fiction ) ;
6.  récit (
general narrative fiction ) ;
7.  reportage situé (
situated reportage ) ;
8.  argumentation impliquée (
involved persuasion ).

Biber lui-même ne s'y est pas trompé, qui distingue très clairement les types de textes, qui relèvent de l'analyse linguistique, et les registres ou genres , qui correspondent à une catégorisation sociale. Pour lui, les types de textes correspondent à des corrélations de caractéristiques linguistiques qui participent d'une même fonction globale, et ne se confondent ni avec les typologies fonctionnelles, ni avec les genres : les genres ou registres sont pour Biber les catégories intuitives qu'utilisent les locuteurs pour répartir les productions langagières.

Ce caractère intuitif de genres pourrait laisser penser, à l'énoncé de cette position, qu'il ne s'agit là que d'un typage flou, et qui plus est uniquement fonctionnel. Peut-on réduire la distinction en genres à un simple principe de classement ? Ce serait là laisser de côté l'aspect prescriptif des genres. Bien plus, les genres font, à la différence d'un typage à la Biber, partie du matériau de l'étude, et nos efforts doivent porter à leur description la plus fine. Cela étant, les travaux de Douglas Biber nous apportent un élément méthodologique essentiel : nous pouvons nous inspirer de la démarche déductive pour déterminer les caractéristiques de chaque genre.

Nous modifierons la démarche de Biber en donnant a priori des catégories textuelles ; il s'agira alors, au sein de ces différents groupements de textes relevant de différents genres identifiés au sein d'un même champ générique, d'analyser les éléments qui les rapprochent et ceux qui les éloignent, et de mettre à jour des éléments discriminants entre genres. Pour cela, nous ferons usage, comme de fait Biber, des outils de la statistique multidimensionnelle. Une démarche strictement déductive interviendrait dans un deuxième temps, et permettrait de valider les variables identifiées comme discriminantes.

La démarche que nous proposons est ainsi à mi-chemin entre induction et déduction : si nous plaçons en amont de l'analyse un classement a priori , qui s'apparente à une contextualisation des textes, c'est en corpus que nous cherchons les traits spécifiques aux genres, et nous attendons toujours de l'analyse déductive qu'elle confirme les conclusions que nous pouvons tirer des recherches en corpus.

2.  Karlgren et la reconnaissance des genres du Web

La démarche suivie par Douglas Biber est à l'origine des quelques travaux déjà réalisés sur les genres textuels, menés essentiellement par Jussi Karlgren qui fut le premier à s'intéresser spécifiquement à ce problème. Le premier article sur ce sujet qu'il fait paraître avec Douglass Cutting en 1994, intitulé « Recognizing Text Genres With Simple Metrics Using Discriminant Analysis », pose les bases d'un travail fondé sur une analyse statistique discriminante, dans le contexte d'une utilisation en recherche d'information et en catégorisation textuelle. La méthode exposée consiste à définir des bases de textes pré-catégorisées, et d'établir automatiquement à partir de ces groupes de textes des fonctions discriminante qui permettent de classer un texte nouveau dans l'une ou l'autre catégorie.

Ces recherches débouchent en 1998 sur la présentation d'un prototype de logiciel, « Easify », qui permet de classer des documents issus du Web selon une série de paramètres, y compris le genre [3] . Les genres sont ici rapprochés de la notion de « variation stylistique », et sont opposés au plan du contenu. Ces éléments stylistiques peuvent, nous dit l'auteur, être trouvés aux niveaux « lexical, syntaxique ou textuel : chacun a peu d'importance en lui-même, mais prises ensembles, leurs variations indiquent des différences systématiques » [4] . Une « palette de genres » est définie à partir des « impressions » des internautes, qui regroupe onze genres spécifiques aux pages web :

-  pages personnelles (« informal, private : personal home pages») ;
-  sites commerciaux (« public, commercial : home pages for the general public») ;
-  pages interactives (« interactive pages : pages with feed-back : searchable indexes, customer dialogue») ;
-  matériel journalistique (« journalistic materials : press : news, editorials, reviews, e-zines ») ;
-  rapports (« reports : scientific, legal and public materials ; formal text ») ;
-  autres textes (« other texts ») ;
-  FAQ (« FAQs ») ;
-  pages de liens (« link collections ») ;
-  autres tableaux et listes (« other listings and tables ») ;
-  forums de discussion (« dicussions ») ;
-  messages d'erreur (« error messages »).

On ne s'étonnera pas de retrouver parmi les éléments servant à classer les documents des éléments que nous qualifierons de paratextuels, liés au support html des documents et à leur dimension hypertextuelle : nombre de liens, liens interne ou externe au site, nombre et proportion d'images, etc. Un algorithme de classement permet de ranger les documents dans telle ou telle catégorie.

Ces travaux nous paraissent à la fois intéressants et insuffisants. D'un côté, ils établissent un carte des genres de la publication sur le Web qui s'adapte pleinement à ce media, et qui exploite l'ensemble des possibilités qu'il offre pour y pratiquer des analyses discriminantes en dépassant le cadre de l'analyse textuelle. En ce sens, les genres qui nous sont proposés sont absolument spécifiques à la pratique de la publication sur le Web dans laquelle ils s'inscrivent. Dans le même temps, cette approche efface toutes les autres dimensions génériques des textes qui peuvent être diffusés à travers le web. Plus précisément, il confond ces deux dimensions, en définissant des catégories hétérogènes : la page personnelle vs. commerciale tient à une dimension économique et au statut de l'hébergeur du site ; à l'inverse, la différence entre « journalistic materials » et « reports » place l'analyse sur le plan du contenu des pages et des genres textuels, et « autres textes » apparaît comme une catégorie pratique pour regrouper une grande majorité de pages, tandis que la classe « pages interactives » semble désigner une propriété inhérente à toute publication Web. Plus largement, c'est la question du discours qui est ici en jeu : tous les documents qui paraissent sur le Web relèvent-ils d'un même type de discours et d'une même situation d'énonciation ? Nous ne le pensons pas : tout comme l'imprimé qui peut être le support à différents types de discours, l'édition électronique est l'outil de diverses utilisations. De ce fait, si les catégories mises en avant par Karlgren sont  pertinentes et utiles pour catégoriser une page Web, elles ne nous semblent pas relever de genres.

Cela étant, ces travaux montrent la difficulté à appréhender les genres non seulement hors de la sphère littéraire où ils ont été abondamment définis et commentés, mais également hors de la sphère strictement textuelle ; ici se pose la question de l'identification et de la limitation à la fois des genres, des champs génériques et des discours, c'est-à-dire trois des quatre paliers d'analyse que nous avons définis. Si nous nous limiterons ici au champ de l'étude textuelle, nous garderons à l'esprit que ce problème reste ouvert.

3.  Détecter automatiquement les genres textuels : les travaux de Kessler, Nunberg et Schütze

Plus spécifiquement textuelle est la problématique posée par B. Kessler, G. Nunberg et H. Schütze, présentée dans « Automatic Genre Detection » en 1997. Afin de répondre, ici encore, aux besoins de classement des documents hétérogènes issus du Web, Kessler, Nunberg et Schütze proposent une théorie des genres comme « faisceaux de facettes » : « Nous proposons une théorie des genres comme faisceaux de facettes qui sont corrélés à des traits de surface et montrons qu'une détection des genres basée sur les traits de surface est aussi efficace qu'une détection basée sur des propriétés structurelles plus profondes » [5] .

Les genres sont donnés a priori par Kessler, Nunberg et Schütze comme un principe de classement hétérogènes au texte, qui proposent de définir un genre comme « n'importe quelle classe de textes largement reconnue, définie par des visées communicatives communes ou d'autres traits fonctionnels, étant entendu que la fonction est liée à des éléments formels et que la classe est extensible » [6] . Partant de cela, les genres seront considérés comme un faisceau de facettes génériques, une facette étant une propriété qui distingue une classe de textes selon un critère particulier et appréhendable dans le cadre d'un traitement informatique.

Cette idée des traits discriminants particuliers à une classe de texte n'est pas nouvelle et place ces travaux dans la lignée de ceux de Biber ; ce que cette approche apporte, c'est une véritable souplesse dans la définition et l'identification de ces traits. L'originalité de la démarche tient en effet à la possibilité de définir facilement ces traits et de les combiner afin de définir des genres ; ainsi, comme le montrent les auteurs, un article de journal sur la paix dans les Balkans est un exemple de « broadcast communication », par opposition à « directed communication », propriété qui est corrélée formellement avec certains usages du pronom « you » ; dans le même temps, c'est aussi un exemple de « narrative text » par opposition à « directive », « suasive » ou « descriptive », du fait de l'emploi du  « preterit ». Un classement par genre est ensuite obtenu par le croisement de ces différentes propriétés des textes.

Quatre types de traits discriminants sont examinés :

-  traits structuraux : compte des catégories morphosyntaxiques, verbales, etc. ;
-  traits lexicaux : y entrent par exemple certaines abréviations (« Mr. », « Ms. »), les latinismes, etc. ;
-  traits au niveau des caractères : essentiellement la ponctuation ;
-  traits dérivatifs : il s'agit de ratios et de mesures dérivées des deux traits précédents.

Sur cette base, six genres ont été définis : reportage, editorial, scitech, legal, nonfiction et fiction ; nous conservons les appellations d'origine tant il est vrai que, liée aux pratiques d'écriture, les genres varient d'une langue et d'une culture à l'autre. L'évaluation de ce système a porté sur le Brown Corpus, et a montré la validité du travail sur les formes de surface, avec une reconnaissance globale du genre correcte dans près de 70 % des cas. Plus précisément, certains genres sont mieux identifiés que d'autres : c'est le cas de reportage, scitech et fiction  (respectivement 83 %, 83 % et 94 % de réussite).

Si l'article ne nous dévoile pas les caractéristiques propres de chaque genre identifié, il nous montre qu'un système automatique est capable de reconnaître les genres en analysant la cooccurrence d'éléments de nature différentes. Il permet également de ne plus considérer les genres comme des atomes irréductibles que l'analyse ne peut percer, mais comme un ensemble de traits qu'il est possible de décomposer et d'enrichir.

4.  Corpus, prototypes et variables

Si l'étude menée par Kessler, Nunberg et Schütze montre la capacité de la linguistique computationnelle à traiter le problème de l'identification des genres, il nous paraît important de la replacer dans le cadre des différents niveaux d'analyse que nous avons définis : discours, champ générique, genre, sous-genre. Si l'on se réfère à cette division méthodologique, on constate que les trois auteurs n'ont pas tant travaillé au niveau des genres qu'à celui des champs génériques, plus proches des domaines d'activité. Ce fait appelle deux remarques : d'une part, on comprendra mieux alors que le lexique ait pu jouer une place positive dans l'analyse, car il se montre beaucoup plus déterminant au palier des champs génériques : l'article scientifique, le texte de loi et l'éditorial n'emploient sensiblement pas le même vocabulaire. En outre, sur la question du lexique, on notera que le Brown Corpus ne peut pas être tout à fait considéré comme fiable : 45 % des mots qu'il contient sont des hapax, tandis que des mots du vocabulaire courant comme waitress et colloquial ne reviennent que deux fois chacun, ce qui qu'il s'agit d'un corpus de documents spécialisés.

D'autre part, se pose la question du corpus de référence à l'intérieur duquel les genres doivent être comparés et opposés. Il nous semble nécessaire de travailler au sein d'un champ générique donné, sans quoi les conclusions que l'on pourraient tirer sur les genres seraient erronées car non fondées en situation. Pour reprendre les catégories données par Kessler, nous regrouperions reportage et editorial dans un champ générique du texte journalistique où nous les aurions opposés à d'autres genres, comme la « brève » par exemple.

En fixant l'analyse au niveau du genre, on minimisera le recours au lexique, beaucoup moins discriminant qu'au palier des champs génériques, pour se concentrer sur les autres types de données disponibles ; nous reprendrons ici les catégories évoquées dans « Automatic Detection of Text Genre », à savoir l'usage de la ponctuation, qui a une valeur rythmique et syntaxique particulière sans pour autant être d'ordre lexical, et les résultats de l'étiquetage morphosyntaxique au sens large, dans lequel on trouvera, outre les catégories grammaticales, des indications de personne et de temps précises. Les travaux de Kessler et al. comme ceux de Biber nous montrent de manière positive que ces variables ont la capacité de représenter des catégories génériques, ce que confirme de manière négative les traitements basés uniquement sur le lexique.

Sur la base de ces variables, on peut donc souhaiter, et c'est l'objet de notre étude particulière sur le genre du roman policier, trouver en quoi un genre s'oppose à ses « concurrents directs », le roman sérieux dans notre cas. Cette recherche soulève deux questions méthodologiques importantes que le choix des variables sur lesquelles nous allons faire porter l'analyse ne résout pas plus que celui des corpus de travail. La première, qui n'est pas du tout abordée dans les études que nous avons présentées jusqu'ici mais que la question du corpus et la définition des genres soulèvent conjointement, est celle de la diachronie : quelle place et quel traitement doit-on réserver à l'évolution des genres, de leur constitution et de leur définition ? La seconde question découle de la première et tient à l'objet même de l'étude : qu'allons-nous chercher ? Un individu ou des variables ? La définition d'un prototypique, ou l'identification des traits distinctif du genre policier ?

Les deux problèmes sont liés : dans le cadre de notre étude sur un corpus littéraire, nous ne pouvons ignorer l'antériorité du roman sérieux et l'autonomisation progressive du roman policier, ni leurs influences réciproques au sein même des œuvres ; par ailleurs, nous savons que certains auteurs ont créé des ruptures particulières et s'inscrivent dans l'histoire de la constitution du genre policier. Faut-il alors définir le roman policier par un individu statistique moyen représentant l'ensemble des textes placés dans cette catégorie, et qui s'étalent sur près d'un siècle ? Ou faut-il plutôt chercher des modèles, des parangons qui représenteraient le genre dans son autonomie ?

Nous ne répondrons pas à ce problème maintenant, mais tenterons au contraire d'y apporter des réponses au fil de l'analyse du corpus de romans policiers, en tentant de voir quel individu prototypique il est possible de définir pour quelle représentativité diachronique, et en quoi un tel individu s'oppose au roman sérieux ou crée un sous-genre qui s'écarte du canon policier. C'est à travers cette triple problématique de la représentativité, de la spécificité et de la diachronie que nous pourrons tenter à la fois de qualifier le genre policier par rapport à son « ennemi direct », le roman sérieux, et d'évaluer l'homogénéité d'un genre dont nous savons qu'il se divise en de nombreux sous-genres.

Précédent :: Sommaire :: Suivant