Exploiter des données morphosyntaxiques pour l'étude statistique des genres -
Application au roman policier

Sommaire :: Suivant

Introduction

La question des genres textuels, traditionnellement placée dans le champ des études littéraires, intéresse aujourd'hui de près le monde de l'ingénierie linguistique : la reconnaissance et le filtrage des genres pourrait à la fois être un service proposé par les outils de recherche documentaire et améliorer sensiblement l'efficacité des applications qui rencontrent le problème de l'ambiguité sémantique.

Cet intérêt pour les genres est relativement récent, et traduit les difficultés que rencontre une discipline confrontée à des corpus de plus en plus volumineux et hétérogènes (Illouz et al. , 1999) ; il n'en rend pas moins difficile la définition d'un cadre de travail théorique et méthodologique qui permette de traiter efficacement la question. Les quelques travaux de linguistique computationnelle portant sur les genres abordent cette notion de différentes manières, l'assimilant tantôt à celle de « type de texte » (Biber), tantôt au domaine discursif (Illouz et al. , 1999), tantôt à une simple catégorie intuitive synthétisant des propriétés textuelles (Kessler et al. , 1997).

La reconnaissance automatique des genres intéresse de près, et de plus en plus, les acteurs du monde de l'ingénierie documentaire. Tout d'abord, dans le cadre d'une recherche à l'intérieur d'une base de documents, qu'elle soit close (base locale, plus ou moins enrichie sémantiquement) et quasi-insondable (le Web), pouvoir fournir à un utilisateur une indication sur le genre d'un texte, ou même lui permettre de filtrer des documents sur un critère générique (textes de loi par exemple), serait une valeur ajoutée incontestable. Les outils de recherche documentaire et d'indexation aujourd'hui disponibles sur le marché, tout autant que les moteurs de recherche sur le Web, sont incapables de travailler sur ce plan, et la question de l'identification automatique des genres est encore peu étudiée.

De ce fait, la caractérisation par la linguistique informatique des genres textuels intéresse plus largement toutes les applications confrontées au problème de la désambiguisation sémantique, de l'étiquetage à la traduction, en passant par l'analyse de discours : selon le genre, un terme donné n'entrera pas dans les mêmes réseaux d'association de termes, et les différentes molécules sémiques qu'il contient seront mobilisées différemment. Il apparaît donc important pour l'ingénierie linguistique de donner des genres textuels une caractérisation opératoire et d'élaborer des méthodes et des techniques qui en permettent une reconnaissance automatique.

Il apparaît donc nécessaire de définir un cadre de travail théorique et méthodologique pour l'étude des genres et leur utilisation en ingénierie linguistique ; pour cela, nous proposerons une définition opératoire des genres que nous confronterons aux différents travaux et approches menés jusqu'ici. Nous nous efforcerons par ce biais d'identifier le niveau d'analyse auquel il est possible de tenter une étude des genres et les problèmes méthodologiques que pose cette étude. Cette problématique sera éprouvée dans un deuxième temps à travers l'étude du genre du roman policier au cours de laquelle nous tenterons à la fois de donner une caractérisation fine du genre policier, de ses composantes et de sa diversité, et de tracer une ligne méthodologique utile à une étude plus générale des genres.

 

Sommaire :: Suivant