Exploiter des données morphosyntaxiques pour l'étude statistique des genres -
Application au roman policier

Précédent :: Sommaire :: Suivant

I. Problématique des genres et analyse automatique

C.  Corpus et outils de travail

1.  Les individus

Les données dont nous avons disposé pour mener cette étude ont été produites par la société Synapse, à l'aide du logiciel Cordial destiné à la correction orthographique et grammaticale. On notera à cette occasion que l'intérêt de Synapse pour l'étude des genres confirme la nécessité pour la linguistique informatique industrielle de mettre au point des solutions relatives à leur reconnaissance.

Nous avons travaillé sur une partie du corpus général de Synapse, qui regroupait une série de textes dépassant le cadre des études de textes littéraires, couvrant au total plus de 2 300 textes dont la répartition fait cependant la belle au roman :

Romans

1567 (67,36%)

Sérieux

948

   

Policier

429

   

Contes

48

   

Nouvelles

44

   

Récit de voyage

23

   

Mémoires

75

Essais

270 (11,58%)

Politique et "société"

101

   

Philosophie

68

   

Histoire

44

   

Littérature et arts

36

Juridique

157 (6,73%)

Rapports

112

   

Lois

33

   

Codes

11

Poésie

118 (5,06%)

Lyrique

116

   

Fables

1

Théâtre

162 (6,95%)

Comédie

114

   

Drame et tragédie

48

Technique

54 (2,32%)

Physique et Mathématiques

17

   

Médecine

7

   

Sciences naturelles

6

   

Informatique

4

   

Linguistique

4

   

Divers

16

Notre travail portant sur le roman policier, il importait, dans la perspective d'une étude constrastive en corpus, de pouvoir à la fois opposer le roman policier au roman sérieux et en même temps de pouvoir étudier dans le détail la composition du roman policier. Nous disposions ainsi de deux séries d'individus.

La première série oppose roman sérieux et roman policier, à travers la synthèse des données sur l'ensemble des individus relatif à chaque genre. Nous disposions ainsi des valeurs minimales et maximales de chaque variable dans les deux groupes de romans, ainsi que des moyennes pour chaque variable. Deux types de calcul étaient pratiqués pour la moyenne : une moyenne utilisant le nombre d'œuvres (la somme des valeurs pour une variable, divisée par le nombre de romans), et une moyenne pondérée par la taille de chaque roman.

C'est cette dernière qui nous paraît la plus intéressante, car elle assimile chacun des deux ensembles à un texte unique dans lequel on aurait compté les occurrences de chaque variables morphosyntaxique comme cela est fait pour chaque roman. C'est pour cette raison que nous avons utilisé abondamment par la suite cette moyenne pondérée par la taille, créant ainsi deux individus particuliers nommés « POLICIER » et « SERIEUX » résultant de la concaténation des textes des romans sérieux et policiers ; c'est sous ces noms que nous y ferons référence par la suite.

Il est important de noter que ce que nous appelons ici le roman sérieux est un roman du début du XX e siècle, tandis que le roman policier est une œuvre contemporaine, comme le montrent les dates moyennes de parution des deux corpus :

Moyenne sur ouvrages

Romans policiers

1986

 

Romans sérieux

1915

Moyenne sur tailles

Romans policiers

1988

 

Romans sérieux

1917

Valeur minimale

Romans policiers

1907

 

Romans sérieux

1657

Valeur maximale

Romans policiers

1999

 

Romans sérieux

1998

On peut bien entendu discuter la validité et la représentativité de ces deux individus et des regroupements dont ils procèdent. Nous sommes bien conscients qu'ils expriment des valeurs moyennes qu'il convient d'examiner de plus près, afin de voir si les variables considérés ont des valeurs homogènes à l'intérieur de chaque genre ou non. Cela étant, le positionnement de chaque roman dans l'une ou l'autre catégorie étant fortement motivé par l'opposition des deux genres, le regroupement des romans sous un même archi-texte est à même de définir une base de travail pour l'opposition policier/sérieux, qu'une caractérisation plus fine viendra ou non valider.

Si ces deux individus prototypiques posent un problème méthodologique, il semble que celui-ci soit bien plutôt au niveau des corpus ayant servi à les constituer. Nous rejoignons là un problème qui dépasse largement le cadre de notre étude, celui de la constitution de corpus de référence et de leur validité ; nous nous bornerons ici à dire que si notre étude dresse des conclusions, celles-ci n'auront leur validité que dans le cadre des corpus particuliers que nous employons, mais que dans ce cadre elles y acquièrent une pleine validité.

La deuxième série d'individus concerne les romans eux-mêmes : nous disposions ainsi de 429 romans, dont la liste figure en annexe. 420 sont parus après 1940, soit une écrasante majorité ; cela correspond à la période où le genre commence à avoir une autonomie par rapport au roman sérieux. Cela ne nous empêchera pas pour autant d'inclure dans l'analyse les romans antérieurs à 1940, quatre de Gaston Leroux et quatre de Maurice Leblanc, dans la mesure où ils ont créé des personnages qui font date dans la genèse du genre, à savoir Rouletabille et Arsène Lupin.

2.  Variables utilisées

Nous disposions initialement de 1 273 variables, se répartissant en trois groupes :

-  864 variables relatives à la représentation dans chaque roman de thèmes et sous-thèmes de l'ontologie de Cordial, et ce à trois paliers différents ;
-  177 variables relatives à des domaines, comptant pour chaque roman le nombre de mots s'y rapportant ;
-  232 variables morphosyntaxiques, plus ou moins enrichies de considérations d'ordre sémantique.

Nous avons délibérément écarté les deux premières catégories. Outre l'avantage de faciliter la tâche de l'analyse en diminuant le nombre total de variables, ce qui n'est pas à négliger, ces variables ont une vocation universelle qui ne convient pas à la finesse que nous voulons atteindre. Elles procèdent en outre d'un travail interprétatif basé sur le lexique et possèdent ainsi le double désavantage de nécessiter une interprétation pondérée de leurs résultats et de faire intervenir le lexique que nous voulons écarter de notre analyse. Ces catégories sont en réalité très liées aux objectifs applicatifs de Cordial, la correction orthographique et grammaticale, et ne s'inscrivent pas dans la démarche que nous avons choisi de suivre.

Au sein des variables morphosyntaxiques, nous avons également procédé à un nettoyage afin d'éliminer une série de variables sémantiquement connotées ; il s'agit par exemple de « % de noms communs de type uniquement humanoïde parmi l'ensemble des substantifs », de « % de noms communs de type uniquement animal parmi l'ensemble des substantifs » et de « % des verbes à sujet uniquement abstrait parmi l'ensemble des verbes ». Toutes ces variables sont issues d'une caractérisation sémantique du lexique employé dans les romans, et ne peuvent, pour les raisons exposées ci-dessus, être retenues dans notre analyse.

Au terme de ce nettoyage, restent alors 124 variables, dont la liste figure en annexe  ; on y trouvera trois types de variables :

-  une variables chronologique, la date de parution (var. 2) ;
-  10 moyennes : lettres/mot, mots/phrase, etc. (var. 10-19) ;
-  le reste est constitué de pourcentages (var. 11-124).

La grande majorité des données est donc représentée par des pourcentages relatifs la présence des pronoms, des adjectifs, des adverbes, la répartition de la ponctuation, les temps, les personnes, c'est-à-dire des variables "objectives" issues de l'analyse morphosyntaxique.

3.  Outils d'analyse statistique

Ces données se présentent sous la forme de tableaux au format Excel ; pour les analyser, nous disposons de plusieurs outils. Tout d'abord, il y a les outils statistiques du tableur Excel, qui permettent certains calculs de base de type moyenne, variance, covariance et coefficient de corrélation.

L'outil qui a été principalement utilisé pour cette étude est le logiciel StatLab version 3, logiciel d'analyses statistiques datant de 1994, qui permet à l'aide d'une interface assez simple d'utilisation de réaliser toute une série d'analyses dont les principales sont :

-  Analyse en Composantes Principales (A.C.P.),
-  analyse factorielle,
-  classification hiérarchique,
-  calcul de corrélations,
-  régression.

Les résultats produit par StatLab devraient nous permettre de mettre à jour les variables discriminantes du roman policier par opposition au roman sérieux, et de faire émerger des sous-groupes au sein du roman policier.

Enfin, nous avons eu recours à un outil de calcul de similarités qui établit des score de proximité entre des individus sur la base de la méthode des poids de Salton. A la base, il est conçu pour comparer des documents à partir de leur lexique, mais rien n'interdit de prendre d'autres identifiants, s'il s'agit toujours de les compter. Cet outil devrait nous permettre de vérifier les hypothèses concernant l'identification de variables discriminantes, dans la perspective d'une reconnaissance automatique du genre d'un document

Précédent :: Sommaire :: Suivant