Exploiter des données morphosyntaxiques pour l'étude statistique des genres -
Application au roman policier

Précédent :: Sommaire :: Suivant

II.  Etude de cas : le roman policier

Nous allons ici mettre en application, à travers l'exemple du genre du roman policier, les aspects théoriques et méthodologiques exposés en première partie. Prenant le genre policier comme une réalité empirique, nous allons tenter, à travers l'étude des variables morphosyntaxiques du corpus de romans policiers dont nous disposons, de caractériser le roman policier par rapport à son « grand frère », le roman sérieux, ainsi que de voir à l'intérieur du corpus si des sous-genres ne peuvent pas être mis en évidence. Nous pourrons alors voir dans quelle mesure il est possible de modéliser un individu-type représentatif du genre policier et quel est son statut par rapport aux différentes tendances du genre et à son évolution historique.

A.  Le roman policier opposé au roman sérieux

1.  Comparaison des valeurs

Afin d'opposer roman policier et roman sérieux, une première démarche a consisté à comparer l'écart entre les deux pour chaque variable, en se basant sur les individus SERIEUX et POLICIER construits à partir de la moyenne des valeurs des romans constituant les deux ensembles. Pour observer ces variations, il fallait bien entendu ne pas s'attacher aux valeurs des variables, qui peuvent connaître des écarts importants : on passe de valeurs de l'ordre de 40 % pour la part de points dans l'ensemble de la ponctuation ou de verbes au présent, à des chiffres en dessous de 1 %, 24 au total, soit près d'un sixième de l'ensemble des valeurs. En outre, même si l'on exclut les comptages simples (var. 3-9), les variables restent hétérogènes dans leur nature.

Pour comparer ces variables, il fallait s'intéresser à la variation entre la valeur du roman policier et celle du roman sérieux, que nous avons exprimée en pourcentage [7]  : le tableau ci-dessous présente les variations du roman policier par rapport au roman sérieux qui dépassent 10 % (la date de parution a été exclue du calcul).

Valeur de la variable pour le policier

Variation du polar par rapport au roman sérieux

Valeur absolue de la variation

Variable

0,07%

-85,71%

85,71%

% de verbes au subjonctif plus-que-parfait par rapport à l'ensemble des verbes conjugués (temps simples et composés)

0,49%

-85,59%

85,59%

% de points virgules par rapport à l'ensemble des ponctuations

0,22%

-75,82%

75,82%

% de verbes au subjonctif imparfait par rapport à l'ensemble des verbes conjugués (temps simples et composés)

8,34%

54,73%

54,73%

% de verbes au passé composé par rapport à l'ensemble des verbes conjugués (temps simples et composés)

0,29%

-54,69%

54,69%

% de propositions incises parmi l'ensemble des propositions

0,05%

-54,55%

54,55%

% de verbes au passé antérieur par rapport à l'ensemble des verbes conjugués (temps simples et composés)

0,01%

-50,00%

50,00%

% de pronoms possessifs par rapport à l'ensemble des mots

4,08%

49,45%

49,45%

% de points de suspension par rapport à l'ensemble des ponctuations

1,46%

-42,29%

42,29%

% de verbes à la 1e personne du pluriel parmi l'ensemble des verbes conjugués (temps simples et composés)

0,03%

-40,00%

40,00%

% de crochets et accolades par rapport à l'ensemble des ponctuations

4,78%

38,95%

38,95%

% de points d'interrogation par rapport à l'ensemble des ponctuations

2,37%

-36,97%

36,97%

% de pronoms personnels à la 1e personne du pluriel parmi l'ensemble des pronoms personnels sujets

0,07%

-36,36%

36,36%

% de verbes au futur antérieur par rapport à l'ensemble des verbes conjugués (temps simples et composés)

0,54%

35,00%

35,00%

% de noms composés par rapport aux noms (communs ou propres)

39,63%

33,93%

33,93%

% de points par rapport à l'ensemble des ponctuations

3,28%

-33,87%

33,87%

% de pronoms possessifs à la 1e personne du pluriel par rapport à l'ensemble des mots

0,08%

33,33%

33,33%

% d'abréviations parmi l'ensemble des noms propres

0,02%

-33,33%

33,33%

% de propositions principales parmi l'ensemble des propositions

39,11

-32,28%

32,28%

moyenne mots/paragraphe

3,35

-31,07%

31,07%

moyenne phrases/paragraphe

4,81%

31,06%

31,06%

% de verbes à la 2e personne du singulier parmi l'ensemble des verbes conjugués (temps simples et composés)

3,97%

-29,98%

29,98%

% d'adjectifs démonstratifs par rapport à l'ensemble des déterminants

7,35%

-29,93%

29,93%

% de pronoms relatifs par rapport à l'ensemble des pronoms

5,61%

29,86%

29,86%

% de pronoms personnels à la 2e personne du singulier parmi l'ensemble des pronoms personnels sujets

2,27%

-29,72%

29,72%

% de verbes au futur par rapport à l'ensemble des verbes conjugués (temps simples et composés)

4,35%

28,70%

28,70%

% de pronoms possessifs à la 2e personne du singulier par rapport à l'ensemble des mots

0,38%

-28,30%

28,30%

% de propositions participiales parmi l'ensemble des propositions

0,24%

-27,27%

27,27%

% de noms communs inconnus par rapport à l'ensemble des noms communs

2,24%

-27,04%

27,04%

% de deux-points par rapport à l'ensemble des ponctuations

6,88%

-24,40%

24,40%

% de pronoms possessifs à la 3e personne du pluriel par rapport à l'ensemble des mots

9,67%

-22,64%

22,64%

% de verbes à la 3e personne du pluriel parmi l'ensemble des verbes conjugués (temps simples et composés)

1,89%

-22,54%

22,54%

% de propositions relatives parmi l'ensemble des propositions

8,08%

-20,24%

20,24%

% de pronoms personnels par rapport à l'ensemble des pronoms

11,93

-19,77%

19,77%

moyenne mots/phrase

3,41%

-19,39%

19,39%

% de points d'exclamation par rapport à l'ensemble des ponctuations

0,38%

-19,15%

19,15%

% d'adjectifs interrogatifs par rapport à l'ensemble des déterminants

0,34%

-19,05%

19,05%

% de parenthèses par rapport à l'ensemble des ponctuations

3,31%

18,21%

18,21%

% de pronoms sujets parmi l'ensemble des pronoms

5,92%

-18,12%

18,12%

% de noms communs de profession parmi l'ensemble des substantifs

1,65%

-16,67%

16,67%

% de pronoms relatifs par rapport à l'ensemble des mots

0,63%

16,67%

16,67%

% de verbes au conditionnel passé par rapport à l'ensemble des verbes conjugués (temps simples et composés)

0,36

-16,28%

16,28%

moyenne adjectifs/proposition

43,82%

-15,76%

15,76%

% de virgules par rapport à l'ensemble des ponctuations

7,84%

-14,69%

14,69%

% d'adverbes précédant un adjectif parmi l'ensemble des adverbes

34,66%

14,58%

14,58%

% de noms concrets par rapport à l'ensemble des noms

2,71%

-14,51%

14,51%

% de conjonction de coordination par rapport à l'ensemble des mots

20,95%

14,29%

14,29%

% des phrases comportant au moins une proportion subordonnée par rapport à l'ensemble des phrases

20,3%

14,04%

14,04%

% de noms communs de lieu parmi l'ensemble des substantifs

0,44%

-13,73%

13,73%

% d'adjectifs possessifs par rapport à l'ensemble des mots

14,79%

13,68%

13,68%

% de verbes à la 1e personne du singulier parmi l'ensemble des verbes conjugués (temps simples et composés)

16,69%

12,47%

12,47%

% de propositions subordonnées parmi l'ensemble des propositions

2,46%

12,33%

12,33%

% d'articles indéfinis par rapport à l'ensemble des mots

21,54%

-10,92%

10,92%

% de verbes à l'imparfait par rapport à l'ensemble des verbes conjugués (temps simples et composés)

2,13%

-10,88%

10,88%

% d'adjectifs indéfinis par rapport à l'ensemble des mots

10,79%

-10,68%

10,68%

% de noms propres de type géographique parmi l'ensemble des noms propres

3,12%

-10,60%

10,60%

% d'adjectifs indéfinis par rapport à l'ensemble des déterminants

7,6%

10,14%

10,14%

% de mots rares par rapport à l'ensemble des mots

1,76%

10,00%

10,00%

% d'adjectifs cardinaux par rapport à l'ensemble des déterminants

Sur la base de cette première opposition, on peut d'ores et déjà tenter d'esquisser un portrait-type du roman policier : des phrases plus courtes, une diminution de la part des virgules au profit des points, sont le signe d'une écriture plus incisive, à laquelle il faut sans doute rattacher le plus faible emploi de temps complexes (passé et imparfait du subjectif, passé antérieur), même si ce dernier élément peut être rattaché à l'évolution plus générale de l'écriture littéraire. Dans le même temps, cette réduction de la longueur des phrases favorise la syntaxe au détriment de la parataxe, puisque la part des propositions subordonnées est de 14 % plus importante dans le roman policier.

La part importante de l'oralité dans le genre policier est figurée par une série de variations corrélées, en particulier un déficit de la 3 e personne du singulier pour les verbes comme pour les pronoms, qui profite à la 2 e personne du singulier pour les verbes, ce qui montre qu'il ne s'agit pas seulement d'une variation de la position du narrateur, homodiégétique ou hétérodiégétique, tant la narration à la deuxième personne reste dans le cadre de l'expérience plus que de la pratique courante. A cela s'ajoute un écart de + 30 % dans l'emploi du passé composé, temps de l'oralité opposé au passé simple en déficit dans le policier, ainsi qu'une part importante de points d'interrogation, qu'il faut sans aucun doute relier aux dialogues plus qu'au mystère à l'œuvre dans le genre.

A l'inverse, une série de variables connaissent une variation presque nulle entre le policier et le roman sérieux :

Valeur de la variable pour le policier

Variation du polar par rapport au roman sérieux

Valeur absolue de la variation

Variable

77,05%

1,85%

-1,85%

% des verbes transitifs directs parmi l'ensemble des verbes

71,79%

1,51%

-1,51%

% d'adjectifs épithètes par rapport à l'ensemble des adjectifs

6,15

1,44%

-1,44%

moyenne mots entre ponctuations

20,04%

1,43%

-1,43%

% de pronoms possessifs à la 1e personne du singulier par rapport à l'ensemble des mots

3,01%

1,31%

-1,31%

% de verbes à l'impératif par rapport à l'ensemble des verbes conjugués (temps simples et composés)

3,79%

1,30%

-1,30%

% des verbes intransitifs parmi l'ensemble des verbes

83,07%

1,24%

-1,24%

% de noms communs par rapport aux noms (communs ou propres)

50,93%

1,21%

1,21%

% de mots signifiants (c.à-d. non mots-outils) par rapport à l'ensemble des mots

79,3%

1,11%

-1,11%

% de propositions indépendantes parmi l'ensemble des propositions

43,27%

0,87%

-0,87%

% de substantifs par rapport au total des mots signifiants (substantifs, adjectifs, verbes, adverbes)

96,28%

0,85%

0,85%

% de pronoms parmi l'ensemble des sujets

6,19%

0,81%

0,81%

% de noms communs de temps parmi l'ensemble des substantifs

15,29%

0,52%

-0,52%

% d'adverbes par rapport au total des mots signifiants (substantifs, adjectifs, verbes, adverbes)

4,53%

0,44%

-0,44%

moyenne lettres/mot

69,06%

0,39%

-0,39%

% de verbes à la 3e personne du singulier parmi l'ensemble des verbes conjugués (temps simples et composés)

100

0,00%

0,00%

moyenne adverbes/proposition

8,73%

0,00%

0,00%

% d'articles définis par rapport à l'ensemble des mots

0%

0,00%

0,00%

% d'adjectifs démonstratifs par rapport à l'ensemble des mots

Ces faibles écarts confirment certaines observations et en appellent d'autres : la constance de la part des verbes à la 3 e personne du singulier, qui constituent la grande majorité des personnes verbales employées (69 %), semble montrer que le mode de narration n'est effectivement pas différent du policier au roman sérieux, même si la trame et la structure narratives varient grandement de l'un à l'autre.

Par ailleurs, en examinant la moyenne d'adverbes par proposition ou le nombre moyen de lettre par mots, on constate qu'ils sont similaires de l'un à l'autre ; nous savons que ce sont des variables discriminantes entre le roman et le texte argumentatif ou le texte technique, ce qui confirme que l'approche par paliers ici retenue est pertinente et que l'identification d'un genre ne peut se faire que dans la perspective d'une opposition à un autre genre.

2.  Définir un jeu restreint de variables via l'étude des corrélations

Ce classement, qui montre assez clairement les variations principales entre roman policier et roman sérieux, est-il suffisant ? Dans la perspective d'une reconnaissance automatique du genre auquel appartient un texte, il a été montré que la restriction des variables aux plus discriminantes d'entre elles permet d'augmenter sensiblement les performances des outils de classement en éliminant le bruit. D'autre part, il apparaît intéressant pour une étude plus précise des romans sérieux par rapport aux policiers d'étudier quelques groupes de variables séparés et homogènes afin de porter un regard transversal sur les différences entre les deux genres.

Le calcul précédemment fait sur les pourcentages de variation policier/sérieux nous aide à constituer ces groupes en nous montrant sur quels traits morphosyntaxiques particuliers les oppositions se font : on retiendra en premier lieu la ponctuation (10 variables, n° 21-30), qui possède l'énorme avantage de ne pas requérir l'utilisation d'étiqueteurs morphosyntaxiques ; un deuxième groupe sera formé des temps employés (15 variables, n° 90-104), et un troisième par les personnes des verbes (6 variables,  n° 105-110). Certains de leurs éléments couvrent onze des quinze variations les plus importantes entre roman policier et roman sérieux, et ont donc une légitimité à être retenues.

Ces trois groupes de variables ont en outre deux avantages importants qui motivent leur choix . En premier lieu, elles couvrent des ensembles finis : on peut examiner toute la ponctuation, tous les temps, toutes les personnes verbales. Il semble indispensable de prendre de tels "ensembles" plutôt que de choisir ici et là une variable particulièrement discriminante, car cela permet de retrouver la baisse d'un élément dans la hausse d'un autre et de faciliter une étude discriminante. En outre, dans la perspective d'une étude sur le genre policier, on peut ainsi savoir, par exemple, à quel type de temps profite la baisse du futur dans les temps employés, etc.

D'autre part, l'analyse systématique des corrélations entre variables sur les 124 variables initiales montre qu'à l'intérieur des trois groupes (ponctuation, temps, personne), les variables sont assez indépendantes entre elles, ou créent des sous-groupes, et d'autre part qu'elle peuvent être fortement corrélées avec d'autres variables parmi les 124 autres ; nous reviendrons sur l'étude de ces corrélations par la suite.

Afin de confirmer la pertinence du choix de ce jeu réduit de variables opposant roman policier et roman sérieux, nous avons pratiqué deux analyses en composantes principales à l'aide de StatLab en y incluant à la fois l'ensemble des romans policiers et les individus POLICIER et SERIEUX, afin de voir lesquelles de ces variables participent particulièrement à l'opposition entre les deux genres. On aurait sans doute préféré disposer pour cela des romans composant le roman sérieux ; dans la mesure où l'individu SERIEUX se trouve noyé dans la masse des romans policiers, c'est sa position par rapport à l'ensemble des romans qui indiquera le degré de proximité qu'il entretient avec les policiers.

Dans la première A.C.P., l'ensemble des 124 variables disponibles a été pris en compte ; dans la deuxième, seul le trio ponctuation-temps-personne est entré en jeu.


A.C.P. portant sur l'ensemble des variables – axes 1 et 2

Dans les deux cas, nous ne montrons ici que les axes 1 et 2, les vues exploitant les autres axes de l'A.C.P. donnant une vue similaire pour le problème qui nous intéresse : dans l'A.C.P. réalisée sur toutes les variables, on constate que l'individu SERIEUX est fortement déporté vers le bas du graphique, ce qui montre, si besoin était, la validité d'une analyse des genres sur la base d'éléments morphosyntaxiques. Cela étant, l'individu policier ne se trouve pas lui-même au centre du graphique, comme on aurait pu le souhaiter, de sorte que le point de gravité du roman policier nous échappe quelque peu, et que la validité de l'individu POLICIER se trouve mise à mal.

Dans la deuxième A.C.P., au contraire, ce problème se trouve résolu puisque le POLICIER se trouve exactement à la croisée des axes de l'analyse ; cela reste vrai si l'on s'intéresse aux axes 3 à 10 de l'A.C.P., avec lesquels on aura une représentation totale de 70 % des variations :


A.C.P. portant sur les variables de ponctuation, de temps et de personne verbale – axes 1 et 2

Au cours de ces variations, on retrouve également l'individu SERIEUX à une place assez constante, c'est-à-dire comme ci-dessus : pas tout à fait au milieu, mais pas exactement à l'écart des autres individus, bien qu'il n'agrège pas autour de lui de romans. On aurait pu souhaiter, pour valider la modélisation par les variables ponctuation-temps-personne, que le SERIEUX se trouve envoyé à la périphérie du graphique ; au contraire, nous ne pensons pas qu'il faille considérer ce résultat comme un échec.

En effet, le plus important semble acquis, à savoir que l'individu POLICIER soit le centre gravitationnel de l'analyse en composantes principales ; l'éloignement moyen du SERIEUX, qui se trouve ainsi à proximité de certains romans policiers et même plus proche du POLICIER que certains polars attestés, est le reflet de la continuité qui existe entre roman policier et roman sérieux. Il n'est pas envisageable de souhaiter trancher brutalement entre les deux genres, et si nombre d'éléments les séparent, il existe bel et bien un continuum entre les deux ; cette continuité est historique, elle est aussi à l'œuvre dans les romans des auteurs qui ont pu naviguer d'un genre à l'autre, et elle se retrouve dans les écritures. C'est alors à l'intérieur même du roman policier qu'il importe de distinguer ce qui appartient au roman sérieux et ce qui lui est propre, et de faire le lien entre ces deux genres.

Précédent :: Sommaire :: Suivant