Denise Malrieu & François Rastier : GENRES ET VARIATIONS MORPHOSYNTAXIQUES

--- 548 ---

1. Discours , genres et typologie des textes

Peu étudiée en linguistique, la notion de genre suscite des débats sur sa définition et son opérativité, car elle est souvent confondue avec celle de type de texte, et tantôt définie à partir de « fonctions du langage » [BIB 88 , 92], tantôt assimilée avec le domaine sémantique du discours [ILL99]. Alors que les travaux pionniers de [BIB 88 , 93 , 99] visent à développer une typologie inductive des textes en les caractérisant par un ensemble de dimensions organisant des traits linguistiques, la recherche dont nous présentons les premiers résultats combine la catégorisation préalable des genres et l'approche empirique pour qualifier les différences significatives entre genres prédéfinis et tester la pertinence de leur classement initial.

1.1. Discours et genres

Sans doute indéfinissables a priori , les fonctions du langage, se concrétisent dans des pratiques sociales diversifiées qui déterminent les discours et les genres.  Comme tout texte relève d’un genre, la typologie des genres commande celle des textes. En outre, comme tous les genres relèvent d’un discours déterminé, leur typologie est sans doute subordonnée à celle des discours. [1]

Nous distinguons quatre niveaux hiérarchiques supérieurs au texte : les discours (ex. (juridique vs littéraire vs essayiste vs scientifique), les champs génériques (ex. théâtre, poésie, genres narratifs [2]), les genres proprement dits (ex. comédie, roman « sérieux », roman policier, nouvelles, contes, mémoires et récits de voyage), les sous-genres (ex. roman par lettres [3]). Au niveau inférieur de la classification, nous trouvons les textes d’un même auteur. Soit :

--- 549 ---

Figure 1 : Niveaux de classification

Aussi, cinq raisons convergentes engagent à considérer le genre comme le niveau fondamental pour la catégorisation des textes.

(i) Il n’y a pas de genres suprêmes (pas de genre de genres), puisque les critères de groupement des genres sont les discours et les pratiques qui leur correspondent. Aussi, de grandes catégories de l’expression, comme la prose ou l’oral, conduisent-ils à des regroupements oiseux : par exemple, l’oral, de la brève de comptoir au réquisitoire, n’a évidemment pas plus d’unité que la prose. De même, les catégories sémantiques de type fonctionnel (information, divertissement, etc.) regroupent des textes hétérogènes par leur genre et leur discours.

(ii) Pour établir le cadre conceptuel d’une typologie des genres, on peut concevoir la production et l'interprétation des textes comme une interaction non-séquentielle de composantes autonomes : thématique, dialectique, dialogique et tactique [RAS 89] .
— La thématique rend compte des contenus investis, c’est-à-dire du secteur de l’univers sémantique mis en œuvre dans le texte. Elle en décrit les unités ; par analogie, et bien qu’elle ne décrive pas spécifiquement le lexique, on peut dire qu’elle traite du “vocabulaire” textuel (molécules sémiques, faisceaux d’isotopies, etc.). — La dialectique rend compte des intervalles temporels dans le temps représenté, de la succession des états entre ces intervalles et du déroulement aspectuel des processus dans ces intervalles.

--- 550 ---

— La dialogique rend compte des modalités, notamment énonciatives et évaluatives, ainsi que des espaces modaux qu’elles décrivent. Dans cette mesure, elle traite de l'énonciation représentée
— l’énonciation réelle ne relevant pas de la linguistique, mais de la psycholinguistique ou de la philosophie du langage.
— La tactique rend compte de la disposition séquentielle du signifié, et de l’ordre, linéaire ou non, selon lequel les unités sémantiques à tous les paliers sont produites et interprétées.

Chacune de ces quatre composantes peut être la source de critères typologiques divers, mais ne suffit pas à caractériser un genre. Aussi admettons-nous cette hypothèse : sur le plan sémantique, les genres seraient définis par des interactions normées entre les composantes que nous venons d’évoquer.

(iii) Les parties de genres sont elles-mêmes relatives à ces genres : par exemple, la description inaugurale dans la nouvelle du XIX e n’est pas une simple occurrence de la description.

(iv) Les sous-genres, comme le roman “ de formation ” ou le roman policier sont définis par diverses restrictions qui intéressent soit le plan de l’expression (par exemple le roman par lettres, le traité versifié), soit celui du signifié. Elles doivent être spécifiées selon les composantes mises en jeu : thématique et dialectique pour le roman policier, par exemple, dialogique pour les romans fantastiques, tactique pour les sonnets liminaires, etc.

(v) L’étude des genres n’est qu’une étape dans un processus de caractérisation, et elle revêt son plus grand intérêt quand elle permet de percevoir la singularité des textes — de même que les normes sociales constituent le fond qui permet de comprendre les actions individuelles [4].

S’il est possible, pour des applications, de privilégier le discours (ex. politique) ou le champ générique comme niveau d’analyse, au plan de la théorie linguistique, dans la mesure où nous cherchons à caractériser la textualité, c’est le genre et non le discours qui la détermine. Un discours regroupe des textes à structure trop hétéroclite pour cet objectif : comment et pourquoi comparer, au sein du discours littéraire la maxime et l’épopée ? En revanche, au sein d’un champ générique, les genres sont en compétition et en co-évolution (cf. sur l’évolution comparée du roman sérieux, du roman policier et du polar, Beauvisage, 2001) [BEA 01].

--- 551 ---

1.2. Problèmes et perspectives en linguistique de corpus

La demande sociale d’une théorie opératoire des genres est croissante, aussi bien pour la linguistique de corpus que pour l’accès aux banques textuelles. L’étude des corpus en situation suggère que le lexique, la morphosyntaxe (cf. infra , 3), voire la manière dont se posent les problèmes sémantiques de l'ambiguïté et de l'implicite, tout cela varie avec les genres. Les systèmes d’analyse et de génération doivent tenir compte de ces spécificités, si bien que les projets de systèmes universels semblent ainsi irréalistes, linguistiquement parlant [5]. Pour parvenir à des traitements automatiques efficaces de corpus, il convient de spécifier les fonctionnements propres aux différents genres. Dans un corpus homogène, connaître la structure du genre peut permettre de simplifier les traitements : ainsi, certaines parties des textes seront par exemple éliminées, pour constituer des sous-corpus pertinents pour une tâche donnée. En outre, la connaissance des genres peut s'avérer utile pour la recherche d'informations : dans les articles scientifiques, par exemple, la formulation des hypothèses est à rechercher dans des parties bien définies de la structure du texte, les discussions théoriques aussi. Cependant, l'article expérimental n'a pas la même structure que l'article théorique, etc. Aussi une description fine est-elle un préalable nécessaire.

Si l’on convient des insuffisances d'une linguistique fondée sur des exemples, pour progresser dans l’étude des genres et de la nature des normes linguistiques qui les structurent, il faut unifier l’étude de la langue et l’étude de la « parole » (au sens saussurien du terme), en étudiant des usages par une linguistique de corpus [BAR 00]. L'un des pionniers de cette démarche est D. Biber [6]. Le profilage de textes proposé par Habert et ses collaborateurs s’en inspire pour proposer «un bilan quantitatif fondé sur des indices linguistiques» [HAB 00]. Le profilage commence par une «neutralisation des genres», pour faire émerger des configurations textuelles indépendantes des genres et des discours. Ce choix suscite deux questions en débat.

--- 552 ---

a) Habert et coll. affirment : « nous visons à éliminer le contexte situationnel et historique des textes » (1999) ; cependant, sans faire à proprement parler partie de ce contexte, les genres varient tout de même avec lui. Si le genre constitue une variable qui véhicule des contraintes globales et locales, négliger cette variable peut obscurcir la compréhension des phénomènes. Par exemple, dans ses travaux sur la comparaison entre les discours de De Gaulle et de Mitterand, Dominique Labbé a peut-être sous-estimé la disparité entre les discours écrits (dominants chez de Gaulle) et les entretiens oraux (dominants chez Mitterand), ce qui conduit sans doute à attribuer aux auteurs des différences qui relèvent des genres, voire à négliger l’opposition entre l’écrit oralisé des discours de De Gaulle et l’oral transcrit des entretiens de Mitterand [7].

b) De fait, aucune typologie des textes fondée sur des critères définis indépendamment des genres (comme oral vs écrit, public vs privé, etc.) n’a permis d’isoler des genres : par exemple, les tentatives de classification automatique conduites par Biber ont conclu à des variations très importantes selon les corpus, mais sans isoler des genres, ce qui n’était d’ailleurs pas son propos. Certains auteurs considèrent qu’un genre n’est qu’un type parmi d’autres, voire un “ genre de type ”. La question sera tranchée quand on aura produit des types de textes stables et cohérents, indépendants de toute connaissance préalable des genres et des discours, qui ne recoupent ni les genres ni les discours, et qui aient une pertinence théorique et pratique. Alors — le défi est lancé —, la typologie des textes sera devenue indépendante de la théorie des genres.

c) Le statut des configurations obtenues par « induction » appelle des précisions, car les normes linguistiques varient tout à la fois selon les discours (qui correspondent à des types de pratiques), les genres (qui correspondent à des situations typiques), et enfin les styles. Par ailleurs, en raison de la détermination du global sur le local, les variations sont déterminées par les discours, les genres et les styles individuels, et elles ne peuvent être ordonnées et comprises que si l’on ménage, dès le choix du corpus, les conditions de cette compréhension.

Cependant, nous ne privilégions pas exclusivement une démarche « déductive » : la linguistique de corpus qui se développe actuellement doit permettre de refonder ou d’affiner les distinctions intuitives et empiriques entre genres . En effet, les variations morphosyntaxiques selon les genres sont notables. Par exemple, les textes littéraires contiennent significativement moins de passifs que les autres ; la position de l’adjectif, la nature des déterminants, des pronoms et des temps, l’usage du nombre varient aussi notablement. Ou encore, dans le domaine technique même, les variations sont importantes entre un manuel et une brochure commerciale : au premier, les acronymes, les impératifs, les ellipses de déterminants ; au second, les phrases longues, les pronoms nombreux, etc. Bref, l’étude des normes linguistiques

--- 553 ---

complète utilement celle des règles et permettra sans doute de préciser leurs conditions d’application [8].
 

Remarque . Derrière l’opposition fort approximative entre démarche inductive et démarche déductive se dessine une opposition nette entre deux conceptions du texte : la conception ordinaire en informatique linguistique en fait une chaîne de caractères, sans plus. Cependant, la chaîne de caractères n’est accessible que par restriction : par exemple, si l’indication roman est portée sur un ouvrage, elle ne fait pas partie du texte (au sens restreint) mais bel et bien de l’œuvre — d’ailleurs les auteurs n’ont pas manqué d’en jouer. Ainsi, selon la conception philologique que nous partageons, le texte ne se réduit pas à une chaîne de caractères, mais doit être considéré comme une œuvre, au sens général du terme, qui ne se limite pas aux pratiques artistiques. Ce statut dérive de l’action pratique qui l’a produit et configuré. En d’autres termes, les pratiques que reflètent les genres déterminent les modes génétique, mimétique et herméneutique des textes, et elles commandent ainsi les « traitements des chaînes de caractères ». En d’autres termes, les variables recueillies dans l’en-tête du texte (auteur, date, genre, etc.) sont des variables globales qui déterminent les variables locales étiquetant les unités dans le corps du texte.
 

L’approche sémantique globale part de catégories « intuitives » de genre qui caractérisent globalement le texte, au même titre que la date ou l’auteur, et elle doit être combinée avec l’approche empirique et contrôlée par elle.

Si l'approche empirique « inductive » peut aider à mettre en évidence des différences entre textes, nous n'attendons pas qu'elle définisse les genres textuels. Nous considérons en effet que les genres sont définis par l’interaction normée de composantes textuelles : nous jouons alors de difficulté, puisque les traits linguistiques dont nous disposons pour conduire l’étude présentée ici sont issus d’une analyse morphosyntaxique au palier de la phrase qui ne tient évidemment pas compte des contraintes des paliers supérieurs.

Pour les variables morphosyntaxiques dont nous disposons, nous chercherons s'il existe des différences significatives au sein de chaque niveau. À chacun correspond, nous le verrons, une spécificité morphosyntaxique propre, car les variables discriminantes à un niveau ne le sont pas nécessairement aux autres. D'autre part, nous chercherons à qualifier les groupements de variables corrélées dans notre corpus ; et comme les corrélations observées restent relatives au corpus de travail, nous ferons varier sa composition pour explorer les variations de facteurs selon les genres [9].

Nous chercherons enfin si une classification descendante est confirmée par une classification ascendante, de manière à parvenir à une classification objectivée. Si les classes formées par la classification automatique recoupent les genres prédéfinis, cela confirmera le caractère déterminant des genres sur les usages linguistiques. Les classes qui s’écartent des genres prédéfinis seront étudiées pour enrichir ou rectifier la

--- 554 ---

définition des genres, en gardant à l'esprit que le statut des classes formées automatiquement reste indéfini a priori , dans l’attente d’une qualification sémantique.


2.
Le corpus d’étude et les variables

2.1. Une conception critique du corpus

Tout corpus reflète le point de vue qui a présidé à sa constitution : le nôtre a été réuni pour constituer un échantillon représentatif des usages linguistiques écrits du français moderne, en premier lieu pour élaborer un correcteur orthographique et grammatical. Il compte ainsi des centaines de romans policiers, censés rendre mieux compte d’usages contemporains que les romans « sérieux ». En général, un corpus « de langue » n’est pas homogène, et celui-ci ne fait pas exception : il n’est pas partout au même niveau de variété, d’homogénéité ou de représentativité (ex. les textes scientifiques ou techniques). Cependant, il résulte d’un objectif explicite et en tire une cohérence légitime [10]. Nous l’avons légèrement restreint pour notre propos, en éliminant les discours, champs génériques ou genres trop peu représentés, comme le discours religieux, représenté par une seule œuvre de Bossuet.

Le corpus compte néanmoins 2541 ouvrages, soit 164 millions de mots et 27 millions d’autres signes (ponctuations, alinéas [11]). Il est donc 300 fois plus étendu que celui dont Biber tire ses conclusions (481.000 mots) ; en outre, il comprend uniquement des textes intégraux et non des extraits. Il se répartit sur quatre discours inégalement représentés : scientifique, juridique, essayiste, littéraire. Le discours juridique se divise en rapports, codes et lois. Le discours scientifique et technique reste divisé par domaines, informatique, linguistique, médecine, physique et mathématiques, sciences naturelles, autres : cette division, discutable, n’a pas été utilisée ; de même pour les essais qui ressortissent à diverses disciplines, histoire, politique, critique

--- 555 ---

artistique, etc. Le discours littéraire se divise en trois champs génériques : récits, poésie et théâtre. Parmi les récits, on distingue les romans « sérieux », les romans policiers, les contes, les nouvelles, les récits de voyage et les mémoires ; au sein de la poésie, la poésie lyrique (en vers, en prose) et les fables ; au sein du théâtre, la comédie, le drame et la tragédie. Quantitativement, le corpus se présente ainsi :

Discours

Code

Nombre

Pourcent.

Essais

E

246

10,5

Scientifique

H

66

1,8

Juridique

J

155

6,1

Littéraire

L

2074

81,6

Champs génériques littér.

 

 

 

Poésie

P

125

4,9

Théâtre

T

225

8,9

Genres narratifs

R

1724

67,8

Genres

 

 

 

Essais philosophiques

E_F

83

3,3

Essais historiques

E_H

44

1,7

Essais littéraires

E_L

40

1,6

Ess. politiques et sociaux

E_P

98

3,9

Scientifique

 

 

 

Divers

H_D

12

0,5

Informatique

H_I

4

0,2

Linguistique

H_L

3

0,1

Médecine

H_M

7

0,3

Physique

H_P

15

0,6

Sciences Naturelles

H_S

5

0,2

Juridique

 

 

 

Codes

J_C

11

0,4

Lois

J_L

32

1,3

Rapports

J_R

112

4,4

Poésie

 

 

 

  P. lyrique

P_L

97

3,8

  P. en prose

P_P

28

1,1

Genres narratifs

 

 

 

Contes

R_C

49

1,9

Mémoires

R_M

88

3,5

Nouvelles

R_N

51

2

Roman policier

R_P

521

20,5

Roman « sérieux »

R_S

989

38,9

Récits de voyage

R_V

26

1,0

Théâtre

 

 

 

Comédie

T_C

142

5,6

Drame et Tragédie

T_D

83

3,3

--- 556 ---

Le corpus comporte 49 % d'ouvrages de la seconde moitié du XX e siècle, 13 % de la première moitié, 13 % de la première moitié du XIX e et 14 % de la seconde moitié, 5% de la seconde moitié du XVIII ; le reste appartient aux XVII e et XVI e siècles.

L’attribution de genre résulte d’une hypothèse initiale qui s’appuie sur des indices divers : éditeur spécialisé, auteur, indication explicite, etc. ; aucun n’est nécessaire ni suffisant, mais pris ensemble ils sont généralement indiscutables. Elle se fait sans difficulté dans tous les discours non littéraires, en droit, par exemple. Elle reste facile pour les champs génériques : ainsi, il est aisé de différencier le théâtre. Les incertitudes qui demeurent parfois ne sont pas irrémédiables ; des traitements de classification automatique permettent d’ailleurs de repérer les mauvais classements, en attirant l’attention sur les textes atypiques dans une catégorie, qui peuvent se révéler  mal classés : ainsi, une inadvertance avait placé Les Rois Maudits de Druon parmi les essais historiques, alors que la classification automatique l’a pertinemment placé parmi les romans.

2.2. Les variables

L'ensemble des textes du corpus a été étiqueté par l’analyseur morphosyntaxique CORDIAL de la société Synapse-Développement [12]. Catégorisé, le corpus compte un total de 187 millions d’étiquettes, plus les variables non ponctuelles (relatives aux phrases, etc.), soit environ 200 millions. Pour chacune des 251 variables, on calcule pour chaque texte les moyennes, les minima et les maxima : soit environ 1. 900.000 nombres.

Chaque texte est ainsi décrit par les variables suivantes : (i) Variables bibliographiques : titre de l'ouvrage, nom d'auteur, date de la première publication. (ii) Variables quantitatives : la taille en Ko, des chiffres absolus concernant quelques grandes catégories morphosyntaxiques, le pourcentage de chaque catégorie par rapport à la catégorie superordonnée (par ex : pourcentage d'articles définis sur l’ensemble des déterminants). (iii) Enfin, pour chaque catégorie morphosyntaxique, on dispose des moyennes par ouvrage (chaque ouvrage a le même poids dans la moyenne) ; des moyennes par taille (le poids de chaque ouvrage est proportionnel à

--- 557 ---

sa taille) ; enfin, des valeurs minimale et maximale de chaque variable par discours, champ générique et genre, ce qui permet de mesurer l’empan de variation.

Par rapport à celles que retient Biber, les variables sont trois fois plus nombreuses. Certaines catégories sont communes : temps des verbes, personnes, pourcentages relatifs sur les parties du discours (ex. pourcentage d’adjectifs parmi les mots lexicaux), et sur les types de propositions (ex. pourcentage de relatives). En revanche, nous ne disposons guère d'étiquettes concernant les intégrations de syntagmes ou de propositions : types de relatives, subordonnées de cause, modaux, passifs, types de questions, nominalisations [13]. Les principales classes de catégories dont nous disposons sont les suivantes : les ponctèmes (que complète le décompte des dialogues, des paragraphes, des phrases, des incises, des propositions) ; les parties du discours et les pourcentages des sous-catégories pour chacune d'elles ; les personnes des verbes, des adjectifs possessifs et pronoms possessifs et personnels ; les temps verbaux ; les types de verbes, transitifs directs ou indirects, avec COD obligatoire, types de sujet ou de COD (abstrait / concret, animal, animé) etc. ; les types de noms : nom propre (humain, prénom, géographique, autre), nom commun (abstrait ou concret, animal, animé, humain, humanoïde), % de noms de lieu, de temps, de profession, noms composés, noms épithètes, de noms appartenant à un groupe nominal ; les types de propositions (principales, coordonnées, subordonnées et les types de ces dernières) ; enfin, les types de compléments.

Le statut de ces variables est divers, et leur interprétation doit tenir compte de cette diversité : certaines, comme les pronoms, correspondent à des signes ("je, tu, il") dont l’interprétation demanderait l'analyse des composantes textuelles au niveau méso-sémantique (de la proposition au paragraphe) ; d'autres sont des indices de la complexité de la phrase, de la proposition, du syntagme; enfin, certaines peuvent être rattachées à des indices thématiques (humain, animé...), d'autres au registre de langue. La diversité des variables est un moyen d’objectivation : les corrélations entre variables en principe indépendantes, par exemple les temps verbaux et les ponctuations, permettent de mettre en évidence des relations insoupçonnées [14]. Les données statistiques dont nous partons correspondent au décompte des scores de chaque variable pour chacun des ouvrages, considéré comme un ensemble d’un seul tenant. Les "individus" (au sens statistique) à décrire et à classer sont les ouvrages, ou les groupements d’ouvrages (ex. les genres, champs génériques et discours). Ils individus sont décrits à l'aide des pourcentages calculés à partir des étiquettes.


NOTES

[1] page 548 :  L’existence de genres transdiscursifs reste douteuse, car le voisinage d’autres genres — ou, s’il s’agit de genres inclus, d’autres contextes d’inclusion — suffit à les modifier : ainsi, un proverbe n’a pas le même sens dans un discours ludique ou dans un discours juridique ; la lettre commerciale n’a presque rien de commun avec la lettre personnelle du discours privé, etc. Puisque les genres sont spécifiques aux discours, un texte technique, par exemple, ne peut être assimilé à un texte scientifique. Même dans des discours aussi proches que les discours scientifiques, les genres ne sont pas exactement comparables, car chaque discipline a ses traditions et ses normes : par exemple, un traité de physique n’obéit pas aux mêmes normes qu’un traité de linguistique.

[2] page 548 : Un champ générique est un groupe de genres qui contrastent voire rivalisent dans un champ pratique : par exemple, au sein du discours littéraire, à l’époque classique, le champ générique du théâtre se divisait en comédie et tragédie.

[3] page 548 : La question des sous-genres est délicate : en fait, indépendamment des sous-corpus définis pour une application, les sous-genres sont des lignées génériques, c’est-à-dire des séries de textes écrits les uns à partir des autres (cf. Rastier et Pincemin, 1999 [RAS 99]). C’est évidemment dans les genres littéraires que les lignées sont les plus apparentes ; elles évoluent par ruptures, et une étude diachronique doit en tenir compte (cf. Beauvisage, 2001[BEA 01]).

[4] page 550 : Sur la sémantique des genres, cf. Rastier, 1989, I, ch. III ; 2001, ch. 8.[RAS 01] Les genres sont des moyens (i) de la médiation symbolique (au sens proposé par Clifford Geertz, 1972 [GEE 72]) qui articule l’individuel et le social, et (ii) de la médiation sémiotique, celle qui articule le physique et le représentationnel. Traitant des genres au sein de la linguistique, la poétique généralisée engage dans son ensemble la médiation symbolique : le genre concilie l’action individuelle et la norme sociale où elle prend place.

[5] page 551 : Ils reposent en effet sur le préjugé normatif que la langue est homogène et identique à elle-même dans tous les textes et dans toutes les situations de communication.

[6] page 551 : Son approche a été parfaitement résumée ainsi par Habert et al. : «L'optique, inductive, consiste à faire émerger a posteriori les types de textes — considérés comme des agglomérats fonctionnellement cohérents de traits linguistiques — grâce à un traitement statistique multidimensionnel de textes annotés […] Biber examine les corrélations entre 67 traits linguistiques dans les 1.000 premiers mots de 481 textes d'anglais contemporain écrit et oral. Les traits étudiés ressortissent à 16 catégories distinctes (marqueurs de temps et d'aspect, questions, passifs, modaux...). Ils sont identifiés automatiquement sur la base d'un premier étiquetage morpho-syntaxique. La statistique multidimensionnelle permet d'obtenir des pôles multiples, positifs et négatifs, correspondant à des constellations de traits linguistiques corrélés. Ces pôles constituent deux à deux des dimensions textuelles. Chaque texte, par son emploi des traits linguistiques retenus, se situe en un point déterminé de l'espace à n dimensions issu de l'analyse. Les techniques de classification automatique permettent alors de regrouper les textes en fonction de leurs coordonnées sur ces dimensions. Les types de textes qui en résultent ne recoupent directement ni les "genres" des données de départ ni les registres intuitivement distingués ». (Habert et coll., 2000)[HAB 00].

[7] page 552 : Ces travaux n’ont malheureusement pas encore donné lieu à une publication synthétique ; voir  cependant Labbé, 2000 [LAB 00].

[8] page 553 : Les règles ne sont peut-être que des normes réifiées parce qu’elles évoluent lentement.

[9] page 553 : Dans cette étude, ce point ne sera pas développé ; il fait l’objet de travaux en cours.

[10] page 554 : La notion même de corpus doit être affinée, car un corpus n’est pas un ensemble de données, encore moins une collection sans principe défini parée du nom de ressource linguistique  : comme toujours dans les sciences de la culture, les données sont faites de ce que l’on se donne ; or le point de vue qui préside à la constitution d’un corpus conditionne naturellement les recherches ultérieures. Si la représentativité d’un corpus n’a rien d’objectif et dépend du type d’exploitation prévue, son homogénéité dépend aussi du type de recherche. En règle générale, les recherches en sémantique des textes doivent porter sur des corpus aussi homogènes que possible pour ce qui concerne leur genre, ou du moins leur discours. En effet, un texte peut « perdre » du sens, s’il est placé parmi des textes oiseux, car la comparaison avec eux ne permet pas de sélectionner d’oppositions pertinentes. La recommandation d’homogénéité n’a au demeurant rien d’exclusif, et l’un des objectifs de la critique philologique peut être aussi de problématiser les variations du corpus (cf. Rastier, 2001).

[11] page 554 : Extrait d’un corpus total de 500 millions de mots et 80 millions de ponctuations (y compris les retours chariot servant de fin de paragraphe), notre corpus en représente environ un tiers. S’il comporte les indications élémentaires d’en-tête (titre, auteur, date), il souffre de quelques insuffisances philologiques (concernant le péritexte, comme les préfaces, par exemple) qui restent cependant sans grande importance pour notre propos.

[12] page 556 : Aucun analyseur n’est parfait ; celui-ci a cependant obtenu des résultats satisfaisants aux tests comparatifs de correction orthographique et grammaticale : sur 17 tests, il est arrivé 15 fois en tête. Nous avons naturellement évalué ses taux d’erreurs : bien entendu inégaux, parfois assez élevés dans certains cas d’école (confusions pour les verbes du 3 e groupe entre le présent et le passé simple, ou pour les présents de l’indicatif et du subjeonctifs), ils ne sont pas assez forts pour remettre en cause les variations constatées, tant dans l’approche univariée que dans l’approche multivariée.
Par rapport aux versions du commerce, la version utilisée a subi à notre demande des modifications. La dernière version de Cordial intègre d’ailleurs notre classification des genres, et permet de préciser, à partir d’un extrait de texte, de quel genre répertorié dans le corpus il se rapproche le plus.

[13] page 557 : Le corpus de Biber a été étiqueté manuellement, et comporte ainsi des indications que dans l’état de l’art les analyseurs morphosyntaxiques ne fournissent pas encore.

[14] page 557 : Ainsi, par exemple, la corrélation entre le point-virgule et l’imparfait du subjonctif ne s’explique pas seulement par le niveau de langue ; ces deux étiquettes témoignent peut-être, avec des moyens différents, d’une même position énonciative de distance critique, qui corrélerait la pause du point-virgule, interprétée comme un suspens, voire un recul, avec la valeur hypothétique du subjonctif.


OUVRAGES CITÉS :

[BAR 00] Barlow, M. & Kemmer, S, éds., Usage-based models of language , CSLI Publications, Standford, 2000.

[BEA 01] Beauvisage, T., « Exploiter des données morphosyntaxiques pour l’étude statistique des genres — Application au roman policier », 2001, TAL, 16.

[BIB 88] Biber, D., Variation across Speech and Writing . Cambridge, Cambridge University Press, 1988.

[BIB 92] Biber, D., « On the complexity of Discourse Complexity ; a multidimensional Analysis » , Discourse Processes , 15, 1992, p. 133-163.

[BIB 93] Biber, D., « Using register-diversified corpora for general language studies » . Computational Linguistics , vol. 19, 2, 1993, p.243-258.

[BIB 00a] Biber, D., « Investigating language use through corpus-based analyses of association patterns », in M. Barlow & S. Kemmer (éds) : Usage-based models of language , CSLI Publications, Stanford, 2000.

[BIB 00b] Biber, D., Johanson, S., Leech, G., Conrad, S., Finegan, E., The Longman grammar of spoken and written English . Londres, Longman, 2000.

[GEE 72] Geertz, C., The Interpretation of Cultures , New York, Basic Books, 1972.

[HAB 00] Habert, B. et coll., « Profilage de textes : cadre de travail et expérience », Actes des 5èmes JADT . 2000.

[ILL 99] Illouz G., Habert B., Fleury S., Folch H., Heiden S., Lafon P., « Maîtriser les déluges de données hétérogènes », Actes TALN 1999 , Cargèse, 1999.

[LAB 00] Labbé, D., « La France, chez de Gaulle et Mitterand », in  Des mots en liberté — Mélanges Maurice Tournier , Saint-Cloud, ENS Editions, 2000, pp. 183-193.

[RAS 89] Rastier, F., Sens et textualité , Paris, Hachette, 1989.

[RAS 99] Rastier, F., & Pincemin, B., « Des genres à l'intertexte », Cahiers de Praxématique , n°23, 1999, p. 90-111.

[RAS 01] Rastier, F., Arts et sciences du texte , Paris, PUF, 2001.