GENRES ET VARIATIONS MORPHOSYNTAXIQUES
Denise MALRIEU & François RASTIER
CNRS / Université
Paris 10
(Texte paru dans
Traitement Automatique des
langues, 2001, vol. 42, n°2, p. 548-577.
L'édition électronique reprend la pagination originale.)
SOMMAIRE
1. Discours, genres et typologie des textes
1.1. Discours et genres
1.2. Problèmes
et perspectives en linguistique de corpus
2. Le corpus
d’étude et les variables
2.1. Une
conception critique du corpus
2.2. Les variables
3. Les genres, champs génériques et discours
prédéfinis
peuvent-ils se différencier automatiquement ?
3.1.
L'approche univariée
3.1.1.
Différenciation des discours : l'exemple du discours
juridique
3.1.2.
La comparaison des discours et des champs génériques
3.1.3.
La comparaison entre champs génériques et genres
3.1.4.
La comparaison des genres : l'exemple des genres narratifs
3.2.
Approche multivariée
3.2.1.
L'analyse en composantes principales
3.3.
La classification hiérarchique ascendante
3.3.1. Le
haut de la classification
3.3.2. Le bas
de la classification
4. Au-delà ou en-deça des genres ?
4.1.
La représentation de l’interlocution et ses transpositions
4.2. Les
positions dialogiques : objectivité vs subjectivité
4.3.
Et si Benveniste avait eu raison ?
5. Perspectives
RÉSUMÉ : A partir d’un corpus de 2. 500 textes complets classés par genres et discours et étiqueté par 251 types d’étiquettes, morphosyntaxiques pour la plupart, on cherche à retrouver et valider les différents niveaux de la classification, en utilisant des pourcentages calculés sur les étiquettes. On utilise pour cela successivement des analyses univariées, pour qualifier les variations selon les catégories d’étiquettes, et une analyse multivariée utilisant des méthodes de classification automatique. Les résultats, à affiner, mais cependant probants, pourraient conduire à reconsidérer certains postulats admis en linguistique.
ABSTRACT : With a differential statistical analysis of 2500 integral texts of a french language textual database parsed and tagged by the parser CORDIAL with 251 tags, we tried to retrieve and validate the differents levels of the a priori texts classification. At this end, are successively applied univariate analyses, in order to qualify the variations according to the tags and multivariate analysis (factorial analysis and automatic hierarchical analysis with the Ward method). The results ¾ to be refined, but convincing ¾ may lead to reconsider some generally assumed linguistic postulates.
Vous pouvez adresser vos commentaires et suggestions à : dmalrieu@ext.jussieu.fr