Volume XXI - n°2 (2016). Coordonné par Audrey Moutat.
Écrits choisis d'Étienne BRUNET
Les catégories grammaticales chez Hugo
ÉTIENNE BRUNET
Globalement, par rapport à d'autres écrivains, et au vu des décomptes sur corpus, Hugo marque dans son style une préférence pour le substantif et le verbe. Au sein même de son œuvre, l'usage des catégories grammaticales est surtout influencé par le genre textuel (poésie, roman, théâtre, correspondance -le récit de voyage du "Rhin" occupant une place singulière) et beaucoup plus faiblement par la chronologie des œuvres. L'adjectif n'est pas sur-employé en tant que catégorie grammaticale, mais ce sont certains choix lexicaux (concernant certains adjectifs) qui sont marqués chez Hugo. Et si l'on détaille les adjectifs et participes en sept classes selon leur terminaison, l'étude statistique fait ressortir deux pôles, dont la stabilité sur d'autres corpus semble remarquable.
tag Brunet, computer linguistics, corpus, corpus linguistics, diachronie, diachrony, digital humanities, Frantext, French linguistics, French litterature, genres, Hugo, humanités numériques, hyperbase, informatique, lexicométrie, linguistique de corpus, linguistique quantitative, littérature, logiciel, logométrie, observables, quantitative linguistics, statistique, textes littéraires, textométrie, textometry, Trésor de la langue française
Écrits choisis d'Étienne BRUNET
La phrase de Zola
ÉTIENNE BRUNET
La phrase de Zola a une longueur moyenne par rapport à la littérature française des XIXe et XXe siècles, mais elle est plus segmentée (plus de virgules). À l'intérieur même de son œuvre des Rougon-Macquart, Zola évolue dans son usage de la ponctuation, et l'on mesure d'une part un double mouvement de raccourcissement puis d'allongement de la phrase, d'autre part l'abandon du point-virgule au profit de la virgule et celui du point au profit des ponctuations affectives, surtout exclamation. La diminution d'emploi des guillemets correspond à l'abandon de la technique des propos enchâssés dans le discours, au profit de la transcription directe où la parole est donnée au personnage. Ces évolutions chronologiques sont cependant à nuancer en fonction des différents types de textes que l'on peut distinguer à l'intérieur des Rougon-Macquart. Par ailleurs, l'étude du rythme de la phrase zolienne suppose de passer des effectifs globaux (texte par texte) aux variations quantitatives au fil du texte. Les mesures statistiques n'atteignent pas toujours le seuil de significativité mais révèlent une tendance au raccourcissement de la phrase entre le début et la fin du texte. Une autre mesure (d'autocorrélation) permet de vérifier que les phrases courtes s'attirent entre elles et s'agglutinent ainsi en certains passages, de même pour les phrases longues, ce qui donne à la succession des phrases l'apparence d'une houle, d'un rythme large, mais dont la périodicité est variable et complexe, relevant aussi d'autres dimensions liées (lexicale, syntaxique, textuelle).
tag Brunet, computer linguistics, corpus, corpus linguistics, diachronie, diachrony, digital humanities, Frantext, French linguistics, French litterature, genres, histoire de la littérature, humanités numériques, hyperbase, informatique, lexicométrie, linguistique de corpus, linguistique quantitative, littérature, logiciel, logométrie, ponctuation, quantitative linguistics, rythme, statistique, textes littéraires, textométrie, textometry, Trésor de la langue française, Zola
Écrits choisis d'Étienne BRUNET
Un texte sacré peut-il changer ?
Variations sur l'Évangile
ÉTIENNE BRUNET
Un corpus est constitué de trois traductions françaises (TOB, Maredsous, Chouraqui) pour chacun des quatre évangiles (Matthieu, Marc, Luc, Jean). Il permet d'observer l'influence respective de l'auteur et du traducteur sur la singularité de la formulation d'un texte. Pour ce corpus, c'est l'auteur (l'évangéliste Jean) qui caractérise en premier lieu les ressemblances entre textes : le calcul statistique semble ainsi confirmer le contraste établi par la critique traditionnelle, qui sépare l'évangile de Jean des trois autres évangiles dits synoptiques. Au plan de l'usage des pronoms personnels par exemple, l'évangile de Jean se caractérise par l'emploi de la première personne, celui de Matthieu par la deuxième personne et celui de Marc par la troisième, l'évangile de Luc se positionnant de façon intermédiaire entre Matthieu et Marc. L'évangile de Jean se caractérise aussi par un sur-emploi de la catégorie grammaticale du verbe, par rapport aux synoptiques qui font davantage usage du nom. Mais dans un second temps, une fois l'auteur Jean distingué des synoptiques, c'est un traducteur (Chouraqui) dont le style domine globalement les différences entre les textes des trois auteurs restants, en se distinguant notamment par un usage plus fréquent du pluriel.
tag analyse de texte, Bible, Brunet, computer linguistics, corpus, corpus linguistics, digital humanities, humanités numériques, hyperbase, identité textuelle, informatique, lexicométrie, linguistique de corpus, linguistique quantitative, logiciel, logométrie, Nouveau Testament, quantitative linguistics, statistique, textométrie, textometry, textual identity, traduction, translation
Corpus et méthodes
Corpus parallèles, corpus comparables: quels contrastes?
OLIVIER KRAIF
Cette synthèse porte sur l’exploration des corpus multilingues dans une perspective de linguistique de corpus outillée, en faisant intervenir des techniques de traitement automatique des langues : nous nous intéressons d’abord aux corpus parallèles alignés, puis aux corpus dits comparables, afin d’en montrer les spécificités et la complémentarité. Dans une première partie, nous revenons à nos recherches sur l’alignement phrastique, et développons une méthode originale de multi-alignement, afin d’illustrer l’idée des faisceaux de correspondances inhérents à la multi-textualité. Nous étudions ensuite les différents types de contrastes que les corpus parallèles peuvent révéler, notamment au plan lexical, qu’on les aborde sous l’angle de la lexicographie, de la didactique des langues ou de la sémantique structurale. L’instabilité des unités constituées par la notion d’équivalence traductionnelle nous conduit à interroger la notion d’unité de sens. La troisième partie pose la question de la fiabilité des corpus de traduction et de la présence éventuelle de biais traductionnels. A partir d’une étude textométrique, nous montrons que les traductions constituent néanmoins un matériau utile et authentique qu’il serait dommage d’écarter du champ la linguistique de corpus, les contrastes interlinguistiques pouvant être observés de manière complémentaire à partir de corpus parallèles et comparables. Nous concluons cette synthèse par la mise au point de techniques dédiées à l’étude des profils combinatoires et à l’extraction des unités polylexicales - la polylexicalité se révélant être au cœur du concept d’unité de sens, qu’on l’aborde sous l’angle des équivalences traductionnelles ou, d’un point de vue monolingue, à travers ce que Sinclair nomme le principe de l’idiome.
tag comparable corpora, contrastive linguistics, corpus comparables, corpus parallèles, linguistique contrastive, multiword units, parallel corpora, polylexicalité
Agenda
Colloque international "L'expérience et l'avenir du structuralisme"
Prague, 24-25 octobre 2016
Dits et inédits
Communication ou transmission ?
FRANÇOIS RASTIER
En linguistique, la problématique de la communication a pris une telle place qu’elle semble devenue une évidence insoupçonnable. Elle réduit cependant l’interprétation à un décodage et la connaissance à un transcodage. Il faut donc détailler comment elle empêche de penser la transmission, avant de faire des propositions pour poser les problèmes interprétatifs du commentaire, de la traduction et de la tradition, réunis sous la catégorie générale de la translation. La problématique de la transmission conduit alors à une réflexion anthropologique sur la diversité et l’évolution des cultures, où les langues assument une fonction constituante.
tag communication, cultures, interprétation, métalangage, traduction, transmission
Repères pour l'étude
Qu’est-ce qu’une information ?
Cours d’initiation à la recherche d’information
PASCAL VAILLANT
Dans un univers technique où tous les types de discours sont accessibles par les mêmes canaux sans hiérarchisation apparente (sur une page de résultats de moteur de recherche), un manque de culture critique peut facilement conduire à les mélanger tous dans une masse indistincte. Or un travail intellectuel demande de savoir repérer, identifier, et trouver, parmi la masse des discours d'opinion, une information légitime. Ceci implique de savoir discerner, et citer correctement, l'autorité d'une texte. Ce qui est en jeu est la culture du discours scientifique - non pas au sens d'une opposition artificielle entre disciplines « scientifiques » et « humaines », mais au sens d'une éthique de la construction d'un savoir empirique, argumenté et partagé. Ce cours, destiné en premier lieu aux étudiants de premier cycle universitaire, propose une réflexion sur le problème de l'identification d'une véritable source d'information fiable, puis des conseils sur les moyens d'y accéder.
tag authority, autorité, bibliographie, bibliography, éthique scientifique, Information search, recherche d'information, références, scientific ethics