Résumé : Cette synthèse porte sur l’exploration des corpus multilingues dans une perspective de linguistique de corpus outillée, en faisant intervenir des techniques de traitement automatique des langues : nous nous intéressons d’abord aux corpus parallèles alignés, puis aux corpus dits comparables, afin d’en montrer les spécificités et la complémentarité. Dans une première partie, nous revenons à nos recherches sur l’alignement phrastique, et développons une méthode originale de multi-alignement, afin d’illustrer l’idée des faisceaux de correspondances inhérents à la multi-textualité. Nous étudions ensuite les différents types de contrastes que les corpus parallèles peuvent révéler, notamment au plan lexical, qu’on les aborde sous l’angle de la lexicographie, de la didactique des langues ou de la sémantique structurale. L’instabilité des unités constituées par la notion d’équivalence traductionnelle nous conduit à interroger la notion d’unité de sens. La troisième partie pose la question de la fiabilité des corpus de traduction et de la présence éventuelle de biais traductionnels. A partir d’une étude textométrique, nous montrons que les traductions constituent néanmoins un matériau utile et authentique qu’il serait dommage d’écarter du champ la linguistique de corpus, les contrastes interlinguistiques pouvant être observés de manière complémentaire à partir de corpus parallèles et comparables. Nous concluons cette synthèse par la mise au point de techniques dédiées à l’étude des profils combinatoires et à l’extraction des unités polylexicales - la polylexicalité se révélant être au cœur du concept d’unité de sens, qu’on l’aborde sous l’angle des équivalences traductionnelles ou, d’un point de vue monolingue, à travers ce que Sinclair nomme le principe de l’idiome.
Abstract : This review focuses on the exploration of multilingual corpus involving natural language processing techniques: we first address the question of parallel corpora, and then compare them to comparable corpora, in order to show their specificity and complementarity. In the first part, we come back to our researches on phrasal alignment and develop an original method of multi-alignment to illustrate the idea that multi-textuality relies on converging networks of correspondences. We then study the different types of contrasts that parallel corpus can reveal, especially at the lexical level, according to different perspectives: lexicography, language teaching or structural semantics. The instability of the units deriving from translational equivalence raises the question of the definition of meaning units. The third part addresses the problem of reliability of translation corpora, which could be compromised by translational biases. Conducting a textometric study, we show that translations are nonetheless a useful and authentic material that should not be excluded from the scope of corpus linguistics: interlinguistic contrasts can be observed in a complementary way from parallel and comparable corpora. We conclude this synthesis by the development of techniques dedicated to the study of combinatorial profiles and extraction of multiword units - which are in the core of the concept of meaning units, considered from a translational point of view as well as in a monolingual perspective, through what Sinclair calls the idiom principle.
Pour citer ce document
OLIVIER KRAIF (2016) «Corpus parallèles, corpus comparables: quels contrastes?», [En ligne], Volume XXI - n°2 (2016). Coordonné par Audrey Moutat.,
URL : http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/archives/parutions/archives/parutions/archives/parutions/parutions/archives/parutions/parutions/parutions/archives/parutions/archives/Parutions/Marges/docannexe/file/2363/docannexe/file/2347/docannexe/file/Parutions/Parutions/Semiotiques/index.php?id=3790.