Corpus et méthodes

Corpus et méthodes http://www.revue-texto.net/index.php?id=62 fr Mon, 12 May 2008 16:11:50 +0000 Thu, 03 Mar 2011 17:13:37 +0000 http://www.revue-texto.net/index.php?id=62 0 Isotopie et indexation http://www.revue-texto.net/index.php?id=122 Une approche interprétative de la classification automatique, appuyée aux acquis théoriques de la sémantique interprétative, ouvre des voies nouvelles à l'indexation en particulier et, en général, à l'herméneutique matérielle dont l'ambition est de réunifier l'herméneutique et la philologie. L'auteur propose notamment une pratique renouvelée de la classification automatique, ainsi que des améliorations de la technique d'indexation par sémantique latente. Mon, 12 May 2008 18:33:30 +0000 http://www.revue-texto.net/index.php?id=122 Contextual Prosody Theory: bringing Semantic Prosodies to Life http://www.revue-texto.net/index.php?id=124 Introduit par Bill Louw en 1993 avant d'être repris et popularisé par John Sinclair, le concept de "prosodie sémantique" illustre l'intérêt des approches contextualistes pour la théorie sémantique. L'auteur en reprend ici les principales caractéristiques et propose des développements et une application à un texte littéraire. Mon, 12 May 2008 18:34:48 +0000 http://www.revue-texto.net/index.php?id=124 Collocations : définitions et problématique http://www.revue-texto.net/index.php?id=126 État de l'art sur les collocations : définitions et problématique selon la dichotomie lexicologie-lexicographie et linguistique de corpus. Mon, 12 May 2008 18:36:45 +0000 http://www.revue-texto.net/index.php?id=126 Visualisations interactives pour l'aide personnalisée à l'interprétation d'ensembles documentaires http://www.revue-texto.net/index.php?id=1727 Mon, 08 Sep 2008 00:45:09 +0000 http://www.revue-texto.net/index.php?id=1727 Sémantique du web vs semantic web ? http://www.revue-texto.net/index.php?id=1729 Mon, 08 Sep 2008 01:02:10 +0000 http://www.revue-texto.net/index.php?id=1729 Corpus, quantification et typologie textuelle http://www.revue-texto.net/index.php?id=1983 In this paper, we examine the construction of observables, in quantitative corpus linguistics, for the description of linguistic genres and discourses and for textual typology. We propose a hypothesis according to which texts may be characterized through correlations between levels of description, rather that using one isolated level of description at a time. The systemic relations between levels of description allows us to use categories of textual linguistics in quantitative analysis. New contextualities have to be considered: contextuality as interaction between levels of description, and contextuality as interaction between genres, discourses, and idiolects in each text. Coupling textual linguistics and quantitative corpus linguistics raises the issue of the relation between textual typology and linguistic typology. Tue, 09 Dec 2008 17:42:17 +0000 http://www.revue-texto.net/index.php?id=1983 Interpretive Latent Semantic Analysis http://www.revue-texto.net/index.php?id=1996 In this paper we propose to address a recurrent issue of LSA: the difficulty to interpret factors. We use an Interpretive Semantics approach to rethink LSA and propose a new framework for textual semantic analysis taking into account the necessary tradeoffs between human workload and efficiency. Tue, 09 Dec 2008 17:56:35 +0000 http://www.revue-texto.net/index.php?id=1996 Analyse et modélisation sémantique à partir de ressources lexico-sémantiques : résumé http://www.revue-texto.net/index.php?id=2093 Réalisé à l'ATILF au printemps 2008 dans le cadre d'un stage, l'étude vise à faire émerger, à travers une modélisation, des phénomènes de variations sémantiques propres à un contexte donné. Il s'est agi, dans un premier temps, de déterminer les phénomènes sémantiques à modéliser (activation, inhibition de traits sémantiques), puis de choisir des modèles mathématiques adaptés au cadre linguistique, de les transposer à ce cadre, de les implémenter à travers la réalisation d'une plate-forme informatique, et enfin de les tester par le biais d'une série d'expériences. Thu, 12 Feb 2009 10:01:36 +0000 http://www.revue-texto.net/index.php?id=2093 Analyse et modélisation sémantiques à partir de ressources lexico-sémantiques http://www.revue-texto.net/index.php?id=2095 Réalisé à l'ATILF au printemps 2008 dans le cadre d'un stage, l'étude vise à faire émerger, à travers une modélisation, des phénomènes de variations sémantiques propres à un contexte donné. Il s'est agi, dans un premier temps, de déterminer les phénomènes sémantiques à modéliser (activation, inhibition de traits sémantiques), puis de choisir des modèles mathématiques adaptés au cadre linguistique, de les transposer à ce cadre, de les implémenter à travers la réalisation d'une plate-forme informatique, et enfin de les tester par le biais d'une série d'expériences. Thu, 12 Feb 2009 10:27:45 +0000 http://www.revue-texto.net/index.php?id=2095 Pour une science des textes instrumentée http://www.revue-texto.net/index.php?id=2096 La linguistique de corpus ne sera, selon toute vraisemblance, jamais établie en discipline académique. Aujourd’hui, nombre de linguistes, quels que soient leur discipline ou leurs objets d’étude, sont conduits à constituer des corpus numériques et à les étudier au moyen d’outils logiciels chaque année plus nombreux, sophistiqués et conviviaux. La banalisation de l’outil désenclave ainsi des pratiques longtemps réservées à une petite minorité que l’informatique ne rebutait pas. Mais cette évolution technologique, si elle peut avoir une incidence méthodologique (par exemple et minimalement, en substituant aux exemples construits des exemples attestés), n’a pas pour autant un impact fort sur les théories ni sur la définition des objets de la linguistique : à la morphologie, les corpus de mots ; à la syntaxe, les corpus de phrases ; aux théories énonciatives, les corpus d’énoncés. Et bien que tous ces objets d’étude proviennent de textes, ceux-ci ne sont que rarement considérés comme objet de science dans ces contextes disciplinaires. Ils sont réduits, par défaut, au statut préscientifique de ressource – un matériau brut dont la qualité est déterminée par la seule présence, après raffinage, de l’objet étudié. On collecte ainsi de l’indénombrable : du texte ou du corpus. Sat, 14 Feb 2009 09:44:48 +0000 http://www.revue-texto.net/index.php?id=2096 Étiqueteurs morphosyntaxiques http://www.revue-texto.net/index.php?id=2293 La présentation détaille les principes de fonctionnement et les modalités d'utilisation de quatre étiqueteurs morphosyntaxiques entraînables: Brill Tagger, MBT Tagger, TnT Tagger et TreeTagger. Fri, 08 May 2009 17:25:01 +0000 http://www.revue-texto.net/index.php?id=2293 Traitement automatique des langues et instrumentation du multilinguisme http://www.revue-texto.net/index.php?id=2447 Sat, 14 Nov 2009 12:45:10 +0000 http://www.revue-texto.net/index.php?id=2447 Outillage informatique pour la pratique du plurilinguisme http://www.revue-texto.net/index.php?id=2449 Wed, 18 Nov 2009 17:33:24 +0000 http://www.revue-texto.net/index.php?id=2449 Logométrie, Textométrie http://www.revue-texto.net/index.php?id=2525 Présentation critique de la textométrie - logométrie, notamment de leurs objectifs et des questions de méthode que ces approches soulèvent. Exposé réalisé en 2009, à Besançon, lors de la première école d'été MISAT (Méthodes informatiques et statistiques en analyse de textes). Wed, 17 Feb 2010 20:10:22 +0000 http://www.revue-texto.net/index.php?id=2525 Approche textuelle du lexique http://www.revue-texto.net/index.php?id=2613 La linguistique doit prendre part et position face aux nouveaux enjeux théoriques et méthodologiques naissant autour du document numérique et de l’élaboration des connaissances, et ne pas laisser à d’autres disciplines (sciences de l’information et de la communication, informatique) le soin de décrire, seules, ces nouveaux objets sémiotiques. Leur diversité et leur complexité sont en outre à problématiser tant dans la perspective de la variété des pratiques sociales que dans celle du multilinguisme. L’élaboration conjointe de modélisations linguistiques et d’outils informatiques destinés à leur validation et leur mise en œuvre s’avère une condition nécessaire à leur description. Dans ce cadre général, notre objectif est de présenter un ensemble de propositions visant à situer l’étude du lexique dans le paradigme textuel. Plus précisément, notre projet est d’étudier les déterminations textuelles de la conceptualisation et de la lexicalisation des concepts. Dans le premier chapitre, nous effectuons une revue critique des principaux modes de structuration et de représentation du lexique, en particulier dans la perspective d’un traitement automatique du sens. Nous exposons ensuite certaines propositions de la sémantique interprétative et textuelle de F. Rastier en la matière. Après une présentation de la notion de classes sémantiques, nous nous focalisons sur l’une d’entre elles, le taxème, et nous discutons plus particulièrement de son rôle dans la représentation de la praxis. Dans le deuxième chapitre, nous traitons de la représentation du lexique du point de vue du texte, c’est-à-dire du point de vue de l’agencement syntagmatique. Nous abordons les différentes objectivations sémantiques proposées par la théorie susmentionnée (isotopies, molécules sémiques) de façon à mettre en évidence le rôle de l’articulation lexique/texte dans la cohésion textuelle. Dans le troisième chapitre, nous présentons un ensemble de travaux réalisés dans la perspective d’une instrumentation de l’analyse sémantique des textes et du lexique faisant la synthèse des recherches relatées dans les deux précédents chapitres. Enfin, dans un quatrième chapitre, nous abordons la question de la conceptualisation et de la lexicalisation des concepts. Nous proposons une méthode de description fondée sur les propositions théoriques et les outils informatiques décrits précédemment. Nous présentons, enfin, un ensemble de prospectives et un programme de recherche relatif à l’approfondissement de notre approche dans la perspective des nouvelles applications de la linguistique, en particulier dans un contexte variationniste et multilingue. Thu, 06 May 2010 17:01:04 +0000 http://www.revue-texto.net/index.php?id=2613 Instrumenter l'interprétation dans une démarche centrée sur l'utilisateur http://www.revue-texto.net/index.php?id=2759 Enseignant-chercheur au Groupe de Recherche en Informatique, Image, Automatique et Instrumentation (CNRS, Caen), Pierre Beust effectue des recherches à la croisée du TAL, de l’interaction homme-machine et de la sémiotique. Il présente la place qu’occupe la Sémantique Interprétative de F. Rastier au sein de ses recherches à la fois comme modèle théorique et ancrage épistémologique. Il aborde en particulier la problématique de la perception sémantique comme solution alternative aux approches classiques en TAL où le sens est appréhendé comme un calcul. A partir d’une analyse rétrospective de différents travaux dans lesquels lui et ses collaborateurs ont cherché à assister l’activité interprétative dans une démarche centrée sur l’utilisateur, Pierre Beust expose en quoi cette démarche trouve aujourd’hui un cadre d’approfondissement dans la problématique de l’énaction (F. Varela). Fri, 04 Mar 2011 15:12:54 +0000 http://www.revue-texto.net/index.php?id=2759 Vers une automatisation de l’analyse textuelle http://www.revue-texto.net/index.php?id=2765 Le style est-il modélisable en vue de sa reconnaissance automatisée ? À partir d’une définition textuelle du style et d’une ébauche d’un référentiel stylistique, élaborée par l’étude d’un extrait de La Princesse de Clèves, littéraires, linguistes et informaticiens tentent de fournir des éléments de réponse à ce questionnement d’actualité. Les solutions d’automatisation proposées interrogent les ressources textométriques, éventuellement associées à d’autres ressources de traitement des données, tout en questionnant la pertinence des niveaux et des unités d’analyse de la textualité. La réflexion se situe essentiellement dans le champ de la linguistique de corpus et adopte une méthodologie contrastive qui vise à évaluer la distance stylistique dans l’intertextualité afin de formuler des jugements d’identité ou d’altérité stylistique. Le présent recueil contient des textes de Michel Bernard, Etienne Brunet, Frédéric Calas, Nathalie Garric, Pascal Marchand, Hélène Maurel-Indart, Bénédicte Pincemin, François Rastier et Max Reinert.Is it possible to develop a model for automatic recognition of styles? This question has been the focus of literary scholars, linguists, data processing specialists as well as computer scientists who have been tyring to offer solutions to it while referring to the definition of style in text analysis; and to sketch out the stylistics framework based on the study of an extract of La Princesse de Clèves. Automatization or automatic recognition of styles however, raises the question of textometric resources and other related data processing resources. It also raises the question of the relevant units and levels of analysis in relation to text analysis. This volume presents works that have been carried out within the corpus linguistics framework. They utilize a contrastive methodology in order to assess both the similarity and the difference between texts that supposedly use the same style. Mon, 28 Mar 2011 10:18:20 +0000 http://www.revue-texto.net/index.php?id=2765 Les bases de données en texte intégral. Réalisation et diffusion http://www.revue-texto.net/index.php?id=2824 Étienne Brunet dresse un panorama des bases de données linguistiques existantes, de Frantext au CD-ROM Rabelais et aux bases en ligne, et à l’intérêt d’Internet dans la diffusion de ces données. En poursuivant d’abord la piste du mot Corse, l’auteur parcourt les fonctions statistiques et les contrastes mobilisables d’un support à l’autre. Fri, 17 Jun 2011 22:04:08 +0000 http://www.revue-texto.net/index.php?id=2824 “Humanités numériques”, enjeux et méthodes http://www.revue-texto.net/index.php?id=3028 Jean-Guy Meunier, professeur à l'UQAM (Montréal), présente une synthèse sur les humanités numériques, de leurs supports informatiques à leurs méthodes et à leurs programmes de recherche. Sun, 29 Apr 2012 21:06:23 +0000 http://www.revue-texto.net/index.php?id=3028 Sémantique interprétative et textométrie http://www.revue-texto.net/index.php?id=3049 La textométrie propose une approche et des outils pour analyser les corpus numériques. Les chercheurs en sémantique interprétative ont expérimenté et précisé comment la cooccurrence mesurée par la textométrie pouvait être mise à profit pour la description thématique, et comment une approche quantitative pouvait se révéler efficace pour la caractérisation des textes et des genres textuels. Pour éclairer ces réussites, on entreprend donc ici de repérer des adéquations essentielles entre la théorie linguistique de la sémantique interprétative, et les principes fondateurs de l'approche textométrique. Dans le contexte de renouveau actuel des logiciels textométriques, la sémantique interprétative est appelée à nourrir la réflexion théorique sous-jacente. Sun, 15 Jul 2012 15:12:56 +0000 http://www.revue-texto.net/index.php?id=3049 La mémoire numérique entre répétition et remémoration http://www.revue-texto.net/index.php?id=3050 Le numérique peut pousser à vouloir tout mémoriser comme à profiter de sa souplesse pour trier et réagencer ce qui doit être conservé. Cependant il présente des risques spécifiques de pertes. L’archivage numérique pérenneessaie de concilier maintien de l’accès et fidélité au contenu, ce que n’assure pas un système de sauvegarde. De nouveaux « arts de la mémoire » émergent. Entre répétition simple du passé et remémoration (réorganisation du passé à l’aune du présent et du futur escomptable), on peut faire le choixd’une mémoire numérique critique.As storing devices and digitizing processes have increasing capacities, it is possible either to follow a ‘total recall’ approach to memory or to sort and reorganize what we want to preserve. In specific ways, digital data are very fragile data. A digital long term preservation system is not a digital information storage/backup system. Itmakes a compromise between keeping the content as accurately as possible and migrating the underlying (meta)data when their format becomes obsolete. New arts of memory are coming out. Between sheer repetition of the past and rememoration (reorganizing the past according to the present and to the foreseeable futures), we can opt for a critical practice of digital memory. Sat, 21 Jul 2012 16:43:17 +0000 http://www.revue-texto.net/index.php?id=3050 Extraction des isotopies d’un corpus textuel http://www.revue-texto.net/index.php?id=3059 Cet article s’intéresse à l’analyse des données textuelles et plus précisément à la sémantique lexicale appliquée ici au rituel politique. Les outils fournis par la statistique lexicale et par la textométrie (ou lexicométrie) ouvrent aujourd’hui la voie à de nombreuses pistes de recherche dans le domaine de la linguistique textuelle et à l’analyse du discours politique, permettant de reconstruire les thématiques majeures d’un corpus de façon systématique. On se propose ici de prendre pour terrain d’expérimentation un corpus de discours politique rituel, constitué d’allocutions de vœux faites à la presse par quelques Premiers ministres français de la Cinquième République de 1976 à 2007 (Barre, Mauroy, Rocard, Cresson, Balladur, Juppé, Jospin, Raffarin, Villepin). Tue, 31 Jul 2012 14:45:43 +0000 http://www.revue-texto.net/index.php?id=3059 Where do ‘ontologies’ come from? Seeking for the missing link http://www.revue-texto.net/index.php?id=3062 One of the possible matters for discussion between Web architects and philosophers relies in the use of the term ‘ontology’ by the former. Whether many computer scientists declare that their ‘ontologies’ have nothing to do with the philosophical concept, we must note the analogy between their positions and the positions of the Logical Positivism in the 1930s. However, drawing a guaranteed lineage is extremely difficult. Indeed, in computer science papers, bibliographical references to ontologies usually lead only to a 1991 short paper. Hence, our article is an ‘inquiry’ in search of a chain of descent from the 1930s to 1991.L'une des possibles matières à discussion entre les architectes du Web et les philosophes repose sur l'utilisation du terme « ontologie ». Tandis que beaucoup d'informaticiens déclarent que leurs ontologies n'ont rien à voir avec le concept philosophique, il faut noter une analogie entre leurs positions et celles du positivisme logique des années 1930. Toutefois, l'élaboration d'une filiation sûre est extrêmement difficile. En effet, dans les documents informatiques, les références bibliographiques relatives aux ontologies conduisent généralement à un court document de 1991. Ainsi, notre article est une « enquête » à la recherche d'une ligne prenant son origine dans les années 1930 et menant à 1991. Tue, 31 Jul 2012 15:40:47 +0000 http://www.revue-texto.net/index.php?id=3062 Pour une approche centrée sur l’utilisateur en Traitement Automatique des Langues http://www.revue-texto.net/index.php?id=3232 L'auteur de ce livre décrit les spécificités et les intérêts d'une approche centrée sur l'utilisateur dans le domaine du traitement automatique des langues et dans le domaine des environnements numériques de travail. Loin de concevoir l'utilisateur comme un simple exécutant, l'approche défendue en reconnaît en effet, à fort juste titre, la contribution active, c'est-à-dire interprétative et même créatrice. Tue, 30 Apr 2013 21:10:03 +0000 http://www.revue-texto.net/index.php?id=3232 Corpus Linguistics — Une modeste contribution à l’histoire des sciences http://www.revue-texto.net/index.php?id=3239 Cette étude explore l'histoire de la mise en place de la linguistique de corpus au cours du vingtième siècle, à partir de 1950, en tant que changement de paradigme dans l'analyse du langage, plus particulièrement appliquée à la langue anglaise. Des parallèles seront évoquées entre le développement de la linguistique de corpus, considéré comme un changement de paradigme impulsé par des avancées technologiques et les bouleversements similaires et synchrones qui ont eu lieu dans le domaine des sciences de la Terre, impulsés de même manière par des technologies nouvelles : il s'agit du passage de la notion d'une Terre figée à la théorie de la dérive des continents et la tectonique des plaques. L'école contextualiste britannique de la linguistique de corpus sera présentée, à travers trois de ses figures clés : le précurseur, John Rupert Firth, le fondateur John McHardy Sinclair, et le visionnaire William E. (Bill) Louw, le premier à avoir compris l'importance du phénomène de la prosodie sémantique.This study explores the history of the development of corpus linguistics as a science, during the twentieth century, from 1950 onwards, seen as a paradigm shift in the analysis of language, with particular application to English. Parallels will be drawn between the development of corpus linguistics, considered as a paradigm shift made possible by technological progress, and the similar and synchronic upheaval which took place in the Earth Sciences, also grounded in the progress of technology, with the change from the notion of a fixed Earth to the theory of continental drift and plate tectonics. The British contextualist school of corpus linguistics will be presented through three key figures in the field : the precursor John Rupert Firth, the founder John McHardy Sinclair and the visionary William E. (Bill) Louw, the first to grasp the importance of the phenomenon of semantic prosody. Tue, 30 Apr 2013 21:21:52 +0000 http://www.revue-texto.net/index.php?id=3239 What Do Statistics Tell Us ? http://www.revue-texto.net/index.php?id=3279 Dans cette étude méthodologique, l’auteur plaide pour un usage maîtrisé et raisonné des statistiques dans les études linguistiques : en utilisant de nombreux exemples illustrés, il met en garde contre les illusions récurrentes et les conceptions superficielles de la scientificité. Il présente enfin les principales fonctionnalités du logiciel Hyperbase. Fri, 02 Aug 2013 20:22:55 +0000 http://www.revue-texto.net/index.php?id=3279 La ruée linguistique vers le Web http://www.revue-texto.net/index.php?id=3335 Cet article propose un panorama des usages du Web en linguistique de corpus. À travers une présentation de différents travaux, il aborde les considérations méthodologiques et techniques, en mettant en avant les difficultés que rencontrent les linguistes face à cette source particulière de données langagières. En prenant exemple sur des travaux menés sur l’acquisition de données en morphologie extensive, je discute le statut des données, ainsi que de la position peu confortable dans laquelle les moteurs de recherche placent les chercheurs, et la façon dont ils doivent en permanence s’adapter à un matériau irremplaçable mais difficile d’accès. Tue, 08 Oct 2013 19:33:55 +0000 http://www.revue-texto.net/index.php?id=3335 Les titres déchaînés de Maupassant http://www.revue-texto.net/index.php?id=3582 Dans ce travail, nous nous demandons ce qui relie formellement les nouvelles de Maupassant à leur titre. Pour nous assurer d’une démarche explicite, nous avons d’abord tenté de reformuler cette recherche dans les termes d’un problème informatique précis : à l’aide d’une analyse automatique de notre corpus de 294 nouvelles de Maupassant, l’ordinateur peut-il engendrer pour chaque texte le titre que Maupassant lui a donné ? Nous n’avons cependant pas pu aborder de front ce problème coriace, et nous avons dû nous contenter d’un autre problème plus simple, mais apparenté : quels algorithmes peuvent servir à aligner les titres du corpus sur leur texte ? Dans cette partie de notre travail, « Décomptes électroniques », nous étudions les fréquences lexicales simples des noms propres tirés du corpus des nouvelles de Maupassant publié dans le American Research on the Treasury of the French Language. Dans la deuxième partie de ce travail, « Traitement intelligent », nous nous servons du corpus de Maupassant téléchargeable à partir de l’Association des amis de Guy de Maupassant. Le texte électronique libre et les outils informatiques plus évolués qui sont disponibles sur Internet nous permettent de réaliser des analyses plus fines de la relation entre le titre et son texte et d’aborder l’alignement d’autres classes de mots, tels les noms communs. Ces deux parties constituent une réflexion sur la méthodologie du prétraitement interprétatif et servent à l’élaboration d’une base de données « intelligente » des nouvelles de Maupassant.In the present study we consider how Maupassant’s titles can be seen as formally aligned with their texts. To put our study in an explicit, formal framework, we first considered alignment as a computational problem: On the basis of the texts alone, could the computer generate the exact title Maupassant gave to each of the 294 stories in our Titres déchaînés : décomptes électroniques 1/28 Mots-clés : Titres, Maupassant, édition critique, méthodologie interprétative, informatique Keywords: Titles, Maupassant, critical edition, interpretative methodology, computing corpus? That question proved computationally too challenging and we were forced to consider a related, but simpler question: What algorithms could we use to align Maupassant’s titles with their texts? In this first part of our study, “Electronic frequencies”, we evaluate the role of proper nouns in Maupassant’s short stories by extracting some simple lexical frequencies from the corpus at the American Research on the Treasury of the French Language. In the second part, “Intelligent text processing”, we use Maupassant’s short story corpus that can be freely downloaded from Association des amis de Guy de Maupassant. We can achieve a more precise analysis of the relation between the title and its text using open source electronic texts and enhanced computational tools that are freely available on the Internet. That enhanced computational platform allows us to consider the alignment of other word classes, such as common nouns. These two parts of our study constitute a reflection on the methodology of interpretative preprocessing and serve as the groundwork for an “intelligent” textual database of Maupassant’s short stories. Sat, 09 Aug 2014 10:52:34 +0000 http://www.revue-texto.net/index.php?id=3582 Méthode de sémantique de corpus pour la fouille de données subjectives http://www.revue-texto.net/index.php?id=3637 Présentation à la journée d'étude de l'ATALA - Fouille d'opinion et analyse de sentiments - Paris (INALCO), 21 mars 2015 Tue, 28 Apr 2015 15:26:22 +0000 http://www.revue-texto.net/index.php?id=3637 Une méthodologie de sémantique de corpus appliquée à des tâches de fouille d’opinion et d’analyse des sentiments : étude sur l’impact de marqueurs dialogiques et dialectiques dans l’expression de la subjectivité http://www.revue-texto.net/index.php?id=3688 Cet article entend dresser, dans un premier temps, un panorama critique des relations entre TAL et linguistique. Puis, il esquisse une discussion sur l’apport possible d’une sémantique de corpus dans un contexte applicatif en s’appuyant sur plusieurs expériences en fouille de textes subjectifs (analyse de sentiments et fouille d’opinions). Ces expériences se démarquent des approches traditionnelles fondées sur la recherche de marqueurs axiologiques explicites par l’utilisation de critères relevant des représentations des acteurs (composante dialogique) et des structures argumentatives et narratives des textes (composante dialectique). Nous souhaitons de cette façon mettre en lumière le bénéfice d’un dialogue méthodologique entre une théorie (la sémantique textuelle), des méthodes de linguistique de corpus orientées vers l’analyse du sens (la textométrie) et les usages actuels du TAL en termes d’algorithmiques (apprentissage automatique) mais aussi de méthodologie d’évaluation des résultats.A method of corpus semantics applied to opinion mining and sentiment analysis: the impact of dialogical and dialectical features on the expression of subjectivity. This paper first aims to provide a critical overview of the relationship between NLP and linguistics, and then to sketch out a discussion on the possible contribution of corpus semantics in an application-based context based on several subjective text mining studies (sentiment analysis and opinion mining). These studies break away from traditional approaches founded on the detection of axiological markers. Instead, they use explicit criteria related to the representation of actors (dialogical component) and argumentative or narrative structures (dialectical component). We hope to highlight the benefit of a methodological dialogue between theory (text semantics), meaning-oriented methods of corpus linguistics (i.e. textometrics) and NLP current practices in terms of algorithmic (machine learning) and assessment methodology. Sun, 16 Aug 2015 16:30:39 +0000 http://www.revue-texto.net/index.php?id=3688 Écrits choisis d'Étienne BRUNET http://www.revue-texto.net/index.php?id=3755 Tue, 02 Feb 2016 21:09:50 +0000 http://www.revue-texto.net/index.php?id=3755 Corpus parallèles, corpus comparables: quels contrastes? http://www.revue-texto.net/index.php?id=3790 Cette synthèse porte sur l’exploration des corpus multilingues dans une perspective de linguistique de corpus outillée, en faisant intervenir des techniques de traitement automatique des langues : nous nous intéressons d’abord aux corpus parallèles alignés, puis aux corpus dits comparables, afin d’en montrer les spécificités et la complémentarité. Dans une première partie, nous revenons à nos recherches sur l’alignement phrastique, et développons une méthode originale de multi-alignement, afin d’illustrer l’idée des faisceaux de correspondances inhérents à la multi-textualité. Nous étudions ensuite les différents types de contrastes que les corpus parallèles peuvent révéler, notamment au plan lexical, qu’on les aborde sous l’angle de la lexicographie, de la didactique des langues ou de la sémantique structurale. L’instabilité des unités constituées par la notion d’équivalence traductionnelle nous conduit à interroger la notion d’unité de sens. La troisième partie pose la question de la fiabilité des corpus de traduction et de la présence éventuelle de biais traductionnels. A partir d’une étude textométrique, nous montrons que les traductions constituent néanmoins un matériau utile et authentique qu’il serait dommage d’écarter du champ la linguistique de corpus, les contrastes interlinguistiques pouvant être observés de manière complémentaire à partir de corpus parallèles et comparables. Nous concluons cette synthèse par la mise au point de techniques dédiées à l’étude des profils combinatoires et à l’extraction des unités polylexicales - la polylexicalité se révélant être au cœur du concept d’unité de sens, qu’on l’aborde sous l’angle des équivalences traductionnelles ou, d’un point de vue monolingue, à travers ce que Sinclair nomme le principe de l’idiome.This review focuses on the exploration of multilingual corpus involving natural language processing techniques: we first address the question of parallel corpora, and then compare them to comparable corpora, in order to show their specificity and complementarity. In the first part, we come back to our researches on phrasal alignment and develop an original method of multi-alignment to illustrate the idea that multi-textuality relies on converging networks of correspondences. We then study the different types of contrasts that parallel corpus can reveal, especially at the lexical level, according to different perspectives: lexicography, language teaching or structural semantics. The instability of the units deriving from translational equivalence raises the question of the definition of meaning units. The third part a ddresses the problem of reliability of translation corpora, which could be compromised by translational biases. Conducting a textometric study, we show that translations are nonetheless a useful and authentic material that should not be excluded from the scope of corpus linguistics: interlinguistic contrasts can be observed in a complementary way from parallel and comparable corpora. We conclude this synthesis by the development of techniques dedicated to the study of combinatorial profiles and extraction of multiword units - which are in the core of the concept of meaning units, considered from a translational point of view as well as in a monolingual perspective, through what Sinclair calls the idiom principle. Tue, 26 Apr 2016 17:27:52 +0000 http://www.revue-texto.net/index.php?id=3790 Probabilités et statistiques en psychologie et en linguistique http://www.revue-texto.net/index.php?id=3876 Ce texte est extrait d’un mémoire d’Habilitation à diriger les recherches soutenu en 2016. Mon, 05 Jun 2017 11:53:07 +0000 http://www.revue-texto.net/index.php?id=3876 Quelques questions à l'attention des utilisateurs des statistiques textuelles pour l'analyse du discours http://www.revue-texto.net/index.php?id=3982 Cet article, volet d’un travail en deux parties, propose une liste de questions critiques à l’attention des utilisateurs de logiciels de statistique textuelle. Ces techniques d’analyse des discours deviennent de plus en plus courantes dans de nombreux champs de recherche. Or, si la statistique textuelle offre un moyen intéressant d’aborder les corpus, il est nécessaire de prendre un certain nombre de précautions théoriques et méthodologiques pour faire un usage éclairé de cet outil. Les questions posées dans le présent article invitent à ce recul critique. Elles interrogent les hypothèses sur les fonctionnements textuels que porte en elle la statistique textuelle (lexicocentrisme, compositionnalisme, typification lexicale…) ainsi que les difficultés d’interprétabilité des sorties-machine. Fri, 24 Nov 2017 14:37:08 +0000 http://www.revue-texto.net/index.php?id=3982 Deep learning et authentification des textes http://www.revue-texto.net/index.php?id=4194 Les problèmes de paternité ou de datation peuvent être abordés avec les moyens habituels de l’histoire littéraire, mais aussi en recourant aux ressources de la statistique et de l’informatique. Diverses mesures intertextuelles ont été proposées pour tenter de distinguer les distances intra (entre les textes d’un même auteur) et les distances inter (entre les auteurs). Malheureusement aucune jusqu’ici n’a pu prétendre au rang de juge suprême, comparable à l’ADN dans les recherches de paternité ou de criminalité. L’Intelligence artificielle peut-elle jouer ce rôle? C’est l’objet de la présente étude, menée conjointement dans deux corpus. Dans le premier, on aborde le roman au XXème siècle en proposant à l’algorithme du Deep Learning un panel de 50 textes et de 25 écrivains (parmi lesquels Roman Gary et Émile Ajar). Il s’agit de reconnaître les textes qui ont le même auteur. Là où les méthodes classiques se trompent une fois sur trois, le Deep Learning réussit l’épreuve sans faillir. Fort de cette réussite, le même algorithme est appliqué au théâtre classique. La conclusion est catégorique : Racine, Corneille et Molière se distinguent parfaitement sauf dans deux cas (Don Garcie et Les Plaideurs) où le genre vient brouiller la signature. Le présent article s’interroge sur les mécanismes mis en œuvre dans le Deep Learning. Un développement plus étendu est prévu dans une publication ultérieure.While problems of attributing authorship or dating a text can be tackled using the usual methods of literary historians, it is equally possible to turn to statistical and computing tools. A range of intertextual measures have been proposed to describe variation within and across authors. To date no single method can claim an uncontested superiority comparable to the use of DNA in paternity suits or criminal investigations. The present study asks whether artificial intelligence may be able to play this role, and seeks the answer in research involving two corpora. The first concerns 20th century French literature: a deep learning algorithm is used on 50 texts by 25 authors (e.g., Roman Gary, Émile Ajar) with the goal of matching the two texts by the same author. Where traditional methods yield correct results only twice for every three attempts, deep learning is perfectly accurate. The second corpus is drawn from French classical drama and here the algorithm also categorically distinguishes and matches plays by Racine, Corneille, and Molière. The only errors concern two plays (the French texts of Molière’s Don Garcia of Navarre and Racine’s The Litigants) where the comic genre takes precedence over authorial voice. This paper investigates the mechanisms of deep learning (with a more detailed treatment planned for a subsequent publication). Sat, 16 Feb 2019 09:16:17 +0000 http://www.revue-texto.net/index.php?id=4194