MATHIEU VALETTE
Résumé : L'application de la sémantique interprétative à l'élaboration d'une plate-forme multilingue (PRINCIP) de détection de pages web racistes et révisionnistes.
MATHIEU VALETTE
Résumé : Une étude de l'évolution conjointe du lexique et du système conceptuel au cours de l'élaboration de la théorie de G. Guillaume.
MATHIEU VALETTE et FRANÇOIS RASTIER
Résumé : Les jeunes sont particulièrement exposés à l’Internet raciste et xénophobe. En tirant parti de l’expérience d’un projet de détection automatique de sites racistes, cette étude présente un programme concret d’éducation aux médias pour prévenir le racisme et la xénophobie.
MATHIEU VALETTE
Résumé : La linguistique de corpus ne sera, selon toute vraisemblance, jamais établie en discipline académique. Aujourd’hui, nombre de linguistes, quels que soient leur discipline ou leurs objets d’étude, sont conduits à constituer des corpus numériques et à les étudier au moyen d’outils logiciels chaque année plus nombreux, sophistiqués et conviviaux. La banalisation de l’outil désenclave ainsi des pratiques longtemps réservées à une petite minorité que l’informatique ne rebutait pas. Mais cette évolution technologique, si elle peut avoir une incidence méthodologique (par exemple et minimalement, en substituant aux exemples construits des exemples attestés), n’a pas pour autant un impact fort sur les théories ni sur la définition des objets de la linguistique : à la morphologie, les corpus de mots ; à la syntaxe, les corpus de phrases ; aux théories énonciatives, les corpus d’énoncés. Et bien que tous ces objets d’étude proviennent de textes, ceux-ci ne sont que rarement considérés comme objet de science dans ces contextes disciplinaires. Ils sont réduits, par défaut, au statut préscientifique de ressource – un matériau brut dont la qualité est déterminée par la seule présence, après raffinage, de l’objet étudié. On collecte ainsi de l’indénombrable : du texte ou du corpus.
FRANÇOIS RASTIER et MATHIEU VALETTE
Résumé : Ce texte offre une discussion critique sur la polysémie considérée dans une perspective diachronique, et opposée à la néosémie. Cette notion invite à considérer l'émergence d'une nouvelle unité lexicale en termes d'économie ou d'organisation sémique.
MATHIEU VALETTE
Résumé : La linguistique doit prendre part et position face aux nouveaux enjeux théoriques et méthodologiques naissant autour du document numérique et de l’élaboration des connaissances, et ne pas laisser à d’autres disciplines (sciences de l’information et de la communication, informatique) le soin de décrire, seules, ces nouveaux objets sémiotiques. Leur diversité et leur complexité sont en outre à problématiser tant dans la perspective de la variété des pratiques sociales que dans celle du multilinguisme. L’élaboration conjointe de modélisations linguistiques et d’outils informatiques destinés à leur validation et leur mise en œuvre s’avère une condition nécessaire à leur description. Dans ce cadre général, notre objectif est de présenter un ensemble de propositions visant à situer l’étude du lexique dans le paradigme textuel. Plus précisément, notre projet est d’étudier les déterminations textuelles de la conceptualisation et de la lexicalisation des concepts. Dans le premier chapitre, nous effectuons une revue critique des principaux modes de structuration et de représentation du lexique, en particulier dans la perspective d’un traitement automatique du sens. Nous exposons ensuite certaines propositions de la sémantique interprétative et textuelle de F. Rastier en la matière. Après une présentation de la notion de classes sémantiques, nous nous focalisons sur l’une d’entre elles, le taxème, et nous discutons plus particulièrement de son rôle dans la représentation de la praxis. Dans le deuxième chapitre, nous traitons de la représentation du lexique du point de vue du texte, c’est-à-dire du point de vue de l’agencement syntagmatique. Nous abordons les différentes objectivations sémantiques proposées par la théorie susmentionnée (isotopies, molécules sémiques) de façon à mettre en évidence le rôle de l’articulation lexique/texte dans la cohésion textuelle. Dans le troisième chapitre, nous présentons un ensemble de travaux réalisés dans la perspective d’une instrumentation de l’analyse sémantique des textes et du lexique faisant la synthèse des recherches relatées dans les deux précédents chapitres. Enfin, dans un quatrième chapitre, nous abordons la question de la conceptualisation et de la lexicalisation des concepts. Nous proposons une méthode de description fondée sur les propositions théoriques et les outils informatiques décrits précédemment. Nous présentons, enfin, un ensemble de prospectives et un programme de recherche relatif à l’approfondissement de notre approche dans la perspective des nouvelles applications de la linguistique, en particulier dans un contexte variationniste et multilingue.
EGLE EENSOO et MATHIEU VALETTE
Résumé : Cet article entend dresser, dans un premier temps, un panorama critique des relations entre TAL et linguistique. Puis, il esquisse une discussion sur l’apport possible d’une sémantique de corpus dans un contexte applicatif en s’appuyant sur plusieurs expériences en fouille de textes subjectifs (analyse de sentiments et fouille d’opinions). Ces expériences se démarquent des approches traditionnelles fondées sur la recherche de marqueurs axiologiques explicites par l’utilisation de critères relevant des représentations des acteurs (composante dialogique) et des structures argumentatives et narratives des textes (composante dialectique). Nous souhaitons de cette façon mettre en lumière le bénéfice d’un dialogue méthodologique entre une théorie (la sémantique textuelle), des méthodes de linguistique de corpus orientées vers l’analyse du sens (la textométrie) et les usages actuels du TAL en termes d’algorithmiques (apprentissage automatique) mais aussi de méthodologie d’évaluation des résultats.
MATHIEU VALETTE
Résumé : Présentation à la journée d'étude de l'ATALA - Fouille d'opinion et analyse de sentiments - Paris (INALCO), 21 mars 2015