AURÉLIEN BÉNEL

Where do ‘ontologies’ come from? Seeking for the missing link

Résumé : L'une des possibles matières à discussion entre les architectes du Web et les philosophes repose sur l'utilisation du terme « ontologie ». Tandis que beaucoup d'informaticiens déclarent que leurs ontologies n'ont rien à voir avec le concept philosophique, il faut noter une analogie entre leurs positions et celles du positivisme logique des années 1930. Toutefois, l'élaboration d'une filiation sûre est extrêmement difficile. En effet, dans les documents informatiques, les références bibliographiques relatives aux ontologies conduisent généralement à un court document de 1991. Ainsi, notre article est une « enquête » à la recherche d'une ligne prenant son origine dans les années 1930 et menant à 1991.

PIERRE BEUST

Instrumenter l'interprétation dans une démarche centrée sur l'utilisateur

Résumé: Pierre Beust expose un bilan de ses travaux de recherche sur les dernières années et explique en quoi son approche centrée sur l'utilisateur prend appui sur la sémantique interprétative et l'énaction.

PIERRE BEUST

Pour une approche centrée sur l’utilisateur en Traitement Automatique des Langues

Quelles instrumentations des utilisateurs dans les environnements numériques de travail ?

Résumé : L'auteur de ce livre décrit les spécificités et les intérêts d'une approche centrée sur l'utilisateur dans le domaine du traitement automatique des langues et dans le domaine des environnements numériques de travail. Loin de concevoir l'utilisateur comme un simple exécutant, l'approche défendue en reconnaît en effet, à fort juste titre, la contribution active, c'est-à-dire interprétative et même créatrice.

ÉTIENNE BRUNET

Les bases de données en texte intégral. Réalisation et diffusion

Résumé : Étienne Brunet dresse un panorama des bases de données linguistiques existantes, de Frantext au CD-ROM Rabelais et aux bases en ligne, et à l’intérêt d’Internet dans la diffusion de ces données. En poursuivant d’abord la piste du mot Corse, l’auteur parcourt les fonctions statistiques et les contrastes mobilisables d’un support à l’autre.

ÉTIENNE BRUNET

What Do Statistics Tell Us ?

Résumé : Dans cette étude méthodologique, l’auteur plaide pour un usage maîtrisé et raisonné des statistiques dans les études linguistiques : en utilisant de nombreux exemples illustrés, il met en garde contre les illusions récurrentes et les conceptions superficielles de la scientificité. Il présente enfin les principales fonctionnalités du logiciel Hyperbase.

ÉTIENNE BRUNET et LAURENT VANNI

Deep learning et authentification des textes

Résumé : Les problèmes de paternité ou de datation peuvent être abordés avec les moyens habituels de l’histoire littéraire, mais aussi en recourant aux ressources de la statistique et de l’informatique. Diverses mesures intertextuelles ont été proposées pour tenter de distinguer les distances intra (entre les textes d’un même auteur) et les distances inter (entre les auteurs). Malheureusement aucune jusqu’ici n’a pu prétendre au rang de juge suprême, comparable à l’ADN dans les recherches de paternité ou de criminalité. L’Intelligence artificielle peut-elle jouer ce rôle? C’est l’objet de la présente étude, menée conjointement dans deux corpus. Dans le premier, on aborde le roman au XXème siècle en proposant à l’algorithme du Deep Learning un panel de 50 textes et de 25 écrivains (parmi lesquels Roman Gary et Émile Ajar). Il s’agit de reconnaître les textes qui ont le même auteur. Là où les méthodes classiques se trompent une fois sur trois, le Deep Learning réussit l’épreuve sans faillir. Fort de cette réussite, le même algorithme est appliqué au théâtre classique. La conclusion est catégorique : Racine, Corneille et Molière se distinguent parfaitement sauf dans deux cas (Don Garcie et Les Plaideurs) où le genre vient brouiller la signature. Le présent article s’interroge sur les mécanismes mis en œuvre dans le Deep Learning. Un développement plus étendu est prévu dans une publication ultérieure.

GUILLAUME CARBOU

Quelques questions à l'attention des utilisateurs des statistiques textuelles pour l'analyse du discours

Résumé: Cet article, volet d’un travail en deux parties, propose une liste de questions critiques à l’attention des utilisateurs de logiciels de statistique textuelle. Ces techniques d’analyse des discours deviennent de plus en plus courantes dans de nombreux cha

CARMELA CHATEAU-SMITH

Corpus Linguistics — Une modeste contribution à l’histoire des sciences

Résumé : Cette étude explore l'histoire de la mise en place de la linguistique de corpus au cours du vingtième siècle, à partir de 1950, en tant que changement de paradigme dans l'analyse du langage, plus particulièrement appliquée à la langue anglaise. Des parallèles seront évoquées entre le développement de la linguistique de corpus, considéré comme un changement de paradigme impulsé par des avancées technologiques et les bouleversements similaires et synchrones qui ont eu lieu dans le domaine des sciences de la Terre, impulsés de même manière par des technologies nouvelles : il s'agit du passage de la notion d'une Terre figée à la théorie de la dérive des continents et la tectonique des plaques. L'école contextualiste britannique de la linguistique de corpus sera présentée, à travers trois de ses figures clés : le précurseur, John Rupert Firth, le fondateur John McHardy Sinclair, et le visionnaire William E. (Bill) Louw, le premier à avoir compris l'importance du phénomène de la prosodie sémantique.

ESTELLE DUBREIL

Collocations : définitions et problématique

Résumé : État de l'art sur les collocations : définitions et problématique selon la dichotomie lexicologie-lexicographie et linguistique de corpus.

EGLE EENSOO et MATHIEU VALETTE

Une méthodologie de sémantique de corpus appliquée à des tâches de fouille d’opinion et d’analyse des sentiments : étude sur l’impact de marqueurs dialogiques et dialectiques dans l’expression de la subjectivité

Résumé : Cet article entend dresser, dans un premier temps, un panorama critique des relations entre TAL et linguistique. Puis, il esquisse une discussion sur l’apport possible d’une sémantique de corpus dans un contexte applicatif en s’appuyant sur plusieurs expériences en fouille de textes subjectifs (analyse de sentiments et fouille d’opinions). Ces expériences se démarquent des approches traditionnelles fondées sur la recherche de marqueurs axiologiques explicites par l’utilisation de critères relevant des représentations des acteurs (composante dialogique) et des structures argumentatives et narratives des textes (composante dialectique). Nous souhaitons de cette façon mettre en lumière le bénéfice d’un dialogue méthodologique entre une théorie (la sémantique textuelle), des méthodes de linguistique de corpus orientées vers l’analyse du sens (la textométrie) et les usages actuels du TAL en termes d’algorithmiques (apprentissage automatique) mais aussi de méthodologie d’évaluation des résultats.

NATHALIE GARRIC et HÉLÈNE MAUREL-INDART

Vers une automatisation de l’analyse textuelle

D’après les Journées d’étude "Le style et sa modélisation", 10 et 11 décembre 2009, Université François-Rabelais – Tours

Résumé: À partir de l'ébauche d'un référentiel stylistique, des chercheurs en littérature, en linguistique et en informatique interrogent les faisabilités textométriques de la formalisation et de la reconnaissance du style en corpus.

PHILIPPE GRÉA

Probabilités et statistiques en psychologie et en linguistique

Petit tour d’horizon

Résumé : Ce texte est extrait d’un mémoire d’Habilitation à diriger les recherches soutenu en 2016.

BENOÎT HABERT

La mémoire numérique entre répétition et remémoration

Résumé : Le numérique peut pousser à vouloir tout mémoriser comme à profiter de sa souplesse pour trier et réagencer ce qui doit être conservé. Cependant il présente des risques spécifiques de pertes. L’archivage numérique pérenneessaie de concilier maintien de l’accès et fidélité au contenu, ce que n’assure pas un système de sauvegarde. De nouveaux « arts de la mémoire » émergent. Entre répétition simple du passé et remémoration (réorganisation du passé à l’aune du présent et du futur escomptable), on peut faire le choixd’une mémoire numérique critique.

MARGARETA KASTBERG SJÖBLOM et JEAN-MARC LEBLANC

Extraction des isotopies d’un corpus textuel

analyse systématique des structures sémantiques et des cooccurrences, à travers différents logiciels textométriques

Résumé : Cet article s’intéresse à l’analyse des données textuelles et plus précisément à la sémantique lexicale appliquée ici au rituel politique. Les outils fournis par la statistique lexicale et par la textométrie (ou lexicométrie) ouvrent aujourd’hui la voie à de nombreuses pistes de recherche dans le domaine de la linguistique textuelle et à l’analyse du discours politique, permettant de reconstruire les thématiques majeures d’un corpus de façon systématique. On se propose ici de prendre pour terrain d’expérimentation un corpus de discours politique rituel, constitué d’allocutions de vœux faites à la presse par quelques Premiers ministres français de la Cinquième République de 1976 à 2007 (Barre, Mauroy, Rocard, Cresson, Balladur, Juppé, Jospin, Raffarin, Villepin).

OLIVIER KRAIF

Corpus parallèles, corpus comparables: quels contrastes?

Résumé: Cette synthèse porte sur l’exploration des corpus multilingues dans une perspective de linguistique de corpus outillée, en faisant intervenir des techniques de traitement automatique des langues : nous nous intéressons d’abord aux corpus parallèles aligné

SYLVAIN LOISEAU

Corpus, quantification et typologie textuelle

Résumé: Cet article examine les conséquences pour la description de normes linguistiques des nouveaux observables que permettent de construire les linguistiques de corpus. Nous formulons l’hypothèse que des corpus complexes articulant plusieurs niveaux de descrip

BILL LOUW

Contextual Prosody Theory: bringing Semantic Prosodies to Life

Résumé : Introduit par Bill Louw en 1993 avant d'être repris et popularisé par John Sinclair, le concept de "prosodie sémantique" illustre l'intérêt des approches contextualistes pour la théorie sémantique. L'auteur en reprend ici les principales caractéristiques et propose des développements et une application à un texte littéraire.

CHRISTIAN MAUCERI

Isotopie et indexation

Résumé : Une approche interprétative de la classification automatique, appuyée aux acquis théoriques de la sémantique interprétative, ouvre des voies nouvelles à l'indexation en particulier et, en général, à l'herméneutique matérielle dont l'ambition est de réunifier l'herméneutique et la philologie. L'auteur propose notamment une pratique renouvelée de la classification automatique, ainsi que des améliorations de la technique d'indexation par sémantique latente.

CHRISTIAN MAUCERI

Interpretive Latent Semantic Analysis

DAMON MAYAFFRE et BÉNÉDICTE PINCEMIN

Logométrie, Textométrie

Résumé : Présentation critique de la textométrie - logométrie, notamment de leurs objectifs et des questions de méthode que ces approches soulèvent. Exposé réalisé en 2009, à Besançon, lors de la première école d'été MISAT (Méthodes informatiques et statistiques en analyse de textes).

JEAN-GUY MEUNIER

“Humanités numériques”, enjeux et méthodes

Résumé: Jean-Guy Meunier, professeur à l'UQAM (Montréal), présente une synthèse sur les humanités numériques, de leurs supports informatiques à leurs méthodes et à leurs programmes de recherche.

JEAN-FRANÇOIS PERROT

Outillage informatique pour la pratique du plurilinguisme

BÉNÉDICTE PINCEMIN

Sémantique interprétative et textométrie

Résumé: La textométrie propose une approche et des outils pour analyser les corpus numériques. Les chercheurs en sémantique interprétative ont expérimenté et précisé comment la cooccurrence mesurée par la textométrie pouvait être mise à profit pour la description

CÉLINE POUDAT

Étiqueteurs morphosyntaxiques

Présentation détaillée de quatre taggers et de leur fonction d'entraînement

Résumé : La présentation détaille les principes de fonctionnement et les modalités d'utilisation de quatre étiqueteurs morphosyntaxiques entraînables: Brill Tagger, MBT Tagger, TnT Tagger et TreeTagger.

FRANÇOIS RASTIER

Sémantique du web vs semantic web ?

Résumé: Le programme du Web sémantique entend remplacer le « Web des documents » par le « Web des données » et prolonge ainsi le programme classique de la représentation des connaissances. En revanche, pour une sémantique du Web inspirée par la linguistique de co

CORALIE REUTENAUER

Analyse et modélisation sémantique à partir de ressources lexico-sémantiques : résumé

Résumé de rapport de stage

CORALIE REUTENAUER

Analyse et modélisation sémantiques à partir de ressources lexico-sémantiques

Rapport de stage

THIBAULT ROY

Visualisations interactives pour l'aide personnalisée à l'interprétation d'ensembles documentaires

LUDOVIC TANGUY

La ruée linguistique vers le Web

Résumé: Cet article propose un panorama des usages du Web en linguistique de corpus. À travers une présentation de différents travaux, il aborde les considérations méthodologiques et techniques, en mettant en avant les difficultés que rencontrent les linguistes f

MATHIEU VALETTE

Pour une science des textes instrumentée

Introduction à Syntaxe & Sémantique, n°9, 2008, numéro thématique Textes, documents numériques, corpus. Pour une science des textes instrumentée.

Résumé : La linguistique de corpus ne sera, selon toute vraisemblance, jamais établie en discipline académique. Aujourd’hui, nombre de linguistes, quels que soient leur discipline ou leurs objets d’étude, sont conduits à constituer des corpus numériques et à les étudier au moyen d’outils logiciels chaque année plus nombreux, sophistiqués et conviviaux. La banalisation de l’outil désenclave ainsi des pratiques longtemps réservées à une petite minorité que l’informatique ne rebutait pas. Mais cette évolution technologique, si elle peut avoir une incidence méthodologique (par exemple et minimalement, en substituant aux exemples construits des exemples attestés), n’a pas pour autant un impact fort sur les théories ni sur la définition des objets de la linguistique : à la morphologie, les corpus de mots ; à la syntaxe, les corpus de phrases ; aux théories énonciatives, les corpus d’énoncés. Et bien que tous ces objets d’étude proviennent de textes, ceux-ci ne sont que rarement considérés comme objet de science dans ces contextes disciplinaires. Ils sont réduits, par défaut, au statut préscientifique de ressource – un matériau brut dont la qualité est déterminée par la seule présence, après raffinage, de l’objet étudié. On collecte ainsi de l’indénombrable : du texte ou du corpus.

MATHIEU VALETTE

Approche textuelle du lexique

Résumé : La linguistique doit prendre part et position face aux nouveaux enjeux théoriques et méthodologiques naissant autour du document numérique et de l’élaboration des connaissances, et ne pas laisser à d’autres disciplines (sciences de l’information et de la communication, informatique) le soin de décrire, seules, ces nouveaux objets sémiotiques. Leur diversité et leur complexité sont en outre à problématiser tant dans la perspective de la variété des pratiques sociales que dans celle du multilinguisme. L’élaboration conjointe de modélisations linguistiques et d’outils informatiques destinés à leur validation et leur mise en œuvre s’avère une condition nécessaire à leur description. Dans ce cadre général, notre objectif est de présenter un ensemble de propositions visant à situer l’étude du lexique dans le paradigme textuel. Plus précisément, notre projet est d’étudier les déterminations textuelles de la conceptualisation et de la lexicalisation des concepts. Dans le premier chapitre, nous effectuons une revue critique des principaux modes de structuration et de représentation du lexique, en particulier dans la perspective d’un traitement automatique du sens. Nous exposons ensuite certaines propositions de la sémantique interprétative et textuelle de F. Rastier en la matière. Après une présentation de la notion de classes sémantiques, nous nous focalisons sur l’une d’entre elles, le taxème, et nous discutons plus particulièrement de son rôle dans la représentation de la praxis. Dans le deuxième chapitre, nous traitons de la représentation du lexique du point de vue du texte, c’est-à-dire du point de vue de l’agencement syntagmatique. Nous abordons les différentes objectivations sémantiques proposées par la théorie susmentionnée (isotopies, molécules sémiques) de façon à mettre en évidence le rôle de l’articulation lexique/texte dans la cohésion textuelle. Dans le troisième chapitre, nous présentons un ensemble de travaux réalisés dans la perspective d’une instrumentation de l’analyse sémantique des textes et du lexique faisant la synthèse des recherches relatées dans les deux précédents chapitres. Enfin, dans un quatrième chapitre, nous abordons la question de la conceptualisation et de la lexicalisation des concepts. Nous proposons une méthode de description fondée sur les propositions théoriques et les outils informatiques décrits précédemment. Nous présentons, enfin, un ensemble de prospectives et un programme de recherche relatif à l’approfondissement de notre approche dans la perspective des nouvelles applications de la linguistique, en particulier dans un contexte variationniste et multilingue.

MATHIEU VALETTE

Méthode de sémantique de corpus pour la fouille de données subjectives

Résumé: Présentation à la journée d'étude de l'ATALA - Fouille d'opinion et analyse de sentiments - Paris (INALCO), 21 mars 2015

BILL WINDER

Les titres déchaînés de Maupassant

Les Titres déchaînés de Maupassant

Résumé : Dans ce travail, nous nous demandons ce qui relie formellement les nouvelles de Maupassant à leur titre. Pour nous assurer d’une démarche explicite, nous avons d’abord tenté de reformuler cette recherche dans les termes d’un problème informatique précis : à l’aide d’une analyse automatique de notre corpus de 294 nouvelles de Maupassant, l’ordinateur peut-il engendrer pour chaque texte le titre que Maupassant lui a donné ? Nous n’avons cependant pas pu aborder de front ce problème coriace, et nous avons dû nous contenter d’un autre problème plus simple, mais apparenté : quels algorithmes peuvent servir à aligner les titres du corpus sur leur texte ? Dans cette partie de notre travail, « Décomptes électroniques », nous étudions les fréquences lexicales simples des noms propres tirés du corpus des nouvelles de Maupassant publié dans le American Research on the Treasury of the French Language. Dans la deuxième partie de ce travail, « Traitement intelligent », nous nous servons du corpus de Maupassant téléchargeable à partir de l’Association des amis de Guy de Maupassant. Le texte électronique libre et les outils informatiques plus évolués qui sont disponibles sur Internet nous permettent de réaliser des analyses plus fines de la relation entre le titre et son texte et d’aborder l’alignement d’autres classes de mots, tels les noms communs. Ces deux parties constituent une réflexion sur la méthodologie du prétraitement interprétatif et servent à l’élaboration d’une base de données « intelligente » des nouvelles de Maupassant.

PIERRE ZWEIGENBAUM

Traitement automatique des langues et instrumentation du multilinguisme