AURÉLIEN BÉNEL
Résumé  : L'une des possibles matières à discussion entre les architectes du Web et les philosophes repose sur l'utilisation du terme « ontologie ». Tandis que beaucoup d'informaticiens déclarent que leurs ontologies n'ont rien à voir avec le concept philosophique, il faut noter une analogie entre leurs positions et celles du positivisme logique des années 1930. Toutefois, l'élaboration d'une filiation sûre est extrêmement difficile. En effet, dans les documents informatiques, les références bibliographiques relatives aux ontologies conduisent généralement à un court document de 1991. Ainsi, notre article est une « enquête » à la recherche d'une ligne prenant son origine dans les années 1930 et menant à 1991.
PIERRE BEUST
Résumé: Pierre Beust expose un bilan de ses travaux de recherche sur les dernières années et explique en quoi son approche centrée sur l'utilisateur prend appui sur la sémantique interprétative et l'énaction.
PIERRE BEUST
Résumé  : L'auteur de ce livre décrit les spécificités et les intérêts d'une approche centrée sur l'utilisateur dans le domaine du traitement automatique des langues et dans le domaine des environnements numériques de travail. Loin de concevoir l'utilisateur comme un simple exécutant, l'approche défendue en reconnaît en effet, à fort juste titre, la contribution active, c'est-à-dire interprétative et même créatrice.
ÉTIENNE BRUNET
Résumé  : Étienne Brunet dresse un panorama des bases de données linguistiques existantes, de Frantext au CD-ROM Rabelais et aux bases en ligne, et à l’intérêt d’Internet dans la diffusion de ces données. En poursuivant d’abord la piste du mot Corse, l’auteur parcourt les fonctions statistiques et les contrastes mobilisables d’un support à l’autre.
ÉTIENNE BRUNET
Résumé  : Dans cette étude méthodologique, l’auteur plaide pour un usage maîtrisé et raisonné des statistiques dans les études linguistiques : en utilisant de nombreux exemples illustrés, il met en garde contre les illusions récurrentes et les conceptions superficielles de la scientificité. Il présente enfin les principales fonctionnalités du logiciel Hyperbase.
ÉTIENNE BRUNET et LAURENT VANNI
Résumé  : Les problèmes de paternité ou de datation peuvent être abordés avec les moyens habituels de l’histoire littéraire, mais aussi en recourant aux ressources de la statistique et de l’informatique. Diverses mesures intertextuelles ont été proposées pour tenter de distinguer les distances intra (entre les textes d’un même auteur) et les distances inter (entre les auteurs). Malheureusement aucune jusqu’ici n’a pu prétendre au rang de juge suprême, comparable à l’ADN dans les recherches de paternité ou de criminalité. L’Intelligence artificielle peut-elle jouer ce rôle? C’est l’objet de la présente étude, menée conjointement dans deux corpus. Dans le premier, on aborde le roman au XXème siècle en proposant à l’algorithme du Deep Learning un panel de 50 textes et de 25 écrivains (parmi lesquels Roman Gary et Émile Ajar). Il s’agit de reconnaître les textes qui ont le même auteur. Là où les méthodes classiques se trompent une fois sur trois, le Deep Learning réussit l’épreuve sans faillir. Fort de cette réussite, le même algorithme est appliqué au théâtre classique. La conclusion est catégorique : Racine, Corneille et Molière se distinguent parfaitement sauf dans deux cas (Don Garcie et Les Plaideurs) où le genre vient brouiller la signature. Le présent article s’interroge sur les mécanismes mis en œuvre dans le Deep Learning. Un développement plus étendu est prévu dans une publication ultérieure.
GUILLAUME CARBOU
Résumé: Cet article, volet d’un travail en deux parties, propose une liste de questions critiques à l’attention des utilisateurs de logiciels de statistique textuelle. Ces techniques d’analyse des discours deviennent de plus en plus courantes dans de nombreux cha
CARMELA CHATEAU-SMITH
Résumé  : Cette étude explore l'histoire de la mise en place de la linguistique de corpus au cours du vingtième siècle, à partir de 1950, en tant que changement de paradigme dans l'analyse du langage, plus particulièrement appliquée à la langue anglaise. Des parallèles seront évoquées entre le développement de la linguistique de corpus, considéré comme un changement de paradigme impulsé par des avancées technologiques et les bouleversements similaires et synchrones qui ont eu lieu dans le domaine des sciences de la Terre, impulsés de même manière par des technologies nouvelles : il s'agit du passage de la notion d'une Terre figée à la théorie de la dérive des continents et la tectonique des plaques. L'école contextualiste britannique de la linguistique de corpus sera présentée, à travers trois de ses figures clés : le précurseur, John Rupert Firth, le fondateur John McHardy Sinclair, et le visionnaire William E. (Bill) Louw, le premier à avoir compris l'importance du phénomène de la prosodie sémantique.
ESTELLE DUBREIL
Résumé  : État de l'art sur les collocations : définitions et problématique selon la dichotomie lexicologie-lexicographie et linguistique de corpus.
EGLE EENSOO et MATHIEU VALETTE
Résumé  : Cet article entend dresser, dans un premier temps, un panorama critique des relations entre TAL et linguistique. Puis, il esquisse une discussion sur l’apport possible d’une sémantique de corpus dans un contexte applicatif en s’appuyant sur plusieurs expériences en fouille de textes subjectifs (analyse de sentiments et fouille d’opinions). Ces expériences se démarquent des approches traditionnelles fondées sur la recherche de marqueurs axiologiques explicites par l’utilisation de critères relevant des représentations des acteurs (composante dialogique) et des structures argumentatives et narratives des textes (composante dialectique). Nous souhaitons de cette façon mettre en lumière le bénéfice d’un dialogue méthodologique entre une théorie (la sémantique textuelle), des méthodes de linguistique de corpus orientées vers l’analyse du sens (la textométrie) et les usages actuels du TAL en termes d’algorithmiques (apprentissage automatique) mais aussi de méthodologie d’évaluation des résultats.
NATHALIE GARRIC et HÉLÈNE MAUREL-INDART
Résumé: À partir de l'ébauche d'un référentiel stylistique, des chercheurs en littérature, en linguistique et en informatique interrogent les faisabilités textométriques de la formalisation et de la reconnaissance du style en corpus.
PHILIPPE GRÉA
Résumé  : Ce texte est extrait d’un mémoire d’Habilitation à diriger les recherches soutenu en 2016.
BENOÎT HABERT
Résumé  : Le numérique peut pousser à vouloir tout mémoriser comme à profiter de sa souplesse pour trier et réagencer ce qui doit être conservé. Cependant il présente des risques spécifiques de pertes. L’archivage numérique pérenneessaie de concilier maintien de l’accès et fidélité au contenu, ce que n’assure pas un système de sauvegarde. De nouveaux « arts de la mémoire » émergent. Entre répétition simple du passé et remémoration (réorganisation du passé à l’aune du présent et du futur escomptable), on peut faire le choixd’une mémoire numérique critique.
MARGARETA KASTBERG SJÖBLOM et JEAN-MARC LEBLANC
Résumé  : Cet article s’intéresse à l’analyse des données textuelles et plus précisément à la sémantique lexicale appliquée ici au rituel politique. Les outils fournis par la statistique lexicale et par la textométrie (ou lexicométrie) ouvrent aujourd’hui la voie à de nombreuses pistes de recherche dans le domaine de la linguistique textuelle et à l’analyse du discours politique, permettant de reconstruire les thématiques majeures d’un corpus de façon systématique. On se propose ici de prendre pour terrain d’expérimentation un corpus de discours politique rituel, constitué d’allocutions de vœux faites à la presse par quelques Premiers ministres français de la Cinquième République de 1976 à 2007 (Barre, Mauroy, Rocard, Cresson, Balladur, Juppé, Jospin, Raffarin, Villepin).
OLIVIER KRAIF
Résumé: Cette synthèse porte sur l’exploration des corpus multilingues dans une perspective de linguistique de corpus outillée, en faisant intervenir des techniques de traitement automatique des langues : nous nous intéressons d’abord aux corpus parallèles aligné
SYLVAIN LOISEAU
Résumé: Cet article examine les conséquences pour la description de normes linguistiques des nouveaux observables que permettent de construire les linguistiques de corpus. Nous formulons l’hypothèse que des corpus complexes articulant plusieurs niveaux de descrip
BILL LOUW
Résumé  : Introduit par Bill Louw en 1993 avant d'être repris et popularisé par John Sinclair, le concept de "prosodie sémantique" illustre l'intérêt des approches contextualistes pour la théorie sémantique. L'auteur en reprend ici les principales caractéristiques et propose des développements et une application à un texte littéraire.
CHRISTIAN MAUCERI
Résumé  : Une approche interprétative de la classification automatique, appuyée aux acquis théoriques de la sémantique interprétative, ouvre des voies nouvelles à l'indexation en particulier et, en général, à l'herméneutique matérielle dont l'ambition est de réunifier l'herméneutique et la philologie. L'auteur propose notamment une pratique renouvelée de la classification automatique, ainsi que des améliorations de la technique d'indexation par sémantique latente.
DAMON MAYAFFRE et BÉNÉDICTE PINCEMIN
Résumé  : Présentation critique de la textométrie - logométrie, notamment de leurs objectifs et des questions de méthode que ces approches soulèvent. Exposé réalisé en 2009, à Besançon, lors de la première école d'été MISAT (Méthodes informatiques et statistiques en analyse de textes).
JEAN-GUY MEUNIER
Résumé: Jean-Guy Meunier, professeur à l'UQAM (Montréal), présente une synthèse sur les humanités numériques, de leurs supports informatiques à leurs méthodes et à leurs programmes de recherche.
BÉNÉDICTE PINCEMIN
Résumé: La textométrie propose une approche et des outils pour analyser les corpus numériques. Les chercheurs en sémantique interprétative ont expérimenté et précisé comment la cooccurrence mesurée par la textométrie pouvait être mise à profit pour la description
CÉLINE POUDAT
Résumé  : La présentation détaille les principes de fonctionnement et les modalités d'utilisation de quatre étiqueteurs morphosyntaxiques entraînables: Brill Tagger, MBT Tagger, TnT Tagger et TreeTagger.
FRANÇOIS RASTIER
Résumé: Le programme du Web sémantique entend remplacer le « Web des documents » par le « Web des données » et prolonge ainsi le programme classique de la représentation des connaissances. En revanche, pour une sémantique du Web inspirée par la linguistique de co
LUDOVIC TANGUY
Résumé: Cet article propose un panorama des usages du Web en linguistique de corpus. À travers une présentation de différents travaux, il aborde les considérations méthodologiques et techniques, en mettant en avant les difficultés que rencontrent les linguistes f
MATHIEU VALETTE
Résumé  : La linguistique de corpus ne sera, selon toute vraisemblance, jamais établie en discipline académique. Aujourd’hui, nombre de linguistes, quels que soient leur discipline ou leurs objets d’étude, sont conduits à constituer des corpus numériques et à les étudier au moyen d’outils logiciels chaque année plus nombreux, sophistiqués et conviviaux. La banalisation de l’outil désenclave ainsi des pratiques longtemps réservées à une petite minorité que l’informatique ne rebutait pas. Mais cette évolution technologique, si elle peut avoir une incidence méthodologique (par exemple et minimalement, en substituant aux exemples construits des exemples attestés), n’a pas pour autant un impact fort sur les théories ni sur la définition des objets de la linguistique : à la morphologie, les corpus de mots ; à la syntaxe, les corpus de phrases ; aux théories énonciatives, les corpus d’énoncés. Et bien que tous ces objets d’étude proviennent de textes, ceux-ci ne sont que rarement considérés comme objet de science dans ces contextes disciplinaires. Ils sont réduits, par défaut, au statut préscientifique de ressource – un matériau brut dont la qualité est déterminée par la seule présence, après raffinage, de l’objet étudié. On collecte ainsi de l’indénombrable : du texte ou du corpus.
MATHIEU VALETTE
Résumé  : La linguistique doit prendre part et position face aux nouveaux enjeux théoriques et méthodologiques naissant autour du document numérique et de l’élaboration des connaissances, et ne pas laisser à d’autres disciplines (sciences de l’information et de la communication, informatique) le soin de décrire, seules, ces nouveaux objets sémiotiques. Leur diversité et leur complexité sont en outre à problématiser tant dans la perspective de la variété des pratiques sociales que dans celle du multilinguisme. L’élaboration conjointe de modélisations linguistiques et d’outils informatiques destinés à leur validation et leur mise en œuvre s’avère une condition nécessaire à leur description. Dans ce cadre général, notre objectif est de présenter un ensemble de propositions visant à situer l’étude du lexique dans le paradigme textuel. Plus précisément, notre projet est d’étudier les déterminations textuelles de la conceptualisation et de la lexicalisation des concepts. Dans le premier chapitre, nous effectuons une revue critique des principaux modes de structuration et de représentation du lexique, en particulier dans la perspective d’un traitement automatique du sens. Nous exposons ensuite certaines propositions de la sémantique interprétative et textuelle de F. Rastier en la matière. Après une présentation de la notion de classes sémantiques, nous nous focalisons sur l’une d’entre elles, le taxème, et nous discutons plus particulièrement de son rôle dans la représentation de la praxis. Dans le deuxième chapitre, nous traitons de la représentation du lexique du point de vue du texte, c’est-à-dire du point de vue de l’agencement syntagmatique. Nous abordons les différentes objectivations sémantiques proposées par la théorie susmentionnée (isotopies, molécules sémiques) de façon à mettre en évidence le rôle de l’articulation lexique/texte dans la cohésion textuelle. Dans le troisième chapitre, nous présentons un ensemble de travaux réalisés dans la perspective d’une instrumentation de l’analyse sémantique des textes et du lexique faisant la synthèse des recherches relatées dans les deux précédents chapitres. Enfin, dans un quatrième chapitre, nous abordons la question de la conceptualisation et de la lexicalisation des concepts. Nous proposons une méthode de description fondée sur les propositions théoriques et les outils informatiques décrits précédemment. Nous présentons, enfin, un ensemble de prospectives et un programme de recherche relatif à l’approfondissement de notre approche dans la perspective des nouvelles applications de la linguistique, en particulier dans un contexte variationniste et multilingue.
MATHIEU VALETTE
Résumé: Présentation à la journée d'étude de l'ATALA - Fouille d'opinion et analyse de sentiments - Paris (INALCO), 21 mars 2015
BILL WINDER
Résumé  : Dans ce travail, nous nous demandons ce qui relie formellement les nouvelles de Maupassant à leur titre. Pour nous assurer d’une démarche explicite, nous avons d’abord tenté de reformuler cette recherche dans les termes d’un problème informatique précis : à l’aide d’une analyse automatique de notre corpus de 294 nouvelles de Maupassant, l’ordinateur peut-il engendrer pour chaque texte le titre que Maupassant lui a donné ? Nous n’avons cependant pas pu aborder de front ce problème coriace, et nous avons dû nous contenter d’un autre problème plus simple, mais apparenté : quels algorithmes peuvent servir à aligner les titres du corpus sur leur texte ? Dans cette partie de notre travail, « Décomptes électroniques », nous étudions les fréquences lexicales simples des noms propres tirés du corpus des nouvelles de Maupassant publié dans le American Research on the Treasury of the French Language. Dans la deuxième partie de ce travail, « Traitement intelligent », nous nous servons du corpus de Maupassant téléchargeable à partir de l’Association des amis de Guy de Maupassant. Le texte électronique libre et les outils informatiques plus évolués qui sont disponibles sur Internet nous permettent de réaliser des analyses plus fines de la relation entre le titre et son texte et d’aborder l’alignement d’autres classes de mots, tels les noms communs. Ces deux parties constituent une réflexion sur la méthodologie du prétraitement interprétatif et servent à l’élaboration d’une base de données « intelligente » des nouvelles de Maupassant.