1998_01_08
________________________________________________________________________________
SdT volume 4, numero 1.
LES CITATIONS DU MOIS
___________________________________________________________
Leopardi :
"Le style et les mots sont non le vêtement
mais le corps des pensées"
(Zibaldone, tr. M. Orcel, Le temps qu'il fait,
Paris, 1987, p.65).
"Tout ce à quoi on réfère doit exister"
(Searle, J. Les actes de langage, Hermann, Paris, 1972, p.121).
"On peut croire à peu près tout ce qu'il y a dans les romans.
C'est sur le reste qu'il faut se poser des questions"
(Stephen McCauley, The Man in the House.)
___________________________________________________________
SOMMAIRE
1- Coordonnees
- Bienvenue aux 5 nouveaux correspondants : Simon Bouquet, Giorgio
Fairsoni, Hava Bat-Zeev Shyldkrot, Christiane Jadelot, et Armando
Fumagalli.
- Andrei Botchkarev dispose maintenant d'une adresse personnelle ;
et 3 autres changements d'adresse a noter, pour Francis Rousseaux,
Gianfranco Marrone, et Michael Rinn. C'est l'occasion de completer
la presentation de ce dernier.
- Le point sur les abonnes : publication annuelle de l'annuaire SdT.
2- Carnet
- Bonne annee !
- Naissance de Leo Abeille.
- Andreas Blank nomme professeur à l'Universite de Marbourg.
- Depart de Pascal Vaillant en post-doc a Berlin.
- Adresses Web : grandes bibliotheques, revues de vulgarisation,
et serveur Arisitum (latin, ancien français, occitan, langue d'oil).
3- Bibliographie
- 1 reference recente sur l'annotation linguistique de corpus.
4- Publications
- These de Ludovic Tanguy sur le Web (HTML et Postscript).
- Texto! momentanement indisponible.
- These d'Andreas Blank, chez Niemeyer (Tübingen).
- B. Habert, A. Nazarenko, A. Salem : Les linguistiques de corpus.
5- Textes
- Communication de I. Kanellos et T. Thlivitis au 16e Congres des
Linguistes a Paris :
Théorie linguistique et moyens d'assistance informatique.
11111111111111111111111111111111111111111111111111111111111111111111111111111111
Coordonnees Coordonnees Coordonnees Coordonnees Coordonnees Coordonnees
11111111111111111111111111111111111111111111111111111111111111111111111111111111
BIENVENUE AUX NOUVEAUX ABONNÉS
[information réservée aux abonnés]
NOUVELLE ADRESSE POUR
4. Library of Congress
http://lcweb.loc.gov/homepage/lchp.html
5. Pour la science
http://www.pourlascience.com/
6. La recherche
http://www.LaRecherche.fr/
7. Vous trouverez des textes en latin, en ancien français, en occitan et
en langue d'oil sur le serveur ARISITUM
http://www.arisitum.org/index.htm
Felix qui potuit rerum cognoscere causas
33333333333333333333333333333333333333333333333333333333333333333333333333333333
Bibliographie Bibliographie Bibliographie Bibliographie Bibliographie
33333333333333333333333333333333333333333333333333333333333333333333333333333333
{FR, 15/12/97}
Garside, R., Leech G., McEnery T. (1997) Corpus annotation : Linguistic
information from computer text corpora, Amsterdam, Addison-Wesley/Longman.
44444444444444444444444444444444444444444444444444444444444444444444444444444444
Publications Publications Publications Publications Publications Publications
44444444444444444444444444444444444444444444444444444444444444444444444444444444
{FR, 15/12/97}
CHANSONS DE TOILE
La thèse de Ludovic Tanguy
Traitement automatique de la langue naturelle et interprétation :
contribution à l'élaboration informatique
d'un modèle de la sémantique interprétative
est à présent consultable dans son intégralité à l'adresse
http://www-iasc.enst-bretagne.fr/~tanguy/
(version HTML et version Postscript).
En raison d'un piratage, le serveur de la maison des sciences de l'homme,
qui abrite Texto!, reste indisponible, et nous n'avons par pu faire les
mises à jours annoncées. Nous présentons nos excuses bien réelles à nos
lecteurs virtuels.
44444444444444444444444444444444444444444444444444444444444444444444444444444444
{FR, 15/12/97}
La thèse d'Andreas Blank vient de paraître chez Niemeyer (Tübingen) :
Prinzipien des lexicalischen Bedeutungswandels
am Beispiel des romanischen Sprachen.
Un régal!
44444444444444444444444444444444444444444444444444444444444444444444444444444444
{FR, 15/12/97}
VIENT DE PARAITRE
LES LINGUISTIQUES DE CORPUS
Benoît Habert
Adeline Nazarenko
André Salem
Armand Colin/Masson
Paris 1997, 240p, 125 F.
La linguistique contemporaine, avec Chomsky, s'est définie partiellement
par le rejet des données attestées que sont les corpus. Elle a privilégié
l'intuition du locuteur natif sur des énoncés simplifiés pour permettre
une étude isolée des différents phénomènes linguistiques.
Un courant de linguistique descriptive de tradition anglo-saxonne a
néanmoins continué à fonder ses recherches sur des corpus. Ces vingt
dernières années, ces corpus sont devenus de plus en plus vastes et ont
été peu à peu « enrichis », c'est-à-dire munis d'étiquettes morpho-
syntaxiques ou d'arbres syntaxiques. Ces annotations ouvrent de
nouvelles perspectives de description : micro-syntaxe, phraséologie,
classes distributionnelles, corrélations de traits linguistiques,
typologie des textes etc.
La communauté du traitement automatique du langage apporte maintenant
son appui à la constitution de corpus annotés. Elle y voit le moyen
d'acquérir des connaissances lexicales et grammaticales en quantité et en
qualité suffisantes pour aboutir à des systèmes de traitements fiables et
robustes. La nécessité de traiter les données textuelles de plus en plus
vastes qui circulent sur les réseaux favorise encore ce choix.
La francophonie entre progressivement dans ce mouvement. A terme, seront
aussi disponibles pour le français des corpus annotés vastes et
diversifiés ainsi que les outils de traitement (étiqueteurs et
analyseurs) et d'exploration correspondants.
L'ouvrage fait la synthèse des travaux anglo-saxons dans le domaine en
indiquant des recherches équivalentes sur le français. Il présente les
corpus existants, la manière dont ils ont été annotés, automatiquement
ou semi-automatiquement. L'essentiel de l'attention porte sur les
utilisations effectives qui en sont faites : en typologie des textes,
pour caractériser les styles sociaux, pour repérer les « mots composés »
nouveaux ou repérer leurs variantes, pour caractériser l'évolution sur la
longue durée de certaines catégories morpho-syntaxiques... La
présentation détaillée d'utilisations-phares a pour objectif de rendre
tangible l'apport de cette nouvelle dimension des corpus. Une
bibliographie détaillée montre la richesse des recherches
actuelles. L'ouvrage s'assortit d'un pan méthodologique : constitution
d'un corpus, méthodes d'annotation automatique au plan morpho-syntaxique,
syntaxique et sémantique, quantification des faits langagiers.
Les corpus annotés et les outils d'annotations concernent, outre les
linguistes et la communauté du traitement automatique du langage, les
didacticiens, les lexicographes, et les analystes de contenu.
PLAN
====
L'ouvrage se divise en trois parties :
Les corpus annotés et leurs utilisations. Le chapitre 1 aborde les corpus
étiquetés : des étiquettes morpho-syntaxiques sont associées aux mots.
Le chapitre 2 traite des corpus arborés : des représentations syntaxiques
décorent les phrases. Le chapitre 3 décrit d'autres ressources textuelles
qui ne constituent pas des corpus à proprement parler mais qui représentent
néanmoins des données langagières importantes : les dictionnaires sous
forme électronique, les thesaurus, les réseaux sémantiques.
Dimensions transversales. Le chapitre 4 aborde l'annotation sémantique :
utilisation de dictionnaires sémantiques pré-existants ou constitution de
catégories sémantiques à partir des comportements observés en corpus.
Le chapitre 5 montre l'utilisation de corpus dans une perspective
diachronique, sur la longue durée ou au contraire sur des périodes
courtes. Il présente les difficultés propres de la constitution de corpus
historiques et les précautions méthodologiques nécessaires lors de leur
utilisation. Le chapitre 6 traite des textes alignés, c'est-à-dire les
couples de textes dont l'un est une traduction de l'autre et qui sont mis
en correspondance au niveau des parties, des paragraphes et des phrases.
Les méthodes et les techniques. Le chapitre 7 est consacré aux enjeux de la
constitution d'un corpus et les choix méthodologiques qu'elle nécessite,
ainsi qu'à une présentation rapide des normes destinées à faciliter
l'échange et la réutilisation des données textuelles. En essayant
d'éviter l'hermétisme, bien conscients que c'est probablement le point
sur lequel les évolutions sont les plus rapides, nous présentons au
chapitre 8 les techniques d'étiquetage et d'analyse syntaxique proprement
dites, les techniques d'annotation sémantique, ainsi que le « toilettage »
et la segmentation des données textuelles. Le chapitre 9 est dévolu aux
méthodes de quantification.
Pour rester concrets, nous partons donc des corpus annotés et des
ressources textuelles disponibles. Nous abordons ensuite d'autres
dimensions du travail sur corpus : l'étude de la diachronie et celle du
sens, le passage d'une langue à l'autre. Nous finissons par les données
méthodologiques et techniques, plus abstraites pour les premières, plus
éphémères pour les secondes.
55555555555555555555555555555555555555555555555555555555555555555555555555555555
Textes Textes Textes Textes Textes Textes Textes Textes Textes Textes Textes
55555555555555555555555555555555555555555555555555555555555555555555555555555555
{Thlivitis, 18/12/97 et 06/01/98}
Communication au 16e Congres des Linguistes a Paris :
Sémantique lexicale et intertextualité.
Théorie linguistique et moyens d'assistance informatique
Kanellos Ioannis - Thlivitis Théodore
École Nationale Supérieure des Télécommunications de Bretagne
B.P. 832 29285 Brest Cedex
{Ioannis.Kanellos, Theodore.Thlivitis}@enst-bretagne.fr
La vision interprétative de la sémantique décale l'interrogation du sens
vers les conditions de la communication. Difficilement ou pas du tout
formalisables, ces dernières peuvent cependant recevoir une homologation
avec le quasi-monde des textes. Pour un tel pari théorique la compréhension
pose le préalable de l'interprétation. Concrètement, l'évaluation de la
charge sémantique d'un terme convoque non seulement le texte mais, de
surcroît, l'intertexte et la correcte saisie de leurs rapports devient
nécessité, puisque constitutive de sens.
Un exemple : en recherchant le sens du terme 'dialectique' chez Plotin
(philosophe néoplatonicien du troisième siècle de notre ère), les rapports
usés entre diachronie et synchronie doivent être troublés. Il est facile
d'exhiber les limites d'un dictionnaire, fût-ce de spécialité. Le recours au
corpus plotinien apparaît incontournable. Toutefois, seul un traité de
Plotin fait référence à ce terme (Ennéade I, 3). En s'y limitant, on y
apprend que la dialectique peut être considérée suivant plusieurs classes
opératoires (domaines), notamment : //connaissance//, (où l'on décèle les
sèmes /s'exprimant au moyen du discours/, /dévoilant l'être des choses/,
/non formelle/, ...) //activité// (où l'on reconnaît les sèmes /fixée dans
l'intelligible/, /capable de parcourir l'intelligible/, /portant sur les
réalités/, /capable d'opérer des combinaisons complexes des genres
premiers/, /d'essence non formelle/, /précieuse/, /capable de reconnaître
l'identité et la différence/, /atteignant ses objets de manière immédiate/,
..), etc. Dans tous ces domaines, on repérera outre le sème
(macro-générique) /de nature non formelle/ le sème /amenant là où il faut/.
Ces caractérisations sémantiques empruntent beaucoup au nomadisme et à
l'aléatoire des lectures. En se limitant à ce traité, le lecteur non averti
s'aventurera parmi de termes comme "intelligence", "science", "genres
premiers", "réalités" etc. qu'il risque d'interpréter loin de l'esprit de
Plotin. Par exemple, "réalité" n'a aucun sème relevant de la matérialité,
elle renvoie, bien au contraire, à l'ordre de l'intelligible ;
"intelligence" s'oppose à "un" et à "âme" et non pas aux nombreuses
caractérisations de déficience intellectuelle. Certes, toute interprétation
a quelque chose de plausible. Cependant, lorsque la norme est celle de
l'égard (par rapport à une époque, un auteur, un mode de dire et de
comprendre, un moment historique précis, une tradition déterminée ...)
l'échelle de la plausibilité est fortement contrainte.
Bien entendu, pour un philologue classique, la possession d'un schéma
interprétatif global régule le retravail sémantique et suffit pour infléchir
les contenus. Un tel schéma est en quelque sorte l'opérationalisation de
longues études sur Plotin, son époque, son ascendance et sa descendance
philosophique, le climat social, politique, idéologique de son époque, etc.
Pour un lecteur moins spécialisé, tout ce fonds sera toujours un manque à
combler par un vécu textuel engagé dans, précisément, le quasi-monde des
textes. Il s'affirme comme "projet intertextuel" au sens où il s'efforce de
rétablir les modalités d'une signifiance par le moyen de l'intertexte. De
manière évidente le lecteur peut définir comme projet la lecture d'un
ensemble suffisant de traités de Plotin, du moins d'un nombre suffisant et
d'une thématique proche. Mais il peut se déclarer plus ambitieux dans
l'objectif de repérer la filiation du terme avec la tradition platonicienne
(dont la pensée de Plotin se veut exégèse), voire opérer des comparaisons
(le terme est-il identiquement envisagé chez le maître de l'Académie ?).
Notre travail vise précisément l'assistance d'un lecteur dans un projet de
ce type. Plus généralement, il s'agit de lui proposer une aide pour
caractériser sémantiquement un texte localisé à l'intérieur d'une société de
textes qui contraint et parfois spécifie sa signifiance en la soumettant à
un ordre global. Un tel cadre est nécessairement anthropocentré : la
machine, dont l'ordre est celui du calcul, ne saurait avoir droits de
préemption sur la caractérisation sémantique des textes. L'architecture
anthropocentrée traduit la volonté d'inverser les rapports de priorité dans
la collaboration de l'homme avec la machine : c'est la machine qui assiste
l'homme, non pas l'homme la machine. La machine engage un "dialogue" avec
l'homme en lui proposant ses services en matière d'organisation et de
gestion des ressources, de calculs symboliques, de comparaisons, bref de
services de contrôle de cohérence et de suggestion.
Notre travail s'appuie sur le cadre de la Sémantique Interprétative (SI). Il
prolonge, cependant, le principe herméneutique qui la guide (la
détermination du local par le global) au palier de la société des textes. En
effet, la SI met en avant le concept d'isotopie pour caractériser,
essentiellement, l'unité sémantique d'un texte, qui détermine le sémantisme
des unités appartenant à des paliers inférieurs. Nous postulons que l'unité
sémantique du texte est subordonnée à une unité sémantique englobante : pour
comprendre un texte il faut tout d'abord le situer (dans une tradition, une
pratique, par rapport à un objectif d'interprétation). Cette mise en
situation se modélise par le concept d'anagnose qui rend l'intertexte
opératoire. De même ici, c'est l'intertexte, qui détermine le texte avant de
se voir déterminé par lui.
Pour donner une esquisse de la vision applicative, précisons tout d'abord
que l'explicitation du sens dans l'outil informatique se fait uniquement par
le moyen de descriptions (symboliques) d'interprétations. Le matériau de ces
interprétations se rend sous forme textuelle, i.e. le sens est décrit au
moyen de relations entre parties de textes et éléments sémiques. Ce matériau
textuel concerne trois paliers successifs : l' intratexte (mots,
expressions, morceaux de texte, situés dans un texte et identifiés sous le
nom générique de lexies), le texte, situé dans l'intertexte et, enfin,
l'intertexte situé à son tour dans la production interprétative d'un lecteur
(appelé ici anagnose pour éviter les confusions idéologiquement marquées).
Par rapport au texte et aux lexies, l'anagnose a la particularité d'être
créée par le lecteur-utilisateur du système et modifiée tout au long de son
analyse. Il s'agit d'une véritable production dont l'étendue est limitée
seulement par ses objectifs.
Ce découpage du matériau textuel se justifie par une nécessité de
description sémantique et un objectif opératoire. D'une part, dans une
anagnose, le texte apparaît non seulement comme contenant (de lexies par
exemple) mais aussi comme unité ; il admet ainsi, en vertu de cette qualité,
des caractérisations qui ne dépendent pas des lexies qui le constituent.
C'est le cas par exemple d'une relation comme /influence/ ou /filiation/
relativement à deux textes (en tant qu'unités) au sein d'une anagnose. Plus
généralement, l'utilisateur a la possibilité d'attribuer un sens différent
aux entités de chacun des niveaux de textualité mentionnés (de l'intratexte
à l'intertexte).
D'autre part, le rôle opératoire de ce positionnement successif est de
rendre possible un ensemble d'automatismes de cohérence et d'afférence
contextualisées. A chaque niveau, les unités peuvent recevoir des
caractérisations sémantiques qui s'inscrivent toujours dans une entité de
niveau supérieur et qui sont opérationalisées par des contraintes sur de
structures sémantiques de niveau inférieur. Les structures sémiques
(macro-molécules sémiques, rythmes thématiques, acteurs dialectiques, etc.),
selon leur définition par l'utilisateur, reçoivent un ou plusieurs rôles
opératoires. Par exemple pour notre exemple de 'dialectique', nous utilisons
la recherche de rapprochements sémantiques en contexte. Deux types de
rapprochements sont identifiés. Ceux qui dépendent de l'emplacement physique
( i.e. d'une tactique de l'expression), et ceux, plus importants, qui sont
induits par les traits sémantiques communs, comme dans le cas mentionné
d'/influence/. En utilisant ces rapprochements nous pouvons, entre autres,
opérationaliser certains mécanismes de suggestion automatique d'afférences
(e.g. de Platon vers Plotin).
Notre logiciel s'inscrit dans ce cadre d'organisation et d'assistance de
l'interprétation. Il constitue l'extension intertextuelle du logiciel
PASTEL. Pour ce faire l'architecture est repensée sur les bases d'une
organisation modulaire et orientée objet où les informations textuelles et
sémantiques sont placées dans une base de données objet (O2) communiquant
avec une interface graphique utilisateur (Tcl/Tk) sous le contrôle d'un
programme C++.
Concluons par un retour à notre exemple. En constituant une anagnose
contenant outre les traités plotiniens les 12 dialogues de Platon retenus
dans le cursus néoplatonicien, sous la présomption d'inter-isotopie de
/filiation/, le lecteur, assisté par la machine, pourra essayer de retracer
le mode herméneutique qui régit cette filiation. La dialectique pour Platon
actualise entre autres les sèmes de /connaissance vraie/, /connaissance
anhypothétique des intelligibles/, /connaissance du bien/, /savoir
intelligible et vrai/ (dans le taxème //connaissance//), /méthode de
réminiscence/, /mode d'explicitation des relations entre les idées/,
/méthode de distinction des genres/, /méthode de division/, /méthode de
communicabilité des intelligibles/ (dans //méthode//). Le retravail
exégétique de Plotin consistera à sur- (ou sous-) déterminer ces sèmes par
rapport à sa conception générale de la procession et conversion des formes.
La machine gérera les questions de compatibilité entre les deux visions du
concept. Du coup, elle suggérera quelques voies qui rendent la première
compatible avec la seconde - au prix d'actualisations et de virtualisations
sémiques forcées.
Références
Monitor/Fast, 1992
Monitor/Fast (1992). Anthropocentric Production Systems. Modernising
European Industry. Commission of the European Communities. DG XII -
Science Research and Development, Brussels.
Rastier, 1989
Rastier, F. (1989). Sens et textualité. Hachette, Paris.
Ricoeur, 1970
Ricoeur, P. (1970). " Qu'est-ce qu'un texte ? ". Dans De l'herméneutique
des textes à celle de l'action, Essais d'herméneutique I.
Tanguy et Thlivitis, 1996
Tanguy, L. et Thlivitis, T. (1996). "PASTEL : un protocole informatisé
d'aide à l'interprétation des textes". Dans Informatique et Langue
Naturelle '96, Nantes.
Thlivitis et Kanellos, 1997
Thlivitis, T. et Kanellos, I. (1997). "Computer Assisted Cross-textual
Semantic Analysis: Theoretical Aspects and Application". Dans First
International Conference on Cognitive Science, Seoul.
55555555555555555555555555555555555555555555555555555555555555555555555555555555
////////////////////////////////////////////////////////////////////////