SdT v.4 n.1

1998_01_08

________________________________________________________________________________

SdT volume 4, numero 1.

LES CITATIONS DU MOIS

___________________________________________________________

Leopardi :

"Le style et les mots sont non le vêtement

mais le corps des pensées"

(Zibaldone, tr. M. Orcel, Le temps qu'il fait,

Paris, 1987, p.65).

"Tout ce à quoi on réfère doit exister"

(Searle, J. Les actes de langage, Hermann, Paris, 1972, p.121).

"On peut croire à peu près tout ce qu'il y a dans les romans.

C'est sur le reste qu'il faut se poser des questions"

(Stephen McCauley, The Man in the House.)

___________________________________________________________

SOMMAIRE

1- Coordonnees

- Bienvenue aux 5 nouveaux correspondants : Simon Bouquet, Giorgio

Fairsoni, Hava Bat-Zeev Shyldkrot, Christiane Jadelot, et Armando

Fumagalli.

- Andrei Botchkarev dispose maintenant d'une adresse personnelle ;

et 3 autres changements d'adresse a noter, pour Francis Rousseaux,

Gianfranco Marrone, et Michael Rinn. C'est l'occasion de completer

la presentation de ce dernier.

- Le point sur les abonnes : publication annuelle de l'annuaire SdT.

2- Carnet

- Bonne annee !

- Naissance de Leo Abeille.

- Andreas Blank nomme professeur à l'Universite de Marbourg.

- Depart de Pascal Vaillant en post-doc a Berlin.

- Adresses Web : grandes bibliotheques, revues de vulgarisation,

et serveur Arisitum (latin, ancien français, occitan, langue d'oil).

3- Bibliographie

- 1 reference recente sur l'annotation linguistique de corpus.

4- Publications

- These de Ludovic Tanguy sur le Web (HTML et Postscript).

- Texto! momentanement indisponible.

- These d'Andreas Blank, chez Niemeyer (Tübingen).

- B. Habert, A. Nazarenko, A. Salem : Les linguistiques de corpus.

5- Textes

- Communication de I. Kanellos et T. Thlivitis au 16e Congres des

Linguistes a Paris :

Théorie linguistique et moyens d'assistance informatique.

11111111111111111111111111111111111111111111111111111111111111111111111111111111

Coordonnees Coordonnees Coordonnees Coordonnees Coordonnees Coordonnees

11111111111111111111111111111111111111111111111111111111111111111111111111111111

BIENVENUE AUX NOUVEAUX ABONNÉS

[information réservée aux abonnés]

NOUVELLE ADRESSE POUR

4. Library of Congress

http://lcweb.loc.gov/homepage/lchp.html

5. Pour la science

http://www.pourlascience.com/

6. La recherche

http://www.LaRecherche.fr/

7. Vous trouverez des textes en latin, en ancien français, en occitan et

en langue d'oil sur le serveur ARISITUM

http://www.arisitum.org/index.htm

Felix qui potuit rerum cognoscere causas

33333333333333333333333333333333333333333333333333333333333333333333333333333333

Bibliographie Bibliographie Bibliographie Bibliographie Bibliographie

33333333333333333333333333333333333333333333333333333333333333333333333333333333

{FR, 15/12/97}

Garside, R., Leech G., McEnery T. (1997) Corpus annotation : Linguistic

information from computer text corpora, Amsterdam, Addison-Wesley/Longman.

44444444444444444444444444444444444444444444444444444444444444444444444444444444

Publications Publications Publications Publications Publications Publications

44444444444444444444444444444444444444444444444444444444444444444444444444444444

{FR, 15/12/97}

CHANSONS DE TOILE

La thèse de Ludovic Tanguy

Traitement automatique de la langue naturelle et interprétation :

contribution à l'élaboration informatique

d'un modèle de la sémantique interprétative

est à présent consultable dans son intégralité à l'adresse

http://www-iasc.enst-bretagne.fr/~tanguy/

(version HTML et version Postscript).

En raison d'un piratage, le serveur de la maison des sciences de l'homme,

qui abrite Texto!, reste indisponible, et nous n'avons par pu faire les

mises à jours annoncées. Nous présentons nos excuses bien réelles à nos

lecteurs virtuels.

44444444444444444444444444444444444444444444444444444444444444444444444444444444

{FR, 15/12/97}

La thèse d'Andreas Blank vient de paraître chez Niemeyer (Tübingen) :

Prinzipien des lexicalischen Bedeutungswandels

am Beispiel des romanischen Sprachen.

Un régal!

44444444444444444444444444444444444444444444444444444444444444444444444444444444

{FR, 15/12/97}

VIENT DE PARAITRE

LES LINGUISTIQUES DE CORPUS

Benoît Habert

Adeline Nazarenko

André Salem

Armand Colin/Masson

Paris 1997, 240p, 125 F.

La linguistique contemporaine, avec Chomsky, s'est définie partiellement

par le rejet des données attestées que sont les corpus. Elle a privilégié

l'intuition du locuteur natif sur des énoncés simplifiés pour permettre

une étude isolée des différents phénomènes linguistiques.

Un courant de linguistique descriptive de tradition anglo-saxonne a

néanmoins continué à fonder ses recherches sur des corpus. Ces vingt

dernières années, ces corpus sont devenus de plus en plus vastes et ont

été peu à peu « enrichis », c'est-à-dire munis d'étiquettes morpho-

syntaxiques ou d'arbres syntaxiques. Ces annotations ouvrent de

nouvelles perspectives de description : micro-syntaxe, phraséologie,

classes distributionnelles, corrélations de traits linguistiques,

typologie des textes etc.

La communauté du traitement automatique du langage apporte maintenant

son appui à la constitution de corpus annotés. Elle y voit le moyen

d'acquérir des connaissances lexicales et grammaticales en quantité et en

qualité suffisantes pour aboutir à des systèmes de traitements fiables et

robustes. La nécessité de traiter les données textuelles de plus en plus

vastes qui circulent sur les réseaux favorise encore ce choix.

La francophonie entre progressivement dans ce mouvement. A terme, seront

aussi disponibles pour le français des corpus annotés vastes et

diversifiés ainsi que les outils de traitement (étiqueteurs et

analyseurs) et d'exploration correspondants.

L'ouvrage fait la synthèse des travaux anglo-saxons dans le domaine en

indiquant des recherches équivalentes sur le français. Il présente les

corpus existants, la manière dont ils ont été annotés, automatiquement

ou semi-automatiquement. L'essentiel de l'attention porte sur les

utilisations effectives qui en sont faites : en typologie des textes,

pour caractériser les styles sociaux, pour repérer les « mots composés »

nouveaux ou repérer leurs variantes, pour caractériser l'évolution sur la

longue durée de certaines catégories morpho-syntaxiques... La

présentation détaillée d'utilisations-phares a pour objectif de rendre

tangible l'apport de cette nouvelle dimension des corpus. Une

bibliographie détaillée montre la richesse des recherches

actuelles. L'ouvrage s'assortit d'un pan méthodologique : constitution

d'un corpus, méthodes d'annotation automatique au plan morpho-syntaxique,

syntaxique et sémantique, quantification des faits langagiers.

Les corpus annotés et les outils d'annotations concernent, outre les

linguistes et la communauté du traitement automatique du langage, les

didacticiens, les lexicographes, et les analystes de contenu.

PLAN

====

L'ouvrage se divise en trois parties :

Les corpus annotés et leurs utilisations. Le chapitre 1 aborde les corpus

étiquetés : des étiquettes morpho-syntaxiques sont associées aux mots.

Le chapitre 2 traite des corpus arborés : des représentations syntaxiques

décorent les phrases. Le chapitre 3 décrit d'autres ressources textuelles

qui ne constituent pas des corpus à proprement parler mais qui représentent

néanmoins des données langagières importantes : les dictionnaires sous

forme électronique, les thesaurus, les réseaux sémantiques.

Dimensions transversales. Le chapitre 4 aborde l'annotation sémantique :

utilisation de dictionnaires sémantiques pré-existants ou constitution de

catégories sémantiques à partir des comportements observés en corpus.

Le chapitre 5 montre l'utilisation de corpus dans une perspective

diachronique, sur la longue durée ou au contraire sur des périodes

courtes. Il présente les difficultés propres de la constitution de corpus

historiques et les précautions méthodologiques nécessaires lors de leur

utilisation. Le chapitre 6 traite des textes alignés, c'est-à-dire les

couples de textes dont l'un est une traduction de l'autre et qui sont mis

en correspondance au niveau des parties, des paragraphes et des phrases.

Les méthodes et les techniques. Le chapitre 7 est consacré aux enjeux de la

constitution d'un corpus et les choix méthodologiques qu'elle nécessite,

ainsi qu'à une présentation rapide des normes destinées à faciliter

l'échange et la réutilisation des données textuelles. En essayant

d'éviter l'hermétisme, bien conscients que c'est probablement le point

sur lequel les évolutions sont les plus rapides, nous présentons au

chapitre 8 les techniques d'étiquetage et d'analyse syntaxique proprement

dites, les techniques d'annotation sémantique, ainsi que le « toilettage »

et la segmentation des données textuelles. Le chapitre 9 est dévolu aux

méthodes de quantification.

Pour rester concrets, nous partons donc des corpus annotés et des

ressources textuelles disponibles. Nous abordons ensuite d'autres

dimensions du travail sur corpus : l'étude de la diachronie et celle du

sens, le passage d'une langue à l'autre. Nous finissons par les données

méthodologiques et techniques, plus abstraites pour les premières, plus

éphémères pour les secondes.

55555555555555555555555555555555555555555555555555555555555555555555555555555555

Textes Textes Textes Textes Textes Textes Textes Textes Textes Textes Textes

55555555555555555555555555555555555555555555555555555555555555555555555555555555

{Thlivitis, 18/12/97 et 06/01/98}

Communication au 16e Congres des Linguistes a Paris :

Sémantique lexicale et intertextualité.

Théorie linguistique et moyens d'assistance informatique

Kanellos Ioannis - Thlivitis Théodore

École Nationale Supérieure des Télécommunications de Bretagne

B.P. 832 29285 Brest Cedex

{Ioannis.Kanellos, Theodore.Thlivitis}@enst-bretagne.fr

La vision interprétative de la sémantique décale l'interrogation du sens

vers les conditions de la communication. Difficilement ou pas du tout

formalisables, ces dernières peuvent cependant recevoir une homologation

avec le quasi-monde des textes. Pour un tel pari théorique la compréhension

pose le préalable de l'interprétation. Concrètement, l'évaluation de la

charge sémantique d'un terme convoque non seulement le texte mais, de

surcroît, l'intertexte et la correcte saisie de leurs rapports devient

nécessité, puisque constitutive de sens.

Un exemple : en recherchant le sens du terme 'dialectique' chez Plotin

(philosophe néoplatonicien du troisième siècle de notre ère), les rapports

usés entre diachronie et synchronie doivent être troublés. Il est facile

d'exhiber les limites d'un dictionnaire, fût-ce de spécialité. Le recours au

corpus plotinien apparaît incontournable. Toutefois, seul un traité de

Plotin fait référence à ce terme (Ennéade I, 3). En s'y limitant, on y

apprend que la dialectique peut être considérée suivant plusieurs classes

opératoires (domaines), notamment : //connaissance//, (où l'on décèle les

sèmes /s'exprimant au moyen du discours/, /dévoilant l'être des choses/,

/non formelle/, ...) //activité// (où l'on reconnaît les sèmes /fixée dans

l'intelligible/, /capable de parcourir l'intelligible/, /portant sur les

réalités/, /capable d'opérer des combinaisons complexes des genres

premiers/, /d'essence non formelle/, /précieuse/, /capable de reconnaître

l'identité et la différence/, /atteignant ses objets de manière immédiate/,

..), etc. Dans tous ces domaines, on repérera outre le sème

(macro-générique) /de nature non formelle/ le sème /amenant là où il faut/.

Ces caractérisations sémantiques empruntent beaucoup au nomadisme et à

l'aléatoire des lectures. En se limitant à ce traité, le lecteur non averti

s'aventurera parmi de termes comme "intelligence", "science", "genres

premiers", "réalités" etc. qu'il risque d'interpréter loin de l'esprit de

Plotin. Par exemple, "réalité" n'a aucun sème relevant de la matérialité,

elle renvoie, bien au contraire, à l'ordre de l'intelligible ;

"intelligence" s'oppose à "un" et à "âme" et non pas aux nombreuses

caractérisations de déficience intellectuelle. Certes, toute interprétation

a quelque chose de plausible. Cependant, lorsque la norme est celle de

l'égard (par rapport à une époque, un auteur, un mode de dire et de

comprendre, un moment historique précis, une tradition déterminée ...)

l'échelle de la plausibilité est fortement contrainte.

Bien entendu, pour un philologue classique, la possession d'un schéma

interprétatif global régule le retravail sémantique et suffit pour infléchir

les contenus. Un tel schéma est en quelque sorte l'opérationalisation de

longues études sur Plotin, son époque, son ascendance et sa descendance

philosophique, le climat social, politique, idéologique de son époque, etc.

Pour un lecteur moins spécialisé, tout ce fonds sera toujours un manque à

combler par un vécu textuel engagé dans, précisément, le quasi-monde des

textes. Il s'affirme comme "projet intertextuel" au sens où il s'efforce de

rétablir les modalités d'une signifiance par le moyen de l'intertexte. De

manière évidente le lecteur peut définir comme projet la lecture d'un

ensemble suffisant de traités de Plotin, du moins d'un nombre suffisant et

d'une thématique proche. Mais il peut se déclarer plus ambitieux dans

l'objectif de repérer la filiation du terme avec la tradition platonicienne

(dont la pensée de Plotin se veut exégèse), voire opérer des comparaisons

(le terme est-il identiquement envisagé chez le maître de l'Académie ?).

Notre travail vise précisément l'assistance d'un lecteur dans un projet de

ce type. Plus généralement, il s'agit de lui proposer une aide pour

caractériser sémantiquement un texte localisé à l'intérieur d'une société de

textes qui contraint et parfois spécifie sa signifiance en la soumettant à

un ordre global. Un tel cadre est nécessairement anthropocentré : la

machine, dont l'ordre est celui du calcul, ne saurait avoir droits de

préemption sur la caractérisation sémantique des textes. L'architecture

anthropocentrée traduit la volonté d'inverser les rapports de priorité dans

la collaboration de l'homme avec la machine : c'est la machine qui assiste

l'homme, non pas l'homme la machine. La machine engage un "dialogue" avec

l'homme en lui proposant ses services en matière d'organisation et de

gestion des ressources, de calculs symboliques, de comparaisons, bref de

services de contrôle de cohérence et de suggestion.

Notre travail s'appuie sur le cadre de la Sémantique Interprétative (SI). Il

prolonge, cependant, le principe herméneutique qui la guide (la

détermination du local par le global) au palier de la société des textes. En

effet, la SI met en avant le concept d'isotopie pour caractériser,

essentiellement, l'unité sémantique d'un texte, qui détermine le sémantisme

des unités appartenant à des paliers inférieurs. Nous postulons que l'unité

sémantique du texte est subordonnée à une unité sémantique englobante : pour

comprendre un texte il faut tout d'abord le situer (dans une tradition, une

pratique, par rapport à un objectif d'interprétation). Cette mise en

situation se modélise par le concept d'anagnose qui rend l'intertexte

opératoire. De même ici, c'est l'intertexte, qui détermine le texte avant de

se voir déterminé par lui.

Pour donner une esquisse de la vision applicative, précisons tout d'abord

que l'explicitation du sens dans l'outil informatique se fait uniquement par

le moyen de descriptions (symboliques) d'interprétations. Le matériau de ces

interprétations se rend sous forme textuelle, i.e. le sens est décrit au

moyen de relations entre parties de textes et éléments sémiques. Ce matériau

textuel concerne trois paliers successifs : l' intratexte (mots,

expressions, morceaux de texte, situés dans un texte et identifiés sous le

nom générique de lexies), le texte, situé dans l'intertexte et, enfin,

l'intertexte situé à son tour dans la production interprétative d'un lecteur

(appelé ici anagnose pour éviter les confusions idéologiquement marquées).

Par rapport au texte et aux lexies, l'anagnose a la particularité d'être

créée par le lecteur-utilisateur du système et modifiée tout au long de son

analyse. Il s'agit d'une véritable production dont l'étendue est limitée

seulement par ses objectifs.

Ce découpage du matériau textuel se justifie par une nécessité de

description sémantique et un objectif opératoire. D'une part, dans une

anagnose, le texte apparaît non seulement comme contenant (de lexies par

exemple) mais aussi comme unité ; il admet ainsi, en vertu de cette qualité,

des caractérisations qui ne dépendent pas des lexies qui le constituent.

C'est le cas par exemple d'une relation comme /influence/ ou /filiation/

relativement à deux textes (en tant qu'unités) au sein d'une anagnose. Plus

généralement, l'utilisateur a la possibilité d'attribuer un sens différent

aux entités de chacun des niveaux de textualité mentionnés (de l'intratexte

à l'intertexte).

D'autre part, le rôle opératoire de ce positionnement successif est de

rendre possible un ensemble d'automatismes de cohérence et d'afférence

contextualisées. A chaque niveau, les unités peuvent recevoir des

caractérisations sémantiques qui s'inscrivent toujours dans une entité de

niveau supérieur et qui sont opérationalisées par des contraintes sur de

structures sémantiques de niveau inférieur. Les structures sémiques

(macro-molécules sémiques, rythmes thématiques, acteurs dialectiques, etc.),

selon leur définition par l'utilisateur, reçoivent un ou plusieurs rôles

opératoires. Par exemple pour notre exemple de 'dialectique', nous utilisons

la recherche de rapprochements sémantiques en contexte. Deux types de

rapprochements sont identifiés. Ceux qui dépendent de l'emplacement physique

( i.e. d'une tactique de l'expression), et ceux, plus importants, qui sont

induits par les traits sémantiques communs, comme dans le cas mentionné

d'/influence/. En utilisant ces rapprochements nous pouvons, entre autres,

opérationaliser certains mécanismes de suggestion automatique d'afférences

(e.g. de Platon vers Plotin).

Notre logiciel s'inscrit dans ce cadre d'organisation et d'assistance de

l'interprétation. Il constitue l'extension intertextuelle du logiciel

PASTEL. Pour ce faire l'architecture est repensée sur les bases d'une

organisation modulaire et orientée objet où les informations textuelles et

sémantiques sont placées dans une base de données objet (O2) communiquant

avec une interface graphique utilisateur (Tcl/Tk) sous le contrôle d'un

programme C++.

Concluons par un retour à notre exemple. En constituant une anagnose

contenant outre les traités plotiniens les 12 dialogues de Platon retenus

dans le cursus néoplatonicien, sous la présomption d'inter-isotopie de

/filiation/, le lecteur, assisté par la machine, pourra essayer de retracer

le mode herméneutique qui régit cette filiation. La dialectique pour Platon

actualise entre autres les sèmes de /connaissance vraie/, /connaissance

anhypothétique des intelligibles/, /connaissance du bien/, /savoir

intelligible et vrai/ (dans le taxème //connaissance//), /méthode de

réminiscence/, /mode d'explicitation des relations entre les idées/,

/méthode de distinction des genres/, /méthode de division/, /méthode de

communicabilité des intelligibles/ (dans //méthode//). Le retravail

exégétique de Plotin consistera à sur- (ou sous-) déterminer ces sèmes par

rapport à sa conception générale de la procession et conversion des formes.

La machine gérera les questions de compatibilité entre les deux visions du

concept. Du coup, elle suggérera quelques voies qui rendent la première

compatible avec la seconde - au prix d'actualisations et de virtualisations

sémiques forcées.

Références

Monitor/Fast, 1992

Monitor/Fast (1992). Anthropocentric Production Systems. Modernising

European Industry. Commission of the European Communities. DG XII -

Science Research and Development, Brussels.

Rastier, 1989

Rastier, F. (1989). Sens et textualité. Hachette, Paris.

Ricoeur, 1970

Ricoeur, P. (1970). " Qu'est-ce qu'un texte ? ". Dans De l'herméneutique

des textes à celle de l'action, Essais d'herméneutique I.

Tanguy et Thlivitis, 1996

Tanguy, L. et Thlivitis, T. (1996). "PASTEL : un protocole informatisé

d'aide à l'interprétation des textes". Dans Informatique et Langue

Naturelle '96, Nantes.

Thlivitis et Kanellos, 1997

Thlivitis, T. et Kanellos, I. (1997). "Computer Assisted Cross-textual

Semantic Analysis: Theoretical Aspects and Application". Dans First

International Conference on Cognitive Science, Seoul.

55555555555555555555555555555555555555555555555555555555555555555555555555555555

////////////////////////////////////////////////////////////////////////