TRAITEMENT AUTOMATIQUE DE LA LANGUE NATURELLE ET INTERPRÉTATION :
CONTRIBUTION À L'ÉLABORATION D'UN MODÈLE DE LA SÉMANTIQUE INETERPRÉTATIVE
Ludovic TANGUY
ENST de
Bretagne
SOMMAIRE :
Introduction
Chapitre 1 : Problématique au sein du Traitement Automatique de la Langue Naturelle
Chapitre 2 : Une approche linguistique du TALN : la Sémantique Interprétative
Chapitre 3 : Description formelle de la structure sémantique
Chapitre 4 : Evolution de la structure
Chapitre 5 : Une application : PASTEL
Conclusion et Perspectives
Annexes
François Rastier : Note de lecture sur la thèse de Ludovic Tanguy
Cette thèse dirigée par Ioannis Kanellos (ENSTB) fait
partie d'un ensemble
de travaux qui permettent de poser le problème de
l'interprétation dans les
traitements automatiques du langage.
Ludovic Tanguy est parvenu au bout de cette première
aventure intellectuelle
avec une éthique de pensée, un non-triomphalisme
remarquables.
Le premier chapitre, introductif, présente une mise au
point épistémologique
au sein des
TAL. Les
enjeux et les débats actuels sont illustrés (sans
être discutés pour eux-mêmes) : traitements de grands
corpus, abandon des
objectifs de simulation au bénéfice des systèmes
d'assistance, essor de la
sémantique, notamment lexicale, relativement à la syntaxe
(qui cependant ne
peut être négligée, car elle est pour beaucoup une
sémantique de la période).
Le second chapitre présente la sémantique interprétative.
Elle approfondit
pour l'essentiel les problèmes de la typologie des sèmes
et des relations
entre sémèmes au sein du taxème.
Le troisième présente les instruments d'une description ou
plutôt
transcription formelle, préalable à la mise en oeuvre
informatique.
Un écart apparaît entre la sémantique descriptive et sa
formalisation.
Inspirée tout à la fois de la logique des prédicats et de
la théorie des
ensembles, elle conduit à définir des notions comme celles
de taxème vide
ou à un élément, de sémème non lexicalisé, etc. Il reste
douteux cependant
qu'un formalisme ensembliste permette de capter des
notions comme celles de
saillance ou de pertinence. En revanche, des modèles de
type connexionniste
peuvent parfaitement modéliser les phénomènes d'activation
et d'inhibition
qui leur sont associées. Aucune formalisation n'a
évidemment de privilège
a priori.
Le quatrième chapitre précise et inventorie les opérations
interprétatives
à modéliser. Un écart apparaît entre les contraintes de
langue et les étapes
des opérations modélisées : d'un point de vue descriptif,
on ne peut "créer"
un taxème. Sans doute aurait-on besoin du concept de
classe sémantique
opératoire.
Le cinquième chapitre présente ensuite le système PASTEL.
Son maniement est
assez simple, son interface agréable. Cet outil de
d'indexation ou de
catégorisation lexicale se range parmi les systèmes
néo-philologiques,
comme le SATO de Meunier (Montréal). L'isotopie joue ici un rôle central, car elle permet la
constitution
d'unités textuelles à partir de traits lexicaux. Le
privilège donné à
l'isotopie ne se justifierait pas s'il était exclusif. La
lecture
isotopique peut avoir diverses fonctions :
éclaircissement, mais aussi
normalisation. Le système requiert une déclaration préalable des traits
pertinents (pour
constituer les "pré-isotopies"). Ici, une base lexicale de
type dictionnaire
électronique pourra être utilisée.
L'aide à l'interprétation peut prendre différente voies :
création de
sous-corpus enrichis, modélisation des parcours
interprétatifs. C'est ici
la seconde qui a été choisie. Hors d'applications
industrielles, elle
pourrait avoir un intérêt didactique.
Il restera à mettre le système présenté à l'épreuve
d'applications et de
corpus en vraie grandeur. Ce travail n'est pas une simple
application :
l'auteur a perçu des difficultés, des points à préciser,
mais a fait des
choix et a innové dans le cadre choisi. Les propositions
théoriques
formulées ici témoignent d'une réflexion approfondie, et
sont exposées de
façon convaincante.
Comme souvent, l'équilibre entre la partie modélisation et
la partie
implantation est difficile à juger à la simple lecture de
la thèse, qui
aurait pu détailler quelque peu la mise en oeuvre
informatique. Mais une
démonstration permet de juger le travail accompli.
L'auteur n'a pas hésité à affronter des difficultés :
difficultés théoriques
qu'entraîne le choix d'une théorie sensible à des
problèmes qui ne sont pas
ordinairement pris en compte dans les TAL ; difficultés
pratiques qui
surgissent dans le traitement de textes retors (un article
du Canard enchaîné,
et un poème de Verlaine).
Dans la mesure où le système organise des parcours de
lecture, mais ne
spécifie aucun contenu a priori, il est transportable. Il
me semble tout
à fait représentatif du tournant que prennent les TAL vers
l'assistance à
l'interprétation. Il reste évidemment à préciser les
rapports entre
l'interprète et sa tâche, et notamment les variations des
régimes
d'interprétation selon les objectifs.
Par son originalité et sa maturité, cette thèse innove.
François Rastier, 31 mai 1997.
[*] Thèse de doctorat soutenue le 7 Mai 1997 à l'Ecole Nationale Supérieure des Télécommunication de Bretagne devant un jury composé de Daniel Herman (prsident), Patrice Enjalbert et François Rastier (rapporteurs), Jean-Pierre Barthélemy (directeur), Ioannis Kanellos (encadrant), Jacques Siroux (examinateur).
Vous pouvez adresser vos commentaires et suggestions à : tanguy@univ-tlse2.fr
Référence
bibliographique : TANGUY, Ludovic. Traitement automatique de la langue naturelle et
interprétation : contribution à l'élaboration informatique d'un modèle de la sémantique interprétative. Texto ! mars
1998 [en ligne]. Disponible sur :
<http://www.revue-texto.net/Inedits/Tanguy/Tanguy_these.html>.
(Consultée le ...). |