TRAITEMENT AUTOMATIQUE DE LA LANGUE NATURELLE ET INTERPRÉTATION :
CONTRIBUTION À L'ÉLABORATION D'UN MODÈLE DE LA SÉMANTIQUE INETERPRÉTATIVE

Ludovic TANGUY
ENST de Bretagne

(Thèse, 1997 [*])

François Rastier : Note de lecture sur la thèse de Ludovic Tanguy

Cette thèse dirigée par Ioannis Kanellos (ENSTB) fait partie d'un ensemble de travaux qui permettent de poser le problème de l'interprétation dans les traitements automatiques du langage.
Ludovic Tanguy est parvenu au bout de cette première aventure intellectuelle avec une éthique de pensée, un non-triomphalisme remarquables.
Le premier chapitre, introductif, présente une mise au point épistémologique au sein des TAL.  Les enjeux et les débats actuels sont illustrés (sans être discutés pour eux-mêmes) : traitements de grands corpus, abandon des objectifs de simulation au bénéfice des systèmes d'assistance, essor de la sémantique, notamment lexicale, relativement à la syntaxe (qui cependant ne peut être négligée, car elle est pour beaucoup une sémantique de la période).  
Le second chapitre présente la sémantique interprétative. Elle approfondit pour l'essentiel les problèmes de la typologie des sèmes et des relations entre sémèmes au sein du taxème.  
Le troisième présente les instruments d'une description ou plutôt transcription formelle, préalable à la mise en oeuvre informatique. Un écart apparaît entre la sémantique descriptive et sa formalisation. Inspirée tout à la fois de la logique des prédicats et de la théorie des ensembles, elle conduit à définir des notions comme celles de taxème vide ou à un élément, de sémème non lexicalisé, etc. Il reste douteux cependant qu'un formalisme ensembliste permette de capter des notions comme celles de saillance ou de pertinence. En revanche, des modèles de type connexionniste peuvent parfaitement modéliser les phénomènes d'activation et d'inhibition qui leur sont associées. Aucune formalisation n'a évidemment de privilège a priori.
Le quatrième chapitre précise et inventorie les opérations interprétatives à modéliser. Un écart apparaît entre les contraintes de langue et les étapes des opérations modélisées : d'un point de vue descriptif, on ne peut "créer" un taxème. Sans doute aurait-on besoin du concept de classe sémantique opératoire.
Le cinquième chapitre présente ensuite le système PASTEL. Son maniement est assez simple, son interface agréable. Cet outil de d'indexation ou de catégorisation lexicale se range parmi les systèmes néo-philologiques, comme le SATO de Meunier (Montréal). L'isotopie joue ici un rôle central, car elle permet la constitution d'unités textuelles à partir de traits lexicaux. Le privilège donné à l'isotopie ne se justifierait pas s'il était exclusif. La lecture isotopique peut avoir diverses fonctions : éclaircissement, mais aussi normalisation. Le système requiert une déclaration préalable des traits pertinents (pour constituer les "pré-isotopies"). Ici, une base lexicale de type dictionnaire électronique pourra être utilisée.
L'aide à l'interprétation peut prendre différente voies : création de sous-corpus enrichis, modélisation des parcours interprétatifs. C'est ici la seconde qui a été choisie. Hors d'applications industrielles, elle pourrait avoir un intérêt didactique.
Il restera à mettre le système présenté à l'épreuve d'applications et de corpus en vraie grandeur. Ce travail n'est pas une simple application : l'auteur a perçu des difficultés, des points à préciser, mais a fait des choix et a innové dans le cadre choisi. Les propositions théoriques formulées ici témoignent d'une réflexion approfondie, et sont exposées de façon convaincante.
Comme souvent, l'équilibre entre la partie modélisation et la partie implantation est difficile à juger à la simple lecture de la thèse, qui aurait pu détailler quelque peu la mise en oeuvre informatique. Mais une démonstration permet de juger le travail accompli.
L'auteur n'a pas hésité à affronter des difficultés : difficultés théoriques qu'entraîne le choix d'une théorie sensible à des problèmes qui ne sont pas ordinairement pris en compte dans les TAL ; difficultés pratiques qui surgissent dans le traitement de textes retors (un article du Canard enchaîné, et un poème de Verlaine).
Dans la mesure où le système organise des parcours de lecture, mais ne spécifie aucun contenu a priori, il est transportable. Il me semble tout à fait représentatif du tournant que prennent les TAL vers l'assistance à l'interprétation. Il reste évidemment à préciser les rapports entre l'interprète et sa tâche, et notamment les variations des régimes d'interprétation selon les objectifs.
Par son originalité et sa maturité, cette thèse innove.

François Rastier, 31 mai 1997.


Vous pouvez adresser vos commentaires et suggestions à : tanguy@univ-tlse2.fr

mars 1998.

Référence bibliographique : TANGUY, Ludovic. Traitement automatique de la langue naturelle et interprétation : contribution à l'élaboration informatique d'un modèle de la sémantique interprétative. Texto ! mars 1998 [en ligne]. Disponible sur : <http://www.revue-texto.net/Inedits/Tanguy/Tanguy_these.html>. (Consultée le ...).