PVI :PROTHÈSE VOCALE INTELLIGENTE

PVI :PROTHÈSE VOCALE INTELLIGENTE

Pascal Vaillant

1. Introduction : architecture du système PVI
2. Le module d'analyse sémantique
3. Le module de transfert lexical
4. Le module de génération
5. Évaluation et discussion
6. Conclusion

PVI : Système de traduction d'icônes en langue

1. Introduction : architecture du système PVI

Ce chapitre [*] décrit la conception et le fonctionnement du programme de compréhension de séquences d'icônes et de génération de phrases en français mis en oeuvre dans le système PVI. Le système complet intègre ce programme et une interface graphique sophistiquée conçue pour lui dans une architecture spécifique que nous décrivons ici brièvement. Le lecteur se reportera, pour une description plus particulière de l'interface de PVI, au rapport de Michaël Checler [1995].

Le système PVI est conçu pour fonctionner sur un ordinateur Apple^TM de type Macintosh, sous Multifinder, avec un système d'exploitation AppleOS version 7, muni des extensions AppleEvents (en standard dans les versions 7.5 et ultérieures d'AppleOS) et QuickTime. Il requiert une configuration de 8 Mo de mémoire vive (il en consomme 7 au total : 4 Mo pour l'interface et 3 Mo pour le programme décrit ici).

L'ordinateur doit être également muni d'un système de synthèse vocale, qui peut être matériel (carte de synthèse) ou logiciel (programme de synthèse compatible avec l'architecture Apple Speech Manager).

Le principe de fonctionnement en est la désignation de symboles iconiques disposés sur l'écran, puis leur conversion en phrases françaises, et l'énonciation vocale de celles-ci par un programme de synthèse vocale artificielle.

Le système PVI comprend le programme de conversion icônes-phrases et le programme d'interface graphique. Il ne comprend pas le système de synthèse vocale.

1.1. Éléments fonctionnels du système PVI

En fonctionnement, PVI met en jeu deux processus parallèles :
- le programme de conversion de séquences d'icônes en phrases françaises (dorénavant « module linguistique »), programme PROLOG développé sur la version 3.1 du langage Prolog II+ de PROLOGIA, et ;
- un programme d'interfaçage graphique modulaire et configurable (dorénavant « IHM »), programme exécutable développé et compilé dans l'environnement de développement Think C.
Le module linguistique nécessite un environnement d'exécution Prolog II+ pour fonctionner, tandis que l'IHM est un programme exécutable autonome.
Les deux processus communiquent par l'intermédiaire d'une ressource de code, c'est-à-dire d'une bibliothèque de fonctions externes permettant au processus IHM de faire appel à des fonctions du module linguistique. Appelée CIA ( Communication Inter-Applications ), cette ressource de code permet un fonctionnement de type client/serveur, l'IHM s'adressant comme client au serveur linguistique (pour une description plus complète, cf. [Checler 1995]).

Fig. 1 :*Les modules du système PVI*

La figure 1 présente une vision générale des interfaces du système PVI.

Des détails sur le fonctionnement pratique du système peuvent être trouvés dans la notice d'utilisation [Vaillant 1995].

1.2. Architecture du module linguistique

Le module linguistique, auquel est consacré cette description, est lui-même conçu en trois modules qui correspondent aux grandes étapes de traitement du message de l'utilisateur : l'analyse, le transfert et la génération. La première fournit une interprétation de la séquence d'icônes sous la forme d'un réseau sémantique ; la seconde adapte ce réseau sémantique à un traitement linguistique ; la troisième construit un message en langue naturelle à partir du réseau sémantique linguistique (fig. 2).

Fig. 2 :*Les sous-modules du module linguistique*

---> Dans la suite, les identificateurs de fichier du type Fichier.p2 désigneront des fichiers sources Prolog , et les identificateurs de règles du type regle/3 désigneront des règles Prolog et leur arité.

--->	Dans la suite, les identificateurs de fichier du type `Fichier.p2` désigneront des fichiers sources Prolog , et les identificateurs de règles du type `regle/3` désigneront des règles Prolog et leur arité.

2. Le module d'analyse sémantique

Le module d'analyse prend en entrée une séquence d'identificateurs d'icônes, et la convertit, sans utiliser d'information grammaticale, en une représentation du sens.

Le principe de base de l'analyse est, ici comme partout, de reconstituer les relations sémantiques entre prédicats et attributs pour aboutir à une représentation du sens où chaque agent se voie attribuer son rôle casuel. Ainsi dans HOMME / EAU / BOIRE, on doit retrouver l'information [BOIRE : agent =HOMME, objet =EAU]. Toutefois, ce système postule qu'il ne peut compter ni sur l'ordre des mots (fig. 3.a), ni sur une information morphologique (fig. 3.b), pour attribuer « à coup sûr » les rôles casuels.

Fig. 3 :*Analyse grammaticale des langues naturelles (a. syntaxique, b. morphologique)*

C'est pourquoi l'analyse doit se fonder ici sur des informations de nature sémantique : une sorte de sens commun modélisé informatiquement qui permette de reconnaître en « homme » l'agent, et en « eau » l'objet, de l'action de boire.

2.1. Le dictionnaire d'icônes

L'ensemble de ces informations sont regroupées dans un lexique sémantique des icônes reconnues par l'application. La modélisation du contenu s'inspire, dans sa forme et dans sa terminologie, des travaux de Rastier [1987; 1994] sur la langue : nous en avons transposé une partie sur le langage d'icônes.

Afin d'éviter les dérives traditionnellement liées à l'organisation du lexique autour d'une ontologie a priori - à savoir, l'inadaptation de la connaissance modélisée (insuffisante ou redondante) avec les besoins de l'application -, le contenu sémantique pertinent, considéré comme un objet purement linguistique, a été extrait d'un corpus recueilli auprès d'enfants handicapés du Centre de Kerpape.

La méthodologie théorique permettant de décrire la sémantique des symboles de l'application en se fondant uniquement sur le corpus, et non sur une connaissance du monde définie « de l'extérieur », est celle décrite par Hjelmslev [1968]. Une décomposition systématique d'échantillons suffisants d'un système de signes devrait ainsi permettre d'en décrire formellement la structure. Dans la pratique, nous avons fait intervenir notre connaissance « naturelle » lors de l'analyse du corpus pour constituer les catégories ; cette intervention est légitime dans le cas d'un langage sans syntaxe. Le fait de se fonder sur le corpus préserve de toute façon les exigences d'exhaustivité et de description pertinente des traits spécifiques.

2.1.1. Structuration en niveaux

Le dictionnaire ainsi conçu comprend trois niveaux (fig. 4) :

Le domaine , niveau de caractérisation de grands champs sémantiques (ex. // alimentation // , // distraction // ...). Il n'a pas de contenu propre, mais factorise des isotopies macrogénériques (et peut ainsi éviter des erreurs d'interprétation de base) ;
Le taxème , niveau de la catégorie : il regroupe les icônes pouvant avoir le même rôle dans un contexte de base (lié bien sûr au domaine auquel elles sont rattachées). À ce niveau, on peut avoir un contenu sémantique : il s'agit du contenu commun à tous les éléments de la catégorie. Les icônes elles-mêmes hériteront automatiquement de ce contenu.
Enfin, l' icône regroupe à son niveau le contenu spécifique , qui permet de la différencier des autres icônes du même taxème.

Fig. 4 :*La structuration en niveaux du dictionnaire d'icônes*

Le contenu est lui-même modélisé sous la forme de sèmes , ou traits sémantiques , éléments de sens atomiques représentant des différences minimales pertinentes. Une icône possède ainsi trois niveaux de sèmes : au niveau macrogénérique tout d'abord, les sèmes d' « étiquetage » du domaine et du taxème (ils sont au nombre de deux) ; au niveau microgénérique, les sèmes qui représentent le contenu commun à toutes les icônes du même taxème ; enfin au niveau spécifique, les sèmes qui représentent le contenu propre de l'icône, par différences avec celui des icônes du même taxème.

2.1.2. Sèmes intrinsèques et sèmes extrinsèques

Il existe des sèmes de deux sortes : les sèmes intrinsèques , qui représentent le contenu « propre » de l'icône, sans la considérer en relation avec aucune autre, et les sèmes extrinsèques , ou traits de sélection , qui représentent les conditions que les icônes de nature prédicative imposent à leurs éventuels actants. Les premiers sont des attributs simples, généralement bivalués (+1 ou -1 selon qu'ils sont présents ou absents du noyau de sens) ; les seconds sont des attributs attachés à un rôle casuel particulier. Ainsi <canin,+1> est-il un sème intrinsèque pour la définition de " chien ", alors que <agent,<canin,+1>> est un sème extrinsèque pour la définition d' " aboyer ".

Les sèmes extrinsèques font partie de la définition du sens d'un concept aussi bien que les sèmes intrinsèques [1]. Ils sont simplement rattachés à un rôle casuel, donc conditionnent les relations sémantiques qui peuvent surgir entre ce concept et son contexte - alors que les sèmes intrinsèques concernent le coeur du concept.

Selon l'icône considérée, on pourra donc soit n'avoir que des sèmes intrinsèques, soit n'avoir que des sèmes extrinsèques, soit avoir les deux. Un exemple représentatif, correspondant à la structure du contenu de l'icône " courir ", est donné dans le tableau 1.

traits sémantiques : intrinsèques extrinsèques

domaine // mobilité //

taxème

' déplacement '

<mobilité,+1>
<concret,+1>
<animé,-1> ( étiquetage du domaine )

<agent,<animé,+1>>

icône

' courir '

<déplacement,+1>
<rapide,+1> ( étiquetage du taxème )

<agent,<mobile,+1>>
<destination,<lieu,+1>>
<instrument,<véhicule,-1>>

Cette représentation, distribuée en sèmes génériques et sèmes spécifiques, est équivalente à la représentation « compilée » exposée fig. 5.

Fig. 5 :*Vue synthétique du contenu d'une icône*

Tous ces éléments sont convoqués lors du calcul d' « affinité sémantique » en quoi consiste l'analyse (cf. § 2.2).

2.1.3. Héritage de traits

Une petite doxa des subdivisions fondamentales en genres et en espèces doit être représentée dans le dictionnaire pour prendre en compte les phénomènes de compréhension, ou implications naturelles entre traits sémantiques fondamentaux, sans allonger exagérément les listes de sèmes (nous ne faisons pas ici de suppositions ontologiques fortes, mais nous mettons en facteur, pour des raisons d'économie, des afférences généralement admises dans les corpus considérés).

Le mécanisme d'analyse est en effet conçu de telle sorte qu'il essaye de trouver les actants « les mieux adaptés » pour chaque rôle casuel possible. On cherche donc à disposer dans le lexique d'informations précises sur les actants idéaux attendus par un prédicat, de sorte que cette recherche du mieux adapté soit effectivement discriminante. Il est néanmoins nécessaire que des candidats partageant un assez grand nombre de traits génériques en commun avec le candidat idéal soient considérés comme mieux adaptés que ceux n'en partageant pas ; ainsi un animal peut-il être considéré comme un « remplaçant » acceptable pour un humain comme agent d'un prédicat, alors qu'une notion abstraite, par exemple, ne l'est pas du tout et doit être rejetée lors de l'analyse.

Or nous avons choisi, pour ménager une grande souplesse au modèle du lexique, et pour assurer sa pertinence dans un corpus particulier, de ne pas organiser celui-ci selon une taxonomie rigide (§ 2.1.1). Nous n'avons donc pas d' « arbre d'héritage » universel qui permette, par simple examen de la filiation d'un concept en genres d'extension de plus en plus grande, de retrouver ce type d'information ; de savoir par exemple qu' /humain/ comprend /animé/.

Il n'est en outre pas judicieux, dans le modèle de lexique utilisé ici, de stocker au niveau de chaque rôle casuel l'ensemble des traits sémantiques généraux qui pourraient éventuellement s'y appliquer (en notant par exemple, lorsqu'un prédicat a un sème extrinsèque <agent,<humain,+1>>, qu'il a aussi les sèmes extrinsèques <agent,<animé,+1>>, <agent,<vivant,+1>>, <agent,<concret,+1>> ...) : ces sèmes ne seraient pas pertinents, mais seulement présents pour l'exhaustivité de la représentation.

Nous avons donc défini un arbre d'héritage (fig. 6), sur des sèmes et non sur des concepts. Cet arbre décrit une « ontologie » primitive : il représente les liens de compréhension ou d'exclusion entre quelques sèmes très courants.

Fig. 6 :*Arbre d'héritage de sèmes*

Lors de l'analyse, les sèmes « ascendants » d'un sème extrinsèque attaché à une icône prédicative donnée, même s'ils ne sont pas explicitement spécifiés, sont ainsi convoqués eux aussi lors du calcul. Pour que leur importance globale n'excède pas, à cause de leur nombre, celle des sèmes explicitement présents dans la représentation lexicale, un coefficient constant appelé droits_de_succession leur est affecté.

Cette forme de représentation, qui consiste à considérer l'héritage comme concernant les composants sémantiques primitifs et non les concepts, permet d'intégrer une ontologie au lexique sans pour autant considérer le lexique lui-même comme une ontologie : le lexique n'est pas un arbre de Porphyre, et un même sème peut être générique dans un taxème donné, spécifique dans un autre, tout en gardant sa propre définition.

2.1.4 Cadres sémantiques

Nous avons exposé (§ 2.1.2) comment une certaine doxa, ou « connaissance naturelle » reçue du monde, modélisée dans le lexique, fournit les données de l'analyse sémantique. Cette connaissance porte essentiellement sur les relations qu'une icône peut lier avec une autre : il s'agit en effet des propriétés qu'une icône prédicative donnée i peut imposer à ses actants c( i ) en les propageant le long de ses relations casuelles :

i --> c( i )

Il existe un second niveau de connaissance naturelle, celui des relations particulières que deux icônes peuvent lier par l'intermédiaire d'une troisième : il s'agit des propriétés qu'une icône prédicative i impose à l'un de ses actants c₂( i ) lorsqu'un autre de ses actants, c₁( i ), possède lui-même des propriétés particulières :

c₁( i ) --> c₂( i )

Cette implication conditionnelle , où le prédicat joue un rôle de pivot entre deux types d'actants particuliers pouvant entrer conjointement en relation avec lui, doit également être modélisée dans le lexique pour prendre en compte certains phénomènes. Ainsi doit-on pouvoir prédire qu'un agent /carnivore/ pour le verbe " manger " renforce la plausibilité d'un objet /animal/ (autrement improbable dans ce rôle).

Cette sorte de connaissance est représentée par des « cadres », de la forme représentée fig. 7.

Fig. 7 :*Un cadre sémantique pour l'icône* 'manger'

Ces cadres se superposent le cas échéant, lors de l'analyse, à la structure prédicative de base de l'icône (fig. 5), pour former une structure du même type, mais enrichie.

2.1.5 Emplois multiples

Dans certains cas, il est nécessaire de pouvoir gérer l'utilisation de la même icône pour des emplois différents. Il ne s'agit pas véritablement d'homonymie, puisque les icônes de l'application constituent un système de signes artificiel où celle-ci est a priori bannie, mais d'emploi du même signifiant dans des taxèmes distincts. Ainsi l'icône représentant un téléphone peut-elle être utilisée pour représenter l'objet " téléphone " (au sens de « poste téléphonique »), dans le taxème des appareils domestiques, autant que pour représenter l'action " téléphoner ", dans le taxème des communications.

Ces doubles emplois apparaissent fréquemment lors des premiers essais du programme, alors qu'ils n'avaient pas été prévus au départ : on s'aperçoit par exemple que l'utilisateur emploie spontanément l'icône " téléphone " au sens du verbe téléphoner, sans avoir subi d'apprentissage. On est donc amené à prévoir cet emploi tant il semble surgir naturellement.

--->	Ce type de dérivation n'a rien de surprenant comme on peut le voir à l'oeuvre de façon systématique dans la langue. Dans l'exemple donné, il s'agit de dérivation métonymique. Dans d'autres cas, il peut s'agir de variation d'aspect ou de structure casuelle d'un même concept, ou même simplement de changement de cas sémantique ( "table" dans le taxème des meubles vs. "table" dans le taxème des lieux - correspondant l'un à l'accusatif, l'autre au locatif).
	Les langues, nous le savons, possèdent des mécanismes morphologiques pour marquer ces dérivations (suffixation, préfixation). Le langage BLISS [Hehner 1980], langage d'idéogrammes artificiel auquel on a songé à adjoindre un système morphologique assez complet, en possède aussi ; on pourrait donc imaginer une configuration BLISS de PVI, dans laquelle ces différents emplois seraient marqués au niveau du signifiant - encore que l'utilité en soit contestable, car les utilisateurs handicapés ont l'habitude d'utiliser BLISS comme catalogue d'idéogrammes, sans se soucier souvent de son système de dérivation par signes diacritiques. Dans la configuration implémentée en tout cas, ce n'est pas le cas.

--->

Ce type de dérivation n'a rien de surprenant comme on peut le voir à l'oeuvre de façon systématique dans la langue. Dans l'exemple donné, il s'agit de dérivation métonymique. Dans d'autres cas, il peut s'agir de variation d'aspect ou de structure casuelle d'un même concept, ou même simplement de changement de cas sémantique ( "table" dans le taxème des meubles vs. "table" dans le taxème des lieux - correspondant l'un à l'accusatif, l'autre au locatif).

Les langues, nous le savons, possèdent des mécanismes morphologiques pour marquer ces dérivations (suffixation, préfixation). Le langage BLISS [Hehner 1980], langage d'idéogrammes artificiel auquel on a songé à adjoindre un système morphologique assez complet, en possède aussi ; on pourrait donc imaginer une configuration BLISS de PVI, dans laquelle ces différents emplois seraient marqués au niveau du signifiant - encore que l'utilité en soit contestable, car les utilisateurs handicapés ont l'habitude d'utiliser BLISS comme catalogue d'idéogrammes, sans se soucier souvent de son système de dérivation par signes diacritiques. Dans la configuration implémentée en tout cas, ce n'est pas le cas.

Nous avons donc tout simplement modélisé ces différents emplois en faisant correspondre à un seul signifiant iconique plusieurs entrées du dictionnaire figurant dans des taxèmes différents, par exemple " téléphone1 " (poste téléphonique), " téléphone2 " (téléphoner) :

emplois(telephone,telephone2.telephone1.nil) ->;

Lors de l'analyse d'une séquence d'icônes, chaque icône est donc examinée pour voir si elle ne correspond pas à plusieurs emplois. Si c'est le cas, la séquence de signifiants est convertie en autant de séquences de signifiés. C'est au bout du compte le plus haut score d'analyse qui détermine quel emploi est pris en compte.

2.2 Algorithme d'analyse

Le principe de base de l'analyse dans PVI est de reconstituer la structure sémantique du message en affectant de façon adéquate les actants des prédicats. Dans une séquence d'icônes d'entrée, l'analyse commence donc par repérer les icônes prédicatives, c'est-à-dire celles qui ont une structure casuelle implicite, et, pour chacune d'elles, recherche dans son contexte quelles sont les meilleures icônes candidates pour « remplir » les rôles casuels.

La question se ramène donc à celle de la détermination de ces « meilleures » candidates ; en d'autres mots, il est nécessaire de définir une grandeur, un « score » de compatibilité sémantique, à l'aune duquel on détermine la valeur des affectations d'actants.

Le processus fonctionne ensuite en calculant la meilleure affectation globale possible d'icônes à cas sur l'ensemble de la séquence.

Dans la suite, nous noterons s ₁ , s ₂ , ... s _n la séquence de symboles iconiques en entrée de l'analyse. Chacune de ces icônes a un ensemble de sèmes intrinsèques :

SI( s _i ) = e _i

(où e _i est un ensemble de traits sémantiques simples, du type couple attribut-valeur),

et certaines d'entre elles ont des sèmes extrinsèques qui constituent une structure casuelle (SC) lorsqu'on les factorise par cas :

SC( s _i ) = { < c ₁ , e _i1 > , < c ₂ , e _i2 > , ... < c _N , e _iN > }

(où chacun des N c _j est un type casuel comme agent, objet, instrument ..., et chaque e _ij un ensemble de traits sémantiques simples de type couple attribut-valeur).

On pourra noter plus précisément l'ensemble des traits sémantiques simples (attribut-valeur) rattachés à s _i en tant que traits extrinsèques pour un cas c _j :

SE( s _i , c _j ) = e _ij

ce qui est équivalent à :

< c _j , e _ij > appartient à SC( s _i )

2.2.1 Compatibilité sémantique

La compatibilité sémantique est la valeur que l'on cherche à maximiser pour déterminer les meilleures affectations. C'est une relation binaire asymétrique : elle mesure le degré de compatibilité d' une icône à une place d'actant d'une autre icône.

Au niveau du sème : la compatibilité atomique se calcule au niveau du sème, entre un sème intrinsèque de l'icône « candidat » et un sème extrinsèque de l'icône « prédicat ». La compatibilité est nulle si les sèmes sont orthogonaux (attribut différent). Si l'attribut est le même, elle est égale au produit des valeurs attachées à cet attribut dans l'un et l'autre sème. Par exemple la compatibilité sémantique est nulle entre /animé =+/ et /petit =+/ , positive entre /animé =+/ et /animé =+/ , négative entre /animé =+/ et /animé =/ .

C(< a ₁ , v ₁ > , < a ₂ , v ₂ >)	=	0	si	a ₁ est différent de a ₂
C(< a , v ₁ > , < a , v ₂ >)	=	+1	si	v ₁ et v ₂ sont entiers et égaux
		1	si	v ₁ et v ₂ sont entiers et distincts
		v ₁ .v ₂	si	l'une des deux valeurs est réelle

(1)

Les valeurs des sèmes extrinsèques sont des coefficients réels. Ce choix de modélisation permet de régler finement le caractère plus ou moins contraignant (« sélectionnel ») d'un trait extrinsèque. Les valeurs des sèmes intrinsèques, elles, sont entières : généralement {+1,1}, ou, dans le cas du sème spatial /dimension/, {1,2,3}.

Au niveau des structures de traits : les signifiés des icônes sont représentés par des ensembles de traits. Le calcul de la compatibilité sémantique entre deux ensembles de traits se fait entre deux ensembles homogènes de couples attribut-valeur. Ce sont d'une part les sèmes extrinsèques attachés à un actant donné de l'icône prédicat - dépouillés donc du type de relation casuelle, avec seulement le couple attribut-valeur -, et d'autre part les sèmes intrinsèques de l'icône candidat.

La compatibilité du deuxième ensemble avec le premier est définie comme la somme des compatibilités sémantiques des sèmes communs aux deux ensembles, rapportée au nombre total de sèmes dans le premier ensemble :

C( e ₁ , e ₂ )

Somme _{a |
<a ,v ₁ >
dans e₁ ,
<a , v₂ >
dans e₂} C(< a,v ₁ > , < a,v ₂ >)

cardinal de e ₁

(2)

( e ₁ est l'ensemble des sèmes filtrants)

Au niveau d'une relation actancielle : la compatibilité sémantique est à ce niveau le degré d'affinité d'une icône candidate s _j à une place actancielle d'une icône prédicative s _i .

C'est donc la compatibilité sémantique de l'ensemble des sèmes intrinsèques de s _j avec l'ensemble des sèmes extrinsèques de s _i pour le cas c _k :

C ( SE( s _i , c _k ) , SI( s _j ) )

(3)

Cette grandeur exprime la plus ou moins grande « conformité » du contenu sémantique intrinsèque de s _j avec les contraintes que s _i impose à son actant pour le cas c _k , contraintes modélisées par les sèmes extrinsèques (§ 2.1.2). Elle conditionne l'unification de s _j comme actant de s _i (fig. 8).

Fig. 8 :*La compatibilité sémantique entre une icône et la place actancielle d'une icône prédicative*

2.2.2 Affectation d'actants

Pour chaque icône prédicative de la séquence d'entrée, il s'agit donc de remplir au mieux tous les rôles casuels : le mécanisme de distribution d'actants à l'icône prédicative fonctionne en essayant de trouver la combinaison qui maximise globalement la valeur des attributions d'actant.

Nous appelons affectation une combinaison possible d'attributions d'actants pour l'icône prédicative s _i . C'est donc une application de l'ensemble des cas de s _i :

{ c ₁ , c ₂ , ... c _k },

dans un ensemble d'icônes de la séquence d'entrée candidates à en être les actants :

{ s _i1 , s _i2 , ... s _ij }.

Soit A une application de ce type :

A = {< c _x , s _iy >}, où x appartient à [1,k] et y appartient à [1,j].

(4)

Nous cherchons à maximiser une valeur globale pour cette affectation. Cette valeur globale est la somme des valeurs de chacune des attributions individuelles < c _x , s _iy > qui constituent l'application A :

V(A) = V( s _i , {< c ₁ , s _i1 >, < c ₂ , s _i2 >, ... < c _k , s _ik >}) = Somme _{j dans [1,k]} V( s _i , c _j , s _ij )

(5)

La valeur de chaque attribution individuelle d'actant, V( s _i , c _j , s _ij ), n'est pas la simple compatibilité sémantique de l'icône s _ij avec le cas c _j de l'icône s _i (Éq. 3). Il faut en effet tenir compte, pour évaluer la valeur d'une attribution d'actant à un prédicat dans le contexte d'une séquence d'icônes, d'un facteur qui est la distance de l'icône candidate au prédicat.

Les séquences d'icônes en entrée de PVI s'inscrivent en effet dans une linéarité syntagmatique, et sont sujettes aux phénomènes les plus universels liés à cette dimension des systèmes de signes, à savoir l'effet de récence et ses corrélats. On considère certes que les messages produits dans le contexte d'utilisation de ce système n'ont pas de syntaxe , mais cela n'exclut pas qu'ils aient une syntagmatique .

Ainsi lors de l'analyse d'une séquence longue comme PAPA / VOIR / CHAT / GENTIL / MANGER / VIANDE, au moment de décider de l'affectation du sujet du prédicat GENTIL, c'est la proximité de CHAT qui devra décider de son choix de préférence à PAPA - qui autrement, hors de tout contexte, a la même compatibilité sémantique avec cet adjectif.

Nous définissons donc la valeur de l'attribution de l'icône s _ij comme actant, pour le cas c _j , de l'icône prédicat s _i , comme étant la compatibilité sémantique de s _ij avec le cas c _j de s _i , multipliée par un coefficient qui est une fonction D de la distance entre s _i et s _ij :

V ( s _i , c _j , s _ij ) = D ( s _i , s _ij ). C ( SE( s _i , c _j ), SI( s _ij ) )

(6)

---> Le choix de la fonction D s'est fait purement par tâtonnements, en essayant diverses fonctions décroissantes et en testant leur adéquation avec les résultats attendus sur un corpus donné. Nous avons finalement arrêté le choix sur la fonction e^{n²
.ln(L )} , où n est la distance entre les deux icônes, et L une constante comprise entre 0 et 1, appelée localite, et qui détermine la vitesse de décroissance en fonction de la distance (une constante de localité égale à 1 signifie aucune décroissance quelle que soit la distance, une constante égale à 0 signifie que le coefficient tombe à 0 dès la première icône après le prédicat). Cette fonction ne prétend à aucune validité de modélisation cognitive ou autre.

--->	Le choix de la fonction D s'est fait purement par tâtonnements, en essayant diverses fonctions décroissantes et en testant leur adéquation avec les résultats attendus sur un corpus donné. Nous avons finalement arrêté le choix sur la fonction e^{n² .ln(L )} , où n est la distance entre les deux icônes, et L une constante comprise entre 0 et 1, appelée `localite`, et qui détermine la vitesse de décroissance en fonction de la distance (une constante de localité égale à 1 signifie aucune décroissance quelle que soit la distance, une constante égale à 0 signifie que le coefficient tombe à 0 dès la première icône après le prédicat). Cette fonction ne prétend à aucune validité de modélisation cognitive ou autre.

Une affectation n'intègre pas systématiquement une attribution d'icône à chacun des actants possibles : les attributions individuelles ayant une valeur inférieure à un certain seuil (constante seuil) sont rejetées, et la place actancielle reste vacante.

Chaque affectation A calculée par le moteur PROLOG à ce niveau, pour chaque icône prédicative s _i , est donc un ensemble de couples < c _j , s _ij > tel que chacun de ces couples vérifie :

V ( s _i , c _j , s _ij ) = D ( s _i , s _ij ). C ( SE( s _i , c _j ), SI( s _ij ) ) > seuil

et dont la valeur totale est

V ( A ) = Somme _{< c _j ,
s _ij >
dans A}V ( s _i , c _j , s _ij )

(7)

Fig. 9 :*Une affectation d'actants fondée sur la compatibilité sémantique*

2.2.3 Interprétation de la séquence

Une interprétation de la séquence d'icônes d'entrée est un ensemble d'affectations correspondant chacune à l'une des icônes prédicatives de la séquence.

Le mécanisme de base de l'analyse de la séquence d'entrée doit aboutir à une interprétation de celle-ci. Il consiste donc en :

repérer toutes les icônes (potentiellement) prédicatives présentes dans la séquence ;
calculer pour chacune d'elles toutes les affectations possibles, triées par ordre de valeur (au sens de l'éq. 7) ;
unifier les différentes affectations obtenues en un graphe représentant une interprétation du sens global du message.

L'étape (a) est effectuée lors d'un premier parcours rapide de la séquence, où l'on regarde dans le dictionnaire, pour chaque icône, si elle a des sèmes extrinsèques ou non.

L'étape (b) consiste, pour chaque icône identifiée comme prédicative, à en construire toutes les affectations possibles, à calculer pour chacune sa valeur, puis à les ordonner par un algorithme de tri de type " quicksort " [Bratko 1990].

Pour ce qui concerne enfin l'étape (c), l'unification est implicite (car les mêmes identificateurs PROLOG sont utilisés dans le calcul de chaque affectation) ; en revanche, trois opérations sont effectuées avant que le résultat de l'analyse ne soit rendu au module suivant :

tout d'abord, on tente d'affecter d'éventuelles icônes restées isolées en surchargeant certaines places d'actant (§ 2.2.5 ; ces surcharges sont rendues, à la génération, par des coordinations, § 3.2) ;
les icônes restées malgré tout isolées, sans avoir pu être affectées à aucun prédicat de la séquence, sont adjointes comme noeuds isolés au graphe résultat ; elles seront générées « à part » ;
enfin des incohérences possibles (graphes cycliques) sont détectées et éliminées [2].

Les affectations étant triées par ordre de valeur (éq. 7) décroissante, le programme PROLOG, lorsqu'il calcule toutes les interprétations possibles par produit cartésien des affectations des prédicats de la séquence, renvoie donc ses résultats dans un ordre correspondant. Ainsi si les affectations possibles pour la première icône prédicative de la séquence sont, dans l'ordre, A ₁₁, A ₁₂, ... A _1m₁ ; si les affectations possibles pour la seconde icône prédicative sont, dans l'ordre, A ₂₁, A ₂₂, ... A _2m₂ ; et ainsi de suite jusqu'à la n^ième et dernière icône prédicative, dont les affectations possibles sont A _n1, A _n2, ... A _{nm_n} ; alors l'ordre dans lequel apparaissent les interprétations possibles de la séquence est :

A ₁₁,	A ₂₁,	...	A _n1
A ₁₁,	A ₂₁,	...	A _n2
			...
A ₁₁,	A ₂₁,	...	A _{nm_n}
...
...
...
A _1m₁,	A _2m₂,	...	A _{nm_n}

Si nous considérons que la somme des valeurs des affectations de chaque icône prédicative constitue une grandeur représentant une sorte d' « harmonie sémantique » globale de l'interprétation, alors cet ordre, sans assurer une décroissance de cette grandeur, assure que la première interprétation fournie en est au moins un maximum absolu (c'est la somme des maxima locaux).

2.2.4 Catégories particulières

Deux catégories d'icônes ont un traitement spécial au cours de l'analyse.

La première regroupe les icônes qui sont ignorées lors du calcul de la distance entre une icône prédicat et une icône candidate à une place d'actant. Les icônes de cette catégorie sont considérées comme « sans épaisseur », c'est-à-dire qu'on fait comme si elles n'introduisaient pas de distance syntagmatique entre les icônes entre lesquelles elles s'intercalent.

Cette catégorie regroupe les icônes des taxèmes ' qualifieurs ' (adjectifs comme ' bon ', ' drôle ', ' grand ' ...), ' modalités ' (' non ', ' peut-être ', ' sûrement '), ' mots simples ' (mots isolés comme ' bonjour ', ' merci ', ' pardon ' ...), ' temps ' (' passé ', ' futur ') et ' emphase ' (' interrogation ', ' exclamation ').

Le fait de considérer ces icônes comme « sans épaisseur » est un artifice qui traduit la récursivité du processus psychologique de prédication. En pratique, cette « astuce » permet de prendre en compte certains phénomènes présents dans les corpus, comme l' « entassement » d'adjectifs.
La seconde, qui recoupe partiellement la première, est celle des prédicats qui ne peuvent eux-même en aucune circonstance devenir les actants d'un prédicat de plus haut niveau.

Ces icônes « non prédicables » sont les ' temps ', les ' modalités ', les ' emphases ' d'une part ; les ' expressions figées ' et les ' phrases à trous ' d'autre part.

Les trois premiers taxèmes sont des marqueurs d'inflexions sémantiques de haut niveau, qui s'appliquent déjà à des prédicats ; il est pratiquement inimaginable, dans un langage ordinaire, qu'ils puissent eux-mêmes devenir objets d'un autre prédicat [3].

Les deux derniers regroupent des phrases toutes faites, sans actant ou complétables au plus par un actant optionnel, présentes dans l'interface de PVI pour permettre des saisies rapides de messages urgents du type « attendez! », « je ne comprends pas », ou « [ j'ai ] un problème », « [ je m' ] appelle x » ... Ces icônes forment des messages préformatés, et il ne convient pas qu'elles entrent elles-mêmes dans la composition de messages classiques.

2.2.5 Coordination ; surcharge des rôles casuels

La première passe d'analyse (§ 2.2.3) fonctionne en cherchant une combinaison d'affectations pour chaque icône prédicative de la séquence d'entrée, donc à chaque fois une combinaison d' applications de l'ensemble des cas vers l'ensemble des icônes. Elle ne prend donc en compte qu'une seule icône par place d'actant.

Il existe pourtant, dans les corpus, de nombreux exemples d'énumérations, qu'il conviendrait de comprendre comme des surcharges d'un même rôle casuel par « entassement » d'actants homogènes.

Une deuxième passe d'analyse prend en charge ces phénomènes. Elle consiste à reprendre une à une les icônes qui n'ont pas été affectées lors de la première passe, et à calculer pour chacune d'elles quel serait son score d'affectation à tel ou tel actant de tel ou tel prédicat. Le meilleur de ces scores, s'il dépasse un seuil donné (seuil_icone_isolee), détermine alors une décision de réaliser l'affectation concernée.

On peut par suite avoir, dans le graphe résultant de cette analyse, une surcharge d'actants du type :

[ALLER : agent = MOI, destination = PLAGE, agent = PAPA, agent = MAMAN]

(résultat de l'analyse de MOI / ALLER / PLAGE / PAPA / MAMAN).

3. Le module de transfert lexical

3.1 Format de la représentation pivot

Le résultat d'une analyse est une interprétation de la séquence (§ 2.2.3), c'est-à-dire une séquence d'affectations du type < s _i , < c _j , s _ij >>. Ce format est topologiquement équivalent à un graphe conceptuel [Sowa 1984]. Ainsi les interprétations [MANGER : agent = MOI, objet = VIANDE, instrument = FOURCHETTE] (« je mange la viande avec la fourchette »), et [VOIR : agent = MOI, objet = MANGER], [MANGER : agent = CHAT] (« je vois que le chat mange ») sont respectivement équivalentes aux graphes conceptuels représentés fig. 10 et fig. 11.

Fig. 10 :*Graphe conceptuel résultant de l'analyse deFOURCHETTE /MOI /MANGER /VIANDE*

Fig. 11 :*Graphe conceptuel résultant de l'analyse deMOI /VOIR /CHAT /MANGER*

Il y a néanmoins dans la représentation linéarisée du graphe une information supplémentaire, qui réside dans l' ordre dans lequel les affectations sont mises. Retrouver cette information dans le graphe conceptuel équivaudrait à en numéroter les concepts.

Cet ordre a une importance en ce qu'il reflète en partie l'ordre originel de la séquence d'icônes d'entrée. Celui-ci peut éventuellement avoir une signification, non en tant que manifestation d'une structure syntaxique, mais en tant que la topicalité du message, c'est-à-dire l'ordre d'importance des concepts exprimés.

Cet ordre est préservé à travers l'ordre des icônes prédicatives de la séquence d'entrée. Ainsi l'analyse des séquences MOI / VOIR / CHAT / MANGER et CHAT / MANGER / VOIR / MOI conduit-elle respectivement aux interprétations [VOIR : agent = MOI, objet = MANGER], [MANGER : agent = CHAT], et [MANGER : agent = CHAT], [VOIR : agent = MOI, objet = MANGER]. Ces deux représentations linéaires sont de la même façon topologiquement équivalentes au graphe de la figure 11, mais la première reflète l'attention portée sur l'action VOIR, alors que la seconde reflète l'attention sur l'action MANGER.

L'information de topicalité du messsage, présente dans cette représentation pivot, n'est malheureusement pas assez souvent transcrite au niveau de la phrase générée, car le module de génération de PVI est trop rudimentaire pour mettre en oeuvre toutes les tournures par lesquelles la langue française peut traduire ce type d'information (parmi lesquelles l'une des plus importantes est par exemple la voix passive, qui n'est pas gérée par le module de génération). Pour un exemple de traduction de la topicalité au niveau de la phrase française, voir § 4.2.2.

3.2 Format du réseau sémantique linguistique

Le graphe conceptuel « orienté » qui constitue la représentation fournie à la sortie du module d'analyse est converti en un format adapté à l'entrée du module de génération. Ce format est une sorte de nouveau graphe conceptuel « enrichi », où à chaque noeud conceptuel est attaché une place libre réservée à des informations morphosyntaxiques. Ces informations ne sont pas instanciées à l'entrée du module de génération, mais s'instancient au fur et à mesure de l'application de règles d'accord et de rection.

Les noeuds conceptuels du graphe en sortie de l'analyse sont des entrées du dictionnaire d'icônes, alors que les noeuds conceptuels du nouveau graphe doivent être des entrées du lexique linguistique utilisé pour la phase de génération. Cela signifie, en théorie, que le sens pourrait en outre être redistribué sur les concepts, reflétant en cela des différences entre les sémantiques des deux langages, le langage d'icônes utilisé en entrée, et la langue utilisée en sortie. Ce phénomène est un poncif de la traduction : ainsi, en traduisant l'allemand « über den Fluß schwimmen » par le français « traverser la rivière à la nage », le sème / nage / passe du verbe principal à un complément circonstanciel, tandis que dans le même temps le sème / traversée /, d'une préposition spatiale, est réintégré au verbe principal (exemple emprunté à Malmberg [1979]). Cependant, dans l'application PVI, ce phénomène n'est quasiment pas représenté. En effet le code pictographique utilisé comme source principale de la base de données lexicale d'icônes (le code « Commun-I-Mage ») a déjà, à la base, été conçu comme un catalogue de transcriptions pictographiques de lexèmes français.

Un exemple d'utilité actuelle du module de transfert lexical est la transformation de la coordination. Celle-ci se manifeste à la sortie de l'analyse comme une surcharge d'actants. Elle est transformée, dans le réseau linguistique fourni en entrée au module de génération, en un nouveau noeud prédicatif, étiqueté " et ", et dont les actants sont les différents noeuds coordonnés qui se trouvaient originellement dans le même rôle casuel. Ainsi un graphe du type [ALLER : agent = MOI, destination = PLAGE, agent = PAPA, agent = MAMAN], devient-il un graphe [ALLER : agent = ET, destination = PLAGE], [ET : coordonne1 = MOI, coordonne2 = PAPA, coordonne3 = MAMAN]. Ce noeud " et " est destiné lors de la phase de génération à devenir un groupe nominal subordonnant plusieurs groupes nominaux plus simples entre lesquels s'intercalent des conjonctions de coordination « et ».

L'existence de la couche de transfert lexical est en tout état de cause un élément important qui assure l'indépendance des modules d'analyse et de génération. Même si cette couche joue un rôle ténu dans la version actuelle de PVI, elle pourrait s'étoffer si un changement du langage d'icônes utilisé en entrée rendait cette évolution nécessaire. Réciproquement, garder le module d'analyse tel qu'il existe dans l'application actuelle et « brancher », à la place du module de génération en français, un module de génération dans n'importe quelle autre langue, ne demande pas d'autre évolution qu'une modification du système de transfert lexical.

Suite

NB Ce chapitre fait partie de la thèse « Interaction entre modalités sémiotiques : de l'icône à la langue », Université Paris-XI (Orsay), 1997. Effectuée sous la direction de François Rastier)
Voir le résumé de la thèse

NOTES :

[1 ] Ainsi, en langue, on les trouve même souvent mentionnés dans les dictionnaires (par exemple « ABOYER : donner de la voix, en parlant d'un chien. », [Petit Robert]).

[2 ] Ces cycles sont la manifestation d'incohérences dans l'analyse ; toutefois, une exigence d'efficacité a fait choisir de les éliminer à l'aveugle sans chercher à lancer une deuxième passe d'analyse plus poussée.

[3 ] Cela se traduirait par des phrases du type « Je vois que l'action x s'est déroulée dans le passé », ou « Tu déclares que la connaissance du fait y est entachée d'incertitude » ...

BIBLIOGRAPHIE :

[Abeillé 1993]	Anne Abeillé. Les nouvelles syntaxes. Grammaires d'unification et analyse du français. Paris : Armand Colin (coll. « Linguistique »), 1993.
[Bratko 1990]	Ivan Bratko. Prolog Programming for Artificial Intelligence. Wokingham (Angleterre) : Addison-Wesley, 1990. 2ième éd.
[Checler 1995]	Michaël Checler. Interface Homme-Machine du projet PVI - Prothèse Vocale Intelligente. Rapport de stage ESIEA, Paris, janvier 1995.
[Eco 1968]	Umberto Eco. La structure absente. Introduction à la recherche sémiotique. Paris : Mercure de France, 1984. (trad. fr. de La struttura assente. La ricerca semiotica e il metodo strutturale. Milan : Bompiani, 1968).
[Eco 1975]	Umberto Eco. Trattato di semiotica generale. Milan : Bompiani (coll. « Il campo semiotico »), 1975.
[Greimas & Courtés 1979]	Algirdas Julien Greimas et Joseph Courtés. Sémiotique. Dictionnaire raisonné de la théorie du langage. Paris : Hachette (coll. « Hachette Université Linguistique »), 1979.
[Groupe µ 1992]	Groupe µ (Francis Edeline, Jean-Marie Klinkenberg et Philippe Minguet). Traité du signe visuel. Pour une rhétorique de l'image. Paris : Seuil (coll. « La couleur des idées »), 1992.
[Hehner 1980]	Barbara Hehner. Blissymbols for use. Toronto, Ontario (Canada) : The Blissymbolics Communication Institute, 1980.
[Hjelmslev 1968]	Louis Hjelmslev. Prolégomènes à une théorie du langage. Paris : Minuit (coll. « Arguments »), 1968. (trad. fr. d'une trad. angl. de 1953 - éd. orig. Copenhague, 1943).
[Joshi et coll. 1975]	A. K. Joshi, L. S. Levy, M. Takahashi. « Tree adjunct grammars ». Journal of Computer and System Sciences. 1975.
[Malmberg 1979]	Bertil Malmberg. Le langage. Signe de l'humain. Paris : Picard (coll. « Empreinte »), 1979.
[Morris 1946]	Charles Morris. Signs, Language and Behavior. New York : Prentice-Hall, 1946.
[Peirce 1978]	Charles S. Peirce. Écrits sur le signe. Paris : Seuil (coll. « L'ordre philosophique »), 1978. Rassemblés, traduits et commentés par Gérard Deledalle.
[PrologIA 1993]	Société PrologIA. PROLOG II+ version 3.1 - Manuel de référence. Marseille, 1993.
[Rastier 1987]	François Rastier. Sémantique interprétative. Paris : P.U.F. (coll. « Formes Sémiotiques »), 1987.
[Rastier et coll. 1994]	François Rastier, Marc Cavazza, Anne Abeillé. Sémantique pour l'analyse. Paris : Masson (coll. « Sciences Cognitives »), 1994.
[Schabes et coll. 1988]	Yves Schabes, Anne Abeillé, Aravind K. Joshi. « Parsing strategies with lexicalized grammars: application to TAG ». In "COLING 88" (Proceedings of the 12 ^th International Conference on Computational Linguistics). Budapest (Hongrie), 1988.
[Sowa 1984]	John Sowa. Conceptual structures: information processing in mind and machine. New York (U.S.A.) : Addison-Wesley, 1984.
[Vaillant 1995]	Pascal Vaillant. Prothèse Vocale Intelligente : Notice d'utilisation. Thomson-CSF/LCR, Orsay, juin 1995.
[Vijay-Shanker & Joshi 1988]	K. Vijay-Shanker et A. K. Joshi. « Feature structure based tree adjoining grammars ». In "COLING 88" (Proceedings of the 12 ^th International Conference on Computational Linguistics). Budapest (Hongrie), 1988.