RECENSION ET PRÉSENTATION COMPARATIVE D'ÉTIQUETEURS POUR LE FRANÇAIS ET L'ANGLAIS

Céline POUDAT
Université d'Orléans

I. BRILL

Sources :

I.1. Présentation générale de l'étiqueteur

Créé par Eric Brill dans la cadre de sa thèse (1993, université de Pennsylvanie), le tagger Brill est fondé sur les travaux de Bloomfield (1933) et Harris (1946, 1951). Reposant sur l'idée que l'étude d'une langue peut se fonder sur l'observation de faits linguistiques et indépendamment d'une théorie linguistique particulière, le tagger doit, pour fonctionner, être entraîné sur un corpus de taille restreinte étiqueté manuellement et à partir duquel il infère des règles d'étiquetage (distribution "extensionnelle"). Les mots inconnus sont traités à partir d'une hypothèse naïve sur la structure du langage Enfin, une analyse de la distribution est effectuée afin de réduire les erreurs d'étiquetage.

Il est possible d'entraîner Brill sur tout type de corpus étiqueté; le tagger présente un intérêt incontestable pour étudier les genres dans la mesure où il est possible de l'adapter au traitement d'un genre particulier, celui de l'article scientifique par exemple et de choisir le jeu d'étiquettes souhaité. Brill est effectivement davantage adapté au codage des textes en "discours" qu'en "langue", comme le souligne Lecomte dans sa description de Brill (Inalf). En outre, l'étiqueteur est multilingue et fonctionne avec d'autres langues que l'anglais.

En ce qui concerne le français, c'est l'Inalf qui a entraîné Brill sur la base Frantext, et il est possible de signer une convention pour pouvoir profiter des résultats de cet apprentissage.

I.2. Fonctionnement de l'étiqueteur (Lecomte, chapitre 4, p. 22)

À partir d'un sous-corpus échantillon étiqueté manuellement, le système crée sa base de connaissances. Quatre fichiers serviront de paramètres dans la commande d'étiquetage :

1) fichier LEXIQUE : contient une liste de mots (une entrée par ligne) associés à ue liste de codes pouvant contenir tout caractère hormis l'espace (séparateur). Le premier code associé est "le plus probable". Ceux qui suivent sont ceux qui ont été également rencontrés, pas de contrainte d'ordre. La taille maximale du lexique semble limitée à 100 000 mots, la taille du mot à 100 caractères et celle d'une étiquettes à 20 caractères.

Exemples :

réduit           VCJ:sg SBC:sg ADJ1PAR:sg VPAR:sg ADJ2PAR:sg
bon_gré_,_mal_gré           ADV
répondant           VNCNT SBC:sg
actives                  ADJ:pl
indiquent               VCJ:pl
cette_fois_-_ci           ADV
énonça                  VCJ:sg
*Catherine           SBP:sg

2) fichier des REGLES LEXICALES : traitement des mots inconnus.

3) fichier des REGLES CONTEXTUELLES : règles contextuelles qui serviront à affiner l'étiquetage en contexte (local assez réduit : 6 max. – étiquettes PD ou mots).

Exemples :

DTN:sg PRV:sg NEXTTAG VCJ:sg
PRV:sg PRV:pl NEXT1OR2TAG VCJ:pl
ADJ2PAR:sg ADJ1PAR:sg PREV1OR2OR3TAG ECJ:sg
SBC:sg ADJ:sg PREVTAG SBC:sg
PRV:sg PRO:sg WDPREVTAG PREP elle
VPAR:sg ADJ1PAR:sg PREV1OR2OR3TAG ECJ:sg
DTN:sg PRO:sg NEXTTAG REL
SBC:sg VCJ:sg PREV1OR2TAG PRV:sg
ADJ2PAR:sg VPAR:sg PREV1OR2OR3TAG ACJ:sg
SUB$ SUB WDPREVTAG PREP que

4.  fichier de BIGRAMMES (= paire de mots adjacents) : traitement des mots inconnus, contient la liste de toutes les paires de mots repérées dans le corpus à étiqueter (ex.: preque bleu, résultait qu', constaté que, etc.).

Corpus échantillon employé à l'INALF : environ 400 000 occurrences, textes essentiellement littéraires mais mélange de genres (ouvrages sur la biologie et l'écologie).
Normes BRILL minimales : décolage des ponctuations, une phrase par ligne.
La version proposée par l'INALF inclut le logiciel FLEMM, qui permet d'obtenir le lemme des mots analysés.

I.3. Du jeu d'étiquettes disponible

Pour le français, choix de l'INALF :
Lexiques de l'INALF : 100 codes différents pour 5 catégories du discours : verbes conjugués (45), verbes non conjugués (3), adjectifs (4), substantifs (4), mots grammaticaux (45) ;
Etiquettes adoptées pour Brill : 49 (tableau 1, annexe).

En résumé, distinction :

ADJECTIFS ADJ:xx : trait nombre, sg. ou pl. pour adjectifs qualificatifs, ordinaux, possessifs et indéfinis (par opp. aux déterminants). Les adjectifs adverbialisés considérés comme des adjectifs et non comme des adverbes (il crachait noir);

ADVERBES ADV  : concerne tous les adverbes, ainsi que les locutions adverbiales, reconnues comme telles dans une phase de pré-traitement et marquées avec un underscore (d'_ailleurs). Les adverbes prédéterminants sont codés comme des adverbes (presque/ADV tous les mois), de même que les superlatifs et comparatifs. Beaucoup et peu sont codés en tant qu'adverbes possibles, mais pas rien.

CARDINAUX CAR  : tous les numéraux cardinaux écrits en chiffres ou en lettres, ainsi que les dates. Pas de subdivision des cardinaux selon leur fonction. En outre, il n'était pas possible de distinguer l'indéfini un du cardinal.

COORDONNANTS COO : conjonctions de coordination usuelles mais aussi expressions comme c'est-à-dire, non_seulement, mais_encore, soit...soit, etc. Chaque élément de coordonnant discontinu reçoit un code de coordonnant normal.

DETERMINANTS DTN:xx ou DTC:xx : introducteurs de syntagmes nominaux. Distinction entre les déterminants normaux et les déterminants contractés (avec préposition ou partitif). Valeur de trait nombre sg. ou pl. De considéré comme ambigu (marqueur partitif ou préposition); du étiqueté DTC:sg, des DTC:pl. Problème pour tout, toute, toutes, tous, cf. p.11.

INTERJECTIONS INJ : surtout utilisées en discours direct, et à moins de correspondre au thème de recherche de l'article, il est peu probable d'en avoir dans les textes.

PARTICIPES PASSES VPAR:xx ADJ1PAR:xx ou ADJ2PAR:xx :

PARTICULES PUL : éléments n'ayant pas d'existence autonome et qui n'ont pas été regroupés dans une locution composée figée. Ex : quant (à, aux), éléments comme –t- dans une succession Verbe-pronom.

PONCTUATIONS : l'étiquette reprend le signe de ponctuation. Ex : ?/? ou ///. Le trait d'union reste à l'intérieur du mot, n'est étiqueté comme signe de ponctuation que si le mot composé n'est pas reconnu.

PREFIXES PFX  : code les préfixes détachés, isolés entre deux blancs comme entre, ex, micro... Etiquette non productive au niveau des règles (le système n'affecte jamais cette étiquette de lui-même à un mot du texte).

PREPOSITIONS PREP : prépositions simples (à, de, par, jusqu', etc.). Pour les prépositions complexes, une particule PUL peut être associée à une préposition PREP. Les locutions prépositionnelles les plus fréquentes sont également codées. Les prépositions déictiques (voici, voilà, revoici, revoilà ) ne reçoivent pas d'étiquette particulière.

PRONOMS PRV:xx et PRO:xx : concerne les éléments pronominaux à l'exclusion des relatifs (REL). Sous-catégorisation en Nombre (sg, pl ou ++ pour en et y, s' et se). Distinction des pronoms supportés ou non par le verbe : PRV:xx (je, tu, il elle, nous, etc. + me, te se, leur, les, la, le, lui + en et y + -t-on, -t-il, etc.) et PRO:xx pour tous les autres pronoms (démonstratifs, possessifs, anaphoriques, etc. comme moi, ceci, sein, plusieurs, maints, etc.).

RELATIFS REL  : pronoms introduisant une subordonnée relative, complète ou non, avec antécédant exprimé.

SUBORDONNANTS SUB et SUB$ : conjonctions de subordination, simples (que, lorsque, quand, comme, etc.) et locutions conjonctives (parce_que, afin_que, etc.). Comme et que sont considérés comme des cas particuliers car ambigus : comme peut être adverbe exclamatif (comme il est beau!) et que est très ambigu (relatif, subordonnant et adverbe exclamatif ou restrictif). SUB$ concerne donc que et le code ainsi dans les cas d'ambiguïté maximale.

SUBSTANTIFS SBC:xx et SBP:xx : distinction des noms communs (SBC) et des noms propres (SBP). Sont codés noms communs les noms sans majuscules, avec majuscules pour les noms de peuples et d'habitants, et les adjectifs substantivés. Les noms propres ont été codés ainsi à partir du code * de Frantext, de leur présence dans le lexique avec un code "nom propre", ainsi que de leur passage par le traitement des mots inconnus, qui affecte à tout mot inconnu commençant par une majuscule un code nom propre. Des ambiguïtés demeurent, liées aux problèmes d'homonymie et des mots composés.

VERBES : distinction entre les auxiliaires de temps et de voix et les verbes pleins. Les modaux ne sont pas distingués et sont considérés comme des verbes pleins.

pos 1

pos 2 et 3

pos 4 et 5

Nbre gramm.

A (verbe avoir)
E (verbe être)
V (tout autre verbe)

CJ (forme conjuguée)

PAR (forme participe passé)

.

:sg
:pl

A (verbe avoir)
E (verbe être)
V (tout autre verbe)

NC (forme non conjuguée)

FF (infinitif)
NT (gérondif ou participe présent)

.

Remarques : CJ neutralise les indications de temps, de mode et de personne.
Exemples : ils retombaient /VCJ:pl ; elle l'aura /ACJ:sg voulu VPAR:sg; ils sont /ECJ:pl partis /ADJ1PAR:pl.; sans vouloir /VNCFF aller /VNCFF; n'ayant /ANCNT aucune idée de..., etc.

RESIDUS ABR, FGW ou SYM : concerne les mots difficiles à classer : abréviations (ABR), mots étrangers (FGW) et symboles (SYM).

Pour l'anglais, 1/exploitation de 8 systèmes d'annotation différents unifiés par le projet AMALGAM (Automatic Mapping Among Lexico-Grammatical Annotation)  :
( http://www.scs.leeds.ac.uk/amalgam/amalgam/amalghome.htm)

Les linguistes/groupes de recherche emploient des systèmes d'annotation grammaticale différents pour traiter leurs corpus, ce qui limite les possibilités d'échange et de partage des corpus.
Si la TEI est un moyen de pallier ce problème, le projet AMALGAM a développé un ensemble d'algorithmes de mapping fusionnant les huit systèmes d'annotation suivants :

A partir de ces systèmes d'annotation a été développé un système hybride entraîné avec Brill Tagger. Il est ainsi possible de tagger un texte, et de choisir les systèmes d'annotation souhaités. L'utilisateur envoie son texte par mail en spécifiant le(s) type(s) d'étiquetage qu'il souhaite.

Cette possibilité est très intéressante, dans la mesure où certains de ces systèmes, destinés à l'annotation de transcriptions orales, sont peu pertinents pour notre étude. De fait, le système d'annotation du London-Lund Corpus a été développé pour le codage de transcriptions de dialogues, le Polytechnic of Wales Corpus est fondé sur des transcriptions de dialogues interactifs avec des enfants et le Spoken English Corpus porte, comme son nom l'indique, sur de l'anglais parlé.

Le projet AMALGAM a d'ailleurs du résoudre les problèmes générés par les spécificités des systèmes d'annotation, et le codage du LLC a par exemple du être adapté au traitement de textes écrits.

Pour l'anglais, 2/ Utilisation du site http://rayuela.lsi.uned.es/cgi-bin/ircourse/brill.perl, qui utilise les étiquettes du Penn Treebank
Source : Santorini, Beatrice. Part-of-Speech Tagging Guidelines for the Penn Treebank Project. March 15, 1991. [téléchargeable sur le site de TreeTagger]

Voici la liste des tags (sans les étiquettes concernant les marques de ponctuation) :

CC Conjonction de coordination : inclut and, but, nor, or, for et yet, de même que les opérateurs mathématiques plus, minus, less, times (dans le sens de multiplied by) et over (dans le sens de divided by).

CD Nombres cardinaux

DT Déterminants : inclut les articles a(n), every, no et the, les déterminants indéfinis another, any, some, each, either, neither, that , these, this et those, de même que des occurrences de all et both lorsqu'ils ne précèdent pas un déterminant ou un pronom possessif.

EX "there" existentiel : le there qui entraîne une inversion du verbe et du sujet logique d'une phrase.

FW Mots d'origine étrangère (pas de liste particulière)

IN Préposition ou conjonction de subordination : Pas de distinction entre les deux – toujours possible de la retrouver néanmoins, car une préposition est un IN qui précède un SN ou un SP, et une conjonction de subordination un IN qui précède une proposition. A noter que la préposition to a son propre tag.

JJ Adjectifs

JJR Adjectifs comparatifs : adjectifs suffixés en –er, more et less dans certains cas.

JJS Adjectifs superlatifs : adjectifs suffixés en –est, most et least dans certains cas.

LS marqueurs d'éléments dans une liste : inclut les lettres et les numéraux lorsqu'ils sont employés dans une liste.

MD Verbes modaux : inclut tous les verbes qui ne prennent pas un –s à la troisième personne du singulier : can, could, (dare), may, might, must, ought, shall, should, will et would.

NN Noms au singulier (ou mass nouns).

NNS Noms au pluriel.

NP Noms propres au singulier

NPS Noms propres au pluriel

PDT Prédéterminant : inclut les éléments suivants lorsqu'ils précèdent un article ou un pronom possessif : all, both, half, many, nary, quite, rather, such, etc.

POS Marques de possession en position finale : 's ou ' : ces éléments sont écartés des mots auquel ils se rattachent comme s'ils étaient eux-mêmes des mots. Ex : John/NP 's/POS idea.

PP Pronoms personnels

PP\$ Pronoms possessifs : Inclut les pronoms possessifs my, your, his, her, its, one's, our et their. Les pronoms possessifs mine, yours, his, hers, ours et theirs sont étiquetés PP (pronoms personnels).

RB Adverbes : la plupart des mots inclus dans cette catégorie se terminent par –ly. Les adverbes de degré comme quite, too et very y sont également inclus, de même que les modifieurs comme enough ou indeed et les adverbes de négation comme not, n't ou never.

RBR Adverbes comparatifs : adverbe suffixés en –er qui n'ont pas un sens comparatif strict. [donner des exemples]

RBS Adverbes superlatifs

RP Particules : inclut un ensemble de mots monosyllabiques pour la plupart susceptibles d'être redoublés en tant qu'adverbes directionnels ou prépositions [à préciser avec des exemples car peu clair].

SYM Symboles : symboles ou expressions mathématiques, scientifiques ou techniques qui ne sont pas des mots anglais. SYM ne doit toutefois pas être utilisé pour tagger toutes les expressions techniques. Par exemple, les noms de symboles et d'unités de mesures (abréviations incluses) devront être étiquetés en tant que noms.

TO "To"

UH Interjection inclut my, oh, please, see, uh, well, yes, etc.

VB Verbes, forme "de base" : cette catégorie inclut les impératifs, les infinitifs et les subjonctifs.

VBD Verbes au passé : inclut la forme conditionnelle du verbe to be (If I were/VBD rich…)

VBG Verbes au gérondif ou au participe présent

VBN Verbes au participe passé

VBP Verbes au présent, formes autres que la troisième personne du singulier.

VBZ Verbes au présent, troisième personne du singulier

WDT Wh-determiner : inclut which et that (employé en tant que pronom relatif).

WP Wh-pronoms : inclut what, who et whom.

WP\$ Pronom possessif en wh- : inclut whose.

WRB Wh-adverbes : inclut how, where, why, etc. when est étiqueté WRB dans son acception temporelle. Dans le sens de IF, il sera étiqueté IN (ex. : when/WRB he finally arrived/I like it when/IN you make dinner for me).

I.4. Du codage des tags et de leur conversion en balises XML

La conversion des tags Brill en balises XML est simple, tous les tags étant suffixés au mot et commençant par un slash /.

Exemple :

It/PRP is/VBZ generally/RB the/DT case/NN that/IN special/JJ volumes/NNS include/VBP studies/NNS on/IN a/DT narrowly/RB defined/VBN topic/NN of/IN linguistic/JJ investigation/NN from/IN a/DT single/JJ theoretical/JJ standpoint.


II. CORDIAL ANALYSEUR

II.1. Fonctionnement général de l'étiqueteur

Cordial 8 (Société Synapse-Développement) est un correcteur orthographique et grammatical du français. La version "Cordial Analyseur", qu'il est possible d'acquérir à des fins de recherche, intègre entre autres fonctionnalités un étiqueteur morphosyntaxique. Les résultats de l'étiquetage (texte étiqueté, chiffres absolus, pourcentages, etc.) sont distribués dans différents fichiers en format texte, facilement réexploitables dans d'autres cadres d'analyse (méthodes de statistique multidimensionnelle exploratoire -analyse factorielle, classification automatique, etc.).

Il est en outre possible de configurer l'étiquetage et de sélectionner les informations souhaitées parmi les 27 types de données proposées (lemme, type syntaxique, numéro de paragraphe, équivalents sémantiques, etc.).

Cordial a été largement exploité dans des cadres d'analyse et d'exploration de corpus (Malrieu&Rastier 2000, Beauvisage 2000, etc.) et est également utilisé en amont de traitements automatiques par différents outils (TypTex, Lexter, etc.).

Etant donné son statut de logiciel grand public, les variables qu'il propose sont plus grammaticales (grammaire scolaire traditionnelle) que linguistiques – a fortiori, aucune documentation renseignant les catégories utilisées n'est disponible.


III. MBT TAGGER

Sources  : http://ilk.kub.nl/~zavrel/tagtest.html

Fonctionnement général de l'étiqueteur

L'étiqueteur MBT est fondé sur un système d'apprentissage combinant deux méthodes d'étiquetages largement utilisées : l'étiquetage stochastique, et l'étiquetage par règles (cf. Brill tagger).

À l'instar de Brill, MBT peut s'appliquer à tout type de corpus annoté. MBT fonctionne à partir de techniques d'apprentissage et de classification :

Un ensemble d'exemples est stocké dans une mémoire; chaque exemple contient un mot (ou sa représentation lexicale), son contexte (antérieur et postérieur) et la catégorie grammaticale à laquelle il est associé dans chaque contexte.

Une nouvelle phrase sera donc analysée de la manière suivante : pour chaque mot de la phrase, le tagger cherchera un exemple d'emploi analogue dans la mémoire et en déduira sa catégorie grammaticale – à partir de ses plus proches voisins.

Les tags sont donc considérés comme des variables, qui seront assignées aux mots à partir de méthodes de classification. MBT emploie une mesure de similarité qui considère le nombre de tags potentiels qu'il est possible d'associer à chaque mot et qui pondère l'importance de chaque catégorie.

MBT est un générateur de tagger : à partir d'un corpus étiqueté selon le système d'annotation désiré, un POS tagger est généré. Trois structures de données sont extraites automatiquement du corpus fourni en entrée : un lexique (permettant d'associer des tags aux mots) et deux bases de cas (casebases) pour les mots connus et inconnus.

III.2. Du jeu d'étiquettes disponible

La version de MBT tagger que nous utilisons en accord avec W. Daelemans n'a été développée que pour l'anglais. Son utilisation en français nécessite donc la construction d'un corpus d'entraînement français de taille importante – et donc son étiquetage manuel. A voir.
Deux types d'étiquettes sont proposées : des tags de type morphosyntaxique et de type syntaxique. MBT a en effet été entraîné sur le corpus d'arbres syntaxiques développé par le projet Penn Treebank. L'annotation syntaxique du corpus n'a toutefois pas été entièrement exploitée.

POS Tags

En anglais, les tags sont ceux du Penn Treebank. Cf. Liste seconde possibilité pour traiter l'anglais de Brill tagger.

Un double slash entre le mot et la catégorie signifie que le mot est inconnu à l'étiqueteur.

Chunks

A l'étiquetage des catégories morphosyntaxiques développées par le projet Penn Treebank s'ajoute celui d'un certain type de syntagmes (les chunks), i.e. des syntagmes ne se chevauchant pas.  

Type de syntagme

  Description

  Code

  Exemple

  Syntagme nominal

Etiquetage des SN du début du syntagme au nom tête, mais exclusion des compléments suivant ce dernier.

  [NP…NP]

[P In/IN P] [NP addition/NN NP] PNP} {PNP [P to/TO P]

  Préposition

Ne code que la préposition en question, de même que certaines locutions prépositionnelles

  [P…P]

[P In/IN P] [NP addition/NN NP] PNP} {PNP [P to/TO P]…

  Syntagme  prépositionnel

Code une préposition et un ou plusieurs NPs

  {PNP…PNP}

{PNP [P on/IN P] [NP the/DT other/JJ hand/NN NP] PNP}

  Syntagme  adjectiva

Etiquetage des SA du début du syntagme au nom tête, mais exclusion des compléments suivant ce dernier. Pas d'étiquetage des SA à l'intérieur d'un SN.

  [ADJP…ADJP]

[ADJP more/RBR reliable/JJ ADJP]

  Syntagme  adverbial

Etiquetage des SAdv du début du syntagme au nom tête, mais exclusion des compléments suivant ce dernier. Pas d'étiquetage des SAdv à l'intérieur d'un SV ou d'un Sadj.

  [ADVP…ADVP]

[ADVP when/WRB ADVP]

  Syntagme
 verbal

Contient un verbe principal, ses éventuels auxiliaires ou modaux, de même que les compléments adverbiaux ou verbaux qui le suivent.

  [VP…VP]

[VP-3 is/VBZ considered/VBN VP-3]

  Introducteur de  complétives

A l'instar de la préposition, ne code le plus souvent qu'un mot – l'introducteur de proposition complétive.

  [C…C]

[VP-1 suggests/VBZ VP-1] [C that/IN C]

Annotation de sujets et d'objets

Les syntagmes nominaux sujet et objet (chunks, et non SN) sont respectivement étiquetés [NP-SBJ-i… NP-SBJ-i] et [NP-OBJ-i… NP-OBJ-i]. "i" est un nombre entier indiquant à quel SV – indexé par le même nombre - le SN se rapporte.

Les sujets/objets n'étant pas des SN ne sont pas annotés.
Exemple :
[C Because/IN C] [NP-SBJ-1 the/DT ability/NN NP-SBJ-1] [VP-1 to/TO quantify/VB VP-1] [NP-OBJ-1 the/DT spatiotemporal//JJ phenomena/NNS NP-OBJ-1]

Les objets "prédicatifs" (en attributs) sont étiquetés NP-PRD
Exemples :
[NP-SBJ-1 Nonempirical//JJ studies/NNS NP-SBJ-1] {PNP [P of/IN P] [NP language/NN NP] PNP} [VP-1 have/VBP been/VBN VP-1] [NP-1NP-PRD extremely/RB successful/JJ NP-1NP-PRD]

[ADJP available/JJ ADJP] [VP-4 to/TO be/VB VP-4] [NP-4NP-PRD potentially/RB known/VBN or/CC utilized/VBN NP-4NP-PRD] ./.

Un SN inclut dans une expression figée est étiqueté NP-[iNP]-CLR.
Exemple :
[VP-4 take/VBP VP-4] [NP-4NP-CLR place/NN NP-4NP-CLR]

III.3. Du codage des tags et de leur conversion en balises XML

La conversion des tags morphosyntaxiques est simple, les tags étant suffixés au mot par un slah (à l'instar de l'annotation proposée par Brill).

Une réflexion sur la récupération de l'annotation syntaxique sera à réfléchir, mais les séparateurs employés sont très identifiables : {, }, [ et ].


IV. TNT TAGGER

Sources :

IV.1. Fonctionnement général de l'étiqueteur

TnT (Trigrams'n'Tags) est un tagger statistique qu'il est – théoriquement – possible d'entraîner sur des langues et des systèmes d'étiquetage différents.

Implémenté sur un algorithme fondé sur les modèles de Markov, l'étiqueteur est constitué d'un ensemble de méthodes de smoothing et de traitement des mots inconnus.

Tel qu'il est disponible par convention, TnT ne permet de traiter que l'anglais et l'allemand. Il a en effet été entraîné pour l'allemand sur un corpus journalistique annoté selon les conventions Stuttgart-Tübingen, et pour l'anglais sur les corpus SUSANNE [1] (Surface and underlying structural analysis of natural English) et Penn Treebank.

Les concepteurs de TnT ont veillé à optimiser la vitesse de l'étiqueteur; celle-ci dépend bien sûr de l'ambiguïté et du poucentage de mots inconnus du texte, mais le système est capable d'étiqueter entre 30 000 et 60 000 mots par seconde sur un Pentium 500 sous Linux.

Il est possible d'entraîner le tagger à étiqueter d'autres langues, à condition qu'elles utilisent l'espace comme séparateur de mots et qu'elles puissent être représentées en ASCII. Le corpus d'entraînement doit répondre au format suivant : un élément par ligne, la première colonne correspondant au mot et la seconde au tag.

IV.2. Du jeu d'étiquettes disponible

La version de TnT telle qu'elle est disponible est fondée sur le système d'annotation SUSANNE (Geoffrey Sampson). Le tagger a en effet été entraîné sur le corpus SUSANNE, sous-corpus du corpus Brown – anglais américain écrit – de 130 000 mots. De taille restreinte (tout spécialement par rapport au corpus développé par le Penn Treebank), Susanne est composé de 4 "types de textes" différents, selon la taxonomie adoptée par le corpus Brown : reportages de presse, belles lettres-biographies-mémoires, écrits "savants" (textes essentiellement techniques et scientifiques) et fiction (aventures et westerns).

Le système d'encodage adopté est fondé sur celui de Lancaster (Garside et al. 1987 appendix B) et comprend 353 codes différents.

TnT reprend deux niveaux d'encodage de SUSANNE : un niveau morphosyntaxique et un niveau supérieur, qui correspondrait globalement à celui des "chunks" (phrasegroups) et qui est composé de huit types de segments :

A ces segments sont associés des informations concernant la nature morphosyntaxique des mots :


IV.3. Du codage des tags et de leur conversion en balises XML

Le fichier résultat contient un élément par ligne. En "mode basique", le tagger ajoute une seconde colonne contenant le tag associé au mot à chaque ligne. Différentes options sont disponibles : il est par exemple possible de rajouter des tags alternatifs pour chaque mot.

                 Basic         Optional

Input            Output        Extended Output

----------------+------------+--------------------------------------------------------------------

Der              ART         | ART     1.000000e+00

Mandolinen-Club  NN      *   | NN      1.000000e+00    *

Falkenstein      NE      *   | NE      8.001280e-01    NN      1.998720e-01    *

und              KON         | KON     1.000000e+00

der              ART         | ART     1.000000e+00

Frauenchor       NN      *   | NN      9.828203e-01    NE      1.717975e-02    *

aus              APPR        | APPR    1.000000e+00

dem              ART         | ART     1.000000e+00

sächsischen      ADJA        | ADJA    1.000000e+00

Königstein       NN          | NN      7.762892e-01    NE      2.237108e-01

gestalten        VVINF       | VVINF   1.000000e+00

die              ART         | ART     9.796126e-01    PRELS   1.443545e-02    PDS    5.951974e-03

Feier            NN          | NN      1.000000e+00

gemeinsam        ADJD        | ADJD    1.000000e+00

.                $.          | $.      1.000000e+00

----------------+------------+--------------------------------------------------------------------

Les mots marqués par un astérisque (*) ne sont inclus dans le lexique originel de l'étiqueteur; c'est à partir d'une analyse de leurs suffixes qu'ils ont été étiquetés.


V. TREETAGGER

Sources :

V.1. Fonctionnement général de l'étiqueteur

Développé au sein du projet TC (Textcorpora and Erschliessungswerkzeuge/'textual corpoa and tools for their exploration', http://www.ims.uni-stuttgart.de/projekte/tc/) à l'institut de linguistique computationnelle de l'université de Stuttgart, TreeTagger est un système d'annotation de catégories morphosyntaxiques permettant d'étiqueter des textes en anglais, français, allemand, italien, grec, et ancien français. Il est possible d'adapter l'étiqueteur à d'autres langues, à condition de disposer d'un lexique et d'un corpus manuellement annoté.

TreeTagger est proche des taggers ngram traditionnels. Les deux systèmes modèlent la probabilité de l'annotation d'une séquence de mots.

Cependant, contrairement à la plupart des étiqueteurs qui recourent aux modèles de Markov pour résoudre le problème des "données clairsemées" (sparse data), TreeTagger utilise un arbre de décision binaire pour calculer la taille du contexte à utiliser pour estimer les probabilités de transition.

Le lexique implémenté dans TreeTagger contient la liste des possibilités d'étiquetage pour chaque mot. Il se divise en trois parties :

La recherche d'un mot dans le lexique démarre par une recherche dans le premier fichier (avec changement de la casse du mot si la recherche s'avère infructueuse avec la casse originelle); puis dans le second si le mot n'a pas été trouvé dans le premier.

V.2. Du jeu d'étiquettes disponible

Pour l'anglais :

Pour le français :

V.3. Du codage des tags et de leur conversion en balises XML

Le texte est découpé en mots ou expressions (un mot par ligne) et le fichier résultat est organisé en quatre colonnes : la première colonne reporte le mot étiqueté, la seconde son tag, la troisième sa forme en minuscules et la quatrième (souvent vide) propose une analyse du mot – on y trouve le plus souvent le lemme du mot.


VI. VISL

Sources :

VI.1. Fonctionnement général de l'étiqueteur

La plupart des modules morphologiques, et tous les modules syntaxiques de VISL sont fondés sur le paradigme des grammaires de contraintes (constraint grammar, Karlsson et al., 1995).

Fondé sur des représentations en arbres de dépendances, VISL propose une analyse syntaxique de surface (shallow surface syntactic analysis). Tous les mots du texte reçoivent une ou plusieurs étiquettes morphosyntaxiques, ainsi qu'un tag indiquant leur relation de dépendance (marquée par le symbole @).

VISL propose différents types de représentations : représentation arborescente horizontale ou verticale, couleurs, représentation plane, etc. L'analyse des textes peut s'effectuer en ligne dans la mesure où une interface d'uploading est proposée
( http://beta.visl.sdu.dk/visl/fr/parsing/automatic/upload.php).

En ce qui nous concerne, et relativement au traitement ultérieur des sorties de l'analyseur, la représentation plane nous semble être la plus adaptée.

VI.2. Du jeu d'étiquettes disponible

Les étiquettes, de même que les relations de dépendances sont en majuscules. Les étiquettes syntaxiques sont préfixées d'une @ et de flèches de dépendances pointant vers la tête du syntagme (ex. : @SUBJ> pour un sujet à la gauche du prédicat).

VISL propose différents niveaux d'analyse (de la phrase au mot). Au niveau du mot, on retrouve les cinq catégories du discours traditionnelles : nom, adjectif, pronom, verbe et adverbe. Les informations auxquelles elles peuvent être associées ont été synthétisées dans un tableau par Bick (Bick, p.10) :

 

.

gender

number

case

degree

person

tense

mode

 

.

M, F, nG

S, P, nN

NOM, DAT, ACC, PIV

COM
(POS)

1, 2, 3

PR, IMPF, PS, FUT

IND, SUBJ, COND, IMP

noun

N

+*

+

 

 

 

 

 

proper noun

PROP

(+*)

 

 

 

 

 

 

adjective

ADJ

+

+

 

+ (few)

 

 

 

pronoun

personal

PRON PERS

+

+

+

 

+*

 

 

determiner

PRON DET

+

+

 

 

 

 

 

independent

PRON INDP

+*

+*

 

 

 

 

 

verb

finite

VFIN

 

 +

 

 

 +

+

+

infinitive

INF

 

 

 

 

 

 

 

past participle

PCP2

+

+

 

 

 

 

 

present participle

PCP1

 +

+

 

 

 

 

 

adverb

ADV

 

 

 

+ (few)

 

 

 

Une réflexion concernant l'intégration des niveaux d'analyses supérieurs au mot devra être menée; la tâche s'avère difficile, d'autant que les modules VISL sont fondés sur les grammaires de dépendances, ce qui les rend difficiles à intégrer aux modèles fondés sur des représentations en constituants immédiats.

Mentionnons par exemple qu'au niveau de la phrase, VISL propose cinq fonctions de base : un constituant verbal principal (le predicator P) et quatre constituants satellites non verbaux : le sujet (S), l'objet (O), l'adverbe (A) et le complément (C).

VI.3. Du codage des tags et de leur conversion en balises XML

Plus complexe car présence de balises syntaxiques. Eventuellement, ne récupérer que les étiquettes morphosyntaxiques.


VII. Synthèse

Tableau synthétisant les caractéristiques externes des logiciels

Tagger

Langues traitées

Théorie linguistique/ particularité de l'outil

Corpus d'entraînement

Type (s) d'étiquettes

Nombre de tags

Brill Tagger

(Eric Brill)

Français (InaLF)

Travaux structuralistes de Bloomfield et Harris;

Inférence de règles d'étiquetage;

Analyse distributionnelle pour réduire les erreurs d'étiquetage;

Base Frantext pour le français (InaLF)

Morpho-syntaxiques

17 catégories de mots

49 codes

.

Anglais (en ligne)

 

Corpus Penn Treebank pour l'anglais

.

36

Cordial Analyseur (Synapse Devt, France)

Français

Grammaire scolaire

X

Morpho-syntaxiques

Plus de 500

MBT Tagger

(ILK, W. Daelemans)

Anglais + autres langues mais entraîne-ment

Techniques d'apprentissage et de classification;

Apprentissage à partir d'exemples;

Corpus Penn Treebank

Morpho-syntaxiques et syntaxiques

POS tags (36);

Chunks (7);

Sujets et objets

TnT Tagger

(Univ. Saarlandes, DE, Thorsten Brants)

Anglais + autres langues mais entraîne-ment

Tagger statistique;

Corpus SUSANNE (BROWN, anglais américain, 130 000 mots)

Corpus Penn Treebank

Morpho-syntaxiques

.

Tree-Tagger

(TC Project, Helmut Schmid)

Anglais, français, allemand, italien, grec, ancien français

Utilisation d'arbres de décision binaires;

Arbres de suffixes;

Corpus Penn Treebank

Morpho-syntaxiques

36

.

.

.

?

.

33

VISL

(Syddansk University, Eckhard Bick)

Anglais, français et un grand nombre d'autres langues

Grammaires de contraintes, arbres de dépendances;

?

Morpho-syntaxiques et syntaxiques (fonction-nelles)

5 POS, 11 types, 1 à 7 traits + infos syntaxe

XELDA

(Xerox, Grenoble)

Anglais, français, etc.

Finite state technology

X

Morpho-syntaxiques

E: 71

.

.

.

.

.

F: 45

 

Tableau 1 : [Français] tableau synthétisant les codes adoptés par l'Inalf pour entraîner Brill à partir de la base Frantext (43 codes + codes préfixes verbes)

POS ou catégorie

Code

Description

ADJECTIFS

ADJ:sg

Adjectifs singulier

ADJECTIFS

ADJ:pl

Adjectifs pluriel

ADVERBES

ADV

Adverbes et locutions adverbiales (marquées avec _)

CARDINAUX

CAR

Numéraux cardinaux en chiffres/lettres + dates

COORDONNANTS

COO

Conjonctions de coordinations + expressions (soit..soit , etc.)

DETERMINANTS

DTN:sg

Déterminants singulier

DETERMINANTS

DTN:pl

Déterminants pluriel

DETERMINANTS

DTC:sg

Déterminant contracté DU

DETERMINANTS

DTC:pl

Déterminant contracté DES

INTERJECTIONS

INJ

Interjections

PARTICIPES PASSES

VPAR:sg

PP singulier de tous verbes hormis ETRE et AVOIR

PARTICIPES PASSES

VPAR:pl

PP pluriel de tous verbes hormis ETRE et AVOIR

PARTICIPES PASSES

EPAR:sg

PP du verbe ETRE (j'ai été )

PARTICIPES PASSES

APAR:sg

PP du verbe AVOIR au singulier

PARTICIPES PASSES

APAR:pl

PP du verbe AVOIR au pluriel

PARTICIPES PASSES

ADJ2PAR:sg

PP autres contextes (nominaux, ambigus, autres V) singulier

PARTICIPES PASSES

ADJ2PAR:pl

PP autres contextes (nominaux, ambigus, autres V) pluriel

PARTICULES

PUL

Eléments non autonomes/non regroupés ds expressions figées
(
-t- , quant (à, aux), etc.)

PONCTUATIONS

[signe] / [signe]

Ex.: ?/? , ///

PREFIXES

PFX

Préfixes détachés, isolés entre 2 blancs comme entre, ex, micro

PREPOSITIONS

PREP

Prépositions simples (PUL + PREP prépositions complexes)

PRONOMS

PRV:sg

Eléments pronominaux (non relatifs) supportés par le V au singulier. Ex .: je, me, te, se, la, le, lui, t-il, t-on, etc.

PRONOMS

PRV:pl

Idem au pluriel. Ex.: NOUS, VOUS, LEUR, etc.

PRONOMS

PRV:++

Pronoms EN, Y, S' et SE

PRONOMS

PRO:sg

Eléments pronominaux (non relatifs) non supportés par le V au singulier. Ex.  : MOI, CECI, SIEN, etc.

PRONOMS

PRO:pl

Idem au pluriel. Ex.  : MAINTS, PLUSIEURS, etc.

RELATIFS

REL

Pronoms relatifs

SUBORDONNANTS

SUB

Conjonctions de subordinations simples (quand, comme, lorsque, etc.) et locutions (parce_que, afin_que, etc.)

SUBORDONNANTS

SUB$

Subordonnant QUE (codé ainsi dans les cas d'ambiguïté max.)

SUBSTANTIFS

SBC:sg

Noms communs au singulier

SUBSTANTIFS

SBC:pl

Noms communs au pluriel

SUBSTANTIFS

SBP:sg

Noms propres au singulier

SUBSTANTIFS

SBP:pl

Noms propres au pluriel

VERBES - préfixe

A, E ou V

Distinction auxiliaire AVOIR, ETRE ou AUTRE VERBE

VERBES

CJ:sg

Formes conjuguées au singulier

VERBES

CJ:pl

Formes conjuguées au pluriel

VERBES

PAR:sg

Participes passés au singulier

VERBES

PAR:pl

Participes passés au pluriel

VERBES

NCFF

Formes non conjuguées (NC) à l'infinitif (FF)

VERBES

NCNT

Formes non conjuguées (NC) au gérondif ou au participe présent (NT)

RESIDUS

ABR

Abbréviations

RESIDUS

FGW

Mots étrangers

RESIDUS

SYM

Symboles

Tableau 2 : [français] tableau synthétisant les codes utilisés par TreeTagger pour le français

POS ou catégorie

Code

Description

ADJECTIFS

ADJ

Adjectifs

ADJECTIFS

ADJ:num

Adjectifs numéraux

ADVERBES

ADV

Adverbes

CONJONCTIONS

CON:coo

Conjonctions de coordination

CONJONCTIONS

CON:sub

Conjonctions de subordination

DETERMINANTS

DET:def

Déterminants définis

DETERMINANTS

DET:indef

Déterminants indéfinis

INTERJECTIONS

INT

Interjections

PONCTUATIONS

PON

Marques de ponctuation hors points et virgules

PONCTUATIONS

PON:sep

Points

PONCTUATIONS

PON:comma

Virgules

PREPOSITIONS

PRE

Prépositions

PREPOSITIONS/ DETERMINANTS

PRE:det

Déterminants contractés (au,du,aux,des)

PRONOMS

PRO:demo:attr

Adjectifs démonstratifs CE, CET, etc.

PRONOMS

PRO:demo:pred

Pronoms démonstratifs CELUI, CELLE, CELUI-CI, etc.

PRONOMS

PRO:indef:attr

Adjectifs indéfini TOUT, PLUSIEURS, CERTAIN, etc.

PRONOMS

PRO:indef:pred

Pronoms indéfinis CHACUN, QUICONQUE, etc.

PRONOMS

PRO:pers:clit

Pronoms personnels clitiques le, la...

PRONOMS

PRO:pers:conj

Pronoms personnels conjugués JE, TU, IL, ON, etc.

PRONOMS

PRO:poss

Adjectifs possessifs SON, SA, SES, etc.

PRONOMS

PRO:rela

Pronoms relatifs

SUBSTANTIFS

NOM

Substantifs

VERBES

VER:cond

Verbes au conditionnel

VERBES

VER:futu

Verbes au futur

VERBES

VER:impe

Verbes à l'impératif (non remarqué dans corpus)

VERBES

VER:impf

Verbes à l'imparfait

VERBES

VER:infi

Verbes à l'infinitif

VERBES

VER:pper

Participes passés

VERBES

VER:ppre

Participes présents

VERBES

VER:pres

Verbes au présent

VERBES

VER:simp

Verbes au passé simple

VERBES

VER:subi

Verbes au subjonctif imparfait

VERBES

VER:subp

Verbes au subjonctif présent

RESIDUS

ABR

Abréviations

RESIDUS

SYM

Symboles

Tableau 3 : [anglais] tableau synthétisant les codes du corpus Penn Treebank

POS ou catégorie

Code

Description

ADJECTIFS

JJ

Adjectifs

ADJECTIFS

JJR

Adjectifs comparatifs (suffixés en -er , more et less dans certains cas)

ADJECTIFS

JJS

Adjectifs superlatifs suffixés en -est , most et least dans certains cas

ADVERBES

RB

Adverbes (principalement mots se terminent par -ly ) + adverbes de degré (e.g. quite, too et very ) + modifieurs (e.g. enough ou indeed ) + adverbes de négation (e.g. not, n't ou never ).

ADVERBES

RBR

Adverbes comparatifs (suffixés en -er , pas un sens comparatif strict comme later dans We can always come by later)

ADVERBES

RBS

Adverbes superlatifs

ADVERBES

WRB

Wh-adverbes (how, where, why, etc.). WHEN est étiqueté WRB dans son acception temporelle (IN dans le sens de IF)

CARDINAUX

CD

Nombres cardinaux

COORDONNANTS

CC

Conjonctions de coordination (and, but, nor, or, for et yet + opérateurs mathématiques plus, minus, less, times et over )

DETERMINANTS

DT

Déterminants (articles a(n), every, no et the , indéfinis another, any, some, each, either, neither, that , these, this et those + all et both lorsqu'ils ne précèdent pas un déterminant ou un pronom possessif).

PREDETERMINANTS

PDT

Eléments suivants lorsqu'ils précèdent un article ou un pronom possessif: all, both, half, many, nary, quite, rather, such, etc.

INTERJECTIONS

UH

Interjections (my, oh, please, see, uh, well, yes, etc.)

PARTICIPES PASSES

VBN

Verbes au participe passé

PARTICULES

RP

Monosyllabiques pour la plupart, susceptibles d'être redoublées en tant qu'adverbes directionnels ou prépositions. Ex.: she told off her friends, particule car non dépendant du SN

POSSESSIFS

POS

Marques de possession en position finale: 's ou ' (éléments écartés des mots auquel ils se rattachent comme s'ils étaient eux-mêmes des mots. Ex: John/NP 's/POS idea.)

PREPOSITIONS ou SUBORDONNANTS

IN

Pas de distinction, mais toujours possible de la retrouver, car une préposition est un IN qui précède un SN ou un SP, et une conjonction de subordination un IN qui précède une proposition. A noter que la préposition to a son propre tag.

PRONOMS

PP

Pronoms personnels + pronoms possessifs mine, yours, his, hers, ours et theirs

PRONOMS

PP\$

Pronoms possessifs (my, your, his, her, its, one's, our et their).

PRONOMS

WP

Wh-pronoms (what, who et whom ).

PRONOMS

WP\$

Pronom possessif en wh-: WHOSE.

RELATIFS

WDT

Wh-determiner ( which et that - employé en tant que pronom relatif).

SUBSTANTIFS

NN

Noms au singulier (ou mass nouns).

SUBSTANTIFS

NNS

Noms au pluriel

SUBSTANTIFS

NP

Noms propres au singulier

SUBSTANTIFS

NPS

Noms propres au pluriel

THERE

EX

"there" existentiel(qui entraîne une inversion du verbe et du sujet logique d'une phrase)

VERBES

MD

Verbes modaux (critère: V qui ne prennent pas un -s à la 3e ps: can, could, (dare), may, might, must, ought, shall, should, will et would .

VERBES

VB

Verbes, forme "de base" (impératifs, infinitifs et subjonctifs).

VERBES

VBD

Verbes au passé+ forme conditionnelle du verbe to be (If I were/VBD rich...)

VERBES

VBG

Verbes au gérondif ou au participe présent

VERBES

VBP

Verbes au présent, formes autres que la troisième personne du singulier

VERBES

VBZ

Verbes au présent, troisième personne du singulier

RESIDUS

FW

Mots d'origine étrangère (pas de liste particulière)

RESIDUS

SYM

Symboles ou expressions mathématiques, scientifiques ou techniques qui ne sont pas des mots (anglais). (usage important. E.g. noms de symboles et d'unités de mesures (abréviations incluses) = noms).

RESIDUS

LS

Marqueurs d'éléments dans une liste (lettres et numéraux)

TO

TO

TO

Tableau 4 : [anglais] tableau (incomplet) synthétisant les codes développés par SUSANNE

POS ou catégorie

Code

Description

ADJECTIFS

JJ

Adjectifs

ADJECTIFS

JJQ

Adjectifs en wh-

ADJECTIFS

JJV

Adjectifs en wh...ever

ADJECTIFS

JJX

Adjectifs superlatifs

ADJECTIFS

JJR

Adjectifs comparatifs

ADJECTIFS

JJH

Adjectifs postposés ("heavy")

ADVERBES

RR

Adverbes

ADVERBES

RRQ

Adverbes en wh-

ADVERBES

RRV

Adverbes en wh...ever

ADVERBES

RRX

Adverbes superlatifs

ADVERBES

RRR

Adverbes comparatifs

ADVERBES

RRS

Adverbes marquant une asyndète

ADVERBES

RRW

Adverbes quasi-nominaux


NOTES

[1] Extrait du corpus Brown, SUSANNE est un corpus annoté d'anglais américain de 130 000 mots.


Vous pouvez adresser vos commentaires et suggestions à : celine.poudat@univ-orleans.fr

© décembre 2004 pour l'édition électronique.

Référence bibliographique : POUDAT, Céline. Recension et présentation comparative d’étiqueteurs pour le français et l’anglais. Texto! [en ligne], décembre 2004, vol. IX, n°4. Disponible sur : <http://www.revue-texto.net/Corpus/Poudat_Taggers.html>. (Consultée le ...).