RECENSION ET PRÉSENTATION COMPARATIVE D'ÉTIQUETEURS POUR LE FRANÇAIS ET L'ANGLAIS
Céline POUDAT
Université d'Orléans
SOMMAIRE :
I.
BRILL
II. CORDIAL
ANALYSEUR
III. MBT
TAGGER
IV. TNT
TAGGER
V.
TREETAGGER
VI.
VISL
VII. Synthèse
I. BRILL
Sources :
I.1. Présentation générale de l'étiqueteur
Créé par Eric Brill dans la cadre de sa thèse (1993, université de Pennsylvanie), le tagger Brill est fondé sur les travaux de Bloomfield (1933) et Harris (1946, 1951). Reposant sur l'idée que l'étude d'une langue peut se fonder sur l'observation de faits linguistiques et indépendamment d'une théorie linguistique particulière, le tagger doit, pour fonctionner, être entraîné sur un corpus de taille restreinte étiqueté manuellement et à partir duquel il infère des règles d'étiquetage (distribution "extensionnelle"). Les mots inconnus sont traités à partir d'une hypothèse naïve sur la structure du langage Enfin, une analyse de la distribution est effectuée afin de réduire les erreurs d'étiquetage.
Il est possible d'entraîner Brill sur tout type de corpus étiqueté; le tagger présente un intérêt incontestable pour étudier les genres dans la mesure où il est possible de l'adapter au traitement d'un genre particulier, celui de l'article scientifique par exemple et de choisir le jeu d'étiquettes souhaité. Brill est effectivement davantage adapté au codage des textes en "discours" qu'en "langue", comme le souligne Lecomte dans sa description de Brill (Inalf). En outre, l'étiqueteur est multilingue et fonctionne avec d'autres langues que l'anglais.
En ce qui concerne le français, c'est l'Inalf qui a entraîné Brill sur la base Frantext, et il est possible de signer une convention pour pouvoir profiter des résultats de cet apprentissage.
I.2. Fonctionnement de l'étiqueteur (Lecomte, chapitre 4, p. 22)
À partir d'un sous-corpus échantillon étiqueté manuellement, le système crée sa base de connaissances. Quatre fichiers serviront de paramètres dans la commande d'étiquetage :
1) fichier LEXIQUE : contient une liste de mots (une entrée par ligne) associés à ue liste de codes pouvant contenir tout caractère hormis l'espace (séparateur). Le premier code associé est "le plus probable". Ceux qui suivent sont ceux qui ont été également rencontrés, pas de contrainte d'ordre. La taille maximale du lexique semble limitée à 100 000 mots, la taille du mot à 100 caractères et celle d'une étiquettes à 20 caractères.
Exemples :
réduit
VCJ:sg SBC:sg ADJ1PAR:sg VPAR:sg ADJ2PAR:sg |
2) fichier des REGLES LEXICALES : traitement des mots inconnus.
3) fichier des REGLES CONTEXTUELLES : règles contextuelles qui serviront à affiner l'étiquetage en contexte (local assez réduit : 6 max. – étiquettes PD ou mots).
Exemples :
DTN:sg PRV:sg NEXTTAG
VCJ:sg |
4. fichier de BIGRAMMES (= paire de mots adjacents) : traitement des mots inconnus, contient la liste de toutes les paires de mots repérées dans le corpus à étiqueter (ex.: preque bleu, résultait qu', constaté que, etc.).
Corpus échantillon employé à l'INALF : environ 400 000
occurrences, textes essentiellement littéraires mais mélange
de genres (ouvrages sur la biologie et l'écologie).
Normes BRILL minimales : décolage des ponctuations, une phrase
par ligne.
La version proposée par l'INALF inclut le logiciel FLEMM, qui
permet d'obtenir le lemme des mots analysés.
I.3. Du jeu d'étiquettes disponible
Pour le français, choix de l'INALF :
Lexiques de l'INALF : 100 codes différents pour 5 catégories
du discours : verbes conjugués (45), verbes non conjugués (3),
adjectifs (4), substantifs (4), mots grammaticaux (45) ;
Etiquettes adoptées pour Brill : 49 (tableau 1, annexe).
En résumé, distinction :
ADJECTIFS ADJ:xx : trait nombre, sg. ou pl. pour adjectifs qualificatifs, ordinaux, possessifs et indéfinis (par opp. aux déterminants). Les adjectifs adverbialisés considérés comme des adjectifs et non comme des adverbes (il crachait noir);
ADVERBES ADV : concerne tous les adverbes, ainsi que les locutions adverbiales, reconnues comme telles dans une phase de pré-traitement et marquées avec un underscore (d'_ailleurs). Les adverbes prédéterminants sont codés comme des adverbes (presque/ADV tous les mois), de même que les superlatifs et comparatifs. Beaucoup et peu sont codés en tant qu'adverbes possibles, mais pas rien.
CARDINAUX CAR : tous les numéraux cardinaux écrits en chiffres ou en lettres, ainsi que les dates. Pas de subdivision des cardinaux selon leur fonction. En outre, il n'était pas possible de distinguer l'indéfini un du cardinal.
COORDONNANTS COO : conjonctions de coordination usuelles mais aussi expressions comme c'est-à-dire, non_seulement, mais_encore, soit...soit, etc. Chaque élément de coordonnant discontinu reçoit un code de coordonnant normal.
DETERMINANTS DTN:xx ou DTC:xx : introducteurs de syntagmes nominaux. Distinction entre les déterminants normaux et les déterminants contractés (avec préposition ou partitif). Valeur de trait nombre sg. ou pl. De considéré comme ambigu (marqueur partitif ou préposition); du étiqueté DTC:sg, des DTC:pl. Problème pour tout, toute, toutes, tous, cf. p.11.
INTERJECTIONS INJ : surtout utilisées en discours direct, et à moins de correspondre au thème de recherche de l'article, il est peu probable d'en avoir dans les textes.
PARTICIPES PASSES VPAR:xx ADJ1PAR:xx ou ADJ2PAR:xx :
PARTICULES PUL : éléments n'ayant pas d'existence autonome et qui n'ont pas été regroupés dans une locution composée figée. Ex : quant (à, aux), éléments comme –t- dans une succession Verbe-pronom.
PONCTUATIONS : l'étiquette reprend le signe de ponctuation. Ex : ?/? ou ///. Le trait d'union reste à l'intérieur du mot, n'est étiqueté comme signe de ponctuation que si le mot composé n'est pas reconnu.
PREFIXES PFX : code les préfixes détachés, isolés entre deux blancs comme entre, ex, micro... Etiquette non productive au niveau des règles (le système n'affecte jamais cette étiquette de lui-même à un mot du texte).
PREPOSITIONS PREP : prépositions simples (à, de, par, jusqu', etc.). Pour les prépositions complexes, une particule PUL peut être associée à une préposition PREP. Les locutions prépositionnelles les plus fréquentes sont également codées. Les prépositions déictiques (voici, voilà, revoici, revoilà ) ne reçoivent pas d'étiquette particulière.
PRONOMS PRV:xx et PRO:xx : concerne les éléments pronominaux à l'exclusion des relatifs (REL). Sous-catégorisation en Nombre (sg, pl ou ++ pour en et y, s' et se). Distinction des pronoms supportés ou non par le verbe : PRV:xx (je, tu, il elle, nous, etc. + me, te se, leur, les, la, le, lui + en et y + -t-on, -t-il, etc.) et PRO:xx pour tous les autres pronoms (démonstratifs, possessifs, anaphoriques, etc. comme moi, ceci, sein, plusieurs, maints, etc.).
RELATIFS REL : pronoms introduisant une subordonnée relative, complète ou non, avec antécédant exprimé.
SUBORDONNANTS SUB et SUB$ : conjonctions de subordination, simples (que, lorsque, quand, comme, etc.) et locutions conjonctives (parce_que, afin_que, etc.). Comme et que sont considérés comme des cas particuliers car ambigus : comme peut être adverbe exclamatif (comme il est beau!) et que est très ambigu (relatif, subordonnant et adverbe exclamatif ou restrictif). SUB$ concerne donc que et le code ainsi dans les cas d'ambiguïté maximale.
SUBSTANTIFS SBC:xx et SBP:xx : distinction des noms communs (SBC) et des noms propres (SBP). Sont codés noms communs les noms sans majuscules, avec majuscules pour les noms de peuples et d'habitants, et les adjectifs substantivés. Les noms propres ont été codés ainsi à partir du code * de Frantext, de leur présence dans le lexique avec un code "nom propre", ainsi que de leur passage par le traitement des mots inconnus, qui affecte à tout mot inconnu commençant par une majuscule un code nom propre. Des ambiguïtés demeurent, liées aux problèmes d'homonymie et des mots composés.
VERBES : distinction entre les auxiliaires de temps et de voix et les verbes pleins. Les modaux ne sont pas distingués et sont considérés comme des verbes pleins.
pos 1 |
pos 2 et 3 |
pos 4 et 5 |
Nbre gramm. |
A
(verbe avoir) |
CJ (forme conjuguée) PAR (forme participe passé) |
. |
:sg |
A
(verbe avoir) |
NC (forme non conjuguée) |
FF (infinitif) |
. |
Remarques : CJ neutralise les indications
de temps, de mode et de personne.
Exemples : ils retombaient /VCJ:pl
; elle l'aura /ACJ:sg voulu
VPAR:sg; ils sont /ECJ:pl
partis /ADJ1PAR:pl.; sans vouloir
/VNCFF aller /VNCFF; n'ayant
/ANCNT aucune idée de..., etc.
RESIDUS ABR, FGW ou SYM : concerne les mots difficiles à classer : abréviations (ABR), mots étrangers (FGW) et symboles (SYM).
Pour l'anglais, 1/exploitation de 8 systèmes d'annotation
différents unifiés par le projet AMALGAM (Automatic Mapping
Among Lexico-Grammatical Annotation)
:
(
http://www.scs.leeds.ac.uk/amalgam/amalgam/amalghome.htm)
Les linguistes/groupes de recherche emploient des systèmes
d'annotation grammaticale différents pour traiter leurs
corpus, ce qui limite les possibilités d'échange et de partage
des corpus.
Si la TEI est un moyen de pallier ce problème, le projet
AMALGAM a développé un ensemble d'algorithmes de mapping
fusionnant les huit systèmes d'annotation suivants :
A partir de ces systèmes d'annotation a été développé un système hybride entraîné avec Brill Tagger. Il est ainsi possible de tagger un texte, et de choisir les systèmes d'annotation souhaités. L'utilisateur envoie son texte par mail en spécifiant le(s) type(s) d'étiquetage qu'il souhaite.
Cette possibilité est très intéressante, dans la mesure où certains de ces systèmes, destinés à l'annotation de transcriptions orales, sont peu pertinents pour notre étude. De fait, le système d'annotation du London-Lund Corpus a été développé pour le codage de transcriptions de dialogues, le Polytechnic of Wales Corpus est fondé sur des transcriptions de dialogues interactifs avec des enfants et le Spoken English Corpus porte, comme son nom l'indique, sur de l'anglais parlé.
Le projet AMALGAM a d'ailleurs du résoudre les problèmes générés par les spécificités des systèmes d'annotation, et le codage du LLC a par exemple du être adapté au traitement de textes écrits.
Pour l'anglais, 2/ Utilisation du
site
http://rayuela.lsi.uned.es/cgi-bin/ircourse/brill.perl,
qui utilise les étiquettes du Penn
Treebank
Source : Santorini, Beatrice. Part-of-Speech Tagging
Guidelines for the Penn Treebank Project. March 15, 1991.
[téléchargeable sur le site de TreeTagger]
Voici la liste des tags (sans les étiquettes concernant les
marques de ponctuation) :
CC
Conjonction de coordination : inclut and, but, nor,
or, for et yet, de même que les opérateurs
mathématiques plus, minus, less, times (dans le sens de
multiplied by) et over (dans le sens de
divided by).
CD Nombres cardinaux
DT Déterminants : inclut les articles a(n), every, no et the, les déterminants indéfinis another, any, some, each, either, neither, that , these, this et those, de même que des occurrences de all et both lorsqu'ils ne précèdent pas un déterminant ou un pronom possessif.
EX "there" existentiel : le there qui entraîne une inversion du verbe et du sujet logique d'une phrase.
FW Mots d'origine étrangère (pas de liste particulière)
IN Préposition ou conjonction de subordination : Pas de distinction entre les deux – toujours possible de la retrouver néanmoins, car une préposition est un IN qui précède un SN ou un SP, et une conjonction de subordination un IN qui précède une proposition. A noter que la préposition to a son propre tag.
JJ Adjectifs
JJR Adjectifs comparatifs : adjectifs suffixés en –er, more et less dans certains cas.
JJS Adjectifs superlatifs : adjectifs suffixés en –est, most et least dans certains cas.
LS marqueurs d'éléments dans une liste : inclut les lettres et les numéraux lorsqu'ils sont employés dans une liste.
MD Verbes modaux : inclut tous les verbes qui ne prennent pas un –s à la troisième personne du singulier : can, could, (dare), may, might, must, ought, shall, should, will et would.
NN Noms au singulier (ou mass nouns).
NNS Noms au pluriel.
NP Noms propres au singulier
NPS Noms propres au pluriel
PDT Prédéterminant : inclut les éléments suivants lorsqu'ils précèdent un article ou un pronom possessif : all, both, half, many, nary, quite, rather, such, etc.
POS Marques de possession en position finale : 's ou ' : ces éléments sont écartés des mots auquel ils se rattachent comme s'ils étaient eux-mêmes des mots. Ex : John/NP 's/POS idea.
PP Pronoms personnels
PP\$ Pronoms possessifs : Inclut les pronoms possessifs my, your, his, her, its, one's, our et their. Les pronoms possessifs mine, yours, his, hers, ours et theirs sont étiquetés PP (pronoms personnels).
RB Adverbes : la plupart des mots inclus dans cette catégorie se terminent par –ly. Les adverbes de degré comme quite, too et very y sont également inclus, de même que les modifieurs comme enough ou indeed et les adverbes de négation comme not, n't ou never.
RBR Adverbes comparatifs : adverbe suffixés en –er qui n'ont pas un sens comparatif strict. [donner des exemples]
RBS Adverbes superlatifs
RP Particules : inclut un ensemble de mots monosyllabiques pour la plupart susceptibles d'être redoublés en tant qu'adverbes directionnels ou prépositions [à préciser avec des exemples car peu clair].
SYM Symboles : symboles ou expressions mathématiques, scientifiques ou techniques qui ne sont pas des mots anglais. SYM ne doit toutefois pas être utilisé pour tagger toutes les expressions techniques. Par exemple, les noms de symboles et d'unités de mesures (abréviations incluses) devront être étiquetés en tant que noms.
TO "To"
UH Interjection inclut my, oh, please, see, uh, well, yes, etc.
VB Verbes, forme "de base" : cette catégorie inclut les impératifs, les infinitifs et les subjonctifs.
VBD Verbes au passé : inclut la forme conditionnelle du verbe to be (If I were/VBD rich…)
VBG Verbes au gérondif ou au participe présent
VBN Verbes au participe passé
VBP Verbes au présent, formes autres que la troisième personne du singulier.
VBZ Verbes au présent, troisième personne du singulier
WDT Wh-determiner : inclut which et that (employé en tant que pronom relatif).
WP Wh-pronoms : inclut what, who et whom.
WP\$ Pronom possessif en wh- : inclut whose.
WRB Wh-adverbes : inclut how, where, why, etc. when est étiqueté WRB dans son acception temporelle. Dans le sens de IF, il sera étiqueté IN (ex. : when/WRB he finally arrived/I like it when/IN you make dinner for me).
I.4. Du codage des tags et de leur conversion en balises XML
La conversion des tags Brill en balises XML est simple, tous les tags étant suffixés au mot et commençant par un slash /.
Exemple :
It/PRP is/VBZ generally/RB the/DT case/NN that/IN special/JJ volumes/NNS include/VBP studies/NNS on/IN a/DT narrowly/RB defined/VBN topic/NN of/IN linguistic/JJ investigation/NN from/IN a/DT single/JJ theoretical/JJ standpoint.
II.
CORDIAL
ANALYSEUR
II.1. Fonctionnement général de l'étiqueteur
Cordial 8 (Société Synapse-Développement) est un correcteur orthographique et grammatical du français. La version "Cordial Analyseur", qu'il est possible d'acquérir à des fins de recherche, intègre entre autres fonctionnalités un étiqueteur morphosyntaxique. Les résultats de l'étiquetage (texte étiqueté, chiffres absolus, pourcentages, etc.) sont distribués dans différents fichiers en format texte, facilement réexploitables dans d'autres cadres d'analyse (méthodes de statistique multidimensionnelle exploratoire -analyse factorielle, classification automatique, etc.).
Il est en outre possible de configurer l'étiquetage et de sélectionner les informations souhaitées parmi les 27 types de données proposées (lemme, type syntaxique, numéro de paragraphe, équivalents sémantiques, etc.).
Cordial a été largement exploité dans des cadres d'analyse et d'exploration de corpus (Malrieu&Rastier 2000, Beauvisage 2000, etc.) et est également utilisé en amont de traitements automatiques par différents outils (TypTex, Lexter, etc.).
Etant donné son statut de logiciel grand public, les variables qu'il propose sont plus grammaticales (grammaire scolaire traditionnelle) que linguistiques – a fortiori, aucune documentation renseignant les catégories utilisées n'est disponible.
Sources : http://ilk.kub.nl/~zavrel/tagtest.html
Fonctionnement général de l'étiqueteur
L'étiqueteur MBT est fondé sur un système d'apprentissage combinant deux méthodes d'étiquetages largement utilisées : l'étiquetage stochastique, et l'étiquetage par règles (cf. Brill tagger).
À l'instar de Brill, MBT peut s'appliquer à tout type de corpus annoté. MBT fonctionne à partir de techniques d'apprentissage et de classification :
Un ensemble d'exemples est stocké dans une mémoire; chaque exemple contient un mot (ou sa représentation lexicale), son contexte (antérieur et postérieur) et la catégorie grammaticale à laquelle il est associé dans chaque contexte.
Une nouvelle phrase sera donc analysée de la manière suivante : pour chaque mot de la phrase, le tagger cherchera un exemple d'emploi analogue dans la mémoire et en déduira sa catégorie grammaticale – à partir de ses plus proches voisins.
Les tags sont donc considérés comme des variables, qui seront assignées aux mots à partir de méthodes de classification. MBT emploie une mesure de similarité qui considère le nombre de tags potentiels qu'il est possible d'associer à chaque mot et qui pondère l'importance de chaque catégorie.
MBT est un générateur de tagger : à partir d'un corpus étiqueté selon le système d'annotation désiré, un POS tagger est généré. Trois structures de données sont extraites automatiquement du corpus fourni en entrée : un lexique (permettant d'associer des tags aux mots) et deux bases de cas (casebases) pour les mots connus et inconnus.
III.2. Du jeu d'étiquettes disponible
La version de MBT tagger que nous utilisons en accord avec W.
Daelemans n'a été développée que pour l'anglais. Son
utilisation en français nécessite donc la construction d'un
corpus d'entraînement français de taille importante – et donc
son étiquetage manuel. A voir.
Deux types d'étiquettes sont proposées : des tags de type
morphosyntaxique et de type syntaxique. MBT a en effet été
entraîné sur le corpus d'arbres syntaxiques développé par le
projet Penn Treebank. L'annotation syntaxique du corpus n'a
toutefois pas été entièrement exploitée.
POS Tags
En anglais, les tags sont ceux du Penn Treebank. Cf. Liste seconde possibilité pour traiter l'anglais de Brill tagger.
Un double slash entre le mot et la catégorie signifie que le mot est inconnu à l'étiqueteur.
Chunks
A l'étiquetage des catégories morphosyntaxiques développées par le projet Penn Treebank s'ajoute celui d'un certain type de syntagmes (les chunks), i.e. des syntagmes ne se chevauchant pas.
Type de syntagme |
Description |
Code |
Exemple |
Syntagme nominal |
Etiquetage des SN du début du syntagme au nom tête, mais exclusion des compléments suivant ce dernier. |
[NP…NP] |
[P In/IN P] [NP addition/NN NP] PNP} {PNP [P to/TO P] |
Préposition |
Ne code que la préposition en question, de même que certaines locutions prépositionnelles |
[P…P] |
[P In/IN P] [NP addition/NN NP] PNP} {PNP [P to/TO P]… |
Syntagme prépositionnel |
Code une préposition et un ou plusieurs NPs |
{PNP…PNP} |
{PNP [P on/IN P] [NP the/DT other/JJ hand/NN NP] PNP} |
Syntagme adjectiva |
Etiquetage des SA du début du syntagme au nom tête, mais exclusion des compléments suivant ce dernier. Pas d'étiquetage des SA à l'intérieur d'un SN. |
[ADJP…ADJP] |
[ADJP more/RBR reliable/JJ ADJP] |
Syntagme adverbial |
Etiquetage des SAdv du début du syntagme au nom tête, mais exclusion des compléments suivant ce dernier. Pas d'étiquetage des SAdv à l'intérieur d'un SV ou d'un Sadj. |
[ADVP…ADVP] |
[ADVP when/WRB ADVP] |
Syntagme |
Contient un verbe principal, ses éventuels auxiliaires ou modaux, de même que les compléments adverbiaux ou verbaux qui le suivent. |
[VP…VP] |
[VP-3 is/VBZ considered/VBN VP-3] |
Introducteur de complétives |
A l'instar de la préposition, ne code le plus souvent qu'un mot – l'introducteur de proposition complétive. |
[C…C] |
[VP-1 suggests/VBZ VP-1] [C that/IN C] |
Annotation de sujets et d'objets
Les syntagmes nominaux sujet et objet (chunks, et non SN) sont respectivement étiquetés [NP-SBJ-i… NP-SBJ-i] et [NP-OBJ-i… NP-OBJ-i]. "i" est un nombre entier indiquant à quel SV – indexé par le même nombre - le SN se rapporte.
Les sujets/objets n'étant pas des SN ne sont pas annotés.
Exemple :
[C Because/IN C]
[NP-SBJ-1 the/DT
ability/NN NP-SBJ-1] [VP-1 to/TO quantify/VB VP-1] [NP-OBJ-1
the/DT spatiotemporal//JJ phenomena/NNS NP-OBJ-1]
Les objets "prédicatifs" (en attributs) sont étiquetés
NP-PRD
Exemples :
[NP-SBJ-1 Nonempirical//JJ studies/NNS NP-SBJ-1] {PNP [P
of/IN P] [NP language/NN NP] PNP} [VP-1 have/VBP been/VBN
VP-1] [NP-1NP-PRD
extremely/RB successful/JJ NP-1NP-PRD]
[ADJP available/JJ ADJP] [VP-4 to/TO be/VB VP-4] [NP-4NP-PRD potentially/RB known/VBN or/CC utilized/VBN NP-4NP-PRD] ./.
Un SN inclut dans une expression figée est étiqueté
NP-[iNP]-CLR.
Exemple :
[VP-4 take/VBP VP-4]
[NP-4NP-CLR place/NN
NP-4NP-CLR]
III.3. Du codage des tags et de leur conversion en balises XML
La conversion des tags morphosyntaxiques est simple, les tags étant suffixés au mot par un slah (à l'instar de l'annotation proposée par Brill).
Une réflexion sur la récupération de l'annotation syntaxique sera à réfléchir, mais les séparateurs employés sont très identifiables : {, }, [ et ].
IV.
TNT
TAGGER
Sources :
IV.1. Fonctionnement général de l'étiqueteur
TnT (Trigrams'n'Tags) est un tagger statistique qu'il est – théoriquement – possible d'entraîner sur des langues et des systèmes d'étiquetage différents.
Implémenté sur un algorithme fondé sur les modèles de Markov, l'étiqueteur est constitué d'un ensemble de méthodes de smoothing et de traitement des mots inconnus.
Tel qu'il est disponible par convention, TnT ne permet de traiter que l'anglais et l'allemand. Il a en effet été entraîné pour l'allemand sur un corpus journalistique annoté selon les conventions Stuttgart-Tübingen, et pour l'anglais sur les corpus SUSANNE [1] (Surface and underlying structural analysis of natural English) et Penn Treebank.
Les concepteurs de TnT ont veillé à optimiser la vitesse de l'étiqueteur; celle-ci dépend bien sûr de l'ambiguïté et du poucentage de mots inconnus du texte, mais le système est capable d'étiqueter entre 30 000 et 60 000 mots par seconde sur un Pentium 500 sous Linux.
Il est possible d'entraîner le tagger à étiqueter d'autres langues, à condition qu'elles utilisent l'espace comme séparateur de mots et qu'elles puissent être représentées en ASCII. Le corpus d'entraînement doit répondre au format suivant : un élément par ligne, la première colonne correspondant au mot et la seconde au tag.
IV.2. Du jeu d'étiquettes disponible
La version de TnT telle qu'elle est disponible est fondée sur le système d'annotation SUSANNE (Geoffrey Sampson). Le tagger a en effet été entraîné sur le corpus SUSANNE, sous-corpus du corpus Brown – anglais américain écrit – de 130 000 mots. De taille restreinte (tout spécialement par rapport au corpus développé par le Penn Treebank), Susanne est composé de 4 "types de textes" différents, selon la taxonomie adoptée par le corpus Brown : reportages de presse, belles lettres-biographies-mémoires, écrits "savants" (textes essentiellement techniques et scientifiques) et fiction (aventures et westerns).
Le système d'encodage adopté est fondé sur celui de Lancaster (Garside et al. 1987 appendix B) et comprend 353 codes différents.
TnT reprend deux niveaux d'encodage de SUSANNE : un niveau morphosyntaxique et un niveau supérieur, qui correspondrait globalement à celui des "chunks" (phrasegroups) et qui est composé de huit types de segments :
A ces segments sont associés des informations concernant la nature morphosyntaxique des mots :
IV.3. Du codage des tags et de leur conversion en balises
XML
Le fichier résultat contient un élément par ligne. En "mode basique", le tagger ajoute une seconde colonne contenant le tag associé au mot à chaque ligne. Différentes options sont disponibles : il est par exemple possible de rajouter des tags alternatifs pour chaque mot.
Basic Optional Input Output Extended Output ----------------+------------+-------------------------------------------------------------------- Der ART | ART 1.000000e+00 Mandolinen-Club NN * | NN 1.000000e+00 * Falkenstein NE * | NE 8.001280e-01 NN 1.998720e-01 * und KON | KON 1.000000e+00 der ART | ART 1.000000e+00 Frauenchor NN * | NN 9.828203e-01 NE 1.717975e-02 * aus APPR | APPR 1.000000e+00 dem ART | ART 1.000000e+00 sächsischen ADJA | ADJA 1.000000e+00 Königstein NN | NN 7.762892e-01 NE 2.237108e-01 gestalten VVINF | VVINF 1.000000e+00 die ART | ART 9.796126e-01 PRELS 1.443545e-02 PDS 5.951974e-03 Feier NN | NN 1.000000e+00 gemeinsam ADJD | ADJD 1.000000e+00 . $. | $. 1.000000e+00 ----------------+------------+-------------------------------------------------------------------- |
Les mots marqués par un astérisque (*) ne sont inclus dans le lexique originel de l'étiqueteur; c'est à partir d'une analyse de leurs suffixes qu'ils ont été étiquetés.
V.
TREETAGGER
Sources :
V.1. Fonctionnement général de l'étiqueteur
Développé au sein du projet TC (Textcorpora and Erschliessungswerkzeuge/'textual corpoa and tools for their exploration', http://www.ims.uni-stuttgart.de/projekte/tc/) à l'institut de linguistique computationnelle de l'université de Stuttgart, TreeTagger est un système d'annotation de catégories morphosyntaxiques permettant d'étiqueter des textes en anglais, français, allemand, italien, grec, et ancien français. Il est possible d'adapter l'étiqueteur à d'autres langues, à condition de disposer d'un lexique et d'un corpus manuellement annoté.
TreeTagger est proche des taggers ngram traditionnels. Les deux systèmes modèlent la probabilité de l'annotation d'une séquence de mots.
Cependant, contrairement à la plupart des étiqueteurs qui recourent aux modèles de Markov pour résoudre le problème des "données clairsemées" (sparse data), TreeTagger utilise un arbre de décision binaire pour calculer la taille du contexte à utiliser pour estimer les probabilités de transition.
Le lexique implémenté dans TreeTagger contient la liste des possibilités d'étiquetage pour chaque mot. Il se divise en trois parties :
La recherche d'un mot dans le lexique démarre par une recherche dans le premier fichier (avec changement de la casse du mot si la recherche s'avère infructueuse avec la casse originelle); puis dans le second si le mot n'a pas été trouvé dans le premier.
V.2. Du jeu d'étiquettes disponible
Pour
l'anglais :
Etiquettes développées par le projet Penn Treebank. Cf. liste, donnée dans le descriptif des étiquettes de Brill.
Pour le
français :
ABR
abréviations
ADJ
adjectifs
ADV
adverbes
DET:ART
articles
DET:POS
pronoms possessifs (ma, ta, ...)
INT
interjections
CON
conjonctions
NAM
noms propres
NOM
noms
NUM
numéraux
PRO
pronoms
PRO:DEM
pronoms démonstratifs
PRO:IND
pronoms indéfinis
PRO:PER
pronoms personnels
PRO:POS
pronoms possessifs (mien, tien, ...)
PRO:REL
pronoms relatifs
PRP
prépositions
PRP:det
déterminants contractés (au,du,aux,des)
PUN
marques de ponctuation
PUN:cit
marques de ponctuation marquant les citations
SENT
phrases
SYM
symboles
VER:cond
verbes au conditionnel
VER:futu
verbes au futur
VER:impe
verbes à l'impératif
VER:impf
verbes à l'imparfait
VER:infi
verbes à l'infinitif
VER:pper
participes passés
VER:ppre
participes présents
VER:pres
verbes au présent
VER:simp
verbes au passé simple
VER:subi
verbes au subjonctif imparfait
VER:subp
verbes au subjonctif présent
V.3. Du codage des tags et de leur conversion en balises XML
Le texte est découpé en mots ou expressions (un mot par ligne) et le fichier résultat est organisé en quatre colonnes : la première colonne reporte le mot étiqueté, la seconde son tag, la troisième sa forme en minuscules et la quatrième (souvent vide) propose une analyse du mot – on y trouve le plus souvent le lemme du mot.
VI.
VISL
Sources :
VI.1. Fonctionnement général de l'étiqueteur
La plupart des modules morphologiques, et tous les modules syntaxiques de VISL sont fondés sur le paradigme des grammaires de contraintes (constraint grammar, Karlsson et al., 1995).
Fondé sur des représentations en arbres de dépendances, VISL propose une analyse syntaxique de surface (shallow surface syntactic analysis). Tous les mots du texte reçoivent une ou plusieurs étiquettes morphosyntaxiques, ainsi qu'un tag indiquant leur relation de dépendance (marquée par le symbole @).
VISL propose différents types de représentations :
représentation arborescente horizontale ou verticale,
couleurs, représentation plane, etc. L'analyse des textes peut
s'effectuer en ligne dans la mesure où une interface
d'uploading est proposée
(
http://beta.visl.sdu.dk/visl/fr/parsing/automatic/upload.php).
En ce qui nous concerne, et relativement au traitement ultérieur des sorties de l'analyseur, la représentation plane nous semble être la plus adaptée.
VI.2. Du jeu d'étiquettes disponible
Les étiquettes, de même que les relations de dépendances sont en majuscules. Les étiquettes syntaxiques sont préfixées d'une @ et de flèches de dépendances pointant vers la tête du syntagme (ex. : @SUBJ> pour un sujet à la gauche du prédicat).
VISL propose différents niveaux d'analyse (de la phrase au mot). Au niveau du mot, on retrouve les cinq catégories du discours traditionnelles : nom, adjectif, pronom, verbe et adverbe. Les informations auxquelles elles peuvent être associées ont été synthétisées dans un tableau par Bick (Bick, p.10) :
|
. |
gender |
number |
case |
degree |
person |
tense |
mode |
|
. |
M, F, nG |
S, P, nN |
NOM, DAT, ACC, PIV |
COM |
1, 2, 3 |
PR, IMPF, PS, FUT |
IND, SUBJ, COND, IMP |
noun |
N |
+* |
+ |
|
|
|
|
|
proper noun |
PROP |
(+*) |
|
|
|
|
|
|
adjective |
ADJ |
+ |
+ |
|
+ (few) |
|
|
|
pronoun personal |
PRON PERS |
+ |
+ |
+ |
|
+* |
|
|
determiner |
PRON DET |
+ |
+ |
|
|
|
|
|
independent |
PRON INDP |
+* |
+* |
|
|
|
|
|
verb finite |
VFIN |
|
+ |
|
|
+ |
+ |
+ |
infinitive |
INF |
|
|
|
|
|
|
|
past participle |
PCP2 |
+ |
+ |
|
|
|
|
|
present participle |
PCP1 |
+ |
+ |
|
|
|
|
|
adverb |
ADV |
|
|
|
+ (few) |
|
|
|
Une réflexion concernant l'intégration des niveaux d'analyses supérieurs au mot devra être menée; la tâche s'avère difficile, d'autant que les modules VISL sont fondés sur les grammaires de dépendances, ce qui les rend difficiles à intégrer aux modèles fondés sur des représentations en constituants immédiats.
Mentionnons par exemple qu'au niveau de la phrase, VISL propose cinq fonctions de base : un constituant verbal principal (le predicator P) et quatre constituants satellites non verbaux : le sujet (S), l'objet (O), l'adverbe (A) et le complément (C).
VI.3. Du codage des tags et de leur conversion en balises XML
Plus complexe car présence de balises syntaxiques. Eventuellement, ne récupérer que les étiquettes morphosyntaxiques.
VII. Synthèse
Tableau synthétisant les caractéristiques externes des logiciels
Tagger |
Langues traitées |
Théorie linguistique/ particularité de l'outil |
Corpus d'entraînement |
Type (s) d'étiquettes |
Nombre de tags |
Brill Tagger (Eric Brill) |
Français (InaLF) |
Travaux structuralistes de Bloomfield et Harris; Inférence de règles d'étiquetage; Analyse distributionnelle pour réduire les erreurs d'étiquetage; |
Base Frantext pour le français (InaLF) |
Morpho-syntaxiques |
17 catégories de mots 49 codes |
. |
Anglais (en ligne) |
|
Corpus Penn Treebank pour l'anglais |
. |
36 |
Cordial Analyseur (Synapse Devt, France) |
Français |
Grammaire scolaire |
X |
Morpho-syntaxiques |
Plus de 500 |
MBT Tagger (ILK, W. Daelemans) |
Anglais + autres langues mais entraîne-ment |
Techniques d'apprentissage et de classification; Apprentissage à partir d'exemples; |
Corpus Penn Treebank |
Morpho-syntaxiques et syntaxiques |
POS tags (36); Chunks (7); Sujets et objets |
TnT Tagger (Univ. Saarlandes, DE, Thorsten Brants) |
Anglais + autres langues mais entraîne-ment |
Tagger statistique; |
Corpus SUSANNE (BROWN, anglais américain, 130 000 mots) Corpus Penn Treebank |
Morpho-syntaxiques |
. |
Tree-Tagger (TC Project, Helmut Schmid) |
Anglais, français, allemand, italien, grec, ancien français |
Utilisation d'arbres de décision binaires; Arbres de suffixes; |
Corpus Penn Treebank |
Morpho-syntaxiques |
36 |
. |
. |
. |
? |
. |
33 |
VISL (Syddansk University, Eckhard Bick) |
Anglais, français et un grand nombre d'autres langues |
Grammaires de contraintes, arbres de dépendances; |
? |
Morpho-syntaxiques et syntaxiques (fonction-nelles) |
5 POS, 11 types, 1 à 7 traits + infos syntaxe |
XELDA (Xerox, Grenoble) |
Anglais, français, etc. |
Finite state technology |
X |
Morpho-syntaxiques |
E: 71 |
. |
. |
. |
. |
. |
F: 45 |
Tableau 1 : [Français] tableau synthétisant les codes adoptés par l'Inalf pour entraîner Brill à partir de la base Frantext (43 codes + codes préfixes verbes)
POS ou catégorie |
Code |
Description |
ADJECTIFS |
ADJ:sg |
Adjectifs singulier |
ADJECTIFS |
ADJ:pl |
Adjectifs pluriel |
ADVERBES |
ADV |
Adverbes et locutions adverbiales (marquées avec _) |
CARDINAUX |
CAR |
Numéraux cardinaux en chiffres/lettres + dates |
COORDONNANTS |
COO |
Conjonctions de coordinations + expressions (soit..soit , etc.) |
DETERMINANTS |
DTN:sg |
Déterminants singulier |
DETERMINANTS |
DTN:pl |
Déterminants pluriel |
DETERMINANTS |
DTC:sg |
Déterminant contracté DU |
DETERMINANTS |
DTC:pl |
Déterminant contracté DES |
INTERJECTIONS |
INJ |
Interjections |
PARTICIPES PASSES |
VPAR:sg |
PP singulier de tous verbes hormis ETRE et AVOIR |
PARTICIPES PASSES |
VPAR:pl |
PP pluriel de tous verbes hormis ETRE et AVOIR |
PARTICIPES PASSES |
EPAR:sg |
PP du verbe ETRE (j'ai été ) |
PARTICIPES PASSES |
APAR:sg |
PP du verbe AVOIR au singulier |
PARTICIPES PASSES |
APAR:pl |
PP du verbe AVOIR au pluriel |
PARTICIPES PASSES |
ADJ2PAR:sg |
PP autres contextes (nominaux, ambigus, autres V) singulier |
PARTICIPES PASSES |
ADJ2PAR:pl |
PP autres contextes (nominaux, ambigus, autres V) pluriel |
PARTICULES |
PUL |
Eléments non
autonomes/non regroupés ds expressions figées |
PONCTUATIONS |
[signe] / [signe] |
Ex.: ?/? , /// |
PREFIXES |
PFX |
Préfixes détachés, isolés entre 2 blancs comme entre, ex, micro |
PREPOSITIONS |
PREP |
Prépositions simples (PUL + PREP prépositions complexes) |
PRONOMS |
PRV:sg |
Eléments pronominaux (non relatifs) supportés par le V au singulier. Ex .: je, me, te, se, la, le, lui, t-il, t-on, etc. |
PRONOMS |
PRV:pl |
Idem au pluriel. Ex.: NOUS, VOUS, LEUR, etc. |
PRONOMS |
PRV:++ |
Pronoms EN, Y, S' et SE |
PRONOMS |
PRO:sg |
Eléments pronominaux (non relatifs) non supportés par le V au singulier. Ex. : MOI, CECI, SIEN, etc. |
PRONOMS |
PRO:pl |
Idem au pluriel. Ex. : MAINTS, PLUSIEURS, etc. |
RELATIFS |
REL |
Pronoms relatifs |
SUBORDONNANTS |
SUB |
Conjonctions de subordinations simples (quand, comme, lorsque, etc.) et locutions (parce_que, afin_que, etc.) |
SUBORDONNANTS |
SUB$ |
Subordonnant QUE (codé ainsi dans les cas d'ambiguïté max.) |
SUBSTANTIFS |
SBC:sg |
Noms communs au singulier |
SUBSTANTIFS |
SBC:pl |
Noms communs au pluriel |
SUBSTANTIFS |
SBP:sg |
Noms propres au singulier |
SUBSTANTIFS |
SBP:pl |
Noms propres au pluriel |
VERBES - préfixe |
A, E ou V |
Distinction auxiliaire AVOIR, ETRE ou AUTRE VERBE |
VERBES |
CJ:sg |
Formes conjuguées au singulier |
VERBES |
CJ:pl |
Formes conjuguées au pluriel |
VERBES |
PAR:sg |
Participes passés au singulier |
VERBES |
PAR:pl |
Participes passés au pluriel |
VERBES |
NCFF |
Formes non conjuguées (NC) à l'infinitif (FF) |
VERBES |
NCNT |
Formes non conjuguées (NC) au gérondif ou au participe présent (NT) |
RESIDUS |
ABR |
Abbréviations |
RESIDUS |
FGW |
Mots étrangers |
RESIDUS |
SYM |
Symboles |
Tableau 2 : [français] tableau synthétisant les codes utilisés par TreeTagger pour le français
POS ou catégorie |
Code |
Description |
ADJECTIFS |
ADJ |
Adjectifs |
ADJECTIFS |
ADJ:num |
Adjectifs numéraux |
ADVERBES |
ADV |
Adverbes |
CONJONCTIONS |
CON:coo |
Conjonctions de coordination |
CONJONCTIONS |
CON:sub |
Conjonctions de subordination |
DETERMINANTS |
DET:def |
Déterminants définis |
DETERMINANTS |
DET:indef |
Déterminants indéfinis |
INTERJECTIONS |
INT |
Interjections |
PONCTUATIONS |
PON |
Marques de ponctuation hors points et virgules |
PONCTUATIONS |
PON:sep |
Points |
PONCTUATIONS |
PON:comma |
Virgules |
PREPOSITIONS |
PRE |
Prépositions |
PREPOSITIONS/ DETERMINANTS |
PRE:det |
Déterminants contractés (au,du,aux,des) |
PRONOMS |
PRO:demo:attr |
Adjectifs démonstratifs CE, CET, etc. |
PRONOMS |
PRO:demo:pred |
Pronoms démonstratifs CELUI, CELLE, CELUI-CI, etc. |
PRONOMS |
PRO:indef:attr |
Adjectifs indéfini TOUT, PLUSIEURS, CERTAIN, etc. |
PRONOMS |
PRO:indef:pred |
Pronoms indéfinis CHACUN, QUICONQUE, etc. |
PRONOMS |
PRO:pers:clit |
Pronoms personnels clitiques le, la... |
PRONOMS |
PRO:pers:conj |
Pronoms personnels conjugués JE, TU, IL, ON, etc. |
PRONOMS |
PRO:poss |
Adjectifs possessifs SON, SA, SES, etc. |
PRONOMS |
PRO:rela |
Pronoms relatifs |
SUBSTANTIFS |
NOM |
Substantifs |
VERBES |
VER:cond |
Verbes au conditionnel |
VERBES |
VER:futu |
Verbes au futur |
VERBES |
VER:impe |
Verbes à l'impératif (non remarqué dans corpus) |
VERBES |
VER:impf |
Verbes à l'imparfait |
VERBES |
VER:infi |
Verbes à l'infinitif |
VERBES |
VER:pper |
Participes passés |
VERBES |
VER:ppre |
Participes présents |
VERBES |
VER:pres |
Verbes au présent |
VERBES |
VER:simp |
Verbes au passé simple |
VERBES |
VER:subi |
Verbes au subjonctif imparfait |
VERBES |
VER:subp |
Verbes au subjonctif présent |
RESIDUS |
ABR |
Abréviations |
RESIDUS |
SYM |
Symboles |
Tableau 3 : [anglais] tableau synthétisant les codes du corpus Penn Treebank
POS ou catégorie |
Code |
Description |
ADJECTIFS |
JJ |
Adjectifs |
ADJECTIFS |
JJR |
Adjectifs comparatifs (suffixés en -er , more et less dans certains cas) |
ADJECTIFS |
JJS |
Adjectifs superlatifs suffixés en -est , most et least dans certains cas |
ADVERBES |
RB |
Adverbes (principalement mots se terminent par -ly ) + adverbes de degré (e.g. quite, too et very ) + modifieurs (e.g. enough ou indeed ) + adverbes de négation (e.g. not, n't ou never ). |
ADVERBES |
RBR |
Adverbes comparatifs (suffixés en -er , pas un sens comparatif strict comme later dans We can always come by later) |
ADVERBES |
RBS |
Adverbes superlatifs |
ADVERBES |
WRB |
Wh-adverbes (how, where, why, etc.). WHEN est étiqueté WRB dans son acception temporelle (IN dans le sens de IF) |
CARDINAUX |
CD |
Nombres cardinaux |
COORDONNANTS |
CC |
Conjonctions de coordination (and, but, nor, or, for et yet + opérateurs mathématiques plus, minus, less, times et over ) |
DETERMINANTS |
DT |
Déterminants (articles a(n), every, no et the , indéfinis another, any, some, each, either, neither, that , these, this et those + all et both lorsqu'ils ne précèdent pas un déterminant ou un pronom possessif). |
PREDETERMINANTS |
PDT |
Eléments suivants lorsqu'ils précèdent un article ou un pronom possessif: all, both, half, many, nary, quite, rather, such, etc. |
INTERJECTIONS |
UH |
Interjections (my, oh, please, see, uh, well, yes, etc.) |
PARTICIPES PASSES |
VBN |
Verbes au participe passé |
PARTICULES |
RP |
Monosyllabiques pour la plupart, susceptibles d'être redoublées en tant qu'adverbes directionnels ou prépositions. Ex.: she told off her friends, particule car non dépendant du SN |
POSSESSIFS |
POS |
Marques de possession en position finale: 's ou ' (éléments écartés des mots auquel ils se rattachent comme s'ils étaient eux-mêmes des mots. Ex: John/NP 's/POS idea.) |
PREPOSITIONS ou SUBORDONNANTS |
IN |
Pas de distinction, mais toujours possible de la retrouver, car une préposition est un IN qui précède un SN ou un SP, et une conjonction de subordination un IN qui précède une proposition. A noter que la préposition to a son propre tag. |
PRONOMS |
PP |
Pronoms personnels + pronoms possessifs mine, yours, his, hers, ours et theirs |
PRONOMS |
PP\$ |
Pronoms possessifs (my, your, his, her, its, one's, our et their). |
PRONOMS |
WP |
Wh-pronoms (what, who et whom ). |
PRONOMS |
WP\$ |
Pronom possessif en wh-: WHOSE. |
RELATIFS |
WDT |
Wh-determiner ( which et that - employé en tant que pronom relatif). |
SUBSTANTIFS |
NN |
Noms au singulier (ou mass nouns). |
SUBSTANTIFS |
NNS |
Noms au pluriel |
SUBSTANTIFS |
NP |
Noms propres au singulier |
SUBSTANTIFS |
NPS |
Noms propres au pluriel |
THERE |
EX |
"there" existentiel(qui entraîne une inversion du verbe et du sujet logique d'une phrase) |
VERBES |
MD |
Verbes modaux (critère: V qui ne prennent pas un -s à la 3e ps: can, could, (dare), may, might, must, ought, shall, should, will et would . |
VERBES |
VB |
Verbes, forme "de base" (impératifs, infinitifs et subjonctifs). |
VERBES |
VBD |
Verbes au passé+ forme conditionnelle du verbe to be (If I were/VBD rich...) |
VERBES |
VBG |
Verbes au gérondif ou au participe présent |
VERBES |
VBP |
Verbes au présent, formes autres que la troisième personne du singulier |
VERBES |
VBZ |
Verbes au présent, troisième personne du singulier |
RESIDUS |
FW |
Mots d'origine étrangère (pas de liste particulière) |
RESIDUS |
SYM |
Symboles ou expressions mathématiques, scientifiques ou techniques qui ne sont pas des mots (anglais). (usage important. E.g. noms de symboles et d'unités de mesures (abréviations incluses) = noms). |
RESIDUS |
LS |
Marqueurs d'éléments dans une liste (lettres et numéraux) |
TO |
TO |
TO |
Tableau 4 : [anglais] tableau (incomplet) synthétisant les codes développés par SUSANNE
POS ou catégorie |
Code |
Description |
ADJECTIFS |
JJ |
Adjectifs |
ADJECTIFS |
JJQ |
Adjectifs en wh- |
ADJECTIFS |
JJV |
Adjectifs en wh...ever |
ADJECTIFS |
JJX |
Adjectifs superlatifs |
ADJECTIFS |
JJR |
Adjectifs comparatifs |
ADJECTIFS |
JJH |
Adjectifs postposés ("heavy") |
ADVERBES |
RR |
Adverbes |
ADVERBES |
RRQ |
Adverbes en wh- |
ADVERBES |
RRV |
Adverbes en wh...ever |
ADVERBES |
RRX |
Adverbes superlatifs |
ADVERBES |
RRR |
Adverbes comparatifs |
ADVERBES |
RRS |
Adverbes marquant une asyndète |
ADVERBES |
RRW |
Adverbes quasi-nominaux |
NOTES
[1] Extrait du corpus Brown, SUSANNE est un corpus annoté d'anglais américain de 130 000 mots.
Vous pouvez adresser vos commentaires et suggestions à : celine.poudat@univ-orleans.fr