Outils de tratement de corpus

OUTILS DE TRATEMENT DE CORPUS

Céline POUDAT
Université d'Orléans

SOMMAIRE :
1. Outils de Traitement Automatique des Langues
1.1. Outils disponibles en ligne ou téléchargeables
1.1.1. Etiqueteurs
1.1.2. Analyseurs syntaxiques
1.2. Outils commercialisés
2. Outils statistiques

1. Outils de Traitement Automatique des Langues

On recense plusieurs outils disponibles en ligne, susceptibles de participer à l’analyse du corpus ; notons que la plupart de ces programmes ont été conçus en vue de valider une ou plusieurs théories linguistiques particulières.

1.1. Outils disponibles en ligne ou téléchargeables

Certains laboratoires, comme le LATL (Université de Genève), présentent un ensemble de programmes qu’il est possible de télécharger ou d’évaluer en ligne ; quelques entreprises proposent de même une démonstration de leurs outils, à des fins commerciales.

Parmi l’ensemble des logiciels en ligne recensés n’ont été retenus que les étiqueteurs (ou taggers) et les analyseurs syntaxiques (ou parsers) ; nous avons distingué les outils monolingues (c’est-à-dire ne traitant que l’une des deux langues qui nous intéressent) des outils bilingues ou multilingues. Un descriptif succinct de chacun de ces produits est proposé.

1.1.1. Etiqueteurs

A. Unilingues (français ou anglais) :

CHUNKER (Erik Tjong Kim Sang, Dutch Language and Speech, Université d’Antwerp, Belgique) : logiciel étiquetant les SN d’un texte anglais.
WINBRILL® : version WINDOWS du catégoriseur de Brill® offerte par l’ATILF, et téléchargeable sur le site. Le logiciel FLEMM® (description infra) y est inclus. Nécessite l’installation d’un compilateur PERL.
FLEMM® (Fiammetta Namer, Université de Nancy) : programme PERL effectuant l’analyse flexionnelle du français pour des corpus étiquetés par BRILL® ou TreeTagger®. Essentiellement basé sur des règles, il utilise un lexique de 3000 mots environ pour les exceptions. Calcule le lemme de chaque mot fléchi en fonction de son étiquette, et fournit ses principaux traits morphologiques.
BRILL PART OF SPEECH TAGGER® (µ-TBL Technology) : étiquetage en anglais, suédois et russe. Système programmé en Prolog, possibilité de télécharger l’outil à des fins de recherche. Le tagger assigne une catégorie à un mot, sans prise en compte de son contexte. Les mots qui ne sont pas compris dans le lexique sont traités à l’aide de règles de supposition.
MBT TAGGER® (Induction of Linguistic Knowledge) : tagger généré à partir d’un corpus étiqueté d’exemples à l’aide de techniques d’apprentissage, disponible dans plusieurs langues, dont l’anglais. La démonstration ne permet de traiter qu’une seule phrase à la fois.

B. Bilingues (ou multilingues) français et anglais :

FIPSTAG® (laboratoire LATL, Université de Genève) ; étiqueteur bilingue, traitant de l’anglais et du français. Le noyau de l’étiqueteur est constitué par IPS®, l’analyseur syntaxique du laboratoire (décrit infra). La longueur du texte soumis est cependant très limitée (quelques phrases).
XEROX® : le site propose des démonstrations d’outils dans quatorze langues différentes, dont le français et l’anglais. Trois applications sont utilisables : segmentation, analyse morphologique et désambiguïsation ; pour les deux dernières, un jeu d’étiquettes est consultable. La longueur du texte est toutefois limitée à 500 caractères.
CONEXOR® : étiqueteur multilingue (sept langues, dont l’anglais et le français). Il est possible de choisir entre l’étiquetage FDG (Functional Dependency Grammar), et l’étiquetage avec FDG Lite, plus léger (absence des catégories genre et nombre et des fonctions syntaxiques). Le lemme du terme est également proposé. Le système permet de traiter environ 1000 mots par seconde. La longueur du texte d’entrée est limitée à une dizaine de lignes environ.
MEMORY-BASED WHALLOW PARSER® DEMO (Induction of Linguistic Knowledge) : possibilité d’analyser une phrase, et de choisir la sortie désirée (étiquetage, chunker, détecteur Sujet/Objet, utilisation de couleurs). Créé à partir de techniques d’apprentissage, le système est entraîné sur le corpus Penn Treebank II Wall Street Journal. Possibilité de traiter un texte entier sur demande.
AUTOMATIC PARSE® (VISL, Université Syddansk, Danemark) : démonstrations en ligne pour l’anglais et le français (entre autres langues). Choix entre étiqueteur probabiliste ou fondé sur la constraint grammar.

1.1.2. Analyseurs syntaxiques

A. Unilingues (français ou anglais) :

LINK GRAMMAR PARSER® (Temperley, Sleator et Lafferty, Carnegie Mellon University) : possibilité de parser une phrase en anglais, représentation en constituants.
XLFG® (Lionel Clément) : analyseur syntaxique pour grammaires lexicales fonctionnelles (LFG). Permet d’écrire des grammaires et de visualiser les structures de constituants et les structures fonctionnelles de l’analyse d’une phrase. Version 3.2.2. disponible, compilée pour Windows 95-98-NT. Nécessite l’installation de plusieurs logiciels, dont TCL/TK2.

B. Bilingues (ou multilingues) français et anglais :

Analyseur syntaxique multilingue IPS®3 (laboratoire LATL, Université de Genève) : parser composé de plusieurs modules universaux (s’appliquant à toutes les langues) permettant une analyse du français (FIPS) et de l’anglais (IPS). L’algorithme comprend une analyse lexicale permettant la segmentation du texte en unités lexicales, servant de fondement à une analyse syntaxique assignant à une phrase une ou plusieurs structures syntaxiques. L’ancienne version IPS 1.0 est accessible ; elle permet une analyse syntaxique de l’anglais et du français, en utilisant une jeu de structures ou d’étiquettes (au choix), assortie d’une analyse en arbres syntagmatiques ou d’un soulignement des fonctions de la phrase en couleurs (facultatif). Le LATL propose également sur son site la nouvelle version IPS 2.0. qui permet une analyse en arbres du français et de l’anglais. La longueur du texte soumis est cependant très limitée (quelques phrases).
CONEXOR® : hormis les possibilités d’analyse morphologique, il est également possible d’obtenir un output visuel des phrases soumises pour l’anglais. Le système CONEXOR propose plusieurs catégories syntaxiques (non accessible par FDG LITE).
AUTOMATIC PARSE® (VISL, Université de Syddansk, Danemark) : démonstrations en ligne pour l’anglais et le français (entre autres langues). Différentes options d’analyse (flat structure, tree structure, complex interface). Le format des arbres peut également être déterminé (horizontal, vertical, incliné). La longueur du texte soumis est limitée à une vingtaine de lignes.
LINGUISTICA® (Goldsmith, Université de Chicago, Etats-Unis) : logiciel téléchargeable, utilisant l’algorithme de Zellig Harris ; permet l’analyse morphologique d’un corpus.

1.2. Outils commercialisés

Le site de l’Atala propose une liste – non exhaustive - d’outils de TAL (http://www.biomath.jussieu.fr/ATALA/outil). Chaque outil est accompagné d’un descriptif, voire de l’adresse de son site et des coordonnées de son concepteur. Parmi les différents logiciels présentés, nous avons relevé quelques programmes qui pourraient contribuer à l’analyse du corpus :

Cordial® (Société Synapse-Développement) : Correcteur orthographique et grammatical. La version « Cordial Analyseur » permet à la fois un étiquetage des textes et un traitement statistique des textes étiquetés. L’étiquetage est très complet et le programme reconnaît 201 types grammaticaux, les lemmes et les fonctions grammaticales des mots, ainsi que différentes informations sémantiques. Le traitement statistique reprend l’ensemble de ces informations. Les deux fonctionnalités sont paramétrables et le moteur est extrêmement rapide (moins d’une seconde par Ko). Il est également possible de comparer les résultats obtenus sur un texte à l’ensemble du corpus dont Cordial dispose, composé de 2541 ouvrages ; en ce qui concerne notre problématique, cette fonction s’avère inutilisable. De fait, l’ensemble du corpus est à dominante littéraire et l’on ne relève que 46 textes de genre scientifique, dont 3 linguistiques, ce qui limite, voire interdit toute possibilité de catégorisation du texte. Cordial s’avère être un outil efficace pour l’étude des genres, ce qui a été démontré par les travaux de François Rastier, Denise Malrieu, et Thomas Beauvisage (2001). Il n’existe cependant pas de version bilingue du correcteur, et les étiquettes devront être adaptées. La version Cordial Analyseur 8.1. a été acquise récemment.
Analyseur syntaxique du GREYC (J. Vergne et al., Groupe Syntaxe du GREYC). Analyseur bilingue, permet le traitement de l’anglais et du français et diagnostique la langue du segment analysé. Exécute un processus de calcul sur le flux textuel entrant, traduisant les structures en sortie (au lieu de s’en servir en entrée, comme le font plusieurs étiqueteurs ou parsers). Le flux de sortie est un flux XML ; les unités de sortie sont donc hiérarchisées et imbriquées par niveau. Disponible avec convention préalable.
Extracteur de structure de documents du GREYC (E. Giguet et al., Groupe Syntaxe du GREYC) : permet la prise en compte de la structure de textes bruts ou SGLM-like lors d’une analyse. Permet de pondérer un calcul en fonction de la nature de la zone textuelle analysée. Générique et paramétrable selon la langue, et selon la granularité des flux textuels entrant et sortant. disponible avec convention préalable.
Outils de traitement de corpus : ContextO® (filtrage d’informations sémantiques), CooLox® et WinLox® : concordanciers fonctionnant à partir d’expressions régulières, permet de cibler des informations, fonctionnent à partir des fichiers résultats (.CNR) du logiciel Cordial.
Etiqueteur de corpus CorTeCs® (Serge Heiden, Equipe Méthodes, CNRS/ENS) : éditeur de corpus annotés, permet de propager une correction d’étiquette ou de segmentation par son application aux pivots de plusieurs lignes d’une concordance.
Etiqueteur TATOO® (G. Robert, TIM-ISSCO) : outil d’étiquetage statistique, a priori indépendant des langues, peut s’adapter aux différents jeux d’étiquettes, possibilité d’évaluer et d’améliorer les résultats. Téléchargeable sur demande.
INTEX® (Max Silberztein)

2. Outils statistiques

La statistique textuelle a vu émerger deux grands courants dans le champ francophone : la statistique lexicale (Charles Muller, fin des années 50), et l’analyse statistique des données linguistiques ou textuelles (Jean-Paul Benzécri). Les deux approches ont donné naissance à deux logiciels d’analyse statistique : Hyperbase® et Alceste®.
En ce qui concerne les logiciels purement statistiques, SAS® nous semble constituer le logiciel le plus complet, et le plus utilisé en sciences humaines.

Alceste : Inspirée du courant de l’analyse des données de Benzécri, la méthodologie ALCESTE (Analyse des Lexèmes Cooccurrents dans les Enoncés Simples d’un Texte) a été mise au point par Max Reinert (1983-1993). Plus qu’une comparaison des distributions statistiques des mots dans différents corpus, Reinert préconise l’étude de la structure formelle de leurs cooccurrences dans les énoncés d’un corpus donné. De manière générale, ALCESTE permet d’identifier des univers de discours ou des classes d’énoncés, interprétés en fonction de la nature du corpus et des objectifs de l’analyse.
Les textes sont découpés en segments de taille homogène, appelés Unités de Contexte Elémentaires ou UCE, de longueur variable. Chaque texte est appréhendé comme un ensemble d’unités, et chaque unité est décrite par les mots qu’elle contient (à l’exclusion des mots grammaticaux). On obtient ainsi une matrice binaire, comprenant des 1 si le mot apparaît dans l’UCE, et des 0 dans le cas contraire. L’objectif est de construire sur la base de cette matrice une typologie des segments de textes, ce qui est mis en œuvre à partir d’un processus de classement itératif. Chaque UCE appartient à une classe, et les typologies obtenues sont ensuite comparées ; seules sont conservées les classes les plus stables.
Hyperbase : Développé à Nice par Etienne Brunet (INALF, Université de Nice), permet le dépouillement et le traitement statistique des textes. Hyperbase compte les mots d’après leur forme graphique (le mot est ici appréhendé comme une chaîne graphique) et met en évidence les termes les plus spécifiques d’une œuvre ou d’un texte par rapport à l’ensemble du corpus entré.
Il est ainsi possible de traiter son propre corpus ; différents outils sont disponibles : analyse factorielle, concordancier, richesse du vocabulaire, évolution des termes, etc.
L’interface d’Hyperbase est conviviale et le logiciel est globalement facile d’utilisation ; il est enfin possible d’analyser les résultats obtenus à partir de Cordial4.
SAS : (Statistical Analysis System ou Système d’Analyse Statistique) est apparu sur le marché du progiciel à la fin des années 70 ; il présente l’avantage de proposer un grand nombre de fonctions, qui en font un logiciel des plus complets. En outre, SAS semble relativement facile à apprendre ; largement utilisé dans les sciences humaines, l’expérience a montré qu’il est possible d’obtenir des résultats très élaborés après quelques jours de stage.
En outre, c’est un outil complet, qui assure à la fois les fonctions de gestion, de préparation et de traitement des données. Le langage de programmation SAS dispose d’un vocabulaire étendu et précis et d’une syntaxe facile d’emploi. Le volume des données peut être très important : SAS ne connaît d’autres limites que celles de l’ordinateur de l’usager. Le logiciel permet le traitement des tableaux observations/variables, ce qui correspond à la majorité des tableaux statistiques. Le système de dialogue est convivial et le logiciel est ouvert et évolutif. En outre, il ne demande pas une maîtrise de l’ensemble de son langage pour commencer, ce qui est avantageux en ce qui nous concerne.
SAS nous permettra non seulement de traiter les résultats obtenus à partir de l’analyse du corpus, mais encore ceux obtenus avec l’enquête par questionnaire.

Vous pouvez adresser vos commentaires et suggestions à : celine.poudat@univ-orleans.fr

Référence bibliographique : POUDAT, Céline. Outils de tratement de corpus. Texto! [en ligne], juin-septembre 2003, vol. VIII, n°2-3. Disponible sur : <http://www.revue-texto.net/Corpus/Manufacture/pub/Poudat_Outils.html>. (Consultée le ...).