SÉMANTIQUE LÉGÈRE POUR LE
            DOCUMENT
             Assistance personnalisée pour l’accès au document et
            l’exploration de son contenu
            
        
            Vincent
            PERLERIN
             Université de Caen
        
(Thèse, 2004 [*])
                SOMMAIRE :
                 Chapitre 1. Vers une
                sémantique légère pour le TAL
                 1.1 Un modèle de ressources sémantiques
                personnalisées
                 1.2 Définition des objectifs
                 1.2.1 Accès aux documents
                 1.2.2 Accès au contenu des documents
                 1.3 Démarche
                 1.3.1 Décrire des significations
                 1.3.2 Organiser les descriptions
                 1.3.3 L’interaction comme alternative aux approches
                classiques
                 1.4 Sémantique légère
                 1.4.1 Les ressources
                 1.4.2 Les processus.
                 1.4.3 Vers une sémantique légère pour le TAL
                 1.5 Plan de la thèse
                 Chapitre 2.
                Fondements de l’approche
                 2.1 Accès aux documents et à leur contenu
                 2.1.1 Les ontologies et le web sémantique
                 2.1.2 Représentation des connaissances
                 2.1.3 Terminologie et linguistique
                 2.1.4 Subjectivité, hypermédias et interprétation
                 2.1.5 Conclusion
                 2.2 Fondements
                 2.2.1 Valeur saussurienne
                 2.2.2 Approche interprétative, Sémantique
                Interprétative
                 2.2.3 Modèle de catégorisation différentielle et modèle
                oppositionnel du sème
                 2.2.4 Interaction dans le système
                 2.3 Conclusion
                 Chapitre 3. Le
                modèle LUCIA
                 3.1 Entrées lexicales du système
                 3.1.1 Lexique de mots versus lexique de morphèmes
                 3.1.2 Détermination des entités
                 3.1.3 Critères de sélection
                 3.2 Modèle de catégorisation et de description
                 3.2.1 Les attributs
                 3.2.2 Les tables, les topiques
                 3.2.3 Les dispositifs
                 3.3 LUCIA, un modèle de représentation des mots dans le
                discours
                 3.3.1 Point de vue et jugement de l’utilisateur
                 3.3.2 Les mots dans le discours interprété
                 3.3.3 Approche complémentaire entre onomasiologie et
                sémasiologie
                 3.4 Expérience
                 3.5 Conclusion
                 Chapitre 4.
                Acquisition et structuration des ressources
                 4.1 Les tâches
                 4.1.1 Aspects génériques des tâches
                 4.1.2 Veille documentaire
                 4.1.3 Étude d’une métaphore conceptuelle
                 4.1.4 Autres tâches
                 4.2 Corpus d’observation et acquisition
                 4.2.1 Définition du corpus d’observation
                 4.2.2 Extraction supervisée
                 4.2.3 MEMLABOR – Logiciel d’aide à l’acquisition
                 4.2.4 Première évaluation du lexique : THEMEEDITOR
                 4.2.5 Variantes morphosyntaxiques
                 4.3 LUCIABuilder – Logiciel interactif pour la
                construction de dispositifs
                 4.4 Propriétés des dispositifs
                 4.4.1 Exemple de dispositif
                 4.4.2 Symétrie du processus : des attributs aux
                dispositifs
                 4.5 Protocole de construction d’un dispositif
                 4.6 Conclusion
                 Chapitre 5. Analyses
                et interactions
                 5.1 Projections des informations lexicales
                 5.2 Visualisation et interaction
                 5.2.1 Techniques de visualisation interactive
                 5.2.2 Interactions génériques et spécifiques
                 5.2.3 Facteurs à prendre en considération
                 5.3 Étude de la métaphore
                 5.3.1 Première expérience
                 5.3.2 Observations et résultats
                 5.3.3 Conclusions et perspectives pour l’étude de la
                métaphore
                 5.4 Veille documentaire
                 5.4.1 LUCIASearch
                 5.4.2 Exemple d’utilisation
                 5.4.3 Conclusions et perspectives sur le projet de veille
                documentaire
                 5.5 Évaluation
                 6.
                Conclusion
                 7.
                Bibliographie
                 8.
                Index
                 9. Glossaire
            
Avertissement : Ce texte est au format PDF. Munissez-vous d’Acrobat Reader
            RÉSUMÉ : Cette thèse met en place les principes
            d’une sémantique légère pour le Traitement Automatique des
            Langues qui suppose une limitation à la fois des ressources et
            des processus utilisés pour proposer des services
            personnalisés aux utilisateurs. Elle s’inscrit en cela dans le
            courant des recherches récentes qui tentent de pallier les
            inconvénients des objectifs maximalistes de l’IA classique
            pour la compréhension et le calcul du sens des textes. Les
            ressources utilisées sont des entités lexicales catégorisées
            et décrites de façon componentielle et différentielle par
            l’usager. Ces données sont exploitées pour des calculs fondés
            sur la récurrence et la différence. Le modèle proposé permet
            l’expression de besoins spécifiques à un usager ou à un groupe
            d’usagers dans le cadre de tâches génériques nécessitant
            l’exploration du contenu des textes. Les ressources du système
            sont construites en interaction avec la machine ; elles
            peuvent être acquises à partir d’un corpus. Nos efforts ont
            porté à la fois sur la modélisation lexicale et sur les moyens
            de l’interaction entre l’utilisateur et la machine.
             Les champs d’évaluation sont la veille documentaire et
            l’analyse d’un fait de langue (une métaphore
            conventionnelle).
             Cette thèse d’informatique participe aux recherches qui ont
            pour but de transformer la machine en un média à valeur
            ajoutée pour l’accès personnalisé aux documents textuels. Elle
            se situe à l’intersection de trois courants de recherche :
            celui de la mise en oeuvre de la sémantique lexicale de
            tradition saussurienne (la Sémantique Interprétative de
            F.Rastier), celui de l’exploitation assistée de corpus
            numériques et enfin, celui de l’interaction homme / machine
            située.
             Mots clefs : traitement du langage naturel,
            sémantique, signification, système homme-machine, interfaces
            utilisateur (informatique).
        
            ABSTRACT : Title : Light semantics for document
            content analysis – Customized services for document content
            analysis.
             This thesis investigates and defends a "light semantics"
            approach to Natural Language Processing(NLP). The contrast
            between "light semantics" and the use of large databases and
            complex processes is described. Our system provides users with
            customized services based on both limited-quantity resources
            and simple processes. This study is thus related to the recent
            works trying to mitigate the disadvantages of the maximum
            objectives of the classic AI approaches for automatic text
            understanding. The system resources are lexical entities,
            which are categorized and described both componentially and
            differentially. Text processing is then based on recurrences
            and differences in textual documents. The model allows users
            to express their specific needs within the framework of
            generic tasks requiring document content analysis. The system
            entries are built through interactions between user and
            computer. They can be acquired from a corpus. Our work has
            focused both on the lexical model and on the needed
            interaction between user and computer.
             The chosen evaluation fields are document scanning and
            linguistic fact analysis (a conventional conceptual
            metaphor).
             This work is part of researches aiming at transforming
            computers into an added value media for customized access to
            texts and for assistance to text content analysis. It is at
            the junction of three fields of research : traditional
            structural lexical semantics of Saussure (Interpretative
            Semantics of F. Rastier), assisted corpora analysis and
            situated human / computer interaction.
             Key words : Natural Language Processing, semantics,
            human-machine systems, user interfaces.
        
[*] Thèse de Doctorat en Informatique présentée et soutenue le 7 décembre 2004 devant un Jury composé de Benoît Habert (Université de Paris X), Ioannis Kanellos (ENST de Brest), Anne Nicolle (Université de Caen), François Rastier (CNRS), Pascale Sébillot (Université de Rennes I), Pierre Beust (Université de Caen).
Vous pouvez adresser vos commentaires et suggestions à : perlerin@info.unicaen.fr