Rossitza KYHENG : DE LA SÉMANTIQUE DES TEXTES AU WEB SÉMANTIQUE


ANNEXE :

Voici une simulation des deux types de présentation d'une publication, en hypertexte et en texte :

a) Hypertexte :

Métadonnées: une initiation

1. Les métadonnées

Une métadonnée est littéralement une donnée sur une donnée. Plus précisément, c'est un ensemble structuré d'informations décrivant une ressource quelconque.
Les ressources décrites par des métadonnées ne sont pas nécessairement sous forme digitale: un catalogue de bibliothèque ou de musée contient aussi des métadonnées décrivant les ressources que sont les ouvrages de la bibliothèque ou les objets du musée.
Une métadonnée peut être utilisée à des fins diverses:

  • la description et la recherche de ressources
  • la gestion de collections de ressources
  • la préservation des ressources

Les métadonnées sont en général constituées de mots-clés ou de texte libre. Ces informations peuvent être évidentes (l'auteur, la date de publication, l'éditeur d'un livre), ou plus complexes et moins aisément définies: les avis d'un collectif de lecture d'un article, par exemple, nécessitent une structure de métadonnées évoluée capable d'annoter des portions de l'article, et cela, de façon multiple. Les métadonnées sont particulièrement importantes pour les ressources visuelles qui, sans elles, peuvent demeurer pratiquement inexploitables et impossibles à retrouver. Les utilisateurs dépendent en effet des informations ajoutées aux images ou vidéos pour effectuer des recherches pertinentes et précises. Les métadonnées aident alors les utilisateurs à découvrir l'existence de ressources et la nature de ce qu'ils recherchent. Les informations ajoutées à une ressource servent aussi à évaluer la ressource, à porter un jugement sur celle-ci, et à la comparer à d'autres ressources. Les métadonnées ne sont pas seulement importantes pour l'utilisateur final. Des métadonnées d'ordre technique et administrative (comme l'appartenance à une collection, les informations de copyright, les informations sur l'acquisition, le format de fichier, la résolution, etc.) permettent de gérer, maintenir et préserver des collections digitales. Les métadonnées sont utilisées dans les systèmes de gestion de contenu [CMS: Content Management Systems] pour éditer, gérer, rechercher, réutiliser, diffuser, publier de multiples contenus (textes, images, vidéo, etc.).

    Pour en savoir plus

2. Les métadonnées "métiers" et la nécessité de standards

Les ressources sont en général partagées par différentes institutions et collectivités. Ainsi, les bibliothèques pratiquent depuis longtemps le prêt interbibliothèque et le catalogage partagé des ouvrages. Or, dans une grande bibliothèque, un ouvrage mal catalogué peut être considéré comme un ouvrage perdu. C'est encore plus vrai pour un réseau de bibliothèques. Les métadonnées attribuées sauvagement aux ressources, sans règles établies et sans principes directeurs, ne seront pas interopérables entre différentes collectivités. Ces métadonnées - et donc les ressources qu'elles décrivent - resteront sous-exploitées ou même totalement inexploitées. Il est donc absolument nécessaire d'adopter des standards de description des ressources à l'aide des métadonnées. Par ailleurs, de nombreuses communautés s'intéressent aux métadonnées: bibliothécaires, documentalistes, archivistes, conservateurs de musées, etc. Les ressources décrites sont très variées: monographies, publications en série, articles, archives, pièces de musée, images, séquences audio ou vidéo, etc. On ne décrit pas toutes ces ressources de la même façon. Les standards concernant les métadonnées sont donc très nombreux et orientés "métiers". À titre d'exemple, on peut citer:

  • MARC (Machine-readable cataloging), pour la description des ouvrages
  • ISBD(S) (International Standard Bibliographic Description for Serials), pour la description des publications en série
  • Dewey Decimal Classification system, pour la classification décimale des ouvrages
  • EAD(Encoded Archival Description), pour la description des archives
  • CIMI consortium (Computer Interchange of Museum Information), pour la description des ressources muséographiques
  • RKMS (Recordkeeping Metadata Schema), pour la description des ressources audio
  • MPEG-7(Multimedia Content Description Interface), pour la description des objets multimédia
  • LOM (IEEE - Learning Object Metadata), pour la description des ressources liées à l'éducation.

Patrick Peccatte


    Consultez aussi

dernière mise à jour: 21 mars 2005

b) Texte :

Métadonnées: une initiation

1. Les métadonnées informatiques

Les objets informatiques courants contiennent de nombreuses métadonnées implicites ou explicites. En voici quelques exemples:

  • Considérons la ressource suivante: http://peccatte.karefil.com/software/Metadata.htm
    • Cette ressource contient plusieurs métadonnées: protocole http, top level domain com, page Web statique en HTML (on suppose qu'elle traite des métadonnées....)
    • Plus généralement: chemin d'accès, nom, extension, taille, attributs, date de création, date de modification, propriétaire, droits d'accès, etc. sont des métadonnées
  • Les champs <title> et <meta> des pages HTML
  • Les propriétés des documents MS Office (Word, Excel, etc.)
    • Titre, Auteur, Sujet, Mots-clés, Commentaires, Responsable, Société, Catégorie, etc. [25 éléments + possibilité de propriétés personnalisées]
  • Les propriétés des documents StarOffice et OpenOffice.org
    • Titre, Sujet, Mots-clés, Description, Internet + possibilité de 4 propriétés personnalisées
  • Les informations sur les documents PDF
    • Titre, Auteur, Sujet, Mots-clés, Créateur, Producteur, etc. [9 éléments]
  • Les champs IPTC des images JPEG/TIFF
  • Les champs EXIF des images JPEG
  • Les champs ID3 des fichiers MP3
    • Titre, Compositeur, Auteur du texte, Durée, Copyright, etc. [74 éléments organisés en frames]
  • Les métadonnées spécifiques à chaque plate-forme
    • sur Macintosh OS 9: Famille (Essentiel, Important, En cours, Personnel, etc.) et Commentaires
    • sur Windows 2000/XP: Propriétés associées à un fichier quelconque (Titre, Sujet, Catégorie, Mots-clés, etc.)
  • L'estampillage électronique [Watermarks] qui permet d'authentifier un document et de prouver l'appartenance d'une œuvre à son propriétaire au moyen de tatouages (insertion d'informations numériques dans les fichiers binaires que sont les images, sons, vidéo).
    • La stéganographie par contre (c'est-à-dire les techniques qui consistent à cacher des informations dans une ressource quelconque de façon à ce que seul un utilisateur connaissant la technique utilisée puisse retrouver ces informations) ne doit pas à notre avis être considérée comme relevant du domaine des métadonnées, puisque les données cachées au sein de la ressource ne sont pas liées sémantiquement à la ressource.

On le voit, les métadonnées informatiques sont organisées par centres d'intérêts distincts ou par éditeurs de logiciels et de systèmes. Il n'existe hélas aucune interopérabilité entre ces types de métadonnées. Ainsi, un fichier image évoluant dans un environnement mixte Macintosh/Windows pourra être doté de six"Descriptions" totalement différentes: un champ IPTC Caption/Abstract, un champ EXIF ImageDescription, un ou plusieurs champs XMP Description ou Subject, un champ Commentaires Windows 2000, un champ Commentaires Windows XP (v. infra ), et un Commentaire Macintosh (qui peuvent tous être attribués depuis ces plate-formes respectives) !

2. Où sont les métadonnées ?

Métadonnées externes aux ressources - Bases de données
Pour les ressources non digitales (livres, objets de musées), les métadonnées sont évidemment externes aux ressources (sous la forme de données informatiques, de fiches dans une boîte à chaussure, etc.).
Dans la plupart des systèmes informatisés, les métadonnées sont stockées dans une base de données spécifique. C'est la technologie utilisée habituellement dans les systèmes documentaires pour retrouver les ressources recherchées au sein d'un vaste ensemble de ressources et avec la souplesse nécessaire (recherches sur plusieurs critères, troncatures, speller, etc.).
Cependant, si la ressource est elle-même sous forme digitale (une image JPEG par exemple) et que vous utilisiez cette ressource en dehors de la base de données qui la référence, vous perdez les métadonnées qui lui sont associées. Les métadonnées demeurent dans la base et vous devez les exporter séparément et les associer à nouveau avec la ressource.

Métadonnées internes aux ressources digitales - Balisage des ressources
Nous avons déjà cité plusieurs exemples de métadonnées de type interne à propos des métadonnées informatiques.Le balisage (tagging) d'une ressource informatique consiste à inclure un ou plusieurs jeux de métadonnées dans le fichier de la ressource. Les métadonnées sont alors "embarquées" dans les données. Cette technique est utilisée notamment pour les images (IPTC, EXIF ), les fichiers sons MP3 (champs ID3), les objets multimédias (MPEG-7), etc. L'image ainsi balisée transporte avec elle ses propres métadonnées lorsqu'elle est téléchargée, copiée, répliquée, etc.
En fait, comme nous l'avons vu, toute image numérique possède au moins une métadonnée incorporée de type informatique: son nom de fichier. Mais le balisage permet bien entendu d'inclure dans l'image une variété plus grande et mieux structurée de métadonnées: le titre, les mots-clés, les informations de copyright, l'auteur, etc.

Patrick Peccatte


    Consultez aussi

  • la présentation au format PDF [535 Ko] réalisée pour la seconde journée "Compatibilité et réutilisation des contenus - 9 octobre 2002" organisée par l'ADAE (Agence pour le Développement de l'Administration Électronique - anciennement ATICA). Cette présentation est aussi disponible sur ce site.
  • la présentation au format PDF [333 Ko] réalisée pour la journée " Le point sur les métadonnées - 28 février 2003 " organisée par CampusXML (présentation disponible aussi sur ce site).
  • un exemple d'application : un diaporama au format PDF [627 Ko] exploitant les métadonnées IPTC des images et réalisé à l'aide du logiciel MetaData Miner Catalogue PRO.
  • l'outil CrossIPTC pour la conversion rapide des accents des métadonnées IPTC de Macintosh à Windows (ou inversement) et KaliNews, traitement de texte éditorial en XML avec consultation de dépêches NewsML.

dernière mise à jour: 21 mars 2005

NB. La simulation est basée sur la publication de Patrick Peccatte (2005), Métadonnées: une initiation. In web site de Soft Experience.

[retour au texte]