Glossaire

Sous-sections :


Langage de marquage

Un langage de balisage (ou de marquage) permet d'ajouter des annotations à un texte. Les deux systèmes sont notés dans le même jeu de caractères, mais certains caractères sont réservés pour noter les balises. Dans le texte, les occurrences de ces caractères doivent donc être "cités" indirectement. XML propose une syntaxe de balisage utilisant principalement les caractères '<', '>', '&', '"', ''' pour noter les annotations, et ces caractères peuvent être notés dans un système d'entités caractères dans le texte lui-même où ils ne sont pas autorisés. L'intérêt d'un langage de balisage comme XML repose sur la possibilité d'utiliser un jeu de symboles de très bas niveau (des tables de caractères), pour exprimer les deux systèmes, dont une logique standardisée de haut niveau.


"Syntaxe" et "sémantique" d'un langage de balisage

XML définit des règles générales pour noter des balises. On peut ensuite spécifier des normes plus précises (les noms des balises, leur enchaînement, etc.) définissant un type de document particulier (une DTD, Document Type Definition). A la "syntaxe" générale (la forme et l'enchaînement sans chevauchement des balises, les caractères réservés), une DTD ajoute une "sémantique" (les noms des balises, leurs règles de combinaison). XML est un "métalangage" de balisage au sens où il définit un cadre pour définir des langages de balisage effectifs partageant la même couche "syntaxique". La distinction des deux niveaux de normativité (syntaxe et sémantique) permet de maximiser la partie commune aux différents langages de balisages définis dans le cadre d'XML, et donc d'augmenter la réutilisabilité des outils développés pour XML.


"Bonne formation" et "validité" d'un document

Un document conforme aux règles générales de la syntaxe est dit "bien formé", un document conforme à une DTD est "valide". Les parseurs permettent notamment de vérifier cette propriété ; tous les parseurs vérifient la "bonne formation", un parseur "validant" doit être capable en plus de parser une DTD, parser un document, et comparer la conformité de l'occurrence au type.


Fichier texte et format texte

Distinguer un "fichier texte" (par opposition à un fichier "binaire") d'un "format texte" (texte brut, par opposition à un contenu structuré d'une façon ou d'une autre). Le premier désigne la structure physique du fichier, et un fichier encodé est généralement stocké physiquement comme un fichier texte ; le second désigne le contenu "texte brut" (sans mise en forme) qui s'oppose à d'autres formats avec des balises de mise en forme (norme CES, formats PDF, RTF, LaTeX, etc., stockés dans des "fichiers textes".).


Editeur de texte et traitement de texte

Un traitement de texte (comme Word) permet d'éditer un fichier pour faire de la mise en forme, avec une notation du format spécifique au logiciel, et éventuellement stocke le résultat sous forme de fichier binaire (e.g. Word) ; un éditeur de texte (comme Bloc Note, TextPad ou Emac) permet d'éditer tout "fichier texte".


Parseur (analyseur syntaxique)

Un parseur est un logiciel qui lit le document XML, en construit une représentation logique, et donne accès au contenu de cette structure. En utilisant un parseur, on peut manipuler le document pour le modifier, en extraire des sous-parties, y rechercher des éléments, etc., via des syntaxes simples et en un temps record. Un document XML n'est pas fait pour être traité comme du texte, dans un éditeur de texte, sinon à l'occasion de la création et de la correction du document. XML est défini de façon à ce que son traitement soit fait par un programme.

Les parseurs XML peuvent être intégrés dans des environnements "graphiques" (par exemple Internet Explorer intègre un parseur XML), utilisé à la ligne de commande comme xmllint de libxml2, ou piloté via un langage de programmation, comme Java, Perl, etc. Enfin une syntaxe spéciale, XSLT, permet de manipuler un parseur pour utiliser facilement les possibilités d'extraction et de manipulation de documents. Cf. La trousse.


Fichier (unité physique) et Document (unité logique)

Dans le cadre d'XML on parle de "document" plutôt que de "fichier" : sous l'influence du contexte internet (et des contraintes propres aux réseaux), une unité logique indépendante des supports physiques est nécessaires. L'unité de contenu n'est plus définie par le support physique mais par les marques de début et de fin d'une syntaxe valide.