Normes de balisage de corpus

Sous-sections :


TEI

La TEI (Text Encoding Initiative) est une recension aussi large que possible des pratiques d'encodages de textes, et propose une normalisation des balises pour tous ces besoins et une formalisation de leur définition utilisant la syntaxe des DTD. Cette normalisation ne donne pas lieu à une DTD particulière qu'il reste à constituer en sélectionnant un sous ensemble pour une application donnée. La DTD TEI Lite, constituée à partir des tags les plus généraux de la TEI, est une version généraliste et "applicable" mais faiblement adaptée à une application spécifique.


CES

Le CES (Corpus Encoding Standard) est une sélection parmi les éléments de la TEI d'un ensemble cohérent et complet pour l'encodage de corpus, formalisé sous forme d'une DTD (ou Schema). La DTD CES est conforme aux recommandations TEI et la complète notamment pour l'étiquetage grammatical (CESAna) et l'alignement de corpus (CESAlign).