Jeux de caractères

Sous-sections :


ASCII

Table de caractères la plus universelle et la plus pauvre, codée sur 7 bits ; elle implique de coder indirectement (par des entités caractères) les caractères accentués.


Latin-1 (ISO 8859-1)

Standard défini pour l'encodage des alphabets d'Europe occidental, codé sur 8 bits. Inclut la table ASCII. Permet de noter la quasi-totalité des caractères pour un corpus en français.


UTF-8 ou UTF-16

Permet de couvrir tous les alphabets européens ainsi que les alphabets arabe, asiatique, etc. Supporté par tous les parseurs XML. Inclut l'ASCII et les différents ISO-8859 (et donc les "comprend" naturellement), mais les éditeurs de texte courants "à l'écran" ne rendent pas forcément correctement l'ensemble de ses éléments.

Tous les parseurs implémentent UTF-8 et UTF-16 et représentent ainsi en interne les caractères, ce qui est une condition de conformité aux recommandations du W3C. (All XML processors must accept the UTF-8 and UTF-16 encodings of 10646 : http://www.w3.org/TR/REC-xml#sec-well-formed)


Note : les jeux de caractères Unicode

UTF-8 et UTF-16 sont des implémentations du standard Unicode (lui même précisant l'ISO 10646), qui permet la désignation de tous les symboles de tous les alphabets existant selon un code unique (son "code point") dans un Universal Character Set (UCS). UTF-8 et UTF-16 sont les deux principales "implémentations" de cette table de numéros en système de séquences de bytes : le premier sur une séquence de 2 bytes, le second sur une séquence de 4 (d'ou respectivement 8 et 16 bits).