Codage ansi
C'est le codage sur 8 bits des caractères, tel qu'il est défini par l'American National Standards Institute. Chaque caractère est représentés par un entier de 0 à 256. Vous en avez la liste dans le tableau des caractères et de leur conversion URL et HTML. Il faut noter que les 32 premiers entiers (de 0 à 31) sont réservés pour des commandes systèmes et ne sont pas utilisable pour le texte. Les caractères simples (en gros ceux utilisés en anglais) occupent les places de 32 à 127. Les caractères spéciaux (en particulier tous les caractères accentués du français, la fameuse cédille et bien d'autres...) occupent les places de 128 à 255.
Les avatars de l'ANSI
En Europe occidentale, le codage ANSI est également connu sous le nom de jeu de caractères ISO-8859-1, où l'ISO est l'International Standards Organization. Si vous allez voir la source de ce document, vous verrez au début, la ligne content="text/html; charset=iso-8859-1" qui signifie que c'est ce codage qui est utilisé pour cette page. Comme nous allons le voir, L'UTF-8 est un concurrent sérieux pour l'ANSI. C'est pourquoi il est essentiel de toujours préciser le codage utilisé, sinon on s'en remet aux détecteurs de jeux de caractères, qui devinent (guess en anglais) le codage utilisé.
Le codage UTF-8
L'ANSI permet de coder 256 caractères, L'UTF-8, plus de 2 millions ! On comprend vite le niveau de la concurrence. De plus, si l'on écrit du texte sans aucun caractère spécial, l'UTF-8 ne prend pas plus de place que l'ANSI. C'est magique, n'est-ce-pas ? En fait, avec le système UTF-8, seuls les caractères au-delà de 128 sont codés sur plus d'un octet. Avant de voir comment fonctionne ce codage, précisons que les lettres UTF signifient Unicode Transformation Format et que le 8 signifie 8 bits ou plus.
Le principe UTF-8
Plus le numéro du caractère est grand, plus le nombre d'octets utilisés est grand (de 1 octet au minimum jusqu'à 4 au maximum). S'il faut plus d'un octet pour le