au sommaire
Unicode est un système de codage créé en 1998, qui spécifie un nombre unique pour chaque caractère, quels que soient la plate-forme, le logiciel et la langue utilisés. Unicode est constitué de 137 929 caractères, et est compatible avec plus de 100 écritures différentes, grâce à ses jeux de caractères uniques. Unicode supporte toutes les langues du monde.
C'est une norme universelle de codage de caractères. Elle est utilisée pour prendre en charge les caractères dans des scripts non ASCII (American Standard Code for Information InterchangeAmerican Standard Code for Information Interchange). À l'origine, Internet a été construit en ASCII, et donc basé sur l'alphabet anglais, qui ne comporte que 128 caractères.
D'où vient Unicode ?
Dès le début de 1990, MicrosoftMicrosoft commence à participer aux réunions Unicode. En juin, c'est au tour d'IBMIBM de les rejoindre. La même année, les travaux de formation d'un consortium standard se lancent. Le 3 janvier 1991, le consortium Unicode est fondé en Californie, aux États-Unis. Il s'agit d'une organisation à but non lucratif qui coordonne la norme, et a pour objectif de remplacer un jour les schémas de codage de caractères existants par des schémas de transformation Unicode normalisés (appelés Format de transformation Unicode, ou UTF). Il est développé en collaboration avec l'Organisation internationale de normalisation (ISO).
Les formes d'Unicode
Il existe différents types d'Unicode : l'UTF-8, l'UTF-16 et l'UTF-32 sont les trois plus courantes. L'UTF-8 est devenu la règle la plus utilisée sur Internet : on la retrouve dans le codage de plus de 90% des sites internet.
Unicode a présenté un grand succès dans l'unification de caractères, ce qui a conduit à une utilisation généralisée et prédominante dans l'internationalisation des programmes informatiques. Cette norme a ainsi été appliquée dans de nombreuses technologies récentes, notamment XML, JavaJava et les systèmes d'exploitationsystèmes d'exploitation modernes.