Les partenaires publicitaires:

Qu'est-ce qu'un format UTF-8?

Le format UTF-8 est une variante du système Unicode de codage des caractères, développé par Ken Thompson, de Bell Laboratories en 1992. À l'origine, Unicode était largeur fixe-un format simple, 16 bits de codage, mais UTF-8 a été développé pour les systèmes qui ont trouvé qu'il est difficile de manipuler des unités de 16 bits de données. UTF signifie Format de transformation Unicode.

Quel est Unicode?

  • Unicode a été initialement développé par une organisation à but non lucratif, connu comme le Consortium Unicode, dans les années 1980, dans un effort pour créer un seul jeu de caractères unifiée. Unicode est conçu pour favoriser l'échange, le traitement et l'affichage de textes dans un large éventail de langues, y compris les versions classiques et historiques de ces langues. Ken Thompson voulait un format de codage pour un nouveau système d'exploitation, qui travaillerait avec des caractères à sept bits, mais pourrait être étendue à un jeu de caractères plus grande, et le résultat était UTF-8.

Objectif




  • Logiciels dépend généralement de chaque caractère étant représenté par une séquence de chiffres binaires adjacents ou huit bits - - habituellement connus sous le nom d'un octet. De nombreuses applications de logiciels se fondent sur le American Standard Code for Information Interchange, ou ASCII, la valeur de chaque caractère étant combinaisons constantes et certaines d'octets étant associé à des fonctions de contrôle. UTF-8 est définie en termes de huit bits unités de code et représente tous les caractères Unicode sans perturber les valeurs de code ASCII ou de contrôle. Chaque octet dans la gamme ASCII représente lui-même en UTF-8 et les codes de contrôle ASCII apparaissent seulement comme eux-mêmes et jamais comme partie d'une séquence représentant tout autre caractère. En d'autres termes, UTF-8 est entièrement rétrocompatible avec l'ASCII.

Largeur variable

  • UTF-8 est ce qui est connu en tant que format de codage de largeur variable. Il utilise huit bits unités de code et les bits d'ordre élevé dans chaque unité indiquer à quelle partie de la séquence de l'unité de code chaque octet appartient. Une gamme de valeurs unitaires de code est réservé à l'initiale, ou conduisant, élément d'une séquence d'unités de code et un complètement différent plage de valeurs est réservé pour les éléments suivants, ou de fuite,. Si le bit de poids fort est un zéro, les sept bits restants dans l'unité de codage sont traitées comme un caractère ordinaire ASCII. Si un fichier contient uniquement des caractères ASCII, il est déjà au format UTF-8.

Utilisations

  • UTF-8 est typiquement le format de codage de choix pour Hypertext Markup Language - l'ensemble standard de règles, ou le protocole, pour le formatage et l'affichage de documents sur Internet - et d'autres protocoles similaires. UTF-8 est déjà orienté octet ou byte-sérialisé, alors UTF-8 fonctionne bien avec C et d'autres langages de programmation. De même, les interfaces de programme d'application qui travaillent avec les jeux de caractères asiatiques, telles que le chinois et le japonais, dans lequel les personnages peuvent être représentés par un, deux ou même trois octets, peut être adapté pour fonctionner avec UTF-8 avec un minimum de tracas.

» » » » Qu'est-ce qu'un format UTF-8?