UTF-8, ou 8-bit Unicode Transformation Format, a été développé comme une extension de l'ASCII ou American Standard Code for Information Interchange, en vue d'élargir son champ d'application à partir de langues d'Europe occidentale à un plus large éventail de langues du monde avec différents jeux de caractères . ASCII est un système 7-bit, mais il est maintenant généralement exprimé en code à 8 bits ou octets. Caractères UTF-8 sont référencées par un à quatre octets. Heureusement, cela signifie seul octet de ASCII est compatible avec UTF-8, et ainsi de conversion d'ASCII en UTF-8 est transparente. Cependant, il est possible pour texte UTF-8 d'utiliser des caractères non inclus dans 127 le jeu de caractères ASCII, donc la conversion de UTF-8 en ASCII peut entraîner une perte d'informations.