|
Inhalt: |
UTF-8
[1] Die Zecihenkodierung mit UTF-8 (Unicode Transformation Format - 8) basiert auf dem Zeichensatz von Unicode. Im Gegensatz zu anderen Zeichensätzen ist UTF-8 wesentlich flexibler, weil hier variable Bitlängen mit 1 Byte bis 4 Byte eingesetzt und dadurch große Datenmengem eingespart werden. Einfache Zeichen, die zB dem Zeichensatz von ASCII oder ISO-8859-1 angehören, werden mit 8 bit (= 1 Byte) codiert, während komplizierte Zeichen bis zu 32 bit (= 4 Byte) lang sein können. Dadurch ist es möglich, wie in Unicode, alle Zeichen aller Sprachen und zusätzlich viele andere Zeichen und Symbole zu codieren. Damit die Sonderzeichen korrekt dargestellt werden, ist es notwendig, alle verwendeten Dokumente im Format von UTF-8 zu speichern.
[2] Im Internet hat die Zeichenkodierung mit UTF-8 für HTML-, XHTML- und CSS-Dateien große Bedeutung.
Beispielle:
[3] UTF-8 binär: 01111001 = UTF-8 hexadezimal: 79 -> Zeichen y
[4] UTF-8 binär: 11100010 10000010 10101100 = UTF-8 hexadezimal: E2 82 AC -> Zeichen € (Euro-Zeichen)
[5] Eintrag im <head> einer HTML-Datei: <meta charset="UTF-8"> oder <meta charset="utf-8"> |