UTF-8-Infoseite

Was ist UTF-8 überhaupt?

UTF-8 ist – in einfachen Worten gesprochen – eine Art, Zeichen zu kodieren. Das System basiert auf dem Unicode-Zeichensatz, mit dem sich alle Zeichen aller Sprachen dieser Welt unterbringen lassen.
Der Zeichensatz ISO-8859, der bisher am häufigsten benutzt wird, hat die Einschränkung, dass ein Zeichen nur mit einem Byte (8 Bit) kodiert wird, weshalb nur maximal 255 Zeichen insgesamt dargestellt werden können.
Dieses Problem ist bei UTF-8 gelöst, denn es können bis zu 6 Byte für ein einzelnes Zeichen genutzt werden.

Und was bringt das jetzt?

Mit Hilfe von UTF-8 kann jeder auf der Welt einen Zeichensatz nutzen und man kann beispielsweise im IRC mit Russen, Koreanern und Deutschen ohne Kodierungsschwierigkeiten kommunizieren - ohne UTF-8 eine Qual. Außerdem sind viele Sonderzeichen im Zeichensatz enthalten, etwa mathematische Symbole, wodurch auch Mathematik- oder anderen Wissenschaftschannels geholfen ist (der offizielle Channel zum Wikipedia-Projekt setzt auch auf UTF-8).
Hier noch einige Beispielseiten zu den zu kodierenden Zeichen:

http://jrgraphix.net/research/unicode_blocks.php - Eine (nicht vollständige) Zeichentabelle
http://www.columbia.edu/kermit/utf8.html - Eine Beispiel-HTML-Datei mit diversen Sprach- und Zeichenbeispielen.

Warum sind dann so viele Leute im IRC gegen UTF-8?

Das hat wohl mehrere Gründe, zum einen gibt es leider noch Clients, die diesen Zeichensatz nicht unterstützen. Teilweise ist die Umstellung auch etwas haarig, vor allem bei Konsolenclients wie irssi unter Linux, wo man auch sein Terminal entsprechend einrichten muss.
Einige meinen auch, das IRC sei für UTF-8 nicht geschaffen, was allerdings nicht ganz nachvollziehbar ist, denn in der Beschreibung des Protokolls (RFC 1459) ist kein Zeichensatz vorgeschrieben. Hier heißt es unter 2.2:

No specific character set is specified. The protocol is based on a a set of codes which are composed of eight (8) bits, making up an octet. Each message may be composed of any number of these octets; however, some octet values are used for control codes which act as message delimiters.

Hier ist lediglich festgelegt, dass eine Nachricht, die mit dem IRC-Protokoll geschickt wird, aus kleinsten Einheiten besteht, die 8 Bit groß sind. Auch wenn vielen – vor allem Programmierern – dies selbstverständlich erscheint, so ist es das keineswegs. Wenn man sich den Wiki-Eintrag zu "Byte" genauer ansieht, merkt man, dass nicht einmal dieser Begriff eindeutig definiert ist. Die RFC lässt weiterhin lediglich erkennen, dass die Schlüsselwörter des Protokolls, sowie einige Trennzeichen, in ASCII kodiert sind, sodass man theoretisch von einer handelsüblichen Telnetsitzung im IRC chatten kann. Da UTF-8 aber den kompletten ASCII-Zeichensatz enthält, mithin vollständig abwärtskompatibel ist, stellt das kein Hindernis dar, es im IRC zu nutzen. Es bleibt also dem User vorbehalten, was er nutzt.
Man mag auch so argumentieren, dass seit jeher ISO-8859 im IRC genutzt wurde und das gefälligst auch so bleiben sollte, aber dieses Argument wirkt eher unbedacht, wenn man sich die Vorteile von UTF-8 ansieht.

Ich habe auf UTF-8 umgestellt, aber nun sprechen mich dauernd Leute an, dass meine Umlaute kaputt sind und ich meinen Zeichensatz umstellen soll!

Das liegt oft daran, dass viele Leute nicht wissen, warum die "Umlaute kaputt sind" oder was UTF-8 ist. Gib den Leuten einfach den Link zu dieser Seite und sie können sich darüber informieren und auch umsteigen.
Viele Leute meinen auch, sie würden ihren Zeichensatz einfach so lassen, bis UTF-8 Standard geworden ist. Das Problem ist, dass das nicht einfach so passieren wird von einem Tag auf den anderen. Deshalb, geht mit gutem Beispiel voran und überzeugt die Leute. :)

Was ist mit UTF-8 außerhalb von IRC?

UTF-8 bzw. der Zeichensatz Unicode wird in vielen Bereichen bereits genutzt. Windows beispielsweise benutzt 2 Byte für die Kodierung von Zeichen mit Unicode (UTF-16). Auch die Programmiersprache Java nutzt diesen Zeichensatz. Die Linux-GUI-API GTK nutzt intern nur UTF-8 und die meisten Distributionen haben ihren Zeichensatz schon längst darauf umgestellt.
Man darf also damit rechnen, dass Unicode wird sich langzeitlich in allen Bereichen etablieren wird.

Wie stelle ich meinen Client denn nun auf UTF-8 um?

Hier nun die Beschreibung, wie ihr euren Client auf UTF-8 umstellt, jeweils mit Kennzeichnung für Windows und Linux:

mIRC (Win):
mIRC unterstützt seit der Version 6.17 UTF-8. Ältere Clients sollten geupdatet werden. Anleitung für 6.17:
Zunächst muss man im Menü "View" den Optionsbildschirm ("Options") aufrufen. Dann muss man unter dem Menüpunkt "IRC" den Punkt "Messages" auswählen und jeweils ein Häkchen bei "UTF-8 display" und "Multibyte editbox" setzen.
Damit ist der erste Schritt zur Benutzung von UTF-8 geschafft. Im Folgenden muss man mit einem Rechtsklick auf einen Channel in der Switchbar (der Channel-Leiste) das Menü aufrufen und "Font..." auswählen und bei UTF-8 "display and encode" auswählen und ein Häkchen bei "Set as default channel font" setzen. Danach muss man mit einem Rechtsklick auf ein Queryfenster in der Switchbar das Menü aufrufen und erneut "Font..." auswählen und bei UTF-8 "display and encode" auswählen und ein Häkchen bei "Set as default chat font" setzen.
X-Chat (Win + Lin):
Dieser Client unterstützt UTF-8 wunderbar, unter Windows wie unter Linux. Man geht hierzu erstmal in das "Server List" Fenster (im Menü "X-Chat", dann " Server-List"). Dann "Edit..." und schließlich unter "Character set" "UTF-8" auswählen.
Miranda (Win):
Miranda, oder genauer, das Miranda-IRC-Plugin, unterstützt momentan kein UTF-8. Die Entwickler sind der Meinung, dass die RFC aussage, man solle kein UTF-8 einbauen. Das ist durchweg falsch, man findet keinen Hinweis darauf in dem Dokument (s.o.). Man darf hoffen, dass sich einer der am Plugin beteiligten besinnt und sich an den UTF-8-Support macht.
Chatzilla (Win + Lin):
Auch dieser Client unterstützt UTF-8. Es ist sogar standardmäß eingestellt. Ist das allerdings umgestellt worden macht ihr folgendes:
Geht in's "Edit" Menü, da unter "Preferences". Links sollte dann auf jeden Fall "Global Settings" zu sehen sein. Ist dies selektiert, seht ihr rechts "Character encoding". Dort sollte "utf-8" eingertagen werden (ohne Anführungszeichen natürlich). Zusätzlich kann man es noch für jedes einzelne Netzwerk und sogar jeden Channel einzeln festlegen auf dieselbe Art.
Bersirc (Win):
Gemeint ist hier die alte Bersirc Version 1.4. Hier funktioniert UTF-8 leider nicht. Ihr dürft aber darauf hoffen, dieses Feature in der neuen Version zu finden, die sich allerdings momentan recht langsam weiterentwickelt.
Gaim (Win + Lin):
Der Client unterstützt UTF-8 und hat es sogar standardmäßig eingeschaltet. Sollte dies umgestellt worden sein, so könnt ihr das ändern, indem ihr im Fenster mit der Kontaktliste auf "Werkzeuge" klickt, dann auf "Konten", dann euer IRC-Konto auswählt, dann "Bearbeiten" und dann im aufklappenden Fenster auf "Zeige mehr Optionen". Dort sollte schließlich im Feld "Kodierungen:" "UTF-8" eingetragen sein.

Und UTF-8 außerhalb des IRC?

(X)HTML:
Um den Zeichensatz mit HTML nutzen zu können, ist zunächst mal ein Meta-Tag nötig. Folgendes müsst ihr (wie immer) in den Bereich zwischen die <head>-Tags schreiben:
<meta http-equiv="Content-Type" content="text/plain; charset=UTF-8" />

Oder, falls ihr nicht grade eine XHTML-Datei schreibt:

<meta http-equiv="Content-Type" content="text/plain; charset=UTF-8">

Ihr solltet die HTML-Datei selber natürlich mit eurem Editor auch als UTF-8 speichern.

Habt ihr zusätzlich noch PHP zur Verfügung, solltet ihr auch noch einen HTTP-Header senden, der den Zeichensatz angibt. Dazu fügt ihr einfach an eine Stelle, wo noch kein Text ausgegeben wurde, folgendes ein:

header('Content-Type: text/html; charset=utf-8');
(G)VIM:

Um die UTF-8-Darstellung- und Speicherung in vim anzuschalten, ergänzt eure ~/.vimrc durch folgende zwei Zeilen:

set tenc=utf-8 set enc=utf-8
bash,readline

Sowohl bash als auch readline sind erst ab den Versionen 3 bzw. 5 UTF-8 fähig, es ist also nötig, die Programme entsprechend zu updaten.
Gentoo-Linux:
Hier kann ich nur auf den exzellenten Wiki-Eintrag zu dem Thema verweisen, wo neben dem Kernel auch noch viele andere Anwendungen besprochen werden:
http://de.gentoo-wiki.com/TIPP_Utf8

Weitere Fragen zu UTF-8

Linux: Wie kann ich eine ganze Datei von ISO zu UTF-8 konvertieren?

Geeignet hierzu ist das Tool "recode". Bei allen gängigen Paketsystemen zu erwerben. Es beherrscht extrem viele Zeichensätze (einsehbar mit dem Kommando recode -l), unter anderem auch UTF-8.
Um nun eine komplette Datei oder eine Dateiliste zu konvertieren, ist folgendes Kommando notwendig:

recode latin-1..UTF-8 *.txt

Statt "*.txt" darf da natürlich auch eine einzelne Datei oder eine Liste stehen.

Wo finde ich weiterführende Links zu UTF-8?

Hier eine kleine Liste von Links:

http://wikipedia.de/wiki/UTF-8 - Der Wikipedia-Eintrag zu UTF-8.
http://www.joelonsoftware.com/articles/Unicode.html - Ein gut geschriebener (englischer) Artikel über die Geschichte von Zeichensätzen und Unicode mit wichtigen Hinweisen speziell für Webdesigner und Programmierer.
Project UTF-8 at freedesktop.org - Englischsprachige Seite, die sich um den Einsatz von UTF-8 in Linux-Anwendungen kümmert.
http://www.cl.cam.ac.uk/~mgk25/unicode.html - Eine sehr gute Einführung in Unicode und UTF-8. Der letzte Teil ist eher für Programmierer gedacht, die wirklich alles über die Kodierung wissen wollen.
http://unicode.e-workers.de/ - Eine gut geordnete Seite rund um das Thema Unicode

Erstellt am 15.02.2005 mit vim von Phillemann. Vorschläge, Verbesserungen oder Anleitungen für jede Art von Software, bei der man UTF-8 aktivieren kann bitte via Mail an utf8 at php-tech punkt de

UTF-8-Infoseite

Was ist UTF-8 überhaupt?

Und was bringt das jetzt?

Warum sind dann so viele Leute im IRC gegen UTF-8?

Ich habe auf UTF-8 umgestellt, aber nun sprechen mich dauernd Leute an, dass meine Umlaute kaputt sind und ich meinen Zeichensatz umstellen soll!

Was ist mit UTF-8 außerhalb von IRC?

Wie stelle ich meinen Client denn nun auf UTF-8 um?

mIRC (Win):

X-Chat (Win + Lin):

Miranda (Win):

Chatzilla (Win + Lin):

Bersirc (Win):

Gaim (Win + Lin):

Und UTF-8 außerhalb des IRC?

(X)HTML:

(G)VIM:

bash,readline

Gentoo-Linux:

Weitere Fragen zu UTF-8

Linux: Wie kann ich eine ganze Datei von ISO zu UTF-8 konvertieren?

Wo finde ich weiterführende Links zu UTF-8?