Der Globalzeichensatz Unicode
im Betriebssystem Unix

Diplomarbeit von Roman Czyborra <czyborra@cs.tu-berlin.de>,
betreut vom Fachgebiet Informatik in Natur- und Ingenieurwissenschaften,
abgegeben am 30. November 1998,
deutsche Zusammenfassung gemäß § 22 ¶ 5 PO 90:

Neun Monate lang habe ich mich nun mit der Problematik des universellen 16-bit-Zeichensatzes Unicode (ISO 10646 UCS) zur vereinheitlichten elektronischen Verarbeitung von Texten in möglichst allen Schriftsprachen der Welt (inklusive der mathematischen Notation der Natur- und Ingenieurwissenschaften) im recht flexiblen akademischen Betriebsstem Unix (ISO 9945 POSIX, Unix98, X11R6, GNU/Linux, Sun Solaris) beschäftigt.

Im Schriftbereich ist Unix ist trotz vielfältiger qualitativ hochwertiger komplexer Mechanismen (troff, TeX/MetaFont, PostScript, X11-Internationalisierung) heute nicht mehr so stark wie die kommerziellen Betriebssysteme Microsoft Windows NT und Apple MacOS 8, die beide auf der TrueType-Technik basieren, welche sowohl bei der interaktivem Arbeit auf dem Bildschirm als auch in den dabei generierten Ausdrucken Verwendung findet. Unix droht(e) durch die fehlende konsistente Unicode-Unterstützung als ganzes ins Hintertreffen zu geraten. Ich wollte mit meiner Diplomarbeit mithelfen, eine derartig ungünstige Entwicklung abzuwenden und Unix aus dem US-ASCII- oder ISO-2022-zentrierten akademischen Elfenbeinturm herauszuführen.

Dazu habe ich keine klassische große Einzelapplikation programmiert, sondern vielmehr - meinen persönlichen Vorlieben entsprechend - eine theoretische, beschreibende Arbeit zu einem breiten, zutiefst praktischen Thema erstellt. Das Ergebnis ist der neue WWW-Server http://czyborra.com/. Er liefert eine enzyklopädische Einführung in die verschiedenen Zeichensatzstandards bis hin zum Unicode, eine unixzentrische kommentierte Übersicht über die am freien Markt bereits existierende Unicode-Unterstützung, sowie eine Vielzahl eigener Progrämmchen und Vorschläge zur Förderung der Nutzbarkeit der Unicode-Zeichen in der Unix-Umgebung: einen Bitmap-Font mit inzwischen 34.554 Zeichen, ein verblüffend einfaches Perl-Skript zur kalligraphischen Formatierung arabischer Texte, einen SCSU-Dekompressor und eine Vielzahl von Umwandlungstabellen zum Zugriff auf Unicode-Zeichen mit traditionellen Umschreibungen.

Ein halbes oder dreiviertel Jahr Bearbeitungszeit ist doch kein so traumhaft unendlicher Zeitraum, wie er mir vorher erschien, und dann macht einem das Leben noch den einen oder anderen Strich durch die Rechnung. Die Knappheit der Zeit zwingt mich leider zu Abstrichen bei der Qualität der Präsentation. Es ist schade, daß ich trotz mehrmonatiger Fristverlängerung immer noch nicht alle angegangenen Kapitel präsentieren kann und die vorhandenen Kapitel lediglich als Browserausdruck in lateinischer Schrift mit Illustrationen im GIF-Format und ohne durchlaufende Seitennumerierung anbieten kann, aber ich bin überzeugt, daß die wichtigsten dadurch ins Hintertreffen geratenen Ideen in den präsentierfähigen Kapiteln zumindest bereits angerissen werden.

So wird in meinem Kapitel über das Transformationsformat UTF-8 schon eine kommentierte Übersicht der existierenden freien Unix-Software zum Generieren und Umwandeln von Unicode-Text und weiteren Unicode-Programmen gegeben und darauf hingewiesen, daß UTF-8 die zukünftige Standardkodierung von E-Mails und News-Veröffentlichungen im Internet sein wird und wie auch die Auszeichnungssprache HTML des World-Wide Web inzwischen auf Unicode basiert ist.

In der Fallstudie des Unicode-Editors Yudit wird nicht nur prominent im Internet Reklame für diesen gemacht, damit er standardmäßig in die heutigen Unix-Distributionen und -Installationen integriert wird, sondern es werden auch anhand des Beispiels Yudit die Ideen der konfigurierbaren Eingabemethoden, internationalisierten Benutzerschnittstellen, und vorgeführt, wie man Mailreader wie Pine zum Anzeigen von Unicode-kodierten Nachrichten bringen kann.

In der Einführung in den Unicode-Zeichenvorrat und meinen GNU-Unicode-Font und meinen Arabischformatierer werden bereits verschiedene weiterführende Unicode-Anzeigetechniken angerissen.

Am Tag der Abgabe ergibt sich folgendes Inhaltsverzeichnis:


The Global Character Set Unicode in the Unix Operating System


Der Vorteil meiner Präsentation im WWW ist, daß ich nun noch die Möglichkeit habe, die Teile, für die Zeit der Diplomarbeit leider nicht gereicht hat, in Ruhe zu vervollständigen und der interessierten Leserschaft im Internet nachzureichen.

Danksagung

Ich möchte allen schön danken, die mich bei der Erstellung dieser Arbeit begleitet und unterstützt haben, namentlich:

Darüber hinaus habe ich keine unerlaubten fremde Hilfen in Anspruch genommen, sondern das Werk selbständig erstellt, meine Quellen angegeben und Zitate gekennzeichnet.

Roman Czyborra
Berlin, den 30. November 1998