The Global Character Set Unicode
in the Unix Operating System


Mögliche Aufgabenstellung

Zeigen Sie Möglichkeiten der Verwendung des globalen Zeichensatzes Unicode im US-ASCII-basierten Betriebssystem Unix auf, beschreiben Sie Transitionsstrategien und leisten Sie hier eigene Beiträge. (mögliches Ergebnis: erweitertes Metamail mit erweitertem GNU recode und GNU-Unicode-16-Pixel-Bitmap-Font)

Motivation

Der Unicode-Zeichensatz ermöglicht die interoperable Verarbeitung von Texten fast aller Sprachen der Welt, inklusive Arabisch und Chinesisch, Lautschrift und mathematischen Symbolen. Linguisten, Bibliothekaren, Mathematikern, multinationalen Organisationen wird er Vorteile bringen. Die Standardisierung eilt der Implementierung um Jahre voraus. Allmählich werden Applikationen umgestellt auf 16-Bit-char. Aber damit ist beiweiten noch nicht die korrekte Ausgabe von Unicode-Texten erreicht. In diesem Bereich droht Unix hinter Windows NT zurückzufallen. Die Diplomarbeit könnte eine Üntersuchung der Unicodefähigkeiten von Unix-Subsystemen wie X11, Emacs, Java, WWW-Browsern, Terminalemulatoren, Mail+News-Readern, PGP, SGML, PostScript, Konvertierungsprogrammen und Textsatzsystemen liefern und an strategisch günstigen Stellen Verbesserungen vorschlagen und eigene Freeware-Tools wie einen Poor Man's Renderer oder eine Glyph Database implementieren. Stichworte: Textsatz, Mengenlehre, demand paging.

Fragestellungen

Wie kam es zu Unicode? Warum ist Unicode sinnvoll? Welche Anwendungsszenarios ergeben sich für Unicode? Was sind die Schwachstellen des Unicode-Standards? Werden die 8bit-Zeichensätze und/oder die ostasiatischen Zeichensätze obsolet?

Was muß man tun, um Unicode unter Unix benutzen zu können? Wie läßt sich Unicode-Text möglichst vollständig anzeigen und ausdrucken? Welche Vorteile hat ein Bitmapfont gegenüber einem Vektorfont? Welche Vorteile hat ein monolithischer Font? Welche Vorteile hat ein Flickenteppich? Wie läßt sich Unicode-Text am günstigsten eingeben und editieren? Wie wird den Anforderungen der Anwender am besten entsprochen?

Werden durch Unicode Ressourcen verschwendet? Resultieren Performanceeinbußen? Welches Transformationsformat ist das geeigneteste für Unicode unter Unix? UTF-8, UCS-2, SCSU oder noch ein anderes? Welche Programme müssen angepaßt werden? Welche Funktionen fehlen noch? Wie lassen sich diese hinzufügen?

Welche ökonomischen Aspekte hat Unicode? Wie definiert sich das Verhältnis zwischen den kommerziellen und den nichtkommerziellen Unicode-Implementierern? Wann wird Unicode Selbstverständlichkeit?


Literatur

Mailinglisten und Newsgroups

Artikel

ISO-Normen

Internet-RFCs

Quelltexte von Programmpaketen

GNU-Infos

Linux-Howtos

WWW-Seiten

Bücher


Berlin, den 13. Februar 1998