The Global Character Set Unicode
in the Unix Operating System
- Vorschlag für eine Diplomarbeit im Studiengang Informatik nach StuPO 90
- Studiengebiet: Betriebs- und Kommunikationssysteme
- Diplomand: Roman Czyborra <czyborra@cs.tu-berlin.de>,
Matrikelnummer 127221
- Bearbeitungszeitraum: Februar bis August 1998
- Betreuer: Professor Biedl, Fachgebiet INI, IKS
- Zweitgutachter: Alexander Maye, Dr. Peroz oder Dr. Weisweber
- Titel der Arbeit:
The Global Character Set Unicode in the Unix Environment
(Der Globalzeichensatz Unicode im Betriebssystem Unix)
- Die Arbeit wird auf englisch verfaßt und mit einer deutschen
Zusammenfassung versehen
- Umfang: 50 bis 200 Seiten plus CD-ROM
Mögliche Aufgabenstellung
Zeigen Sie Möglichkeiten der Verwendung des globalen Zeichensatzes
Unicode im US-ASCII-basierten Betriebssystem Unix auf, beschreiben Sie
Transitionsstrategien und leisten Sie hier eigene Beiträge.
(mögliches Ergebnis: erweitertes Metamail mit erweitertem GNU recode
und GNU-Unicode-16-Pixel-Bitmap-Font)
Motivation
Der Unicode-Zeichensatz ermöglicht die interoperable Verarbeitung von
Texten fast aller Sprachen der Welt, inklusive Arabisch und
Chinesisch, Lautschrift und mathematischen Symbolen. Linguisten,
Bibliothekaren, Mathematikern, multinationalen Organisationen wird er
Vorteile bringen. Die Standardisierung eilt der Implementierung um
Jahre voraus. Allmählich werden Applikationen umgestellt auf
16-Bit-char. Aber damit ist beiweiten noch nicht die korrekte Ausgabe
von Unicode-Texten erreicht. In diesem Bereich droht Unix hinter
Windows NT zurückzufallen. Die Diplomarbeit könnte eine Üntersuchung
der Unicodefähigkeiten von Unix-Subsystemen wie X11, Emacs, Java,
WWW-Browsern, Terminalemulatoren, Mail+News-Readern, PGP, SGML,
PostScript, Konvertierungsprogrammen und Textsatzsystemen liefern und
an strategisch günstigen Stellen Verbesserungen vorschlagen und eigene
Freeware-Tools wie einen Poor Man's Renderer oder eine Glyph Database
implementieren. Stichworte: Textsatz, Mengenlehre, demand paging.
Fragestellungen
Wie kam es zu Unicode? Warum ist Unicode sinnvoll? Welche
Anwendungsszenarios ergeben sich für Unicode? Was sind die
Schwachstellen des Unicode-Standards? Werden die 8bit-Zeichensätze
und/oder die ostasiatischen Zeichensätze obsolet?
Was muß man tun, um Unicode unter Unix benutzen zu können? Wie
läßt sich Unicode-Text möglichst vollständig anzeigen und ausdrucken?
Welche Vorteile hat ein Bitmapfont gegenüber einem Vektorfont? Welche
Vorteile hat ein monolithischer Font? Welche Vorteile hat ein
Flickenteppich? Wie läßt sich Unicode-Text am günstigsten eingeben
und editieren? Wie wird den Anforderungen der Anwender am besten
entsprochen?
Werden durch Unicode Ressourcen verschwendet? Resultieren
Performanceeinbußen? Welches Transformationsformat ist das
geeigneteste für Unicode unter Unix? UTF-8, UCS-2, SCSU oder noch ein
anderes? Welche Programme müssen angepaßt werden? Welche Funktionen
fehlen noch? Wie lassen sich diese hinzufügen?
Welche ökonomischen Aspekte hat Unicode? Wie definiert sich das
Verhältnis zwischen den kommerziellen und den nichtkommerziellen
Unicode-Implementierern? Wann wird Unicode Selbstverständlichkeit?
Literatur
Mailinglisten und Newsgroups
- unicode@unicode.org,
- i18n@dkuug.dk
- comp.os.linux.announce,
- comp.std.internat,
- comp.fonts,
- de.comp.standards
- de.comp.os.unix
- private Korrespondenz
Artikel
- Rob Pike: Hello World or ...
- Mark Leisher: An Adventure in Implementing
Unicode Support on Unix Platforms
- Mark Leisher: Input Method Design
- Scheifler u.a.: X11, XLFD, XInput, Xlocale
- Stallman: GNU Emacs
- Carl-Martin Bunz: Mehr Zeichen
- Ulrich Drepper: Internationalization in the GNU project
ISO-Normen
- ISO 9,
- ISO 233,
- ISO 259,
- ISO 646,
- ISO 843,
- ISO 1073,
- ISO 2022,
- ISO 2033,
- ISO 2047,
- ISO 2375,
- ISO 2955,
- ISO 3602,
- ISO 4873,
- ISO 5426,
- ISO 5427,
- ISO 5428,
- ISO 6429,
- ISO 6438,
- ISO 6861,
- ISO 6862,
- ISO 6936,
- ISO 6937,
- ISO 7098,
- ISO 7350,
- ISO 8613-6,
- ISO 8632-2,
- ISO 8859,
- ISO 8957,
- ISO 9036,
- ISO 9541,
- ISO 9995-2,
- ISO 10367,
- ISO 10585,
- ISO 10586,
- ISO 10646,
- ISO 10754,
- ISO 11180,
- ISO 11822,
- ISO 11940,
- ISO 11941,
- ISO 12070-1,
- ISO 14651,
- ISO 14755,
- DIN 66003,
- GOST 19768
Internet-RFCs
- RFC 1341,
- RFC 1342,
- RFC 1343,
- RFC 1344,
- RFC 1345,
- RFC 1456,
- RFC 1459,
- RFC 1468,
- RFC 1489,
- RFC 1521,
- RFC 1523,
- RFC 1524,
- RFC 1554,
- RFC 1555,
- RFC 1556,
- RFC 1557,
- RFC 1563,
- RFC 1641,
- RFC 1642,
- RFC 1700,
- RFC 1807,
- RFC 1815,
- RFC 1842,
- RFC 1843,
- RFC 1844,
- RFC 1866,
- RFC 1896,
- RFC 1922,
- RFC 1947,
- RFC 1952,
- RFC 2015,
- RFC 2044,
- RFC 2045,
- RFC 2046,
- RFC 2047,
- RFC 2066,
- RFC 2068,
- RFC 2070,
- RFC 2076,
- RFC 2130,
- RFC 2152,
- RFC 2231,
- RFC 2237,
- RFC 2253,
- RFC 2277,
- RFC 2278,
- RFC 2279
Quelltexte von Programmpaketen
- recode-3.4g,
- tcs,
- konvers
- trans,
- 2utf,
- uniconv,
- pgp,
- metamail,
- a2ps-4.9.9,
- html2ps,
- fprint,
- groff,
- sp,
- uniprint,
- utroff,
- sam,
- wily,
- MUTT,
- yudit-0.95,
- xkeycaps,
- xfd,
- xmbdfed,
- freetype-1.0,
- ttf2pfa,
- netscape-5.0,
- lynx-2.7.2,
- cxterm,
- 9term,
- rxvt,
- emacs-20,
- java-1.1,
- glibc-2
GNU-Infos
- info autoconf,
- info recode,
- info flex
Linux-Howtos
- Chinese-HOWTO,
- Russian-HOWTO,
- Polish-HOWTO,
- Thai-HOWTO
WWW-Seiten
- http://www.nyu.edu/acf/pubs/connect/fall96/HumHargGlobVilF96.html
- http://www.japanese.com/Software.Localization/unicode.html
- http://www.cyrillic.com/ref/cyrillic/charsets.html
- http://www.truetype.demon.co.uk/unicode.htm
- http://www.unicode.org/unicode/standard/principles.html
- http://www.unicode.org/unicode/alloc/Pipeline.html
- http://www.microsoft.com/typography/unicode/cscp.htm
- http://www.microsoft.com/typography/unicode/cs.htm
- http://java.sun.com/products/jdk/1.1/docs/guide/intl/fontprop.html
- http://www.sun.com/solaris/faqs/faq-intl.html
- http://plan9.bell-labs.com/plan9/doc/8%c2%bd.html
- http://www.heise.de/ct/art_ab97/9711062/
Bücher
- The Unicode Standard Version 2.0 (1996),
- The Writing Systems of the World (1989),
- Alphabete und Schriftzeichen des Morgen- und Abendlandes (1969),
- Alfavity Iazykov Narodov SSSR (1965),
- Coded Character Sets (1979),
- An Introduction to Chinese, Japanese and Korean Computing (1989)
- Understanding Japanese Information Processing (1993),
- Solaris International Developer's Guide (1993),
- Developing International Software for W95 and Windows NT (1995),
- Working With Foreign Languages and Characters in Wordperfect (1992),
- Extended Latin Alphabet Coded Character Set for Bibliographic Use (1993),
- Internationalization - Developing Software for Global Markets (1995),
- Programming for the World - A Guide to Internationalization (1994),
- Global Software (1992),
- Computer Networks,
- Modern Operating Systems,
- The AltaVista Story,
- Unternehmen Zufall,
- The Road Ahead,
- Szekely : Unicode,
- Advanced Programming in the Unix Environment
- Java in a Nutshell,
- The Design and Implementation of the C++ Language,
- Programming Perl,
- The TeXbook,
- The MetaFont Book,
- OSF/Motif Reference Manual,
- Tcl and the Tk Toolkit,
- The Adobe PostScript Reference Manual
Berlin, den 13. Februar 1998