Universität Bayreuth
Mathematisches
Institut
Einleitung
Erste Schritte
Mail und News
Drucken
KDE
LaTeX/TeX
Linksammlung
Linuxtools
Netzwerk
Programmieren
Windows
X Window
Anträge
Kontakt
|
Java-Tools
native2ascii
Das Tool native2ascii dient zur Konvertierung von beliebigen Textdateien
mit landes- und plattformspezifischen Zeichensätzen in den Unicode-Zeichensatz und umgekehrt. So ist auch
mit einem kleinen Umweg über Unicode möglich, zwischen verschiedenen
spezifischen Zeichensätzen zu konvertieren.
Beispielaufrufe unter Linux
Beispielaufrufe unter Windows
Links zu native2ascii
Links zu Zeichensätzen
Als Referenz seien hier einige Aufrufe unter Linux aufgeführt, der Standardzeichensatz unter Unix ist ISO8859_1:
native2ascii zeichen_unix.txt zeichen_unicode.txt
|
Der Aufruf erfolgt grundsätzlich mit zwei Dateienamen, die
input-Datei an erster und die output-Datei an zweiter Stelle.
|
native2ascii zeichen_unix.txt
|
Lässt man output-Datei aus, so wird die
Standardausgabe verwendet (z.B. Shell-Fenster)
|
native2ascii
Es sieht ungefähr so aus:
> native2ascii
Ä
\u00c4
z
z
§
\u00a7
|
Man kann das Tool ganz ohne Parameter aufrufen, dann wandelt native2ascii Zeichen unmittelbar mit Ein- und Ausgabe im Terminal um.
Der Aufruf muss dann mit Ctrl-D beendet werden.
|
native2ascii -encoding ISO8859_1 \
zeichen_unix.txt zeichen_unicode.txt
|
So kann man den Ausgangszeichensatz explizit angeben. Wird es
nicht gemacht wie beim ersten Aufruf, so wird vom
Standardzeichensatz des Systems ausgegangen.
Der könnte z.B. mit diesem Java-Programm ermittelt werden.
|
native2ascii -reverse -encoding ISO8859_1 \
zeichen_unicode.txt zeichen_unix.txt
|
Mit der Option -reverse wandelt man umgekehrt eine
Unicode-Datei in den angegebenen Zeichensatz um.
|
native2ascii -encoding ISO8859_1 \
zeichen_unix.txt zeichen_unicode.txt
native2ascii -reverse -encoding Cp1252 \
zeichen_unicode.txt zeichen_win.txt
|
Die zwei nacheinander folgenden Aufrufe sorgen dafür, dass die
gegebene Datei zuerst in Unicode umgewandelt wird, und dann im
zweiten Schritt in den gewünschten Zeichensatz
|
native2ascii -encoding ISO8859_1 \
zeichen_unix.txt | native2ascii \
-reverse -encoding Cp1252 > zeichen_win.txt
|
Mit einer Pipe "|" kann man die letzte Anwendung, die aus zwei Aufrufen besteht, in einem zusammenfassen
(Ausgabe des 1. Kommandos wird zur Eingabe des
2. Kommandos, die Ausgabe des 2. Kommandos wird mit der Ausgabeumlenkung ">" in eine Ausgabedatei geschrieben).
|
Beispieldateien zum Download:
zeichen_unix.txt
zeichen_unicode.txt
zeichen_win.txt
zeichen_dos.txt
|
Die Aufrufe unter Windows unterscheiden sich nicht wesentlich von denen unter Linux,
hier gehen wir von Cp1252 als Standardzeichensatz aus:
native2ascii zeichen_win.txt zeichen_unicode.txt
|
Der Aufruf erfolgt grundsätzlich mit zwei Dateienamen, die
input-Datei an erster und die output-Datei an zweiter Stelle.
|
native2ascii zeichen_win.txt
|
Lässt man output-Datei aus, so wird die
Standardausgabe verwendet (z.B. Shell-Fenster)
|
native2ascii
Es sieht ungefähr so aus:
> native2ascii
Ä
\u00c4
z
z
§
\u00a7
|
Man kann das Tool ganz ohne Parameter aufrufen, dann wandelt native2ascii Zeichen unmittelbar mit Ein- und Ausgabe im Terminal um.
Der Aufruf muss dann mit Ctrl-Z beendet werden.
|
native2ascii -encoding Cp1252 \
zeichen_win.txt zeichen_unicode.txt
|
So kann man den Ausgangszeichensatz explizit angeben. Wird es
nicht gemacht wie beim ersten Aufruf, so wird vom
Standardzeichensatz des Systems ausgegangen.
Der könnte z.B. mit diesem Java-Programm ermittelt werden.
|
native2ascii -reverse -encoding Cp1252 \
zeichen_unicode.txt zeichen_unix.txt
|
Mit der Option -reverse wandelt man umgekehrt eine
Unicode-Datei in den angegebenen Zeichensatz um.
|
native2ascii -encoding Cp1252 \
zeichen_win.txt zeichen_unicode.txt
native2ascii -reverse -encoding ISO8859_1 \
zeichen_unicode.txt zeichen_unix.txt
|
Die zwei nacheinander folgenden Aufrufe sorgen dafür, dass die
gegebene Datei zuerst in Unicode umgewandelt wird, und dann im
zweiten Schritt in den gewünschten Zeichensatz
|
native2ascii -encoding ISO8859_1 \
zeichen_unix.txt | native2ascii \
-reverse -encoding Cp1252 > zeichen_win.txt
|
Mit einer Pipe "|" kann man die letzte Anwendung, die aus zwei Aufrufen besteht, in einem zusammenfassen
(Ausgabe des 1. Kommandos wird zur Eingabe des
2. Kommandos, die Ausgabe des 2. Kommandos wird mit der Ausgabeumlenkung ">" in eine Ausgabedatei geschrieben).
|
native2ascii -encoding Cp437 \
zeichen_dos.txt | native2ascii \
-reverse -encoding Cp1252 > zeichen_win.txt
|
Dieser Aufruf ist ein Beispiel für die häufige Aufgabe, MS-DOS-Zeichensatz in Windows-Zeichensatz umzuwandeln
und unterscheidet sich nicht prinzipiell von dem letzten.
|
Beispieldateien zum Download:
siehe oben
|
Informationen von Sun:
-
Java-Plattform J2SE, Version 1.5
-
Java-Plattform J2SE, Version 1.4
-
Java-Plattform J2SE, Version 1.3
-
Java-Plattform J2SE, Version 1.2
- Dokumentation zu native2ascii (verschiedene Versionen)
-
Supported encodings, Version 1.5
-
Supported encodings, Version 1.4
-
Supported encodings, Version 1.3
-
Supported encodings, Version 1.2
- Liste der unterstützen Zeichensätze (verschiedene Versionen)
-
Informationen des Unicode Consortiums:
Unicode Homepage
-
Code Charts
- Zeichensatztabelle im PDF-Format
- Informationen von Roman Czyborra
Die Domain "czyborra.com" und
"http://huizen.dds.nl/~czyborra/"
sind leider seit langem nicht mehr erreichbar
und die URLs "http://wwwwbs.cs.tu-berlin.de/user/czyborra/",
"http://user.cs.tu-berlin.de/~czyborra/"
enthalten leider nicht mehr (alle vollständig) diese Informationen, deshalb für lokale User andere Links:
ASCII/Basic Latin,
US-ASCII
-
Zeichensatz "American standard code for information technology"
(128 Zeichen, auch "US-ASCII" genannt;
1. Teil der Zeichensaetze "ISO-Latin-1", "Cp1252" und vom
Unicode-Zeichensatz "ISO 10646", daher
Teil des Standardzeichensatzes unter Unix und Windows
alternativer Link mit dem identischen Zeichensatz "Unicode Basic Latin"
(Zeichen 0000-007F) vom Unicode Consortium:
PDF-File,
GIF-File,
ASCII
(Fingertip Software)
-
ISO-Latin-1 Supplement
-
2. Teil des Zeichensatz "ISO-Latin-1", auch "ISO-8859-1" genannt;
Standardzeichensatz unter Unix
(128 weitere Zeichen zu den ersten 128 Zeichen aus dem ASCII-Zeichensatz;
ISO-Latin 1-Supplement stimmt mit den zweiten 128 Zeichen des
Unicode-Zeichensatzes "ISO 10646" überein)
alternative Links:
identischer Zeichensatz "Unicode Latin-1 Supplement"
(Zeichen 0080-00FF) vom Unicode Consortium:
PDF-File,
GIF-File
-
CP 437
-
Zeichensatz "Codepage 437"
(256 Zeichen, auch "DOSLatinUS" genannt)
-
CP 850
-
Zeichensatz "Codepage 850"
(256 Zeichen, auch "DOSLatin-1" genannt)
alternativer Link:
IBM850/CP 850
(RFC 1345 "Character Mnemonics & Character Sets")
-
CP 855
-
Zeichensatz "Codepage 855"
(256 Zeichen, auch "DOSCyrillic" genannt)
-
CP 866
-
Zeichensatz "Codepage 866"
(256 Zeichen, auch "DOSCyrillicRussian" genannt)
alternativer Link:
CP866
(Fingertip Software)
-
CP 1250
-
Zeichensatz "Codepage 1250"
(256 Zeichen, auch Windows Central European genannt)
alternativer Link:
CP 1250
(Fingertip Software)
-
CP 1251
-
Zeichensatz "Codepage 1251"
(256 Zeichen, auch WinCyrillic genannt)
alternativer Link:
CP 1251
(Fingertip Software)
-
CP 1252
-
Zeichensatz "Codepage 1252"
(256 Zeichen, auch WinLatin 1 genannt);
Standardzeichensatz unter Windows, beinhaltet die ersten 128 Zeichen vom
ASCII-Zeichensatz
-
EBCDIC
-
Zeichensatz "EBCDIC" (Extended Binary Coded Decimal Information Code),
Standardzeichensatz bei älteren IBM-Mainframes,
nicht kompatibel mit ASCII und Unicode
(256 Zeichen)
-
ISO-8859-1
-
Zeichensatz "ISO-Latin-1", auch "ISO-8859-1" genannt;
Standard-Zeichensatz unter Unix (256 Zeichen)
ISO-8859-1 stimmt mit den ersten 256 Zeichen des Unicode-Zeichensatzes
"ISO 10646" überein und beinhaltet die ersten 128 Zeichen vom
ASCII-Zeichensatz)
vgl. auch
ISO 8859-1
National Character Set FAQ (University of Utrecht),
ISO 8859-1 National Character Set FAQ
(Universität Gießen)
und die Erklärungen zu ISO-Latin 1-Supplement
oben
-
ISO-8859-5,
Unicode-Zeichen
0400-04FF
-
Zeichensatz "ISO-8859-5", auch "ISO-Latin 5" genannt
(kyrillischer Zeichensatz der ISO-Gruppe)
alternative Links des identischen Zeichensatzes "Unicode Cyrillic"
(Zeichen 0400-04FF) vom Unicode Consortium:
PDF-File,
vgl. auch
ISO 8859-5/Soviet
GOST 19768-74 (Fingertip Software),
Unicode Cyrillic
Supplement (Zeichen 0500-052F)
-
ISO-10646/Unicode-Standard
-
Zeichensatz "ISO-10646", auch "Unicode" genannt, wurde in HTML und in
Java als Standardzeichensatz ausgewählt
vgl. auch:
Unicode-Zeichen,
Unicode-Standard
RFC 2070
("Internationalization of the Hypertext Markup Language")
-
ISO-IR-11
-
Zeichensatz "ISO-IR-111", auch "ECMA-Cyrillic" genannt
(kyrillischer Zeichensatz)
alternative Links:
ISO-IR-111
(Fingertip Software)
RFC 1489
("Registration of a Cyrillic Character Set")
-
KOI-8
-
Zeichensatz "KOI-8" (8-bitny Kod dla Obmena i obrabotki Informacii)
(kyrillischer Zeichensatz, auch "Cyrillic ASCII" genannt)
vgl. auch
KOI8-R
von Relcom,
RFC 1489 für
KOI8-R ("Registration of a Cyrillic Character Set")
-
MacRoman
-
Zeichensatz "Macintosh Roman" (Standardzeichensatz
am Macintosh)
-
MacUkrainian
-
Zeichensatz "Macintosh Cyrillic" (kyrillischer Standardzeichensatz
am Macintosh, auch "Mac Ukrainian" genannt)
alternative Links:
Macintosh
Cyrillic
(Fingertip Software)
|