[Logo der Universität Bayreuth]
Universität Bayreuth

Mathematisches
Institut



 Einleitung

 Erste Schritte

 Mail und News

 Drucken

 KDE

 LaTeX/TeX

 Linksammlung

 Linuxtools

 Netzwerk

 Programmieren

 Windows

 X Window

 Anträge

 Kontakt

Java-Tools <-

native2ascii

Das Tool native2ascii dient zur Konvertierung von beliebigen Textdateien mit landes- und plattformspezifischen Zeichensätzen in den Unicode-Zeichensatz und umgekehrt. So ist auch mit einem kleinen Umweg über Unicode möglich, zwischen verschiedenen spezifischen Zeichensätzen zu konvertieren.
rightBeispielaufrufe unter Linux
rightBeispielaufrufe unter Windows
rightLinks zu native2ascii
rightLinks zu Zeichensätzen
top top

Beispielaufrufe unter Linux

Als Referenz seien hier einige Aufrufe unter Linux aufgeführt, der Standardzeichensatz unter Unix ist ISO8859_1:
native2ascii zeichen_unix.txt zeichen_unicode.txt Der Aufruf erfolgt grundsätzlich mit zwei Dateienamen, die input-Datei an erster und die output-Datei an zweiter Stelle.
native2ascii zeichen_unix.txt Lässt man output-Datei aus, so wird die Standardausgabe verwendet (z.B. Shell-Fenster)
native2ascii
Es sieht ungefähr so aus:

> native2ascii
Ä
\u00c4
z
z
§
\u00a7
Man kann das Tool ganz ohne Parameter aufrufen, dann wandelt native2ascii Zeichen unmittelbar mit Ein- und Ausgabe im Terminal um. Der Aufruf muss dann mit Ctrl-D beendet werden.
native2ascii -encoding ISO8859_1 \
zeichen_unix.txt zeichen_unicode.txt
So kann man den Ausgangszeichensatz explizit angeben. Wird es nicht gemacht wie beim ersten Aufruf, so wird vom Standardzeichensatz des Systems ausgegangen. Der könnte z.B. mit diesem Java-Programm ermittelt werden.
native2ascii -reverse -encoding ISO8859_1 \
zeichen_unicode.txt zeichen_unix.txt
Mit der Option -reverse wandelt man umgekehrt eine Unicode-Datei in den angegebenen Zeichensatz um.
native2ascii -encoding ISO8859_1 \
zeichen_unix.txt zeichen_unicode.txt

native2ascii -reverse -encoding Cp1252 \
zeichen_unicode.txt zeichen_win.txt
Die zwei nacheinander folgenden Aufrufe sorgen dafür, dass die gegebene Datei zuerst in Unicode umgewandelt wird, und dann im zweiten Schritt in den gewünschten Zeichensatz
native2ascii -encoding ISO8859_1 \
zeichen_unix.txt | native2ascii \
-reverse -encoding Cp1252 > zeichen_win.txt
Mit einer Pipe "|" kann man die letzte Anwendung, die aus zwei Aufrufen besteht, in einem zusammenfassen (Ausgabe des 1. Kommandos wird zur Eingabe des 2. Kommandos, die Ausgabe des 2. Kommandos wird mit der Ausgabeumlenkung ">" in eine Ausgabedatei geschrieben).
Beispieldateien zum Download:
zeichen_unix.txt
zeichen_unicode.txt
zeichen_win.txt
zeichen_dos.txt
top top

Beispielaufrufe unter Windows

Die Aufrufe unter Windows unterscheiden sich nicht wesentlich von denen unter Linux, hier gehen wir von Cp1252 als Standardzeichensatz aus:
native2ascii zeichen_win.txt zeichen_unicode.txt Der Aufruf erfolgt grundsätzlich mit zwei Dateienamen, die input-Datei an erster und die output-Datei an zweiter Stelle.
native2ascii zeichen_win.txt Lässt man output-Datei aus, so wird die Standardausgabe verwendet (z.B. Shell-Fenster)
native2ascii
Es sieht ungefähr so aus:

> native2ascii
Ä
\u00c4
z
z
§
\u00a7
Man kann das Tool ganz ohne Parameter aufrufen, dann wandelt native2ascii Zeichen unmittelbar mit Ein- und Ausgabe im Terminal um. Der Aufruf muss dann mit Ctrl-Z beendet werden.
native2ascii -encoding Cp1252 \
zeichen_win.txt zeichen_unicode.txt
So kann man den Ausgangszeichensatz explizit angeben. Wird es nicht gemacht wie beim ersten Aufruf, so wird vom Standardzeichensatz des Systems ausgegangen. Der könnte z.B. mit diesem Java-Programm ermittelt werden.
native2ascii -reverse -encoding Cp1252 \
zeichen_unicode.txt zeichen_unix.txt
Mit der Option -reverse wandelt man umgekehrt eine Unicode-Datei in den angegebenen Zeichensatz um.
native2ascii -encoding Cp1252 \
zeichen_win.txt zeichen_unicode.txt

native2ascii -reverse -encoding ISO8859_1 \
zeichen_unicode.txt zeichen_unix.txt
Die zwei nacheinander folgenden Aufrufe sorgen dafür, dass die gegebene Datei zuerst in Unicode umgewandelt wird, und dann im zweiten Schritt in den gewünschten Zeichensatz
native2ascii -encoding ISO8859_1 \
zeichen_unix.txt | native2ascii \
-reverse -encoding Cp1252 > zeichen_win.txt
Mit einer Pipe "|" kann man die letzte Anwendung, die aus zwei Aufrufen besteht, in einem zusammenfassen (Ausgabe des 1. Kommandos wird zur Eingabe des 2. Kommandos, die Ausgabe des 2. Kommandos wird mit der Ausgabeumlenkung ">" in eine Ausgabedatei geschrieben).
native2ascii -encoding Cp437 \
zeichen_dos.txt | native2ascii \
-reverse -encoding Cp1252 > zeichen_win.txt
Dieser Aufruf ist ein Beispiel für die häufige Aufgabe, MS-DOS-Zeichensatz in Windows-Zeichensatz umzuwandeln und unterscheidet sich nicht prinzipiell von dem letzten.
Beispieldateien zum Download: siehe oben
top top

Links zu native2ascii

Informationen von Sun:

<- Java-Plattform J2SE, Version 1.5
<- Java-Plattform J2SE, Version 1.4
<- Java-Plattform J2SE, Version 1.3
<- Java-Plattform J2SE, Version 1.2
Dokumentation zu native2ascii (verschiedene Versionen)

<- Supported encodings, Version 1.5
<- Supported encodings, Version 1.4
<- Supported encodings, Version 1.3
<- Supported encodings, Version 1.2
Liste der unterstützen Zeichensätze (verschiedene Versionen)

Ausführlichere Spezifikationen zu den wichtigsten Zeichensätzen

Informationen des Unicode Consortiums:
<- Unicode Homepage
<- Code Charts
Zeichensatztabelle im PDF-Format

Informationen von Roman Czyborra

Die Domain "czyborra.com" und "http://huizen.dds.nl/~czyborra/" sind leider seit langem nicht mehr erreichbar und die URLs "http://wwwwbs.cs.tu-berlin.de/user/czyborra/", "http://user.cs.tu-berlin.de/~czyborra/" enthalten leider nicht mehr (alle vollständig) diese Informationen, deshalb für lokale User andere Links:

<- ASCII/Basic Latin, US-ASCII
Zeichensatz "American standard code for information technology" (128 Zeichen, auch "US-ASCII" genannt;
1. Teil der Zeichensaetze "ISO-Latin-1", "Cp1252" und vom Unicode-Zeichensatz "ISO 10646", daher Teil des Standardzeichensatzes unter Unix und Windows
alternativer Link mit dem identischen Zeichensatz "Unicode Basic Latin" (Zeichen 0000-007F) vom Unicode Consortium:
PDF-File, GIF-File,
ASCII (Fingertip Software)
<- ISO-Latin-1 Supplement
2. Teil des Zeichensatz "ISO-Latin-1", auch "ISO-8859-1" genannt; Standardzeichensatz unter Unix
(128 weitere Zeichen zu den ersten 128 Zeichen aus dem ASCII-Zeichensatz; ISO-Latin 1-Supplement stimmt mit den zweiten 128 Zeichen des Unicode-Zeichensatzes "ISO 10646" überein)
alternative Links:
identischer Zeichensatz "Unicode Latin-1 Supplement" (Zeichen 0080-00FF) vom Unicode Consortium:
PDF-File, GIF-File

<- CP 437
Zeichensatz "Codepage 437" (256 Zeichen, auch "DOSLatinUS" genannt)
<- CP 850
Zeichensatz "Codepage 850" (256 Zeichen, auch "DOSLatin-1" genannt)
alternativer Link:
IBM850/CP 850 (RFC 1345 "Character Mnemonics & Character Sets")

<- CP 855
Zeichensatz "Codepage 855" (256 Zeichen, auch "DOSCyrillic" genannt)
<- CP 866
Zeichensatz "Codepage 866" (256 Zeichen, auch "DOSCyrillicRussian" genannt)
alternativer Link:
CP866 (Fingertip Software)

<- CP 1250
Zeichensatz "Codepage 1250" (256 Zeichen, auch Windows Central European genannt)
alternativer Link:
CP 1250 (Fingertip Software)
<- CP 1251
Zeichensatz "Codepage 1251" (256 Zeichen, auch WinCyrillic genannt)
alternativer Link:
CP 1251 (Fingertip Software)
<- CP 1252
Zeichensatz "Codepage 1252" (256 Zeichen, auch WinLatin 1 genannt);
Standardzeichensatz unter Windows, beinhaltet die ersten 128 Zeichen vom ASCII-Zeichensatz

<- EBCDIC
Zeichensatz "EBCDIC" (Extended Binary Coded Decimal Information Code), Standardzeichensatz bei älteren IBM-Mainframes, nicht kompatibel mit ASCII und Unicode (256 Zeichen)

<- ISO-8859-1
Zeichensatz "ISO-Latin-1", auch "ISO-8859-1" genannt; Standard-Zeichensatz unter Unix (256 Zeichen)
ISO-8859-1 stimmt mit den ersten 256 Zeichen des Unicode-Zeichensatzes "ISO 10646" überein und beinhaltet die ersten 128 Zeichen vom ASCII-Zeichensatz)
vgl. auch ISO 8859-1 National Character Set FAQ (University of Utrecht),
ISO 8859-1 National Character Set FAQ (Universität Gießen)
und die Erklärungen zu ISO-Latin 1-Supplement oben
<- ISO-8859-5, Unicode-Zeichen 0400-04FF
Zeichensatz "ISO-8859-5", auch "ISO-Latin 5" genannt (kyrillischer Zeichensatz der ISO-Gruppe)
alternative Links des identischen Zeichensatzes "Unicode Cyrillic" (Zeichen 0400-04FF) vom Unicode Consortium:
PDF-File,
vgl. auch ISO 8859-5/Soviet GOST 19768-74 (Fingertip Software),
Unicode Cyrillic Supplement (Zeichen 0500-052F)
<- ISO-10646/Unicode-Standard
Zeichensatz "ISO-10646", auch "Unicode" genannt, wurde in HTML und in Java als Standardzeichensatz ausgewählt
vgl. auch:
Unicode-Zeichen,
Unicode-Standard
RFC 2070 ("Internationalization of the Hypertext Markup Language")
<- ISO-IR-11
Zeichensatz "ISO-IR-111", auch "ECMA-Cyrillic" genannt
(kyrillischer Zeichensatz)
alternative Links:
ISO-IR-111 (Fingertip Software)
RFC 1489 ("Registration of a Cyrillic Character Set")

<- KOI-8
Zeichensatz "KOI-8" (8-bitny Kod dla Obmena i obrabotki Informacii)
(kyrillischer Zeichensatz, auch "Cyrillic ASCII" genannt)
vgl. auch KOI8-R von Relcom,
RFC 1489 für KOI8-R ("Registration of a Cyrillic Character Set")

<- MacRoman
Zeichensatz "Macintosh Roman" (Standardzeichensatz am Macintosh)
<- MacUkrainian
Zeichensatz "Macintosh Cyrillic" (kyrillischer Standardzeichensatz am Macintosh, auch "Mac Ukrainian" genannt)
alternative Links:
Macintosh Cyrillic (Fingertip Software)
top top

Verbesserungsvorschläge, Fragen und Anregungen an
Robert Baier ([e-mail-Adresse von Robert Baier])
© 2003 Robert Baier; © 1999-2002 Robert Baier, Sascha Herrmann
Java-Seiten: © 2002 Robert Baier, Igor Kornienko
[Seitenzähler] Last modified: 22.07.2015