Universität Bayreuth

Mathematisches
Institut

Einleitung

Erste Schritte

Mail und News

Drucken

KDE

LaTeX/TeX

Linksammlung

Linuxtools

Netzwerk

Programmieren

Windows

X Window

Anträge

Kontakt

Java-Tools

native2ascii

Das Tool native2ascii dient zur Konvertierung von beliebigen Textdateien mit landes- und plattformspezifischen Zeichensätzen in den Unicode-Zeichensatz und umgekehrt. So ist auch mit einem kleinen Umweg über Unicode möglich, zwischen verschiedenen spezifischen Zeichensätzen zu konvertieren.

Beispielaufrufe unter Linux
Beispielaufrufe unter Windows
Links zu native2ascii
Links zu Zeichensätzen

top

Beispielaufrufe unter Linux

Als Referenz seien hier einige Aufrufe unter Linux aufgeführt, der Standardzeichensatz unter Unix ist ISO8859_1:

native2ascii zeichen_unix.txt zeichen_unicode.txt Der Aufruf erfolgt grundsätzlich mit zwei Dateienamen, die input-Datei an erster und die output-Datei an zweiter Stelle.

native2ascii zeichen_unix.txt Lässt man output-Datei aus, so wird die Standardausgabe verwendet (z.B. Shell-Fenster)

native2ascii
Es sieht ungefähr so aus:

> native2ascii Ä \u00c4 z z § \u00a7
Man kann das Tool ganz ohne Parameter aufrufen, dann wandelt native2ascii Zeichen unmittelbar mit Ein- und Ausgabe im Terminal um. Der Aufruf muss dann mit Ctrl-D beendet werden.

native2ascii -encoding ISO8859_1 \ zeichen_unix.txt zeichen_unicode.txt So kann man den Ausgangszeichensatz explizit angeben. Wird es nicht gemacht wie beim ersten Aufruf, so wird vom Standardzeichensatz des Systems ausgegangen. Der könnte z.B. mit diesem Java-Programm ermittelt werden.

native2ascii -reverse -encoding ISO8859_1 \ zeichen_unicode.txt zeichen_unix.txt Mit der Option -reverse wandelt man umgekehrt eine Unicode-Datei in den angegebenen Zeichensatz um.

native2ascii -encoding ISO8859_1 \ zeichen_unix.txt zeichen_unicode.txt
native2ascii -reverse -encoding Cp1252 \ zeichen_unicode.txt zeichen_win.txt Die zwei nacheinander folgenden Aufrufe sorgen dafür, dass die gegebene Datei zuerst in Unicode umgewandelt wird, und dann im zweiten Schritt in den gewünschten Zeichensatz

native2ascii -encoding ISO8859_1 \ zeichen_unix.txt | native2ascii \ -reverse -encoding Cp1252 > zeichen_win.txt Mit einer Pipe "|" kann man die letzte Anwendung, die aus zwei Aufrufen besteht, in einem zusammenfassen (Ausgabe des 1. Kommandos wird zur Eingabe des 2. Kommandos, die Ausgabe des 2. Kommandos wird mit der Ausgabeumlenkung ">" in eine Ausgabedatei geschrieben).

Beispieldateien zum Download:
zeichen_unix.txt
zeichen_unicode.txt
zeichen_win.txt
zeichen_dos.txt

top

Beispielaufrufe unter Windows

Die Aufrufe unter Windows unterscheiden sich nicht wesentlich von denen unter Linux, hier gehen wir von Cp1252 als Standardzeichensatz aus:

native2ascii zeichen_win.txt zeichen_unicode.txt Der Aufruf erfolgt grundsätzlich mit zwei Dateienamen, die input-Datei an erster und die output-Datei an zweiter Stelle.

native2ascii zeichen_win.txt Lässt man output-Datei aus, so wird die Standardausgabe verwendet (z.B. Shell-Fenster)

native2ascii
Es sieht ungefähr so aus:

> native2ascii Ä \u00c4 z z § \u00a7
Man kann das Tool ganz ohne Parameter aufrufen, dann wandelt native2ascii Zeichen unmittelbar mit Ein- und Ausgabe im Terminal um. Der Aufruf muss dann mit Ctrl-Z beendet werden.

native2ascii -encoding Cp1252 \ zeichen_win.txt zeichen_unicode.txt So kann man den Ausgangszeichensatz explizit angeben. Wird es nicht gemacht wie beim ersten Aufruf, so wird vom Standardzeichensatz des Systems ausgegangen. Der könnte z.B. mit diesem Java-Programm ermittelt werden.

native2ascii -reverse -encoding Cp1252 \ zeichen_unicode.txt zeichen_unix.txt Mit der Option -reverse wandelt man umgekehrt eine Unicode-Datei in den angegebenen Zeichensatz um.

native2ascii -encoding Cp1252 \ zeichen_win.txt zeichen_unicode.txt
native2ascii -reverse -encoding ISO8859_1 \ zeichen_unicode.txt zeichen_unix.txt Die zwei nacheinander folgenden Aufrufe sorgen dafür, dass die gegebene Datei zuerst in Unicode umgewandelt wird, und dann im zweiten Schritt in den gewünschten Zeichensatz

native2ascii -encoding ISO8859_1 \ zeichen_unix.txt | native2ascii \ -reverse -encoding Cp1252 > zeichen_win.txt Mit einer Pipe "|" kann man die letzte Anwendung, die aus zwei Aufrufen besteht, in einem zusammenfassen (Ausgabe des 1. Kommandos wird zur Eingabe des 2. Kommandos, die Ausgabe des 2. Kommandos wird mit der Ausgabeumlenkung ">" in eine Ausgabedatei geschrieben).

native2ascii -encoding Cp437 \ zeichen_dos.txt | native2ascii \ -reverse -encoding Cp1252 > zeichen_win.txt Dieser Aufruf ist ein Beispiel für die häufige Aufgabe, MS-DOS-Zeichensatz in Windows-Zeichensatz umzuwandeln und unterscheidet sich nicht prinzipiell von dem letzten.

Beispieldateien zum Download: siehe oben

top

Links zu native2ascii

Informationen von Sun:

Java-Plattform J2SE, Version 1.5

Java-Plattform J2SE, Version 1.4

Java-Plattform J2SE, Version 1.3

Java-Plattform J2SE, Version 1.2

Dokumentation zu native2ascii (verschiedene Versionen)

Supported encodings, Version 1.5

Supported encodings, Version 1.4

Supported encodings, Version 1.3

Supported encodings, Version 1.2

Liste der unterstützen Zeichensätze (verschiedene Versionen)

Ausführlichere Spezifikationen zu den wichtigsten Zeichensätzen

Informationen des Unicode Consortiums:
Unicode Homepage

Code Charts

Zeichensatztabelle im PDF-Format

Informationen von Roman Czyborra
Die Domain "czyborra.com" und "http://huizen.dds.nl/~czyborra/" sind leider seit langem nicht mehr erreichbar und die URLs "http://wwwwbs.cs.tu-berlin.de/user/czyborra/", "http://user.cs.tu-berlin.de/~czyborra/" enthalten leider nicht mehr (alle vollständig) diese Informationen, deshalb für lokale User andere Links:
ASCII/Basic Latin, US-ASCII

Zeichensatz "American standard code for information technology" (128 Zeichen, auch "US-ASCII" genannt;
1. Teil der Zeichensaetze "ISO-Latin-1", "Cp1252" und vom Unicode-Zeichensatz "ISO 10646", daher Teil des Standardzeichensatzes unter Unix und Windows
alternativer Link mit dem identischen Zeichensatz "Unicode Basic Latin" (Zeichen 0000-007F) vom Unicode Consortium:
PDF-File, GIF-File,
ASCII (Fingertip Software)

ISO-Latin-1 Supplement

2. Teil des Zeichensatz "ISO-Latin-1", auch "ISO-8859-1" genannt; Standardzeichensatz unter Unix
(128 weitere Zeichen zu den ersten 128 Zeichen aus dem ASCII-Zeichensatz; ISO-Latin 1-Supplement stimmt mit den zweiten 128 Zeichen des Unicode-Zeichensatzes "ISO 10646" überein)
alternative Links:
identischer Zeichensatz "Unicode Latin-1 Supplement" (Zeichen 0080-00FF) vom Unicode Consortium:
PDF-File, GIF-File

CP 437

Zeichensatz "Codepage 437" (256 Zeichen, auch "DOSLatinUS" genannt)

CP 850

Zeichensatz "Codepage 850" (256 Zeichen, auch "DOSLatin-1" genannt)
alternativer Link:
IBM850/CP 850 (RFC 1345 "Character Mnemonics & Character Sets")

CP 855

Zeichensatz "Codepage 855" (256 Zeichen, auch "DOSCyrillic" genannt)

CP 866

Zeichensatz "Codepage 866" (256 Zeichen, auch "DOSCyrillicRussian" genannt)
alternativer Link:
CP866 (Fingertip Software)

CP 1250

Zeichensatz "Codepage 1250" (256 Zeichen, auch Windows Central European genannt)
alternativer Link:
CP 1250 (Fingertip Software)

CP 1251

Zeichensatz "Codepage 1251" (256 Zeichen, auch WinCyrillic genannt)
alternativer Link:
CP 1251 (Fingertip Software)

CP 1252

Zeichensatz "Codepage 1252" (256 Zeichen, auch WinLatin 1 genannt);
Standardzeichensatz unter Windows, beinhaltet die ersten 128 Zeichen vom ASCII-Zeichensatz

EBCDIC

Zeichensatz "EBCDIC" (Extended Binary Coded Decimal Information Code), Standardzeichensatz bei älteren IBM-Mainframes, nicht kompatibel mit ASCII und Unicode (256 Zeichen)

ISO-8859-1

Zeichensatz "ISO-Latin-1", auch "ISO-8859-1" genannt; Standard-Zeichensatz unter Unix (256 Zeichen)
ISO-8859-1 stimmt mit den ersten 256 Zeichen des Unicode-Zeichensatzes "ISO 10646" überein und beinhaltet die ersten 128 Zeichen vom ASCII-Zeichensatz)
vgl. auch ISO 8859-1 National Character Set FAQ (University of Utrecht),
ISO 8859-1 National Character Set FAQ (Universität Gießen)
und die Erklärungen zu ISO-Latin 1-Supplement oben

ISO-8859-5, Unicode-Zeichen 0400-04FF

Zeichensatz "ISO-8859-5", auch "ISO-Latin 5" genannt (kyrillischer Zeichensatz der ISO-Gruppe)
alternative Links des identischen Zeichensatzes "Unicode Cyrillic" (Zeichen 0400-04FF) vom Unicode Consortium:
PDF-File,
vgl. auch ISO 8859-5/Soviet GOST 19768-74 (Fingertip Software),
Unicode Cyrillic Supplement (Zeichen 0500-052F)

ISO-10646/Unicode-Standard

Zeichensatz "ISO-10646", auch "Unicode" genannt, wurde in HTML und in Java als Standardzeichensatz ausgewählt
vgl. auch:
Unicode-Zeichen,
Unicode-Standard
RFC 2070 ("Internationalization of the Hypertext Markup Language")

ISO-IR-11

Zeichensatz "ISO-IR-111", auch "ECMA-Cyrillic" genannt
(kyrillischer Zeichensatz)
alternative Links:
ISO-IR-111 (Fingertip Software)
RFC 1489 ("Registration of a Cyrillic Character Set")

KOI-8

Zeichensatz "KOI-8" (8-bitny Kod dla Obmena i obrabotki Informacii)
(kyrillischer Zeichensatz, auch "Cyrillic ASCII" genannt)
vgl. auch KOI8-R von Relcom,
RFC 1489 für KOI8-R ("Registration of a Cyrillic Character Set")

MacRoman

Zeichensatz "Macintosh Roman" (Standardzeichensatz am Macintosh)

MacUkrainian

Zeichensatz "Macintosh Cyrillic" (kyrillischer Standardzeichensatz am Macintosh, auch "Mac Ukrainian" genannt)
alternative Links:
Macintosh Cyrillic (Fingertip Software)

top

Verbesserungsvorschläge, Fragen und Anregungen an
Robert Baier (

$[Seitenzähler]$ Last modified: 22.07.2015