EnglischFranzösischSpanisch

Ad


OnWorks-Favicon

enconv – Online in der Cloud

Führen Sie enconv im kostenlosen Hosting-Anbieter OnWorks über Ubuntu Online, Fedora Online, den Windows-Online-Emulator oder den MAC OS-Online-Emulator aus

Dies ist der Befehl enconv, der beim kostenlosen Hosting-Anbieter OnWorks mit einer unserer zahlreichen kostenlosen Online-Workstations wie Ubuntu Online, Fedora Online, dem Windows-Online-Emulator oder dem MAC OS-Online-Emulator ausgeführt werden kann

PROGRAMM:

NAME/FUNKTION


enca – erkennt und konvertiert die Kodierung von Textdateien

ZUSAMMENFASSUNG


Widerstand [-L SPRACHE] [zur Auswahl]... [FILE] ...
enconv [-L SPRACHE] [zur Auswahl]... [FILE] ...

EINFÜHRUNG UND Beispiele:


Wenn Sie Glück haben, müssen Sie nur zwei Dinge wissen: Befehl

Widerstand FILE

wird Ihnen sagen, welche Kodierungsdatei FILE verwendet (ohne es zu ändern) und

enconv FILE

wird die Datei konvertieren FILE zur nativen Codierung Ihres Gebietsschemas. Um die Datei in eine andere zu konvertieren
Codierung verwenden -x Option (siehe -x Eintrag im Abschnitt OPTIONAL und Abschnitte UMWANDLUNG und
CODIERUNGEN für Details).

Beide funktionieren auch mit mehreren Dateien und der Standardeingabe (Ausgabe). Z.B

enca -x latin2

Stellt sicher, dass die Datei „sometext“ in ISO Latin 2 vorliegt, wenn sie an den Drucker gesendet wird.

Der Hauptgrund, warum dieser Befehl fehlschlägt und Ihre Dateien in Müll verwandelt, ist Enca
muss ihre Sprache kennen, um die Kodierung zu erkennen. Es versucht, Ihre Sprache zu bestimmen
und bevorzugten Zeichensatz aus den Gebietsschemaeinstellungen, der möglicherweise nicht Ihren Wünschen entspricht.

Sie können (oder müssen) verwenden -L Option, ihm die richtige Sprache zu sagen. Angenommen, Sie haben heruntergeladen
eine russische HTML-Datei, „file.htm“, behauptet, es sei Windows-1251, ist es aber nicht. Also rennst du

enca -L ru file.htm

und finden Sie heraus, dass es KOI8-R ist (zum Beispiel). Seien Sie gewarnt, derzeit werden nicht viele davon unterstützt
Sprachen (siehe Abschnitt SPRACHEN).

Eine weitere Warnung betrifft die Tatsache, dass Enca mehrere Funktionen bietet, nämlich die Zeichensatzkonvertierung
Funktionen hängen stark davon ab, welche anderen Tools auf Ihrem System installiert sind (siehe
Abschnitt KONVERTIERUNG)--Lauf

enca --version

um eine Liste der Funktionen zu erhalten (siehe Abschnitt MERKMALE). Probiere auch

enca --help

um eine Beschreibung aller anderen Enca-Optionen zu erhalten (und um den Rest dieser Handbuchseite zu finden).
überflüssig).

BESCHREIBUNG


Enca liest vorgegebene Textdateien oder Standardeingaben, wenn keine vorhanden sind, und nutzt das Wissen
über ihre Sprache (muss von Ihnen unterstützt werden) und eine Mischung aus Analyse und Statistik
Analyse, Vermutungen und schwarze Magie, um ihre Kodierungen zu bestimmen, in die dann gedruckt wird
Standardausgabe (oder es gibt zu, dass es keine Ahnung hat, wie die Codierung aussehen könnte). Von
Standardmäßig präsentiert Enca die Ergebnisse als mehrzeilige, für Menschen lesbare Beschreibungen, mehrere andere
Formate sind verfügbar – siehe Ausgabetyp-Selektoren unten.

Enca kann Dateien auch in eine andere Kodierung konvertieren ENC wenn Sie danach fragen – entweder mit a
eingebauter Konverter, eine Konvertierungsbibliothek oder durch Aufrufen eines externen Konverters.

Das Hauptziel von Enca besteht jedoch darin, als automatisches Konvertierungstool unbeaufsichtigt nutzbar zu sein
möglicherweise noch nicht an diesem Punkt angekommen (siehe Abschnitt SICHERHEIT).

Bitte beachten Sie, dass Enca, außer in seltenen Fällen, die Sprache der zu übergebenden Eingabedateien wirklich kennen muss
Dir eine verlässliche Antwort. Mit Dateien, die es gibt, kommt es dann aber ganz gut zurecht
nicht rein textuell oder erkennt nicht einmal den Zeichensatz von Textzeichenfolgen in einer Binärdatei; von
Natürlich kommt es auf den Charakter der Nichttextkomponente an.

Enca kümmert sich nicht um die Struktur der Eingabedateien, sondern betrachtet sie als einen einheitlichen Teil davon
Text/Daten. Bei mehrteiligen Dateien (z. B. Postfächern) müssen Sie einige Tools verwenden, die Sie kennen
die Struktur, um zunächst die einzelnen Teile zu extrahieren. Es sind die Kosten für die Erkennungsfähigkeit
Kodierungen beschädigter, unvollständiger oder anderweitig fehlerhafter Dateien.

OPTIONAL


Es gibt mehrere Kategorien von Optionen: Betriebsmodusoptionen, Ausgangstypselektoren,
Schätzparameter, Konvertierungsparameter, allgemeine Optionen und Auflistungen.

Alle langen Optionen können abgekürzt werden, sofern es sich um eindeutige, obligatorische Parameter handelt
von Long-Optionen sind auch für Short-Optionen obligatorisch.

Produktion Modi
Folgen:

-c, --auto-convert
Entspricht dem Aufruf von Enca als enconv.

Wenn kein Ausgabetyp-Selektor angegeben ist, erkennen Sie Dateikodierungen und erraten Sie Ihre
Bevorzugten Zeichensatz aus Gebietsschemas importieren und Dateien dorthin konvertieren (nur verfügbar mit
+target-charset-auto-Funktion).

-g, --vermuten
Entspricht dem Aufruf von Enca als Widerstand.

Wenn kein Ausgabetyp-Selektor angegeben ist, werden Dateikodierungen erkannt und gemeldet.

Output tippe Selektoren
Wählen Sie aus, welche Aktion Enca ausführen soll, wenn es die Kodierung bestimmt. die meisten von ihnen einfach
Wählen Sie zwischen verschiedenen Namen, Formaten und Konventionen, wie Kodierungen gedruckt werden können, aber
einer von ihnen (-x) ist etwas Besonderes: Es weist Enca an, Dateien in eine andere Kodierung umzukodieren ENC.
Diese Optionen schließen sich gegenseitig aus; wenn Sie mehr als einen Ausgabetypselektor angeben
Letzteres hat Vorrang.

Mehrere Ausgabetypen stellen Zeichensatznamen dar, die von anderen Programmen verwendet werden, jedoch nicht alle
Programme kennen alle Zeichensätze, die Enca erkennt. Seien Sie gewarnt, Enca macht keinen Unterschied
zwischen einem nicht erkannten Zeichensatz und einem Zeichensatz, der im angegebenen Namespace keinen Namen hat
Situationen.

-d, --Einzelheiten
Früher wurden ein paar Seiten mit Details über den Rateprozess gedruckt, aber seit Enca
Da es sich lediglich um ein Programm handelt, das mit der Enca-Bibliothek verknüpft ist, ist dies mit dieser Option nicht möglich
entspricht ungefähr --für Menschen lesbar, es sei denn, es wird der Fehlergrund gemeldet, wenn
Enca erkennt die Kodierung nicht.

-e, --enca-name
Gibt Encas schönen Namen des Zeichensatzes aus, also vielleicht den allgemein akzeptierten
und mehr oder weniger menschenlesbare Zeichensatzkennung mit angehängten Oberflächen.

Dieser Name wird auch beim Aufruf eines externen Konverters verwendet.

-f, --für Menschen lesbar
Gibt eine verbale Beschreibung des erkannten Zeichensatzes und der Oberflächen aus – etwas Menschliches
versteht es am besten. Dies ist das Standardverhalten.

Das genaue Format ist wie folgt: Die erste Zeile enthält nur den Zeichensatznamen und
Es folgen null oder mehr eingerückte Zeilen mit den Namen der erkannten Oberflächen.
Dieses Format ist jedoch nicht für die maschinelle Weiterverarbeitung geeignet oder vorgesehen,
und die verbalen Zeichensatzbeschreibungen werden sich in Zukunft wahrscheinlich ändern.

-i, --iconv-name
Druckt wie iconv(3) (und/oder iconv(1)) ruft den erkannten Zeichensatz auf. Etwas präziser,
Es gibt einen mehr oder weniger willkürlich gewählten Alias ​​aus, der von iconv akzeptiert wird. Ein Zeichensatz
unbekannt für iconv gilt als unbekannt.

Dieser Ausgabetyp ist nur sinnvoll, wenn Enca mit Iconv-Unterstützung kompiliert wird (Feature
+iconv-interface).

-r, --rfc1345-name
Gibt den RFC 1345-Zeichensatznamen aus. Wenn ein solcher Name aufgrund von RFC 1345 nicht existiert
definiert keine bestimmte Codierung, keinen anderen Namen, der in einem anderen RFC definiert ist, oder einfach nur
der Name, den der Autor für „den kanonischsten“ hält, wird abgedruckt.

Da RFC 1345 keine Oberflächen definiert, werden keine Oberflächeninformationen angehängt.

-m, --mime-name
Gibt den bevorzugten MIME-Namen des erkannten Zeichensatzes aus. Dies ist der Name, den Sie wählen sollten
Wird normalerweise zum Reparieren von E-Mails oder Webseiten verwendet.

Ein Zeichensatz, der in nicht vorhanden ist http://www.iana.org/assignments/character-sets gilt als
unbekannt.

-s, --cstocs-name
Druckt wie cstocs(1) ruft den erkannten Zeichensatz auf. Ein Zeichensatz, der cstocs unbekannt ist
gilt als unbekannt.

-n, --name=WORD
Druckt den von ausgewählten Zeichensatznamen (Kodierung). WORD (kann so lange abgekürzt werden, wie es ist
eindeutig). Für die oben aufgeführten Namen gilt: --name=WORD entspricht --WORD.

Die richtigen Aliase da der Ausgabetyp dazu führt, dass Enca eine Liste aller akzeptierten Aliase druckt
des erkannten Zeichensatzes.

-x, --convert-to=[..]ENC
Konvertiert die Datei in eine Kodierung ENC.

Das optionale „..“ vor dem Kodierungsnamen hat keine besondere Bedeutung, außer Sie können es verwenden
Es soll dich daran erinnern, dass es anders ist als in recode(1) sollten Sie angeben erwünscht
Kodierung statt aktuell.

Sie können verwenden recode(1) Umkodierungsketten oder jede andere Art von hirntoter Umkodierung
Spezifikation für ENC, vorausgesetzt, Sie weisen Enca an, ein gewisses Verständnis für das Tool zu verwenden
es zur Konvertierung (siehe Abschnitt UMWANDLUNG).

Wenn Enca die Codierung nicht ermitteln kann, gibt es eine Warnung aus und hinterlässt die
Datei wie sie ist; Wenn es als Filter ausgeführt wird, versucht es sein Bestes, den Standard zu kopieren
Eingang zur Standardausgabe unverändert. Dennoch sollten Sie sich nicht darauf verlassen und es auch tun
Sicherung.

Raten Parameter
Es gibt nur einen: -L Festlegen der Sprache der Eingabedateien. Diese Option ist obligatorisch (siehe jedoch
unten).

-L, --Sprache=SPRACHE
Setzt die Sprache der Eingabedateien auf SPRACHE.

Etwas präziser, SPRACHE kann ein beliebiger gültiger Gebietsschemaname (oder ein Alias ​​mit +locale-alias) sein
Funktion) einer unterstützten Sprache. Sie können auch „none“ als Sprachnamen angeben.
Dann werden nur Multibyte-Kodierungen erkannt. Laufen

enca --list-Sprachen

um eine Liste der unterstützten Sprachen zu erhalten. Wenn Sie keine Sprache angeben, versucht Enca es
um Ihre Sprache anhand der Gebietsschemaeinstellungen zu erraten und davon auszugehen, dass Eingabedateien dies verwenden
Sprache. Siehe Sektion SPRACHEN für weitere Einzelheiten.

Umwandlung (Conversion) Parameter
geben Ihnen eine genauere Kontrolle darüber, wie die Zeichensatzkonvertierung durchgeführt wird. Sie beeinflussen nicht
irgendetwas wann -x ist nicht als Ausgabetyp angegeben. Bitte beachten Sie den Abschnitt UMWANDLUNG für die
blutige Konvertierungsdetails.

-C, --try-converters=LISTE
Fügt Komma getrennt hinzu LISTE zur Liste der Konverter, die bei Ihnen ausprobiert werden
um Konvertierung bitten. Ihre Namen können solange abgekürzt werden
eindeutig. Laufen

enca --list Konverter

um eine Liste aller gültigen Konverternamen zu erhalten (und siehe Abschnitt UMWANDLUNG für ihre
Beschreibung).

Die Standardliste hängt davon ab, wie Enca kompiliert und ausgeführt wurde

enca --help

um die Standardkonverterliste herauszufinden.

Beachten Sie, dass die Standardliste nur verwendet wird, wenn Sie keine Angabe machen -C überhaupt. Ansonsten,
Die Liste wird so aufgebaut, als wäre sie zunächst leer und alle -C fügt neue Konverter hinzu
dazu. Darüber hinaus spezifizieren keine als Konvertername führt zum Löschen des Konverters
Liste.

-E, --external-converter-program=PATH
Setzt den Namen des externen Konverterprogramms auf PATH. Der standardmäßige externe Konverter hängt davon ab
darüber, wie ENCA eingehalten wurde, und die Möglichkeit, externe Konverter zu verwenden
überhaupt nicht verfügbar sein. Laufen

enca --help

um das Standardkonverterprogramm in Ihrem Enca-Build herauszufinden.

Allgemeines Optionen
passen nicht in andere Optionskategorien...

-p, --mit-Dateiname
Zwingt Enca, jedem Ergebnis den entsprechenden Dateinamen voranzustellen. Standardmäßig Enca
Stellt den Ergebnissen Dateinamen voran, wenn es für mehrere Dateien ausgeführt wird.

Die Standardeingabe wird als gedruckt STDIN und Standardausgabe als STDOUT (Letzteres kann sein
wahrscheinlich nur in Fehlermeldungen zu sehen).

-P, --no-Dateiname
Zwingt Enca, den Ergebnissen keine Dateinamen voranzustellen. Standardmäßig verwendet Enca kein Präfix
Ergebnis mit Dateinamen, wenn es für eine einzelne Datei ausgeführt wird (einschließlich Standardeingabe).

-V, - ausführlich
Erhöht den Ausführlichkeitsgrad (jede Verwendung erhöht ihn um eins).

Derzeit ist diese Option nicht sehr nützlich, da verschiedene Teile von Enca reagieren
unterschiedlich zum gleichen Ausführlichkeitsgrad, meist überhaupt nicht.

Liste
sind alle terminal, d. h. wenn Enca auf einige von ihnen trifft, druckt es die erforderliche Liste aus
und wird beendet, ohne dass die folgenden Optionen verarbeitet werden.

-h, --help
Druckt eine kurze Hilfe zur Verwendung.

-G, --Lizenz
Druckt die vollständige Enca-Lizenz (wenn möglich über einen Pager).

-l, --list=WORD
Druckt die von angegebene Liste WORD (kann abgekürzt werden, solange es eindeutig ist).
Zu den verfügbaren Listen gehören:

integrierte Zeichensätze. Alle Kodierungen konvertierbar durch integrierten Konverter, nach Gruppe (beide).
Eingabe- und Ausgabekodierung müssen aus dieser Liste stammen und zur gleichen Gruppe gehören
interne Konvertierung).

integrierte Kodierungen. Gleichwertig integrierte Zeichensätze, aber als veraltet angesehen; Wille
mit einer Verwarnung für eine Weile akzeptiert werden.

Wandler. Alle gültigen Konverternamen (zur Verwendung mit -C).

Zeichensätze. Alle Kodierungen (Charsets). Sie können auswählen, welche Namen gedruckt werden sollen
mit --Name oder ein beliebiger Ausgabetypselektor (natürlich nur Kodierungen mit a
Der Name im angegebenen Namensraum wird dann gedruckt), der Selektor muss angegeben werden
Bevor --aufführen.

Kodierungen. Gleichwertig Zeichensätze, aber als veraltet angesehen; wird mit akzeptiert
eine Warnung, für eine Weile.

Sprachen. Alle unterstützten Sprachen zusammen mit den dazugehörigen Zeichensätzen. Notiz
Der Ausgabetyp wählt hier den Stil des Sprachnamens und nicht den Stil des Zeichensatznamens.

Namen. Alle möglichen Werte von --Name .

Listen. Alle möglichen Werte dieser Option. (Verrückt?)

Oberflächen. Alle Oberflächen, die Enca erkennt.

-v, --Version
Druckt die Programmversion und die Liste der Funktionen (siehe Abschnitt MERKMALE).

UMWANDLUNG


Obwohl Enca ursprünglich nur als Tool zum Erraten der Codierung konzipiert wurde, ist es jetzt so
bietet mehrere Methoden zur Zeichensatzkonvertierung. Sie können steuern, welche davon sein werden
benutzt mit -C.

Enca probiert nacheinander Konverter aus der von angegebenen Liste aus -C bis es etwas findet
ist in der Lage, die erforderliche Konvertierung durchzuführen oder bis die Liste erschöpft ist. Sie sollten angeben
Bevorzugte Konverter zuerst, weniger bevorzugte später. Externer Konverter (extern) sollte sein
immer zuletzt angegeben, nur als letztes Mittel, da eine Wiederherstellung normalerweise nicht möglich ist
wenn es scheitert. Die Standardliste der Konverter beginnt immer mit eingebaut und dann
geht weiter mit der ersten verfügbaren Version von: Librecode, iconv, Nichts.

Wenn Enca sagt, dass es die Konvertierung nicht durchführen kann, ist dies nur gemeint
Keiner der Konverter ist dazu in der Lage. Es kann immer noch möglich sein, das durchzuführen
erforderliche Konvertierung in mehreren Schritten und mit mehreren Konvertern, aber um herauszufinden, wie,
Wahrscheinlich ist menschliche Intelligenz erforderlich.

Eingebaut Konverter
ist die einfachste und bei weitem schnellste von allen und kann nur wenige Byte-zu-Byte ausführen
Konvertierungen und Änderungen an Dateien direkt vor Ort (kann als gefährlich angesehen werden, ist es aber).
ziemlich effizient). Sie können eine Liste aller Codierungen erhalten, mit denen konvertiert werden kann

enca --list integriert

Sein Hauptvorteil (und auch Nachteil) besteht neben der Geschwindigkeit darin, dass es ihm egal ist: es
Konvertiert einfach Zeichen mit einer Darstellung in der Zielkodierung, berührt sie nicht
alles andere und gibt nie eine Fehlermeldung aus.

Dieser Konverter kann als angegeben werden eingebaut mit -C.

Librecode Konverter
ist eine Schnittstelle zur GNU-Rekodierungsbibliothek, die die eigentliche Rekodierungsaufgabe übernimmt. Es kann oder kann
nicht kompiliert werden; laufen

enca --version

um die Verfügbarkeit in Ihrem Enca-Build herauszufinden (Funktion +librecode-interface).

Sie sollten damit vertraut sein recode(1) Bevor Sie es verwenden, da das Neucodieren eine ziemliche Angelegenheit ist
ausgefeiltes und leistungsstarkes Tool zur Zeichensatzkonvertierung. Bei der Verwendung können Probleme auftreten
zusammen mit Enca, insbesondere weil Encas Unterstützung für Oberflächen nicht 100 % kompatibel ist,
weil Recode zu sehr versucht, die Transformation umkehrbar zu machen, weil es manchmal so ist
I/O-Fehler stillschweigend ignoriert und weil es unglaublich fehlerhaft ist. Bitte sehen Sie sich die GNU-Neukodierung an
Weitere Informationen zur Recode-Bibliothek finden Sie auf den Infoseiten.

Dieser Konverter kann als angegeben werden Librecode mit -C.

Iconv Konverter
ist eine Schnittstelle zum UNIX98 iconv(3) Konvertierungsfunktionen, die die eigentliche Umkodierung durchführen
Arbeit. Es kann kompiliert sein oder auch nicht; laufen

enca --version

um die Verfügbarkeit in Ihrem Enca-Build herauszufinden (Funktion +iconv-interface).

Während iconv auf den meisten heutigen Systemen vorhanden ist, bietet es nur selten nützliche Funktionen
Verfügbare Konvertierungen, die einzige nennenswerte Ausnahme ist iconv von GNU libc. Es ist
Normalerweise ist es auch ziemlich wählerisch, wenn es um Oberflächen geht (während es gleichzeitig keine Oberfläche implementiert
Konvertierung). Es handelt sich jedoch wahrscheinlich um das einzige standardisierte (standardisierte) Werkzeug, das diese Leistung erbringen kann
Konvertierung von/nach Unicode. Einzelheiten hierzu finden Sie in der Dokumentation zu iconv
Funktionen auf Ihrem speziellen System.

Dieser Konverter kann als angegeben werden iconv mit -C.

Extern Konverter
ist ein beliebiges externes Konvertierungstool, das mit angegeben werden kann -E Option (höchstens eine
können gleichzeitig definiert werden). Es gibt einige Standards, die zusammen mit Enca bereitgestellt werden:
cstocs, recode, Karte, umap und piconv. Alle sind Wrapper-Skripte: für cstocs(1) recode(1)
Karte(1) umap(1) und piconv(1).

Bitte beachten Sie, dass Enca kaum Kontrolle darüber hat, was der externe Konverter wirklich tut. Wenn Sie einstellen
es /bin/rm Sie tragen die volle Verantwortung für die Folgen.

Wenn Sie Ihren eigenen Konverter für die Verwendung mit Enca erstellen möchten, sollten Sie wissen, dass dies immer der Fall ist
namens

WANDLER ENC_CURRENT ENC FILE [-]

woher WANDLER ist das, was eingestellt wurde -E, ENC_CURRENT wird eine Kodierung erkannt, ENC was
wurde mit angegeben -x und FILE ist die zu konvertierende Datei, wird also jeweils aufgerufen
Datei separat ablegen. Der optionale vierte Parameter, -, sollte (falls vorhanden) zum Senden führen
Ergebnis der Konvertierung in die Standardausgabe, anstatt die Datei zu überschreiben FILEdem „Vermischten Geschmack“. Seine
Der Konverter sollte auch darauf achten, die Dateiberechtigungen nicht zu ändern und den Fehlercode 1 zurückzugeben
wenn es fehlschlägt und seine temporären Dateien bereinigt. Bitte beachten Sie das Standard-Extern
Konverter für Beispiele.

Dieser Konverter kann als angegeben werden extern mit -C.

Standard Ziel charset
Der einfachste Weg, den Zielzeichensatz anzugeben, ist der -x Option, die alle überschreibt
Standardwerte. Bei Enca heißt es so enconv, der Standard-Zielzeichensatz wird genau ausgewählt
genauso wie recode(1) macht es.

Besitzt das DEFAULT_CHARSET Wenn die Umgebungsvariable festgelegt ist, wird sie als Zielzeichensatz verwendet.

Andernfalls, wenn Ihr System dies bereitstellt nl_langinfo(3) Funktion, das native Gebietsschema des aktuellen Gebietsschemas
Als Zielzeichensatz wird der Zeichensatz verwendet.

Wenn beide Methoden fehlschlagen, beschwert sich Enca und beendet den Vorgang.

Reversibilität merkt an
Wenn Reversibilität für Sie von entscheidender Bedeutung ist, sollten Sie Enca überhaupt nicht als Konverter verwenden (oder möglicherweise nicht).
Sie können, mit sehr spezifischem Design recode(1) Verpackung). Ansonsten solltest du bei
Am wenigsten wissen Sie, dass es vier grundlegende Möglichkeiten gibt, mit nicht konvertierbaren Zeichenentitäten umzugehen:

fail – das ist auch eine Möglichkeit, und im Übrigen ist es genau das, was die aktuelle GNU libc
Die Iconv-Implementierung funktioniert (Recode kann auch angewiesen werden, dies zu tun)

Berühren Sie sie nicht – das ist es, was der interne Enca-Konverter immer tut und was Recode tun kann;
Obwohl es nicht umkehrbar ist, ist ein Mensch normalerweise in der Lage, das Original zu rekonstruieren (bei
Zumindest im Prinzip)

sie annähern – das ist es, was cstocs tun und auch neu kodieren kann, wenn auch anders; und das
beste Wahl, wenn Sie den verfluchten Text nur lesbar machen möchten

Lassen Sie sie weg – das ist es, was sowohl recode als auch cstocs tun können (cstocs können diese auch ersetzen).
Zeichen durch ein festes Zeichen ersetzen, anstatt sie einfach zu ignorieren); nützlich, wenn die
wegzulassende Zeichen enthalten nur Rauschen.

Einzelheiten zu diesem Problem finden Sie im Handbuch Ihres bevorzugten Konverters. Im Allgemeinen, wenn
Sie haben nicht das Glück, alle konvertierbaren Zeichen in Ihrer Datei oder im Handbuch zu haben
Ein Eingreifen ist ohnehin nötig.

Leistung merkt an
Einer der Hauptgründe für die Aufnahme war die schlechte Leistung der verfügbaren Konverter
Eingebauter Konverter in Enca. Versuchen Sie, es wann immer möglich zu verwenden, z. B. wenn Dateien eingehen
Überlegungen sind charset-sauber genug oder charset-chaotisch genug, so dass es null eingebaut ist
Intelligenz spielt keine Rolle. Es erfordert keinen zusätzlichen Speicherplatz oder zusätzlichen Speicher und kann
Übertreffen recode(1) Mehr als 10 Mal bei großen Dateien und der Perl-Version (d. h. die schnellere).
einer von cstocs(1) mehr als 400 Mal bei kleinen Dateien (tatsächlich ist es fast so schnell wie bloße
cp(1)).

Versuchen Sie, externe Konverter zu vermeiden, wenn dies aufgrund der vielen Verzweigungen nicht unbedingt erforderlich ist
und Dinge zu bewegen ist unglaublich langsam.

CODIERUNGEN


Eine Liste der erkannten Zeichensätze erhalten Sie mit

enca --list Zeichensätze

und verwenden --Name Mit dem Parameter können Sie einen beliebigen Namen auswählen, der in der Auflistung verwendet werden soll.
Sie können auch alle Oberflächen mit auflisten

enca --list Oberflächen

Bei Codierung und Oberflächennamen wird die Groß-/Kleinschreibung nicht beachtet, bei nicht alphanumerischen Zeichen gilt dies nicht
berücksichtigt. Allerdings sind nicht-alphanumerische Zeichen meist überhaupt nicht erlaubt.
Zulässig sind nur: „-“, „_“, „.“, „:“ und „/“ (als Zeichensatz-/Oberflächentrennzeichen). Also
„ibm852“ und „IBM-852“ sind identisch, während „IBM 852“ nicht akzeptiert wird.

Zeichensätze
In der folgenden Liste erkannter Zeichensätze werden die Namen von Enca verwendet (-e) und verbale Beschreibungen als
berichtet von Enca (-f):

ASCII 7-Bit-ASCII-Zeichen
ISO-8859-2 ISO 8859-2-Standard; ISO Latein 2
ISO-8859-4 ISO 8859-4-Standard; Latein 4
ISO-8859-5 ISO 8859-5-Standard; ISO-Kyrillisch
ISO-8859-13 ISO 8859-13-Standard; ISO Baltikum; Latein 7
ISO-8859-16 ISO 8859-16-Standard
CP1125 MS-Windows-Codepage 1125
CP1250 MS-Windows-Codepage 1250
CP1251 MS-Windows-Codepage 1251
CP1257 MS-Windows-Codepage 1257; WinBaltRim
IBM852 IBM/MS-Codepage 852; PC (DOS) Latein 2
IBM855 IBM/MS-Codepage 855
IBM775 IBM/MS-Codepage 775
IBM866 IBM/MS-Codepage 866
baltisches ISO-IR-179; baltisch
KEYBCS2 Kamenicky-Kodierung; KEYBCS2
macce Macintosh Mitteleuropäisch

maccyr Macintosh Kyrillisch
ECMA-113 Ecma Kyrillisch; ECMA-113
KOI-8_CS_2 KOI8-CS2-Code („T602“)
KOI8-R KOI8-R Kyrillisch
KOI8-U KOI8-U Kyrillisch
KOI8-UNI KOI8-Einheitliches Kyrillisch
TeX (La)TeX-Kontrollsequenzen
UCS-2 Universeller Zeichensatz 2 Bytes; UCS-2; BMP
UCS-4 Universeller Zeichensatz 4 Bytes; UCS-4; ISO-10646
UTF-7 Universelles Transformationsformat 7 Bit; UTF-7
UTF-8 Universelles Transformationsformat 8 Bit; UTF-8
CORK Cork-Kodierung; T1
GBK Vereinfachter chinesischer nationaler Standard; GB2312
BIG5 Traditioneller chinesischer Industriestandard; Die großen 5
HZ HZ-codiert GB2312
unbekannt Unbekannte Codierung

woher unbekannt handelt es sich nicht um eine echte Kodierung, sie wird gemeldet, wenn Enca keine geben kann
zuverlässige Antwort.

Oberflächen
Enca verfügt über einige experimentelle Unterstützung für sogenannte Oberflächen (siehe unten). Es erkennt
Folgende Oberflächen (nicht alle können auf alle Zeichensätze angewendet werden):

/CR CR-Leitungsabschlusswiderstände
/LF LF-Leitungsabschlusszeichen
/CRLF CRLF-Zeilenabschlusszeichen
NA Gemischte Leitungsabschlusswiderstände
NA Umgeben von/vermischt mit Nicht-Text-Daten
/21 Bytereihenfolge paarweise umgekehrt (1,2 -> 2,1)
/4321 Byte-Reihenfolge in Vierfachen umgekehrt (1,2,3,4 -> 4,3,2,1)
NA Sowohl Little- als auch Big-Endian-Chunks, verkettet
/qp Quoted-printable kodiert

Beachten Sie, dass einige Oberflächen NA anstelle der Kennung haben – sie können nicht auf Befehl angegeben werden
Linie, sie können nur von Enca gemeldet werden. Dies ist beabsichtigt, da sie Sie lediglich informieren
warum die Datei nicht als oberflächenkonsistent betrachtet werden kann, anstatt eine reale Datei darzustellen
Oberfläche.

Jeder Zeichensatz hat seine natürliche Oberfläche (im Recode „implizit“ genannt), die nicht gemeldet wird.
Für den IBM 852-Zeichensatz sind es beispielsweise „CRLF-Zeilenabschlusszeichen“. Für UCS-Codierungen gilt Big Endian
als natürliche Oberfläche betrachtet; Ungewöhnliche Bytereihenfolgen werden aus 21 und 4321 gebildet
Permutationen: 2143 wird einfach als 21 angegeben, während 3412 als Kombination von 4321 angegeben wird
und 21.

Doppelt kodiertes UTF-8 ist weder Zeichensatz noch Oberfläche, es wird nur gemeldet.

Über Uns Zeichensätze, Kodierungen und Oberflächen
Ein Zeichensatz ist ein Satz von Zeichenentitäten, während die Kodierung deren Darstellung in den Begriffen darstellt
von Bytes und Bits. In Enca das Wort Codierung bedeutet dasselbe wie „Darstellung von Text“,
dh die Beziehung zwischen der Folge von Zeicheneinheiten, aus denen der Text besteht, und
Folge von Bytes (Bits), aus denen die Datei besteht.

Die Codierung ist also sowohl Zeichensatz als auch sogenannte Oberfläche (Zeilenabschlusszeichen, Bytereihenfolge,
Kombinieren, Base64-Transformation usw.). Dennoch erweist es sich als praktisch, damit zu arbeiten
einige {charset,surface}-Paare wie bei echten Zeichensätzen. Also, wie in recode(1), alle UCS- und
UTF-Kodierungen des universellen Zeichensatzes werden als Zeichensätze bezeichnet. Siehe Neukodierung
Weitere Informationen zu diesem Problem finden Sie in der Dokumentation.

Das einzig Gute an Oberflächen ist: Wenn man nicht anfängt, damit zu spielen, auch nicht
Enca startet nicht und versucht, sich so weit wie möglich oberflächenunbewusst zu verhalten
Programm, auch wenn man spricht, um zu rekodieren.

SPRACHEN


Enca muss die Sprache der Eingabedateien kennen, um zumindest in diesem Fall zuverlässig zu funktionieren
normale 8-Bit-Kodierung. Multibyte-Kodierungen sollten für alle lateinischen und kyrillischen Zeichen erkannt werden
oder griechische Sprache.

Sie können (oder müssen) verwenden -L Option, Enca die Sprache mitzuteilen. Da Menschen am häufigsten
Enca versucht, mit Dateien in derselben Sprache zu arbeiten, für die sie Gebietsschemas konfiguriert haben
versucht, die Sprache zu erraten, indem er den Wert von untersucht LC_CTYPE und andere Gebietsschemakategorien
(siehe bitte lokal(7)) und verwenden Sie es für die Sprache, wenn Sie keine angeben. Von
Natürlich kann es völlig falsch sein und Ihnen unsinnige Antworten geben und Ihrem Schaden schaden
Dateien, also vergessen Sie bitte nicht, die zu verwenden -L Möglichkeit. Sie können auch verwenden ENCAOPT Umwelt
Variable zum Festlegen einer Standardsprache (siehe Abschnitt ).

Die folgenden Sprachen werden von Enca unterstützt (jede Sprache wird zusammen mit den unterstützten Sprachen aufgeführt).
8-Bit-Kodierungen).

Weißrussischer CP1251 IBM866 ISO-8859-5 KOI8-UNI maccyr IBM855
Bulgarisch CP1251 ISO-8859-5 IBM855 maccyr ECMA-113
Tschechische ISO-8859-2 CP1250 IBM852 KEYBCS2 macce KOI-8_CS_2 CORK
Estnisch ISO-8859-4 CP1257 IBM775 ISO-8859-13 macce baltic
Kroatisch CP1250 ISO-8859-2 IBM852 macce CORK
Ungarisches ISO-8859-2 CP1250 IBM852 macce CORK
Litauisch CP1257 ISO-8859-4 IBM775 ISO-8859-13 macce baltic
Lettisch CP1257 ISO-8859-4 IBM775 ISO-8859-13 macce baltic
Polnisch ISO-8859-2 CP1250 IBM852 macce ISO-8859-13 ISO-8859-16 baltischer KORK
Russischer KOI8-R CP1251 ISO-8859-5 IBM866 maccyr
Slowakisch CP1250 ISO-8859-2 IBM852 KEYBCS2 macce KOI-8_CS_2 CORK
Slowenisch ISO-8859-2 CP1250 IBM852 macce CORK
Ukrainisch CP1251 IBM855 ISO-8859-5 CP1125 KOI8-U maccyr
Chinesischer GBK BIG5 HZ
keine

Die besondere Sprache keine kann auf verkürzt werden __, es enthält keine 8-Bit-Kodierungen, also nur
Multibyte-Kodierungen werden erkannt.

Sie können anstelle von Sprachen auch Gebietsschemanamen verwenden:

Weißrussisch sein
Bulgarisches BG
Tschechisch cs
Estnisch et
Kroatische Std
Ungarisch hu
Litauisch lt
Lettisches lv
Polnisch Pl
Russisch ru
Slowakisch sk
Slowenisch sl
Ukrainisches Vereinigtes Königreich
Chinesisch zh

MERKMALE


Mehrere Funktionen von Enca hängen davon ab, was auf Ihrem System verfügbar ist und wie es war
zusammengestellt. Sie können ihre Liste mit erhalten

enca --version

Ein Pluszeichen vor einem Funktionsnamen bedeutet, dass es verfügbar ist, ein Minuszeichen bedeutet, dass dieser Build fehlt
das besondere Merkmal.

Librecode-Schnittstelle. Enca verfügt über eine Schnittstelle zur Zeichensatzkonvertierung der GNU-Recode-Bibliothek
Funktionen.

iconv-Schnittstelle. Enca verfügt über eine Schnittstelle zu UNIX98-Iconv-Zeichensatzkonvertierungsfunktionen.

Externer Konverter. Enca kann externe Konvertierungsprogramme verwenden (sofern Sie über geeignete verfügen).
Eingerichtet).

Spracherkennung. Enca versucht, die Sprache zu erraten (-L) aus Gebietsschemas. Du brauchst das nicht
--Sprache Option, zumindest im Prinzip.

Gebietsschema-Alias. Enca ist in der Lage, für Sprachnamen verwendete Gebietsschema-Aliase zu entschlüsseln.

Ziel-Zeichensatz-Auto. Enca versucht, Ihren bevorzugten Zeichensatz anhand der Gebietsschemas zu erkennen. Möglichkeit
--auto-convert und nennt Enca als enconv Funktioniert, zumindest im Prinzip.

ENCAOPT. Enca ist in der Lage, diese Umgebungsvariable vor der Befehlszeile korrekt zu analysieren
Parameter. Einfache Dinge wie ENCAOPT="-L Vereinigtes Königreich" funktioniert auch ohne diese Funktion.


Die Variable ENCAOPT Kann eine Reihe von Standard-Enca-Optionen enthalten. Sein Inhalt wird interpretiert
vor Befehlszeilenargumenten. Leider funktioniert das nicht überall (muss sein).
+ENCAOPT-Funktion).

LC_CTYPE, LC_COLLATE, LC_MESSAGES (möglicherweise geerbt von LC_ALL or SPRACHE) wird verwendet für
Erraten Sie Ihre Sprache (muss über eine Spracherkennungsfunktion verfügen).

Die Variable DEFAULT_CHARSET kann von verwendet werden enconv als Standard-Zielzeichensatz.

DIAGNOSE


Enca gibt den Exit-Code 0 zurück, wenn alle Eingabedateien erfolgreich verarbeitet wurden (d. h. alle
Es wurden Kodierungen erkannt und alle Dateien wurden bei einer Konvertierung in die erforderliche Kodierung konvertiert
gefragt wurde). Exit-Code 1 wird zurückgegeben, wenn Enca weder die Codierung erraten konnte noch
Führen Sie die Konvertierung für jede Eingabedatei durch, da dies nicht clever genug ist. Exit-Code 2 ist
Wird bei schwerwiegenden Problemen (z. B. E/A-Problemen) zurückgegeben.

SICHERHEIT


Es soll möglich sein, Enca unbeaufsichtigt arbeiten zu lassen, das ist sein Ziel. Jedoch:

Es gibt keine Garantie dafür, dass die Erkennung zu 100 % funktioniert. Wetten Sie nicht darauf, Sie können leicht verlieren
wertvolle Daten.

Verwenden Sie nicht enca (das Programm), sondern verlinken Sie stattdessen auf libenca, wenn Sie etwas Ähnliches wünschen
Sicherheit. Die eventuelle Konvertierung müssen Sie dann selbst durchführen.

Verwenden Sie keine externen Konverter. Deaktivieren Sie sie idealerweise zur Kompilierungszeit.

Seien Sie sich bewusst ENCAOPT und all die eingebaute automatische Magie, die verschiedene Dinge errät
Umgebung, nämlich Orte.

Nutzen Sie enconv online über die Dienste von onworks.net


Kostenlose Server & Workstations

Laden Sie Windows- und Linux-Apps herunter

Linux-Befehle

Ad