enconv - Online în cloud

Aceasta este comanda enconv care poate fi rulată în furnizorul de găzduire gratuit OnWorks folosind una dintre multiplele noastre stații de lucru online gratuite, cum ar fi Ubuntu Online, Fedora Online, emulator online Windows sau emulator online MAC OS

PROGRAM:

NUME


enca -- detectează și convertește codificarea fișierelor text

REZUMAT


ENCA [-L LIMBA] [OPȚIUNE]... [FILE] ...
înconv [-L LIMBA] [OPȚIUNE]... [FILE] ...

INTRODUCERE AND EXEMPLE


Dacă ești suficient de norocos, singurele două lucruri pe care trebuie să le știi vreodată sunt: ​​comanda

ENCA FILE

vă va spune ce fișier de codificare FILE utilizări (fără a-l schimba) și

înconv FILE

va converti fișierul FILE la codificarea locală nativă. Pentru a converti fișierul în altul
codificare utilizați -x opțiunea (vezi -x intrare in sectiune OPŢIUNI si sectiuni CONVERSIE și
CODificări pentru detalii).

Ambele funcționează cu mai multe fișiere și cu intrare (ieșire) standard. De exemplu

enca -x latin2

asigură că fișierul „sometext” este în ISO Latin 2 când este trimis la imprimantă.

Principalul motiv pentru care aceste comenzi vor eșua și vor transforma fișierele dvs. în gunoi este că Enca
trebuie să-și cunoască limba pentru a detecta codificarea. Încearcă să-ți determine limba
și set de caractere preferat din setările locale, care ar putea să nu fie ceea ce doriți.

Puteți (sau trebuie să) utilizați -L opțiunea de a-i spune limba potrivită. Să presupunem că ai descărcat
un fișier HTML rusesc, „file.htm”, susține că este Windows-1251, dar nu este. Deci fugi

enca -L ru file.htm

și află că este KOI8-R (de exemplu). Fiți atenți, momentan nu sunt multe suportate
limbi (vezi secțiunea LIMBI).

Un alt avertisment se referă la mai multe caracteristici ale Enca, și anume conversia setului de caractere
capabilitățile, depind foarte mult de ce alte instrumente sunt instalate pe sistemul dvs. (vezi
secțiune CONVERSIE)--alerga

enca --version

pentru a obține lista de caracteristici (vezi secțiunea CARACTERISTICI). De asemenea, încearcă

enca --help

pentru a obține descrierea tuturor celorlalte opțiuni Enca (și pentru a găsi restul acestei pagini de manual
redundant).

DESCRIERE


Enca citește fișierele text date sau introducerea standard atunci când nu sunt date și folosește cunoștințele
despre limbajul lor (trebuie să fie susținut de dvs.) și un amestec de analiză, statistică
analiză, ghicire și magie neagră pentru a determina codurile lor, pe care apoi le imprimă
ieșire standard (sau mărturisește că nu are idee care ar putea fi codificarea). De
implicit, Enca prezintă rezultatele ca descrieri pe mai multe linii, care pot fi citite de om, altele câteva
sunt disponibile formate -- consultați Selectorele de tip de ieșire de mai jos.

De asemenea, Enca poate converti fișiere în altă codificare ENC când o ceri - fie folosind a
convertor încorporat, o bibliotecă de conversie sau apelând un convertor extern.

Scopul principal al Enca este să fie utilizabil nesupravegheat, ca instrument de conversie automată, deși acesta
poate nu am ajuns încă în acest punct (vă rugăm să consultați secțiunea SECURITATE).

Vă rugăm să rețineți, cu excepția cazurilor rare, Enca trebuie să cunoască limba fișierelor de intrare pentru a le oferi
tu un raspuns de incredere. Pe de altă parte, atunci se poate descurca destul de bine cu fișierele care sunt
nu este pur textual sau chiar detectează un set de caractere de șiruri de text în interiorul unui fișier binar; de
desigur, depinde de caracterul componentei non-text.

Enca nu-i pasă de structura fișierelor de intrare, ci le vede ca pe o bucată uniformă
text/date. În cazul fișierelor cu mai multe părți (de exemplu, cutiile poștale), trebuie să utilizați un instrument de cunoaștere
structura pentru a extrage mai întâi părțile individuale. Este costul capacității de a detecta
codificări ale oricăror fișiere deteriorate, incomplete sau incorecte.

OPŢIUNI


Există mai multe categorii de opțiuni: opțiuni de mod de funcționare, selectoare de tip de ieșire,
ghicirea parametrilor, parametrii de conversie, opțiunile generale și listările.

Toate opțiunile lungi pot fi abreviate atâta timp cât sunt parametri obligatorii fără ambiguitate
opțiunile lungi sunt obligatorii și pentru opțiunile scurte.

Ziua Operației moduri de
sunt următoarele:

-c, --auto-conversie
Echivalent cu a numi Enca ca înconv.

Dacă nu este specificat niciun selector de tip de ieșire, detectați codificările fișierelor, ghiciți
set de caractere preferat din locale și convertiți fișierele în acesta (disponibil numai cu
+ caracteristica target-charset-auto).

-g, --ghici
Echivalent cu a numi Enca ca ENCA.

Dacă nu este specificat niciun selector de tip de ieșire, detectați codificările fișierelor și raportați-le.

producție tip selectoare
selectați ce acțiune va întreprinde Enca atunci când va determina codificarea; majoritatea doar
alegeți între diferite nume, formate și convenții cum pot fi tipărite codificările, dar
unul din ei (-x) este special: îi spune lui Enca să recodeze fișierele în altă codificare ENC.
Aceste opțiuni se exclud reciproc; dacă specificați mai mult de un selector de tip de ieșire
ultimul are prioritate.

Mai multe tipuri de ieșire reprezintă numele setului de caractere folosit de un alt program, dar nu toate acestea
programele cunosc toate seturile de caractere pe care Enca le recunoaște. Fii avertizat, Enca nu face nicio diferență
între set de caractere nerecunoscut și set de caractere care nu are un nume în spațiul de nume dat în astfel de
situații.

-d, --Detalii
Obișnuia să tipărească câteva pagini cu detalii despre procesul de ghicire, dar de la Enca
este doar un program legat de biblioteca Enca, acest lucru nu este posibil și această opțiune
este aproximativ echivalent cu --lizibil de om, cu excepția faptului că raportează motivul eșecului când
Enca nu recunoaște codificarea.

-e, --enca-nume
Imprimă numele frumos al setului de caractere al lui Enca, adică poate cel mai general acceptat
și un identificator de set de caractere mai mult sau mai puțin citibil de om, cu suprafețe atașate.

Acest nume este folosit și la apelarea unui convertor extern.

-f, --lizibil de om
Tipărește descrierea verbală a setului de caractere și a suprafețelor detectate - ceva uman
intelege cel mai bine. Acesta este comportamentul implicit.

Formatul precis este următorul: prima linie conține numai numele setului de caractere și
este urmat de zero sau mai multe linii indentate care conțin numele suprafețelor detectate.
Acest format nu este, totuși, potrivit sau destinat procesării ulterioare pe mașini,
iar descrierile verbale ale seturilor de caractere se vor schimba în viitor.

-i, --iconv-name
Imprimă cum inconv(3) (și/sau inconv(1)) apelează setul de caractere detectat. Mai precis,
tipărește unul, mai mult sau mai puțin arbitrar ales, alias acceptat de iconv. Un set de caractere
necunoscut pentru iconv este considerat necunoscut.

Acest tip de ieșire are sens numai atunci când Enca este compilat cu suport iconv (funcția
+iconv-interfață).

-r, --rfc1345-name
Tipărește numele setului de caractere RFC 1345. Când un astfel de nume nu există din cauza RFC 1345
nu definește o codificare dată, un alt nume definit într-un alt RFC sau doar
este tipărit numele pe care autorul îl consideră „cel mai canonic”.

Deoarece RFC 1345 nu definește suprafețele, nu sunt adăugate informații despre suprafață.

-m, --nume-mim
Imprimă numele MIME preferat al setului de caractere detectat. Acesta este numele pe care ar trebui
utilizat în mod normal atunci când reparați e-mail-uri sau pagini web.

Un set de caractere care nu este prezent în http://www.iana.org/assignments/character-sets contează ca
necunoscut.

-s, --cstocs-name
Imprimă cum cstocs(1) apelează setul de caractere detectat. Un set de caractere necunoscut pentru cstocs
contează ca necunoscut.

-n, --nume=WORD
Imprimă numele setului de caractere (codificare) selectat de WORD (poate fi prescurtat atâta timp cât este
lipsit de ambiguitate). Pentru numele enumerate mai sus, --nume=WORD este echivalent cu --WORD.

Utilizarea pseudonime deoarece tipul de ieșire face ca Enca să imprime lista tuturor aliasurilor acceptate
de set de caractere detectat.

-x, --convert-to=[..]ENC
Convertește fișierul în codificare ENC.

Opțional „..” înainte de codificarea numelui nu are o semnificație specială, cu excepția faptului că puteți utiliza
pentru a-ți aminti că, spre deosebire de în recodifica(1), trebuie să specificați dorit
codificare, în loc de curent.

Poți să folosești recodifica(1) lanțuri de recodificare sau orice alt tip de codificare fără creier
caietul de sarcini pentru ENC, cu condiția să îi spui lui Enca să folosească o oarecare înțelegere a instrumentelor
acesta pentru conversie (vezi secțiunea CONVERSIE).

Când Enca nu reușește să determine codificarea, tipărește un avertisment și lasă codul
dosar ca atare; când este rulat ca filtru, încearcă să facă tot posibilul pentru a copia standardul
intrarea la ieșirea standard neschimbată. Cu toate acestea, nu ar trebui să vă bazați pe el și să faceți
de rezervă.

ghicitul parametrii
E numai unul: -L setarea limbii fișierelor de intrare. Această opțiune este obligatorie (dar vezi
de mai jos).

-L, --limbaj=LIMBA
Setează limba fișierelor de intrare la LIMBA.

Mai precis, LIMBA poate fi orice nume local valid (sau alias cu +locale-alias
caracteristică) a unei limbi acceptate. De asemenea, puteți specifica „none” ca nume de limbă,
atunci sunt recunoscute doar codificări multiocteți. Alerga

enca --liste limbi

pentru a obține lista de limbi acceptate. Când nu specificați nicio limbă, Enca încearcă
pentru a vă ghici limba din setările locale și presupuneți că fișierele de intrare folosesc aceasta
limba. Vezi secțiunea LIMBI pentru detalii.

Convertire parametrii
vă oferă un control mai fin asupra modului în care va fi efectuată conversia setului de caractere. Ele nu afectează
orice când -x nu este specificat ca tip de ieșire. Vă rugăm să consultați secțiunea CONVERSIE pentru
detalii de conversie sângeroase.

-C, --try-converters=LISTA
Se adaugă separat prin virgulă LISTA la lista de convertoare care vor fi încercate când veți
cere convertirea. Numele lor pot fi abreviate atâta timp cât sunt
lipsit de ambiguitate. Alerga

enca --list convertoare

pentru a obține lista tuturor numelor valide de convertoare (și consultați secțiunea CONVERSIE pentru lor
Descriere).

Lista implicită depinde de modul în care a fost compilat, rulat Enca

enca --help

pentru a afla lista implicită de convertizor.

Rețineți că lista implicită este utilizată numai atunci când nu specificați -C deloc. In caz contrar,
lista este construită de parcă ar fi inițial goală și fiecare -C adaugă convertoare noi
la ea. Mai mult, precizând nici unul ca numele convertorului cauzează ștergerea convertorului
listă.

-E, --external-converter-program=PATH
Setează numele programului convertor extern la PATH. Convertorul extern implicit depinde
asupra modului în care a fost respectată enca și posibilitatea de a folosi convertoare externe poate
să nu fie disponibile deloc. Alerga

enca --help

pentru a afla programul de conversie implicit în versiunea dvs. enca.

General Opțiuni
nu se potrivesc cu alte categorii de optiuni...

-p, --cu-nume-fișier
Obligă Enca să prefixeze fiecare rezultat cu numele de fișier corespunzător. Implicit, Enca
prefixează rezultatele cu nume de fișiere atunci când rulează pe mai multe fișiere.

Intrarea standard este tipărită ca Stdin și ieșire standard ca Stdout (acesta din urmă poate fi
se vede probabil doar în mesajele de eroare).

-P, --no-filename
Obligă Enca să nu prefixeze rezultatele cu numele fișierelor. În mod implicit, Enca nu prefix
rezultat cu numele fișierului atunci când rulează pe un singur fișier (inclusiv intrarea standard).

-V, --verbos
Crește nivelul de verbozitate (fiecare utilizare îl crește cu unul).

În prezent, această opțiune nu este foarte utilă, deoarece diferite părți ale Enca răspund
diferit față de același nivel de verbozitate, de cele mai multe ori deloc.

înregistrări
sunt toate terminale, adică atunci când Enca întâlnește unele dintre ele, tipărește lista necesară
și se încheie fără a procesa următoarele opțiuni.

-h, --Ajutor
Imprimă un scurt ajutor de utilizare.

-G, --licență
Imprimă licența Enca completă (prin paginator, dacă este posibil).

-l, --list=WORD
Imprimă lista specificată de WORD (poate fi prescurtat atâta timp cât nu este ambiguu).
Listele disponibile includ:

seturi de caractere încorporate. Toate codificările pot fi convertite prin convertorul încorporat, după grup (ambele
codificarea de intrare și de ieșire trebuie să fie din această listă și să aparțină aceluiași grup pentru
conversie internă).

codificări încorporate. Echivalentă cu seturi de caractere încorporate, dar considerată învechită; voi
fi acceptat cu un avertisment, pentru o vreme.

convertoare. Toate numele de convertor valide (pentru a fi utilizate cu -C).

seturi de caractere. Toate codificările (seturile de caractere). Puteți selecta ce nume vor fi tipărite
implementate cu --Nume sau orice selector de tip de ieșire de nume (desigur, numai codificări care au un
numele în spațiul de nume dat va fi imprimat atunci), trebuie specificat selectorul
înainte --listă.

codificări. Echivalentă cu seturi de caractere, dar considerată învechită; va fi acceptat cu
un avertisment, pentru o vreme.

limbi. Toate limbile acceptate împreună cu seturile de caractere care le aparțin. Notă
tipul de ieșire selectează aici stilul numelui limbii, nu stilul numelui setului de caractere.

nume. Toate valorile posibile ale --Nume opțiune.

Listele. Toate valorile posibile ale acestei opțiuni. (Nebun?)

suprafețe. Toate suprafețele pe care Enca le recunoaște.

-v, --versiune
Imprimă versiunea programului și lista de funcții (vezi secțiunea CARACTERISTICI).

CONVERSIE


Deși Enca a fost proiectat inițial ca un instrument pentru doar ghicirea codării, acum este
prezintă mai multe metode de conversie a seturilor de caractere. Puteți controla care dintre ele va fi
folosit cu -C.

Enca încearcă secvenţial convertoare din lista specificată de -C până găsește ceva care
este capabil să efectueze conversia necesară sau până când epuizează lista. Ar trebui să specificați
convertoarele preferate mai întâi, mai puțin preferate mai târziu. convertor extern (extern) ar trebui să fie
întotdeauna specificat în ultimă instanță, doar ca ultimă soluție, deoarece de obicei nu este posibil să se recupereze
când eșuează. Lista implicită de convertoare începe întotdeauna cu construit-in și apoi
continuă cu primul disponibil de la: librecode, inconv, nimic.

Trebuie remarcat când Enca spune că nu este capabil să efectueze conversia pe care o înseamnă
niciunul dintre convertoare nu este capabil să o efectueze. Poate fi încă posibil să se efectueze
conversia necesară în mai mulți pași, folosind mai multe convertoare, dar pentru a afla cum,
probabil că este nevoie de inteligența umană.

Built-in Convertizor
este cel mai simplu și de departe cel mai rapid dintre toate, poate efectua doar câțiva octeți la octeți
conversii și modifică fișierele direct la locul lor (pot fi considerate periculoase, dar este
destul de eficient). Puteți obține o listă cu toate codificările cu care se poate converti

enca --list încorporat

Pe lângă viteză, principalul său avantaj (și, de asemenea, dezavantaj) este că nu-i pasă: ea
pur și simplu convertește caracterele care au o reprezentare în codarea țintă, nu atinge
orice altceva și nu imprimă niciodată niciun mesaj de eroare.

Acest convertor poate fi specificat ca construit-in implementate cu -C.

Librecode Convertizor
este o interfață cu biblioteca de codare GNU, care face treaba reală de recodare. Poate sau poate
să nu fie compilat în; alerga

enca --version

pentru a afla disponibilitatea acesteia în build-ul dvs. enca (funcție + interfață librecode).

Ar trebui să fii familiarizat cu recodifica(1) înainte de a-l folosi, deoarece recoderea este destul de
instrument sofisticat și puternic de conversie a seturilor de caractere. S-ar putea să întâmpinați probleme în utilizarea acestuia
împreună cu Enca în special pentru că suportul Enca pentru suprafețe nu este 100% compatibil,
pentru că recode încearcă prea mult să facă transformarea reversibilă, pentru că uneori
ignoră în tăcere erorile I/O și pentru că este incredibil de erori. Vă rugăm să vedeți GNU recode
pagini de informații pentru detalii despre biblioteca de recodificare.

Acest convertor poate fi specificat ca librecode implementate cu -C.

inconv Convertizor
este o interfață pentru UNIX98 inconv(3) funcții de conversie, care fac recodificarea propriu-zisă
loc de munca. Poate fi sau nu compilat în; alerga

enca --version

pentru a afla disponibilitatea acesteia în build-ul dvs. enca (funcție +iconv-interfață).

În timp ce iconv este prezent pe majoritatea sistemelor de astăzi, oferă doar rareori un set util de
conversiile disponibile, singura excepție notabilă fiind iconv din GNU libc. Este
de obicei destul de pretențios și cu privire la suprafețe (în timp ce, în același timp, nu implementează suprafața
conversie). Cu toate acestea, probabil reprezintă singurul instrument standard(izat) capabil să funcționeze
conversie din/în Unicode. Vă rugăm să consultați documentația iconv despre pentru detalii despre acesta
capabilități pe sistemul dumneavoastră particular.

Acest convertor poate fi specificat ca inconv implementate cu -C.

Extern Convertizor
este un instrument de conversie extern arbitrar care poate fi specificat cu -E opțiune (cel mult una
pot fi definite simultan). Există câteva standarde, furnizate împreună cu enca:
cstocs, recodifica, Hartă, umap și piconv. Toate sunt scripturi wrapper: for cstocs(1), recodifica(1),
Hartă(1), umap(1), și piconv(1).

Vă rugăm să rețineți că enca are puțin control asupra convertorului extern. Dacă setați
l /bin/rm sunteți pe deplin responsabil pentru consecințe.

Dacă doriți să vă faceți propriul convertor pentru a-l folosi cu enca, ar trebui să știți că este întotdeauna
denumit

CONVERTITOR ENC_CURRENT ENC FILE [-]

Unde CONVERTITOR este ceea ce a fost stabilit de -E, ENC_CURRENT este detectată codificare, ENC este ce
a fost specificat cu -x și FILE este fișierul de convertit, adică este numit pentru fiecare
dosar separat. Al patrulea parametru opțional, -, ar trebui să provoace (când este prezent) trimiterea
rezultat al conversiei la ieșire standard în loc de suprascrierea fișierului FILE.
Convertorul ar trebui, de asemenea, să aibă grijă să nu modifice permisiunile fișierelor, returnând codul de eroare 1
când eșuează și curățarea fișierelor sale temporare. Vă rugăm să consultați standardul extern
convertoare de exemplu.

Acest convertor poate fi specificat ca extern implementate cu -C.

Mod implicit ţintă set de caractere
Modul simplu de a specifica setul de caractere țintă este -x opțiune, care înlocuiește orice
implicite. Când Enca este numită ca înconv, setul de caractere țintă implicit este selectat exact
la fel ca recodifica(1) o face.

În cazul în care DEFAULT_CHARSET variabila de mediu este setată, este folosită ca set de caractere țintă.

În caz contrar, dacă sistemul dumneavoastră oferă nl_langinfo(3) funcția, localitatea nativă curentă
set de caractere este folosit ca set de caractere țintă.

Când ambele metode eșuează, Enca se plânge și încetează.

Reversibilitate notiţe
Dacă reversibilitatea este crucială pentru tine, nu ar trebui să folosești deloc enca ca convertor (sau poate
poți, cu un proiect foarte special recodifica(1) ambalaj). Altfel ar trebui la
să știți cel puțin că există patru mijloace de bază de a gestiona entitățile de caracter inconvertibile:

eșuează - aceasta este și o posibilitate și, întâmplător, este exact ceea ce actualul GNU libc
Implementarea iconv face (se poate spune și recodării să o facă)

nu le atingeți - asta face întotdeauna convertorul intern enca și poate face recode;
deși nu este reversibil, o ființă umană este de obicei capabilă să reconstruiască originalul (la
cel putin in principiu)

aproximați-le - asta este ceea ce pot face cstocs și, de asemenea, recodificați, deși diferit; si
cea mai bună alegere dacă vrei doar să faci textul blestemat lizibil

renunțați-le - asta este ceea ce pot face atât codificarea, cât și cstocs (cstoc-urile le pot înlocui și pe acestea
caractere cu un caracter fix în loc de simpla ignorare); util atunci când
caracterele care trebuie omise conțin doar zgomot.

Vă rugăm să consultați manualul convertorului preferat pentru detalii despre această problemă. În general, dacă
nu ai norocul să ai toate caracterele convertibile în fișierul tău, manual
oricum este nevoie de interventie.

Performanţă notiţe
Performanța slabă a convertoarelor disponibile a fost unul dintre motivele principale pentru includere
convertor incorporat in enca. Încercați să îl utilizați ori de câte ori este posibil, adică atunci când fișierele intră
considerațiile sunt suficient de curate pentru set de caractere sau suficient de dezordonate pentru setul de caractere încât să fie zero încorporat
inteligența nu contează. Nu necesită spațiu suplimentar pe disc și nici memorie suplimentară și poate
outperform recodifica(1) de mai mult de 10 ori pe fișiere mari și versiunea Perl (adică mai rapid
unul) din cstocs(1) de peste 400 de ori pe fișiere mici (de fapt, este aproape la fel de rapid ca și simplu
cp(1)).

Încercați să evitați convertoarele externe atunci când nu este absolut necesar, deoarece toate bifurcația
iar mutarea lucrurilor este incredibil de lentă.

CODificări


Puteți obține o listă de seturi de caractere recunoscute cu

enca --list seturi de caractere

și utilizarea --Nume parametrul puteți selecta orice nume pe care doriți să îl utilizați în listă.
De asemenea, puteți enumera toate suprafețele cu

enca --list suprafeţe

Codificarea și numele suprafețelor nu fac distincție între majuscule și minuscule, iar caracterele non-alfanumerice nu sunt
luat in considerare. Cu toate acestea, caracterele non-alfanumerice nu sunt permise în general.
Singurele permise sunt: ​​`-', `_', `.', `:' și `/' (ca set de caractere/separator de suprafață). Asa de
„ibm852” și „IBM-852” sunt aceleași, în timp ce „IBM 852” nu este acceptat.

Seturi de caractere
Următoarea listă de seturi de caractere recunoscute folosește numele lui Enca (-e) și descrieri verbale ca
raportat de Enca (-f):

Caractere ASCII pe 7 biți
ISO-8859-2 Standardul ISO 8859-2; ISO Latin 2
ISO-8859-4 Standard ISO 8859-4; latină 4
ISO-8859-5 Standard ISO 8859-5; ISO chirilic
ISO-8859-13 Standardul ISO 8859-13; ISO Baltic; latină 7
ISO-8859-16 Standardul ISO 8859-16
Pagina de coduri CP1125 MS-Windows 1125
Pagina de coduri CP1250 MS-Windows 1250
Pagina de coduri CP1251 MS-Windows 1251
CP1257 Pagina de cod MS-Windows 1257; WinBaltRim
IBM852 Pagina de cod IBM/MS 852; PC (DOS) Latină 2
IBM855 Pagina de cod IBM/MS 855
IBM775 Pagina de cod IBM/MS 775
IBM866 Pagina de cod IBM/MS 866
baltic ISO-IR-179; Baltica
Codificare KEYBCS2 Kamenicky; KEYBCS2
macce Macintosh central european

maccyr Macintosh chirilic
ECMA-113 Ecma chirilic; ECMA-113
KOI-8_CS_2 Cod KOI8-CS2 („T602”)
KOI8-R KOI8-R chirilic
KOI8-U KOI8-U chirilic
KOI8-UNI KOI8-Chirilic unificat
Secvențe de control TeX (La)TeX
UCS-2 Set de caractere universal 2 octeți; UCS-2; BMP
UCS-4 Set de caractere universal 4 octeți; UCS-4; ISO-10646
UTF-7 Format de transformare universal 7 biți; UTF-7
UTF-8 Format de transformare universal 8 biți; UTF-8
CORK Codificare Cork; T1
Standardul național chinezesc simplificat GBK; GB2312
Standard industrial tradițional chinezesc BIG5; Mare 5
HZ HZ codificat GB2312
necunoscut Codare nerecunoscută

Unde necunoscut nu este o codificare reală, este raportată atunci când Enca nu este capabilă să ofere un
răspuns de încredere.

suprafeţe
Enca are suport experimental pentru așa-numitele suprafețe (vezi mai jos). Acesta detectează
următoarele suprafețe (nu toate pot fi aplicate la toate seturile de caractere):

/CR Terminatoare de linie CR
Terminatoare de linie /LF LF
/CRLF CRLF terminatoare de linie
NA Terminatoare de linie mixte
NA Înconjurat de/amestecat cu date non-text
Ordinea /21 octeți inversată în perechi (1,2 -> 2,1)
/4321 Ordinea octetilor inversată în cvadruple (1,2,3,4 -> 4,3,2,1)
NA Atât bucăți mici, cât și mari, concatenate
/qp Citat-printabil codificat

Rețineți că unele suprafețe au NA în loc de identificator - nu pot fi specificate la comandă
linie, acestea pot fi raportate doar de Enca. Acest lucru este intenționat, deoarece ei doar vă informează
de ce fișierul nu poate fi considerat consistent la suprafață în loc să reprezinte un real
suprafaţă.

Fiecare set de caractere are suprafața sa naturală (numită „implicit” în codificare) care nu este raportată,
de exemplu, pentru setul de caractere IBM 852 este vorba de „terminatori de linie CRLF”. Pentru codificări UCS, big endian este
considerată suprafață naturală; ordinele neobișnuite de octeți sunt construite din 21 și 4321
permutări: 2143 este raportat simplu ca 21, în timp ce 3412 este raportat ca o combinație de 4321
și 21.

UTF-8 codificat dublu nu este nici set de caractere, nici suprafață, este doar raportat.

Despre noi seturi de caractere, codificări și suprafețe
Setul de caractere este un set de entități de caractere, în timp ce codificarea este reprezentarea sa în termeni
de octeți și biți. În Enca, cuvântul codare înseamnă același lucru cu „reprezentarea textului”,
adică relaţia dintre succesiunea de entităţi de caracter care constituie textul şi
secvența de octeți (biți) care constituie fișierul.

Deci, codificarea este atât un set de caractere, cât și așa-numita suprafață (terminatori de linie, ordinea octeților,
combinare, transformare Base64 etc.). Cu toate acestea, se dovedește convenabil să lucrezi
unele perechi {charset,surface} ca în cazul seturilor de caractere autentice. Deci, ca în recodifica(1), toate UCS- și
Codificările UTF ale setului de caractere universal se numesc seturi de caractere. Vă rugăm să vedeți recodare
documentație pentru mai multe detalii despre această problemă.

Singurul lucru bun despre suprafețe este: atunci când nu începi să te joci cu ele, nici
Enca nu va porni și va încerca să se comporte cât mai mult ca un inconștient de suprafață
program, chiar și atunci când vorbiți pentru a recoda.

LIMBI


Enca trebuie să cunoască limba fișierelor de intrare pentru a funcționa în mod fiabil, cel puțin în cazul
codificare obișnuită pe 8 biți. Codificările pe mai mulți octeți ar trebui recunoscute pentru orice latină, chirilică
sau limba greacă.

Puteți (sau trebuie să) utilizați -L opțiunea de a spune Enca limba. Din moment ce oamenii de cele mai multe ori
lucrează cu fișiere în aceeași limbă pentru care au configurat localuri, încearcă Enca
încearcă să ghicească limba examinând valoarea de LC_CTYPE și alte categorii locale
(te rog vezi localizare(7)) și folosind-o pentru limbă atunci când nu specificați niciuna. De
desigur, poate fi complet greșit și vă va da răspunsuri prostii și vă va deteriora
fișiere, așa că vă rugăm să nu uitați să utilizați -L opțiune. De asemenea, puteți utiliza ENCAOPT mediu inconjurator
variabilă pentru a seta o limbă implicită (vezi secțiunea MEDIUL).

Următoarele limbi sunt acceptate de Enca (fiecare limbă este listată împreună cu cele acceptate
codificări pe 8 biți).

Belarus CP1251 IBM866 ISO-8859-5 KOI8-UNI maccyr IBM855
Bulgarian CP1251 ISO-8859-5 IBM855 maccyr ECMA-113
Cehă ISO-8859-2 CP1250 IBM852 KEYBCS2 macce KOI-8_CS_2 CORK
Estonă ISO-8859-4 CP1257 IBM775 ISO-8859-13 macce baltic
Croat CP1250 ISO-8859-2 IBM852 macce CORK
maghiară ISO-8859-2 CP1250 IBM852 macce CORK
Lituaniană CP1257 ISO-8859-4 IBM775 ISO-8859-13 macce baltic
letonă CP1257 ISO-8859-4 IBM775 ISO-8859-13 macce baltic
Poloneză ISO-8859-2 CP1250 IBM852 macce ISO-8859-13 ISO-8859-16 baltic CORK
rusă KOI8-R CP1251 ISO-8859-5 IBM866 maccyr
Slovacă CP1250 ISO-8859-2 IBM852 KEYBCS2 macce KOI-8_CS_2 CORK
Slovenă ISO-8859-2 CP1250 IBM852 macce CORK
Ucraineană CP1251 IBM855 ISO-8859-5 CP1125 KOI8-U maccyr
chinezesc GBK BIG5 HZ
nici unul

Limbajul special nici unul poate fi scurtat la __, nu conține codificări pe 8 biți, deci numai
sunt detectate codificări multibyte.

De asemenea, puteți utiliza nume locale în loc de limbi:

Belarus să fie
bulgară bg
Cehă cs
Estonă et
ora croată
maghiar hu
lt. lituanian
letonă lv
polonez pl
ru rusesc
slovacă sk
slovenă sl
Marea Britanie ucraineană
chinezesc zh

CARACTERISTICI


Mai multe caracteristici ale Enca depind de ceea ce este disponibil pe sistemul dumneavoastră și de cum a fost acesta
compilate. Puteți obține lista lor cu

enca --version

Semnul plus înaintea numelui unei caracteristici înseamnă că este disponibilă, semnul minus înseamnă că această versiune lipsește
caracteristica particulară.

librecode-interfață. Enca are interfață pentru conversia setului de caractere a bibliotecii de codare GNU
funcții.

iconv-interfață. Enca are interfață cu funcțiile de conversie a seturilor de caractere UNIX98 iconv.

extern-convertor. Enca poate folosi programe de conversie externe (dacă aveți unele adecvate
instalat).

detectarea limbajului. Enca încearcă să ghicească limba (-L) din localități. Nu ai nevoie de
--limba opțiune, cel puțin în principiu.

local-alias. Enca este capabil să decripteze aliasurile locale utilizate pentru numele limbilor.

target-charset-auto. Enca încearcă să detecteze setul de caractere preferat din localități. Opțiune
--auto-conversie şi chemând-o pe Enca ca înconv functioneaza, cel putin in principiu.

ENCAOPT. Enca este capabil să analizeze corect această variabilă de mediu înainte de linia de comandă
parametrii. Chestii simple ca ENCAOPT="-L Regatul Unit" va funcționa chiar și fără această caracteristică.

MEDIUL


Variabila ENCAOPT poate deține un set de opțiuni implicite Enca. Conținutul său este interpretat
înainte de argumentele liniei de comandă. Din păcate, acest lucru nu funcționează peste tot (trebuie să aibă
+ caracteristica ENCAOPT).

LC_CTYPE, LC_COLLATE, LC_MESSAGES (posibil moștenit de la LC_ALL or LIMBA) este folosit pentru
ghiciți limba dvs. (trebuie să aibă +funcție de detectare a limbii).

Variabila DEFAULT_CHARSET poate fi folosit de înconv ca set de caractere țintă implicit.

DIAGNOSTIC


Enca returnează codul de ieșire 0 când toate fișierele de intrare au fost efectuate cu succes (adică toate
au fost detectate codificări și toate fișierele au fost convertite la codificarea necesară, în cazul conversiei
a fost cerut). Codul de ieșire 1 este returnat atunci când Enca nu a putut nici să ghicească codificarea, fie
efectuați conversie pe orice fișier de intrare, deoarece nu este suficient de inteligent. Codul de ieșire 2 este
returnat în caz de probleme grave (de ex. I/O).

SECURITATE


Ar trebui să fie posibil să o lași pe Enca să lucreze nesupravegheată, acesta este scopul ei. In orice caz:

Nu există nicio garanție că detectarea funcționează 100%. Nu pariați pe asta, puteți pierde cu ușurință
date valoroase.

Nu folosiți enca (programul), în schimb link la libenca dacă doriți ceva asemănător
Securitate. Atunci trebuie să efectuați singur eventuala conversie.

Nu folosiți convertoare externe. În mod ideal, dezactivați-le timp de compilare.

Ai grija la ENCAOPT și toată automagia încorporată ghicind diverse lucruri din
mediu, și anume locații.

Utilizați enconv online folosind serviciile onworks.net



Cele mai recente programe online Linux și Windows