GoGPT Best VPN GoSearch

Ulubiona usługa OnWorks

enconv - Online w chmurze

Uruchom enconv w darmowym dostawcy hostingu OnWorks na Ubuntu Online, Fedora Online, emulatorze online systemu Windows lub emulatorze online systemu MAC OS

To polecenie enconv, które można uruchomić w darmowym dostawcy hostingu OnWorks, korzystając z jednej z wielu naszych darmowych stacji roboczych online, takich jak Ubuntu Online, Fedora Online, emulator online systemu Windows lub emulator online systemu MAC OS

PROGRAM:

IMIĘ


enca — wykrywa i konwertuje kodowanie plików tekstowych

STRESZCZENIE


enca [-L JĘZYK] [OPCJA]... [FILE] ...
konw [-L JĘZYK] [OPCJA]... [FILE] ...

WPROWADZENIE ROLNICZE PRZYKŁADY


Jeśli masz szczęście, jedyne dwie rzeczy, które kiedykolwiek będziesz musiał wiedzieć, to: dowodzenie

enca FILE

powie ci, który plik kodowania FILE używa (bez zmiany) i

konw FILE

przekonwertuje plik FILE do lokalnego kodowania natywnego. Aby przekonwertować plik na inny
kodowanie użyj -x opcja (patrz -x wpis w dziale OPCJE i sekcje KONWERSJA oraz
KODOWANIA dla szczegółów).

Oba działają z wieloma plikami i standardowym wejściem (wyjściem). Np

enca -x latin2

zapewnia, że ​​plik `sometext' jest w ISO Latin 2, kiedy jest wysyłany do drukarki.

Głównym powodem, dla którego te polecenia zakończą się niepowodzeniem i zamienią twoje pliki w śmieci, jest to, że Enca
musi znać ich język, aby wykryć kodowanie. Próbuje określić twój język
i preferowany zestaw znaków z ustawień regionalnych, co może nie być tym, czego chcesz.

Możesz (lub musisz) użyć -L opcji, aby powiedzieć mu właściwy język. Załóżmy, że pobrałeś
jakiś rosyjski plik HTML, `file.htm', twierdzi, że to Windows-1251, ale tak nie jest. Więc biegniesz

enca -L ru plik.htm

i dowiedz się, że to KOI8-R (na przykład). Ostrzegamy, obecnie nie ma wielu obsługiwanych
języki (zobacz sekcję JĘZYKI).

Kolejne ostrzeżenie dotyczy faktu kilku funkcji Enca, a mianowicie konwersji zestawu znaków
możliwości, silnie zależą od tego, jakie inne narzędzia są zainstalowane w systemie (zob
Sekcja KONWERSJA)--biegać

enca --wersja

aby uzyskać listę funkcji (patrz sekcja ROZWIĄZANIA). Spróbuj też

enca – pomoc

aby uzyskać opis wszystkich innych opcji Enca (i znaleźć resztę tej strony podręcznika
zbędny).

OPIS


Enca odczytuje podane pliki tekstowe lub standardowe wejście, gdy nie podano żadnych, i wykorzystuje wiedzę
o ich języku (musi być obsługiwany przez Ciebie) i mieszaniną parsowania, statystyki
analizy, zgadywania i czarnej magii w celu ustalenia ich kodowania, do którego następnie drukuje
standardowe wyjście (lub przyznaje, że nie ma pojęcia, jakie może być kodowanie). Przez
domyślnie Enca przedstawia wyniki jako wielowierszowe opisy czytelne dla człowieka, kilka innych
dostępne są formaty — patrz Selektory typu danych wyjściowych poniżej.

Enca może również konwertować pliki do innego kodowania ENC kiedy o to poprosisz - albo używając a
wbudowany konwerter, jakąś bibliotekę konwersji lub wywołanie zewnętrznego konwertera.

Głównym celem Enca jest możliwość używania bez nadzoru jako narzędzia do automatycznej konwersji
być może jeszcze nie osiągnęli tego punktu (zobacz sekcję BEZPIECZEŃSTWO).

Należy pamiętać, że poza rzadkimi przypadkami Enca naprawdę musi znać język plików wejściowych, aby podać
ci wiarygodną odpowiedź. Z drugiej strony radzi sobie całkiem dobrze z plikami, które są
nie czysto tekstowy ani nawet nie wykrywa zestawu znaków ciągów tekstowych w jakimś pliku binarnym; z
oczywiście zależy to od charakteru komponentu nietekstowego.

Enca nie dba o strukturę plików wejściowych, traktuje je jako jednolity fragment
tekst/dane. W przypadku plików wieloczęściowych (np. skrzynek pocztowych) trzeba użyć pewnej wiedzy narzędziowej
strukturę, aby najpierw wyodrębnić poszczególne części. To koszt zdolności do wykrywania
kodowania jakichkolwiek uszkodzonych, niekompletnych lub w inny sposób nieprawidłowych plików.

OPCJE


Istnieje kilka kategorii opcji: opcje trybu pracy, selektory typu wyjścia,
parametry zgadywania, parametry konwersji, opcje ogólne i zestawienia.

Wszystkie długie opcje mogą być skracane, o ile są jednoznacznymi, obowiązkowymi parametrami
długich opcji są również obowiązkowe dla krótkich opcji.

Działanie Tryby
podążać:

-c, --automatyczna konwersja
Odpowiednik wywołania Enca jako konw.

Jeśli nie określono selektora typu danych wyjściowych, wykryj kodowanie plików, zgadnij
preferowany zestaw znaków z ustawień regionalnych i konwertować do niego pliki (dostępne tylko z
+ funkcja target-charset-auto).

-g, --odgadnąć
Odpowiednik wywołania Enca jako enca.

Jeśli nie określono selektora typu danych wyjściowych, wykryj kodowanie plików i zgłoś je.

Wydajność rodzaj selektory
wybierz, jakie działanie podejmie Enca, gdy ustali kodowanie; większość z nich po prostu
wybierać między różnymi nazwami, formatami i konwencjami, w jaki sposób kodowanie może być drukowane, ale
jeden z nich (-x) jest wyjątkowy: mówi Ence, aby przekodowała pliki do innego kodowania ENC.
Te opcje wzajemnie się wykluczają; jeśli określisz więcej niż jeden selektor typu wyjścia
ostatni ma pierwszeństwo.

Kilka typów danych wyjściowych reprezentuje nazwę zestawu znaków używaną przez inny program, ale nie wszystkie z nich
programy znają wszystkie zestawy znaków, które rozpoznaje Enca. Ostrzegam, Enca nie robi różnicy
między nierozpoznanym zestawem znaków a zestawem znaków, który nie ma nazwy w danej przestrzeni nazw w takim
sytuacje.

-d, --Detale
Kiedyś drukował kilka stron szczegółów na temat procesu zgadywania, ale od czasu Enca
to tylko program połączony z biblioteką Enca, nie jest to możliwe i ta opcja
jest mniej więcej równoważny -- czytelny dla człowieka, z wyjątkiem tego, że zgłasza przyczynę niepowodzenia, kiedy
Enca nie rozpoznaje kodowania.

-e, --enca-nazwa
Wypisuje ładną nazwę zestawu znaków Enca, czyli prawdopodobnie najbardziej ogólnie akceptowaną
i mniej lub bardziej czytelny dla człowieka identyfikator zestawu znaków, z dołączonymi powierzchniami.

Ta nazwa jest również używana podczas wywoływania zewnętrznego konwertera.

-f, -- czytelny dla człowieka
Drukuje słowny opis wykrytego zestawu znaków i powierzchni — coś ludzkiego
rozumie najlepiej. To jest zachowanie domyślne.

Dokładny format jest następujący: pierwsza linia zawiera samą nazwę zestawu znaków i
po nim następuje zero lub więcej wciętych linii zawierających nazwy wykrytych powierzchni.
Format ten nie jest jednak odpowiedni ani przeznaczony do dalszego przetwarzania maszynowego,
a słowne opisy zestawów znaków mają się zmienić w przyszłości.

-i, --iconv-nazwa
Drukuje jak iconv(3) (i/lub iconv(1)) wywołuje wykryty zestaw znaków. Dokładniej,
wypisuje jeden, mniej lub bardziej arbitralnie wybrany alias akceptowany przez iconv. Zestaw znaków
nieznany iconv liczy się jako nieznany.

Ten typ danych wyjściowych ma sens tylko wtedy, gdy Enca jest skompilowana z obsługą iconv (feature
+ interfejs iconv).

-r, --rfc1345-nazwa
Drukuje nazwę zestawu znaków RFC 1345. Gdy taka nazwa nie istnieje, ponieważ RFC 1345
nie definiuje danego kodowania, innej nazwy zdefiniowanej w innym RFC lub po prostu
drukowane jest nazwisko, które autor uważa za „najbardziej kanoniczne”.

Ponieważ RFC 1345 nie definiuje powierzchni, żadne informacje o powierzchni nie są dołączane.

-m, --nazwa-mima
Drukuje preferowaną nazwę MIME wykrytego zestawu znaków. To jest imię, które powinieneś mieć
zwykle używany podczas poprawiania wiadomości e-mail lub stron internetowych.

Zestaw znaków nieobecny w http://www.iana.org/assignments/character-sets liczy się jako
nieznany.

-s, --cstocs nazwa
Drukuje jak cstoc(1) wywołuje wykryty zestaw znaków. Zestaw znaków nieznany cstocs
liczy się jako nieznany.

-n, --nazwa=WORD
Drukuje nazwę zestawu znaków (kodowania) wybraną przez WORD (można skrócić tak długo, jak jest
niedwuznaczny). Dla nazw wymienionych powyżej, --nazwa=WORD odpowiada --WORD.

Korzystanie z aliasy ponieważ typ wyjścia powoduje, że Enca drukuje listę wszystkich zaakceptowanych aliasów
wykrytego zestawu znaków.

-x, --konwertuj na =[..]ENC
Konwertuje plik na kodowanie ENC.

Opcjonalny `..' przed nazwą kodowania nie ma specjalnego znaczenia, poza tym, że możesz go użyć
to sobie przypomnieć, że w przeciwieństwie do in przekodować(1), należy określić życzenia
kodowanie zamiast bieżącego.

Możesz użyć przekodować(1) łańcuchy nagrywania lub jakikolwiek inny rodzaj nagrywania bez mózgu
specyfikacja dla ENC, pod warunkiem, że powiesz Enca, aby użyła trochę zrozumienia narzędzi
go do konwersji (patrz sekcja KONWERSJA).

Kiedy Enca nie może określić kodowania, drukuje ostrzeżenie i pozostawia plik the
plik tak jak jest; kiedy jest uruchamiany jako filtr, stara się zrobić wszystko, co w jego mocy, aby skopiować standard
wejście na standardowe wyjście bez zmian. Niemniej jednak nie powinieneś na tym polegać i robić to
utworzyć kopię zapasową.

Zgadywanie parametry
Jest tylko jeden: -L ustawienie języka plików wejściowych. Ta opcja jest obowiązkowa (ale patrz
poniżej).

-L, --język=JĘZYK
Ustawia język plików wejściowych na JĘZYK.

Dokładniej, JĘZYK może być dowolną prawidłową nazwą ustawień regionalnych (lub aliasem z +locale-alias
funkcja) jakiegoś obsługiwanego języka. Możesz także określić `none' jako nazwę języka,
wówczas rozpoznawane są tylko kodowania wielobajtowe. Uruchomić

enca -- lista języków

aby uzyskać listę obsługiwanych języków. Gdy nie określisz żadnego języka, Enca spróbuje
odgadnąć twój język na podstawie ustawień regionalnych i zakłada, że ​​pliki wejściowe tego używają
język. Patrz sekcja JĘZYKI .

Konwersja parametry
daje lepszą kontrolę nad sposobem przeprowadzania konwersji zestawu znaków. Nie wpływają
cokolwiek kiedy -x nie jest określony jako typ wyjścia. Patrz sekcja KONWERSJA dla
krwawe szczegóły konwersji.

-C, --try-converters=WYKAZ
Dołącza oddzielone przecinkami WYKAZ do listy konwerterów, które zostaną wypróbowane, gdy ty
poprosić o konwersję. Ich nazwy mogą być skracane tak długo, jak są
niedwuznaczny. Uruchomić

enca -- lista konwerterów

aby uzyskać listę wszystkich prawidłowych nazw konwerterów (i zobacz sekcję KONWERSJA dla ich
opis).

Domyślna lista zależy od tego, jak została skompilowana Enca, uruchom

enca – pomoc

aby znaleźć domyślną listę konwerterów.

Uwaga lista domyślna jest używana tylko wtedy, gdy nie określisz -C w ogóle. W przeciwnym razie,
lista jest budowana tak, jakby była początkowo pusta i każda -C dodaje nowe konwertery
do tego. Ponadto określenie Żaden jako nazwa konwertera powoduje skasowanie konwertera
lista.

-E, --zewnętrzny-program-konwertera=PATH
Ustawia nazwę programu zewnętrznego konwertera na PATH. Domyślny konwerter zewnętrzny zależy
o tym, w jaki sposób enca została spełniona, oraz o możliwości korzystania z zewnętrznych konwerterów
być w ogóle niedostępna. Uruchomić

enca – pomoc

aby znaleźć domyślny program konwertujący w kompilacji enca.

Ogólne Opcje
nie pasują do innych kategorii opcji...

-p, --with-nazwapliku
Zmusza Enca do poprzedzenia każdego wyniku odpowiednią nazwą pliku. Domyślnie Enka
poprzedza wyniki nazwami plików, gdy jest uruchamiany na wielu plikach.

Wejście standardowe jest drukowane jako STDIN i standardowe wyjście jako STDOUT (to ostatnie może być
prawdopodobnie widoczne tylko w komunikatach o błędach).

-P, --no-pliku
Zmusza Enca, aby nie poprzedzała wyników nazwami plików. Domyślnie Enca nie ma prefiksu
wynik z nazwą pliku, gdy jest uruchamiany na pojedynczym pliku (włączając standardowe wejście).

-V, --gadatliwy
Zwiększa poziom gadatliwości (każde użycie zwiększa go o jeden).

Obecnie ta opcja nie jest zbyt użyteczna, ponieważ odpowiadają różne części Enca
inaczej niż na tym samym poziomie gadatliwości, przeważnie wcale.

Aktywności
wszystkie są terminalami, tzn. gdy Enca napotka niektóre z nich, wypisuje wymagane zestawienie
i kończy się bez przetwarzania kolejnych opcji.

-h, --help
Drukuje krótką pomoc dotyczącą użytkowania.

-G, --licencja
Drukuje pełną licencję Enca (jeśli to możliwe, przez pager).

-l, --lista=WORD
Drukuje listę określoną przez WORD (może być skrócony, o ile jest jednoznaczny).
Dostępne listy obejmują:

wbudowane zestawy znaków. Wszystkie kodowania konwertowalne przez wbudowany konwerter, według grup (oba
kodowanie wejściowe i wyjściowe musi pochodzić z tej listy i należeć do tej samej grupy dla
konwersja wewnętrzna).

wbudowane-kodowania. Równoważny wbudowane zestawy znaków, ale uważane za przestarzałe; będzie
zostać przyjętym z ostrzeżeniem, na jakiś czas.

konwertery. Wszystkie prawidłowe nazwy konwerterów (do użycia z -C).

zestawy znaków. Wszystkie kodowania (zestawy znaków). Możesz wybrać, jakie nazwy zostaną wydrukowane
w --Nazwa lub dowolny selektor typu wyjścia nazwy (oczywiście tylko kodowania mające rozszerzenie
nazwa w danej przestrzeni nazw zostanie wtedy wydrukowana), selektor musi być określony
zanim --lista.

kodowania. Równoważny zestawy znaków, ale uważane za przestarzałe; zostanie przyjęty z
ostrzeżenie, na jakiś czas.

języki. Wszystkie obsługiwane języki wraz z należącymi do nich zestawami znaków. Notatka
typ wyjścia wybiera tutaj styl nazwy języka, a nie styl nazwy zestawu znaków.

Nazwy. Wszystkie możliwe wartości --Nazwa opcja.

wykazy. Wszystkie możliwe wartości tej opcji. (Zwariowany?)

powierzchnie. Wszystkie powierzchnie, które Enca rozpoznaje.

-v, --wersja
Drukuje wersję programu i listę funkcji (patrz sekcja ROZWIĄZANIA).

KONWERSJA


Chociaż Enca została pierwotnie zaprojektowana jako narzędzie tylko do zgadywania kodowania, teraz jest
oferuje kilka metod konwersji zestawu znaków. Możesz kontrolować, które z nich będą
używane z -C.

Enca sekwencyjnie próbuje konwerterów z listy określonej przez -C dopóki nie znajdzie czegoś takiego
jest w stanie wykonać wymaganą konwersję lub do wyczerpania listy. Powinieneś określić
najpierw preferowane konwertery, później mniej preferowane. Konwerter zewnętrzny (zewnętrzny) Powinien być
zawsze podawana w ostateczności, tylko w ostateczności, ponieważ zwykle nie można jej odzyskać
kiedy to się nie powiedzie. Domyślna lista konwerterów zawsze zaczyna się od wbudowany , a następnie
kontynuuje z pierwszym dostępnym z: wolny kod, iconv, Nic.

Należy zauważyć, gdy Enca mówi, że nie jest w stanie przeprowadzić konwersji, którą tylko oznacza
żaden z konwerterów nie jest w stanie tego wykonać. Nadal możliwe jest wykonanie tzw
wymagana konwersja w kilku krokach, przy użyciu kilku konwerterów, ale aby dowiedzieć się, jak to zrobić,
prawdopodobnie potrzebna jest ludzka inteligencja.

Wbudowany przetwornik
jest najprostszym i zdecydowanie najszybszym ze wszystkich, może wykonać tylko kilka bajtów po bajcie
konwertuje i modyfikuje pliki bezpośrednio w miejscu (może być uważane za niebezpieczne, ale jest
dość wydajny). Możesz uzyskać listę wszystkich kodowań, z którymi może konwertować

enca -- lista wbudowana

Oprócz szybkości, jego główną zaletą (a także wadą) jest to, że nie dba o to: to
po prostu konwertuje znaki mające reprezentację w kodowaniu docelowym, nie dotyka
cokolwiek innego i nigdy nie wyświetla żadnego komunikatu o błędzie.

Konwerter ten można określić jako wbudowany w -C.

Wolny kod przetwornik
jest interfejsem do biblioteki GNU recode, która wykonuje właściwe zadanie przekodowania. Może lub może
nie być wkompilowany; uruchomić

enca --wersja

aby sprawdzić jego dostępność w twojej kompilacji enca (feature + librecode-interface).

Powinieneś być zaznajomiony przekodować(1) przed użyciem, ponieważ przekodowanie jest dość
wyrafinowane i potężne narzędzie do konwersji zestawów znaków. Możesz napotkać problemy podczas korzystania z niego
wspólnie z firmą Enca, zwłaszcza dlatego, że wsparcie Enca dla powierzchni nie jest w 100% kompatybilne,
ponieważ recode próbuje zbyt mocno, aby transformacja była odwracalna, ponieważ czasami tak się dzieje
po cichu ignoruje błędy we/wy, a ponieważ jest niesamowicie wadliwy. Proszę zobaczyć rekodowanie GNU
strony informacyjne, aby uzyskać szczegółowe informacje na temat biblioteki przekodowania.

Konwerter ten można określić jako wolny kod w -C.

Iconv przetwornik
jest interfejsem do UNIX98 iconv(3) funkcje konwersji, które wykonują rzeczywiste nagrywanie
stanowisko. Może być wkompilowany lub nie; uruchomić

enca --wersja

aby dowiedzieć się o jego dostępności w twojej kompilacji enca (feature +iconv-interface).

Chociaż iconv jest obecny w większości dzisiejszych systemów, rzadko oferuje jakiś użyteczny zestaw
dostępnych konwersji, jedynym godnym uwagi wyjątkiem jest iconv z GNU libc. To jest
zwykle dość wybredny również w przypadku powierzchni (jednocześnie nie implementując powierzchni
konwersja). Jednak prawdopodobnie reprezentuje jedyne standardowe (znormalizowane) narzędzie, które może wykonać
konwersja z/do Unicode. Proszę zapoznać się z dokumentacją iconv, aby uzyskać szczegółowe informacje na jego temat
możliwości w danym systemie.

Konwerter ten można określić jako iconv w -C.

Zewnętrzny przetwornik
to dowolne zewnętrzne narzędzie do konwersji, które można określić za pomocą -E opcja (co najwyżej jedna
można zdefiniować jednocześnie). Istnieje kilka standardowych, dostarczanych razem z enca:
cstoc, przekodować, mapa, umapa, pikonw. Wszystkie są skryptami opakowującymi: for cstoc(1) przekodować(1)
mapa(1) umapa(1), a pikonw(1).

Należy pamiętać, że enca ma niewielką kontrolę nad tym, co naprawdę robi zewnętrzny konwerter. Jeśli ustawisz
jej /bin/rm ponosisz pełną odpowiedzialność za konsekwencje.

Jeśli chcesz stworzyć własny konwerter do użytku z enca, powinieneś wiedzieć, że zawsze tak jest
o nazwie

PRZETWORNIK ENC_CURRENT ENC FILE [-]

gdzie PRZETWORNIK jest to, co zostało ustalone przez -E, ENC_CURRENT wykryto kodowanie, ENC jest co
został określony z -x, FILE jest plikiem do przekonwertowania, tj. jest wywoływany dla każdego
plik oddzielnie. Opcjonalny czwarty parametr, -, powinien powodować (jeśli jest obecny) wysyłanie
wyniku konwersji do standardowego wyjścia zamiast nadpisywania pliku FILE,
konwerter powinien również zadbać o to, aby nie zmieniać uprawnień do plików, zwracając kod błędu 1
w przypadku awarii i czyszczenia plików tymczasowych. Proszę zapoznać się ze standardem zewnętrznym
konwertery dla przykładów.

Konwerter ten można określić jako zewnętrzny w -C.

Domyślnie cel charset
Prostym sposobem określenia docelowego zestawu znaków jest -x opcja, która zastępuje wszelkie
domyślne. Kiedy Enca jest nazywana jako konw, domyślny docelowy zestaw znaków jest wybrany dokładnie
tak samo jak przekodować(1) to robi.

Jeśli DOMYŚLNY_CHARSET ustawiona zmienna środowiskowa, jest używana jako docelowy zestaw znaków.

W przeciwnym razie, jeśli system udostępnia plik nl_langinfo(3) funkcja, natywna bieżąca lokalizacja
charset jest używany jako docelowy zestaw znaków.

Kiedy obie metody zawiodą, Enca narzeka i kończy pracę.

Odwracalność zauważa
Jeśli odwracalność jest dla Ciebie kluczowa, nie powinieneś w ogóle używać enca jako konwertera (a może
możesz, z bardzo specjalnie zaprojektowanym przekodować(1) opakowanie). W przeciwnym razie powinieneś o godz
najmniej wiedzieć, że istnieją cztery podstawowe sposoby obsługi nieodwracalnych jednostek znakowych:

fail — to też jest możliwe, a nawiasem mówiąc, jest to dokładnie to, co aktualna biblioteka GNU libc
Implementacja iconv robi (można również nakazać recode)

nie dotykaj ich - to zawsze robi wewnętrzny konwerter enca i może zrobić recode;
chociaż nie jest odwracalny, człowiek jest zwykle w stanie odtworzyć oryginał (w
przynajmniej w zasadzie)

przybliżyć je — oto, co potrafią cstocs, a także przekodować, choć inaczej; i
najlepszy wybór, jeśli chcesz tylko, aby przeklęty tekst był czytelny

wyrzuć je - to jest to, co mogą zrobić zarówno recode, jak i cstocs (cstocs mogą również je zastąpić
znaki przez jakiś stały znak zamiast zwykłego ignorowania); przydatne, gdy
znaki do pominięcia zawierają tylko szum.

Aby uzyskać szczegółowe informacje na temat tego problemu, zapoznaj się z instrukcją swojego ulubionego konwertera. Generalnie, jeśli
nie masz szczęścia, aby mieć w swoim pliku wszystkie wymienialne znaki, instrukcja
interwencja i tak jest potrzebna.

Wydajność zauważa
Słaba wydajność dostępnych konwerterów była jednym z głównych powodów włączenia
wbudowany konwerter w enca. Staraj się go używać, gdy tylko jest to możliwe, np. gdy pliki w
rozważane są wystarczająco czyste pod względem zestawu znaków lub wystarczająco zabrudzone pod względem zestawu znaków, aby jego zero było wbudowane
inteligencja nie ma znaczenia. Nie wymaga dodatkowego miejsca na dysku ani dodatkowej pamięci i może
przewyższają przekodować(1) więcej niż 10 razy na dużych plikach i wersji Perla (tj. szybciej
jeden z cstoc(1) ponad 400 razy na małych plikach (w rzeczywistości jest to prawie tak szybkie, jak zwykłe
cp(1)).

Staraj się unikać zewnętrznych konwerterów, gdy nie jest to absolutnie konieczne od czasu rozwidlenia
a przenoszenie rzeczy jest niesamowicie powolne.

KODOWANIA


Możesz uzyskać listę rozpoznanych zestawów znaków za pomocą

enca --lista zestawów znaków

i za pomocą --Nazwa parametru możesz wybrać dowolną nazwę, która ma być użyta w zestawieniu.
Możesz także wyświetlić listę wszystkich powierzchni za pomocą

enca -- lista powierzchni

W kodowaniu i nazwach powierzchni nie jest rozróżniana wielkość liter, a znaki niealfanumeryczne nie
uwzględnić. Jednak znaki niealfanumeryczne są w większości niedozwolone.
Jedyne dozwolone to: `-', `_', `.', `:' i `/' (jako separator znaków/powierzchni). Więc
`ibm852' i `IBM-852' są takie same, podczas gdy `IBM 852' nie jest akceptowany.

Zestawy znaków
Poniższa lista rozpoznawanych zestawów znaków używa nazw Enca (-e) i opisów słownych jako
zgłoszone przez Encę (-f):

ASCII 7-bitowe znaki ASCII
ISO-8859-2 Norma ISO 8859-2; ISO łacina 2
ISO-8859-4 Norma ISO 8859-4; łacina 4
ISO-8859-5 Norma ISO 8859-5; Cyrylica ISO
ISO-8859-13 Norma ISO 8859-13; ISO Bałtyk; łacina 7
ISO-8859-16 Norma ISO 8859-16
CP1125 Strona kodowa MS-Windows 1125
CP1250 Strona kodowa MS-Windows 1250
CP1251 Strona kodowa MS-Windows 1251
CP1257 Strona kodowa MS-Windows 1257; WinBaltRim
IBM852 Strona kodowa IBM/MS 852; PC (DOS) łacina 2
IBM855 Strona kodowa IBM/MS 855
IBM775 Strona kodowa IBM/MS 775
IBM866 Strona kodowa IBM/MS 866
bałtycki ISO-IR-179; bałtycki
kodowanie KEYBCS2 Kamenicky'ego; KLAWISZE2
macce Macintosh Europa Środkowa

Maccyr Macintosh Cyrylica
ECMA-113 Ecma cyrylica; ECMA-113
KOI-8_CS_2 Kod KOI8-CS2 (`T602')
KOI8-R KOI8-R Cyrylica
KOI8-U KOI8-U Cyrylica
KOI8-UNI KOI8-Ujednolicona cyrylica
Sekwencje kontrolne TeX (La)TeX
UCS-2 Uniwersalny zestaw znaków 2 bajty; UCS-2; BMP
UCS-4 Uniwersalny zestaw znaków 4 bajty; UCS-4; ISO-10646
UTF-7 Uniwersalny format transformacji 7 bitów; UTF-7
UTF-8 Uniwersalny format transformacji 8 bitów; UTF-8
CORK Kodowanie korka; T1
GBK uproszczony chiński standard krajowy; GB2312
BIG5 Tradycyjny chiński standard przemysłowy; Duży5
HZ Kodowanie HZ GB2312
nieznany Nierozpoznane kodowanie

gdzie nieznany nie jest żadnym prawdziwym kodowaniem, jest zgłaszane, gdy Enca nie jest w stanie podać
wiarygodna odpowiedź.

powierzchnie
Enca ma pewne wsparcie eksperymentalne dla tak zwanych powierzchni (patrz poniżej). Wykrywa
następujące powierzchnie (nie wszystkie można zastosować do wszystkich zestawów znaków):

/CR Terminatory linii CR
/LF Terminatory linii LF
/CRLF Terminatory linii CRLF
ND Mieszane terminatory linii
Nie dotyczy Otoczony/zmieszany z danymi nietekstowymi
/21 Kolejność bajtów odwrócona parami (1,2 -> 2,1)
/4321 Kolejność bajtów odwrócona czterokrotnie (1,2,3,4 -> 4,3,2,1)
NA Zarówno małe, jak i duże kawałki endianu, połączone
/qp Zakodowany do wydrukowania w cudzysłowie

Uwaga: niektóre powierzchnie mają NA zamiast identyfikatora — nie można ich określić na polecenie
linii, mogą być zgłaszane tylko przez firmę Enca. Jest to zamierzone, ponieważ tylko Cię informują
dlaczego plik nie może być uznany za spójny powierzchniowo zamiast reprezentować rzeczywistość
powierzchni.

Każdy zestaw znaków ma swoją naturalną powierzchnię (zwaną `implied' w recode), która nie jest raportowana,
np. dla zestawu znaków IBM 852 są to `terminatory linii CRLF'. W przypadku kodowania UCS big endian jest
uważana za powierzchnię naturalną; nietypowe rzędy bajtów są budowane z 21 i 4321
permutacje: 2143 jest zgłaszane po prostu jako 21, podczas gdy 3412 jest zgłaszane jako kombinacja 4321
i 21.

Podwójnie zakodowany UTF-8 nie jest ani zestawem znaków, ani powierzchnią, po prostu zgłoszono.

O mnie zestawy znaków, kodowania oraz powierzchnie
Zestaw znaków to zestaw jednostek znaków, podczas gdy kodowanie jest jego reprezentacją w terminach
bajtów i bitów. W Ence słowo kodowanie oznacza to samo co `reprezentacja tekstu',
tj. relacji między ciągami jednostek znakowych składających się na tekst i
ciąg bajtów (bitów) składających się na plik.

Tak więc kodowanie to zarówno zestaw znaków, jak i tak zwana powierzchnia (terminatory linii, kolejność bajtów,
łączenie, transformacja Base64 itp.). Mimo to praca z nim okazuje się wygodna
niektóre pary {charset,surface} jak w przypadku oryginalnych zestawów znaków. Więc jak w przekodować(1), wszystkie LUW- i
Kodowania UTF uniwersalnego zestawu znaków nazywane są zestawami znaków. Zobacz przekodowanie
dokumentacji, aby uzyskać więcej informacji na temat tego problemu.

Jedyną dobrą rzeczą w powierzchniach jest to, że kiedy nie zaczynasz się nimi bawić, też nie
Enca nie wystartuje i będzie starała się zachowywać jak najbardziej nieświadoma powierzchni
program, nawet podczas rozmowy w celu przekodowania.

JĘZYKI


Enca musi znać język plików wejściowych, aby działać niezawodnie, przynajmniej w przypadku
zwykłe kodowanie 8-bitowe. Kodowanie wielobajtowe powinno być rozpoznawane dla dowolnej łaciny, cyrylicy
lub język grecki.

Możesz (lub musisz) użyć -L możliwość poinformowania Enki o języku. Ponieważ ludzie najczęściej
pracować z plikami w tym samym języku, dla którego skonfigurowali ustawienia regionalne, próbuje Enca
próbuje odgadnąć język, badając wartość LC_CTYPE i inne kategorie ustawień regionalnych
(proszę zobaczyć lokalny(7)) i używanie go dla języka, gdy go nie określisz. Z
Oczywiście, może to być całkowicie błędne i da ci nonsensowne odpowiedzi i zaszkodzi twojemu
plików, więc nie zapomnij użyć -L opcja. Możesz także użyć ENCAOPT środowisko
zmienną, aby ustawić domyślny język (zobacz sekcję ŚRODOWISKO).

Enca obsługuje następujące języki (każdy język jest wymieniony wraz z obsługiwanymi
kodowanie 8-bitowe).

Białoruski CP1251 IBM866 ISO-8859-5 KOI8-UNI maccyr IBM855
bułgarski CP1251 ISO-8859-5 IBM855 maccyr ECMA-113
Czeski ISO-8859-2 CP1250 IBM852 KEYBCS2 macce KOI-8_CS_2 CORK
estoński ISO-8859-4 CP1257 IBM775 ISO-8859-13 macce baltic
Chorwacki CP1250 ISO-8859-2 IBM852 macce CORK
Węgierski ISO-8859-2 CP1250 IBM852 macce CORK
litewski CP1257 ISO-8859-4 IBM775 ISO-8859-13 macce baltic
łotewski CP1257 ISO-8859-4 IBM775 ISO-8859-13 macce baltic
polski ISO-8859-2 CP1250 IBM852 macce ISO-8859-13 ISO-8859-16 baltic CORK
Rosyjski KOI8-R CP1251 ISO-8859-5 IBM866 maccyr
słowacki CP1250 ISO-8859-2 IBM852 KEYBCS2 macce KOI-8_CS_2 CORK
Słoweński ISO-8859-2 CP1250 IBM852 macce CORK
Ukraiński CP1251 IBM855 ISO-8859-5 CP1125 KOI8-U maccyr
Chiński GBK BIG5 HZ
Żaden

Specjalny język Żaden można skrócić do __, nie zawiera kodowania 8-bitowego, więc tylko
wykrywane jest kodowanie wielobajtowe.

Możesz także użyć nazw ustawień regionalnych zamiast języków:

Białoruski być
bułgarski bg
czeski cs
estoński i in
chorwacki godz
węgierski hu
litewski lt
łotewski lv
polski pl
ruski rosyjski
słowacki sk
słoweński sl
ukraińska wielka brytania
chiński zh

ROZWIĄZANIA


Kilka funkcji Enca zależy od tego, co jest dostępne w twoim systemie i jak było
skompilowane. Możesz uzyskać ich listę za pomocą

enca --wersja

Znak plus przed nazwą funkcji oznacza, że ​​jest dostępna, znak minus oznacza, że ​​brakuje tej kompilacji
szczególna cecha.

interfejs librecode. Enca ma interfejs do konwersji zestawu znaków biblioteki GNU recode
funkcje.

iconv-interfejs. Enca posiada interfejs do funkcji konwersji zestawu znaków iconv systemu UNIX98.

konwerter zewnętrzny. Enca może korzystać z zewnętrznych programów do konwersji (jeśli masz jakieś odpowiednie
zainstalowany).

wykrywanie języka. Enca próbuje odgadnąć język (-L) z ustawień regionalnych. Nie potrzebujesz
--język opcja, przynajmniej w zasadzie.

alias ustawień regionalnych. Enca jest w stanie odszyfrować aliasy ustawień regionalnych używane dla nazw języków.

docelowy zestaw znaków-auto. Enca próbuje wykryć preferowany zestaw znaków z ustawień regionalnych. Opcja
--automatyczna konwersja i nazywając Encę jako konw działa, przynajmniej w założeniach.

ENCAOPT. Enca jest w stanie poprawnie przeanalizować tę zmienną środowiskową przed wierszem poleceń
parametry. Proste rzeczy np ENCAOPT="-L wielka brytania" będzie działać nawet bez tej funkcji.

ŚRODOWISKO


Zmienna ENCAOPT może przechowywać zestaw domyślnych opcji Enca. Jego treść jest interpretowana
przed argumentami wiersza poleceń. Niestety nie wszędzie to działa (musi mieć
+ funkcja ENCAOPT).

LC_CTYPE, LC_COLLATE, LC_MESSAGES (prawdopodobnie odziedziczone po LC_ALL or JĘZYK) jest używany do
zgadywanie twojego języka (musi mieć + funkcję wykrywania języka).

Zmienna DOMYŚLNY_CHARSET może być używany przez konw jako domyślny docelowy zestaw znaków.

DIAGNOSTYKA


Enca zwraca kod wyjścia 0, gdy wszystkie pliki wejściowe zostały pomyślnie przetworzone (tzn
kodowania zostały wykryte i wszystkie pliki zostały przekonwertowane na wymagane kodowanie, jeśli konwersja
został poproszony). Kod wyjścia 1 jest zwracany, gdy Enca nie była w stanie odgadnąć kodowania lub
wykonać konwersję dowolnego pliku wejściowego, ponieważ nie jest to wystarczająco sprytne. Kod wyjścia 2 to
zwracany w przypadku poważnych problemów (np. I/O).

BEZPIECZEŃSTWO


Powinno być możliwe, aby Enca pracowała bez nadzoru, taki jest jej cel. Jednakże:

Nie ma gwarancji, że wykrywanie działa w 100%. Nie stawiaj na to, możesz łatwo przegrać
cenne dane.

Nie używaj enca (programu), zamiast tego link do libenca, jeśli chcesz coś podobnego
bezpieczeństwo. W takim razie musisz sam przeprowadzić ewentualną konwersję.

Nie używaj zewnętrznych konwerterów. Najlepiej wyłączyć je w czasie kompilacji.

Być świadomym ENCAOPT i cała wbudowana automagia zgadywania różnych rzeczy
środowisko, czyli lokalizacje.

Użyj enconv online korzystając z usług onworks.net


Darmowe serwery i stacje robocze

Pobierz aplikacje Windows i Linux

Komendy systemu Linux

Ad




×
reklama
❤️Zrób zakupy, zarezerwuj lub kup tutaj — bezpłatnie, co pomaga utrzymać bezpłatne usługi.