EngelsFransSpaans

Ad


OnWorks-favicon

enca - Online in de cloud

Voer enca uit in de gratis hostingprovider van OnWorks via Ubuntu Online, Fedora Online, Windows online emulator of MAC OS online emulator

Dit is de opdracht enca die kan worden uitgevoerd in de gratis hostingprovider van OnWorks met behulp van een van onze meerdere gratis online werkstations zoals Ubuntu Online, Fedora Online, Windows online emulator of MAC OS online emulator

PROGRAMMA:

NAAM


enca - detecteer en converteer de codering van tekstbestanden

KORTE INHOUD


enca [-L TAAL] [OPTIE]... [FILE] ...
enconv [-L TAAL] [OPTIE]... [FILE] ...

INLEIDING EN Voorbeelden


Als je geluk hebt, zijn de enige twee dingen die je ooit zult moeten weten: commando

enca FILE

zal u vertellen welk coderingsbestand FILE gebruikt (zonder het te veranderen), en

enconv FILE

zal het bestand converteren FILE naar uw locale native codering. Om het bestand naar een ander bestand te converteren
codering gebruik de -x optie (zie -x vermelding in sectie OPTIES en secties CONVERSIE en
ENCODERING voor details).

Beide werken ook met meerdere bestanden en standaardinvoer (uitvoer). Bijv

enca -x latin2

verzekert dat het bestand `sometext' in ISO Latin 2 is wanneer het naar de printer wordt gestuurd.

De belangrijkste reden waarom deze opdrachten mislukken en uw bestanden in afval veranderen, is dat Enca
moet hun taal kennen om de codering te detecteren. Het probeert uw taal te bepalen
en voorkeurstekenset uit de landinstellingen, wat misschien niet is wat u zoekt.

Je kunt (of moet) gebruiken -L optie om het de juiste taal te vertellen. Stel dat je hebt gedownload
een Russisch HTML-bestand, `file.htm', beweert dat het Windows-1251 is, maar dat is het niet. Dus jij vlucht

enca -L ru bestand.htm

en ontdek dat het bijvoorbeeld KOI8-R is. Wees gewaarschuwd: momenteel worden er niet veel ondersteund
talen (zie sectie TALEN).

Een andere waarschuwing betreft het feit dat verschillende functies van Enca aanwezig zijn, namelijk de conversie van tekensets
mogelijkheden zijn sterk afhankelijk van welke andere tools op uw systeem zijn geïnstalleerd (zie
sectie CONVERSIE)--loop

enca --versie

om een ​​lijst met functies te krijgen (zie sectie KENMERKEN). Probeer ook

enca-help

voor een beschrijving van alle andere Enca-opties (en voor de rest van deze handleiding).
overbodig).

PRODUCTBESCHRIJVING


Enca leest bepaalde tekstbestanden, of standaardinvoer als er geen is, en gebruikt kennis
over hun taalgebruik (moet door u worden ondersteund) en een combinatie van parseren en statistisch
analyse, gokken en zwarte magie om hun coderingen te bepalen, waarnaar het vervolgens afdrukt
standaarduitvoer (of het geeft toe dat het geen idee heeft wat de codering zou kunnen zijn). Door
standaard presenteert Enca de resultaten als door mensen leesbare beschrijvingen van meerdere regels, en nog een aantal andere
formaten zijn beschikbaar - zie Uitvoertype-kiezers hieronder.

Enca kan bestanden ook naar een andere codering converteren ENC wanneer u erom vraagt ​​- via een
ingebouwde converter, een conversiebibliotheek, of door een externe converter aan te roepen.

Het primaire doel van Enca is om onbeheerd bruikbaar te zijn, als een automatische conversietool
misschien hebben we dit punt nog niet bereikt (zie sectie VEILIGHEID).

Houd er rekening mee dat, behalve in zeldzame gevallen, Enca de taal van de invoerbestanden echt moet kennen om te geven
u een betrouwbaar antwoord. Aan de andere kant kan het dan vrij goed omgaan met bestanden die dat wel zijn
niet puur tekstueel en detecteert zelfs geen tekenset van tekstreeksen in een binair bestand; van
Uiteraard hangt dit af van het karakter van de niet-tekstuele component.

Enca geeft niets om de structuur van invoerbestanden, het beschouwt ze als een uniform stuk
tekst/gegevens. In het geval van bestanden die uit meerdere delen bestaan ​​(bijvoorbeeld mailboxen), moet u een of ander hulpmiddel gebruiken
de structuur om eerst de afzonderlijke onderdelen eruit te halen. Het zijn de kosten van het vermogen om te detecteren
coderingen van beschadigde, onvolledige of anderszins onjuiste bestanden.

OPTIES


Er zijn verschillende categorieën opties: opties voor bedieningsmodi, selectoren voor uitgangstype,
gokparameters, conversieparameters, algemene opties en lijsten.

Alle lange opties kunnen worden afgekort, zolang het maar ondubbelzinnige, verplichte parameters zijn
van lange opties zijn ook verplicht voor korte opties.

Werking modi
zijn aan het volgen:

-c, --auto-conversie
Gelijk aan het aanroepen van Enca als enconv.

Als er geen uitvoertypekiezer is opgegeven, detecteer dan bestandscoderingen, raad uw
gewenste tekenset van landinstellingen, en converteer bestanden ernaar (alleen beschikbaar met
+ doel-tekenset-auto-functie).

-g, --Raad eens
Gelijk aan het aanroepen van Enca als enca.

Als er geen uitvoertypekiezer is opgegeven, detecteer dan de bestandscoderingen en rapporteer deze.

uitgang type dan: kiezers
selecteer welke actie Enca zal ondernemen wanneer het de codering bepaalt; de meesten gewoon
kies tussen verschillende namen, formaten en conventies hoe coderingen kunnen worden afgedrukt, maar
een van hen (-x) is speciaal: het vertelt Enca om bestanden te hercoderen naar een andere codering ENC.
Deze opties sluiten elkaar uit; als u meer dan één uitvoertypekiezer opgeeft
de laatste heeft voorrang.

Verschillende uitvoertypen vertegenwoordigen de tekensetnaam die door een ander programma wordt gebruikt, maar niet allemaal
programma's kennen alle tekensets die Enca herkent. Wees gewaarschuwd, Enca maakt geen verschil
tussen een niet-herkende tekenset en een tekenset die geen naam heeft in de opgegeven naamruimte
situaties.

-d, --details
Vroeger werden er een paar pagina's met details over het gokproces afgedrukt, maar sinds Enca
is slechts een programma gekoppeld aan de Enca-bibliotheek, dit is niet mogelijk en deze optie
is ongeveer gelijk aan --leesbare, behalve dat het de foutreden rapporteert wanneer
Enca herkent de codering niet.

-e, --enca-naam
Drukt Enca's mooie naam van de tekenset af, dat wil zeggen misschien wel de meest algemeen aanvaarde
en een min of meer door mensen leesbare karakterset-ID, met toegevoegde oppervlakken.

Deze naam wordt ook gebruikt bij het aanroepen van een externe converter.

-f, --leesbare
Drukt een verbale beschrijving af van de gedetecteerde tekenset en oppervlakken - iets van een mens
begrijpt het het beste. Dit is het standaardgedrag.

Het precieze formaat is als volgt: de eerste regel bevat alleen de naam van de tekenset, en
het wordt gevolgd door nul of meer ingesprongen regels met namen van gedetecteerde oppervlakken.
Dit formaat is echter niet geschikt of bedoeld voor verdere machinale verwerking,
en de verbale karaktersetbeschrijvingen zullen in de toekomst waarschijnlijk veranderen.

-i, --iconv-naam
Print hoe iconv(3) (en/of iconv(1)) roept de gedetecteerde tekenset op. Preciezer,
het drukt een, min of meer willekeurig gekozen, alias af die is geaccepteerd door iconv. Een karakterset
onbekend voor iconv telt als onbekend.

Dit uitvoertype is alleen zinvol als Enca is gecompileerd met iconv-ondersteuning (feature
+iconv-interface).

-r, --rfc1345-naam
Drukt de RFC 1345-tekensetnaam af. Wanneer zo’n naam niet bestaat omdat RFC 1345
definieert geen bepaalde codering, een andere naam gedefinieerd in een andere RFC of gewoon
de naam die de auteur als ‘de meest canonieke’ beschouwt, wordt afgedrukt.

Omdat RFC 1345 geen oppervlakken definieert, wordt er geen oppervlakte-informatie toegevoegd.

-m, --mime-naam
Drukt de gewenste MIME-naam van de gedetecteerde tekenset af. Dit is de naam die je moet hebben
normaal gesproken gebruiken bij het repareren van e-mails of webpagina's.

Een tekenset die niet aanwezig is in http://www.iana.org/assignments/character-sets telt als
onbekend.

-s, --cstocs-naam
Print hoe cstocs(1) roept de gedetecteerde tekenset op. Een tekenset die onbekend is bij cstocs
geldt als onbekend.

-n, --naam=WOORD
Drukt de naam van de tekenset (codering) af die is geselecteerd door WOORD (kan zo lang worden afgekort als het is
ondubbelzinnig). Voor de hierboven genoemde namen, --naam=WOORD is gelijk aan --WOORD.

gebruik aliassen omdat het uitvoertype ervoor zorgt dat Enca een lijst met alle geaccepteerde aliassen afdrukt
van de gedetecteerde tekenset.

-x, --converteren naar=[..]ENC
Converteert bestand naar codering ENC.

De optionele `..' vóór de coderingsnaam heeft geen speciale betekenis, behalve dat u deze kunt gebruiken
om jezelf eraan te herinneren dat, in tegenstelling tot in hercoderen(1), moet u specificeren gewenste
codering, in plaats van stroom.

Je kunt gebruiken hercoderen(1) hercoderingsketens of enige andere vorm van hersendode hercodering
specificatie voor ENC, op voorwaarde dat u Enca vertelt om enig gereedschapsbegrip te gebruiken
voor conversie (zie sectie CONVERSIE).

Wanneer Enca er niet in slaagt de codering te bepalen, drukt het een waarschuwing af en verlaat het de
bestand zoals het is; wanneer het als filter wordt uitgevoerd, probeert het zijn best te doen om de standaard te kopiëren
invoer naar standaarduitvoer ongewijzigd. Toch moet u er niet op vertrouwen en dat wel doen
back-up.

gissen parameters
Er is er maar een: -L taal van invoerbestanden instellen. Deze optie is verplicht (maar zie
hieronder).

-L, --taal=TAAL
Stelt de taal van invoerbestanden in op TAAL.

Preciezer, TAAL kan elke geldige localenaam zijn (of een alias met +locale-alias
feature) van een ondersteunde taal. U kunt ook `none' opgeven als taalnaam,
alleen multibyte-coderingen worden dan herkend. Loop

enca --lijst talen

om een ​​lijst met ondersteunde talen te krijgen. Als u geen taal opgeeft, probeert Enca het
om uw taal te raden aan de hand van de landinstellingen en gaat ervan uit dat invoerbestanden dit gebruiken
taal. Zie sectie TALEN voor meer info.

Camper ombouw parameters
geven u meer controle over hoe tekensetconversie zal worden uitgevoerd. Ze hebben geen invloed
alles wanneer -x is niet opgegeven als uitvoertype. Zie sectie CONVERSIE voor de
bloederige conversiedetails.

-C, --try-converters=LIJST
Voegt een komma gescheiden toe LIJST naar de lijst met converters die worden geprobeerd wanneer u
vraag om conversie. Hun namen kunnen worden afgekort zolang ze dat zijn
ondubbelzinnig. Loop

enca --list converters

voor een lijst met alle geldige converternamen (en zie sectie CONVERSIE voor hun
beschrijving).

De standaardlijst is afhankelijk van hoe Enca is samengesteld en uitgevoerd

enca-help

om de standaard converterlijst te vinden.

Houd er rekening mee dat de standaardlijst alleen wordt gebruikt als u dit niet opgeeft -C helemaal niet. Anders,
de lijst wordt opgebouwd alsof deze aanvankelijk leeg en elke is -C voegt nieuwe converter(s) toe
ernaar. Bovendien specificeren geen als converternaam zorgt ervoor dat de converter wordt gewist
lijst.

-E, --extern-converter-programma=PATH
Stelt de programmanaam van de externe converter in op PATH. Standaard externe converter is afhankelijk
over hoe aan enca wordt voldaan, en de mogelijkheid om externe converters te gebruiken
helemaal niet beschikbaar zijn. Loop

enca-help

om het standaard converterprogramma in uw enca-build te vinden.

Algemeen opties
passen niet in andere optiecategorieën...

-p, --met-bestandsnaam
Dwingt Enca om elk resultaat te laten voorafgaan door de bijbehorende bestandsnaam. Standaard is Enca
geeft de resultaten een voorvoegsel met bestandsnamen wanneer deze op meerdere bestanden wordt uitgevoerd.

Standaardinvoer wordt afgedrukt als STDIN en standaarduitvoer als STDOUT (dit laatste kan
waarschijnlijk alleen te zien in foutmeldingen).

-P, --geen-bestandsnaam
Dwingt Enca om resultaten niet vooraf te laten gaan met bestandsnamen. Standaard gebruikt Enca geen voorvoegsel
resultaat met bestandsnaam bij uitvoering op een enkel bestand (inclusief standaardinvoer).

-V, --uitgebreid
Verhoogt het breedsprakigheidsniveau (elk gebruik verhoogt het met één).

Momenteel is deze optie niet erg nuttig omdat verschillende delen van Enca reageren
verschillend naar hetzelfde breedsprakigheidsniveau, meestal helemaal niet.

Meldingen
zijn allemaal terminal, dwz wanneer Enca er enkele tegenkomt, drukt het de vereiste lijst af
en eindigt zonder de volgende opties te verwerken.

-h, --help
Drukt korte gebruikshulp af.

-G, --vergunning
Drukt de volledige Enca-licentie af (indien mogelijk via een pager).

-l, --lijst=WOORD
Drukt de lijst af die is opgegeven door WOORD (kan worden afgekort zolang het ondubbelzinnig is).
Beschikbare lijsten zijn onder meer:

ingebouwde tekensets. Alle coderingen zijn converteerbaar via de ingebouwde converter, per groep (beide
invoer- en uitvoercodering moeten uit deze lijst komen en tot dezelfde groep behoren
interne conversie).

ingebouwde coderingen. Gelijk aan ingebouwde tekensets, maar als verouderd beschouwd; zullen
een tijdje geaccepteerd worden met een waarschuwing.

converters. Alle geldige converternamen (te gebruiken met -C).

tekensets. Alle coderingen (tekensets). U kunt selecteren welke namen worden afgedrukt
Met --naam of een willekeurige naamuitvoertypeselector (uiteraard zijn alleen coderingen met een
naam in de opgegeven naamruimte wordt dan afgedrukt), moet de selector worden opgegeven
vaardigheden --lijst.

coderingen. Gelijk aan tekensets, maar als verouderd beschouwd; zal worden aanvaard
een waarschuwing, voor een tijdje.

talen. Alle ondersteunde talen samen met de bijbehorende tekensets. Opmerking
uitvoertype selecteert hier de taalnaamstijl, niet de tekensetnaamstijl.

namen. Alle mogelijke waarden van --naam optie.

lijsten. Alle mogelijke waarden van deze optie. (Gek?)

oppervlakken. Alle oppervlakken die Enca herkent.

-v, --versie
Drukt de programmaversie en een lijst met functies af (zie sectie KENMERKEN).

CONVERSIE


Hoewel Enca oorspronkelijk is ontworpen als een hulpmiddel om alleen de codering te raden, is dat nu het geval
beschikt over verschillende methoden voor tekensetconversie. Je kunt bepalen welke van hen dat zal zijn
gebruikt met -C.

Enca probeert achtereenvolgens converters uit de lijst gespecificeerd door -C totdat het iets vindt
in staat is de vereiste conversie uit te voeren of totdat de lijst is uitgeput. Je zou moeten specificeren
eerst voorkeur voor converters, later minder voorkeur. Externe converter (extern) zou moeten zijn
altijd als laatste opgegeven, alleen als laatste redmiddel, omdat herstel meestal niet mogelijk is
wanneer het mislukt. De standaardlijst met converters begint altijd met ingebouwd en
gaat verder met de eerste die verkrijgbaar is bij: vrije code, iconv, Niets.

Opgemerkt moet worden dat Enca zegt dat het niet in staat is de conversie uit te voeren die het alleen maar bedoelt
geen van de converters kan dit uitvoeren. Het kan nog steeds mogelijk zijn om de
vereiste conversie in verschillende stappen, met behulp van verschillende converters, maar om erachter te komen hoe,
menselijke intelligentie is waarschijnlijk nodig.

Ingebouwd omvormer
is de eenvoudigste en veruit de snelste van allemaal, kan slechts enkele bytes per byte uitvoeren
conversies en wijzigt bestanden direct ter plaatse (kan als gevaarlijk worden beschouwd, maar is dat wel).
behoorlijk efficiënt). U kunt een lijst krijgen met alle coderingen waarmee het kan converteren

enca --list ingebouwd

Naast snelheid is het belangrijkste voordeel (en tevens nadeel) dat het er niets om geeft: het
converteert eenvoudigweg tekens met een representatie in doelcodering, raakt elkaar niet
iets anders en drukt nooit een foutmelding af.

Deze converter kan worden gespecificeerd als ingebouwd Met -C.

Librecode omvormer
is een interface voor de GNU-hercoderingsbibliotheek, die het eigenlijke hercoderingstaak uitvoert. Het kan of mag
niet worden gecompileerd; loop

enca --versie

om de beschikbaarheid ervan in uw enca-build te achterhalen (functie +librecode-interface).

Je zou er bekend mee moeten zijn hercoderen(1) voordat u het gebruikt, aangezien hercoderen een hele klus is
geavanceerde en krachtige tekensetconversietool. Het is mogelijk dat u problemen ondervindt bij het gebruik ervan
samen met Enca, vooral omdat Enca's ondersteuning voor oppervlakken niet 100% compatibel is,
omdat recode te hard probeert om de transformatie omkeerbaar te maken, omdat dit soms het geval is
negeert stilletjes I/O-fouten, en omdat het ongelooflijk veel fouten bevat. Zie GNU hercoderen
infopagina's voor details over de hercoderingsbibliotheek.

Deze converter kan worden gespecificeerd als vrije code Met -C.

iconv omvormer
is een interface voor UNIX98 iconv(3) conversiefuncties, die de daadwerkelijke opname uitvoeren
functie. Het kan al dan niet worden gecompileerd; loop

enca --versie

om de beschikbaarheid ervan in uw enca-build te achterhalen (functie +iconv-interface).

Hoewel iconv op de meeste hedendaagse systemen aanwezig is, biedt het slechts zelden een bruikbare set
beschikbare conversies, met als enige opmerkelijke uitzondering iconv van GNU libc. Het is
meestal ook nogal kieskeurig over oppervlakken (terwijl ze tegelijkertijd geen oppervlak implementeren
conversie). Het is echter waarschijnlijk het enige gestandaardiseerde (gestandaardiseerde) hulpmiddel dat dit kan doen
conversie van/naar Unicode. Raadpleeg de iconv-documentatie over voor meer informatie hierover
mogelijkheden op uw specifieke systeem.

Deze converter kan worden gespecificeerd als iconv Met -C.

Extern omvormer
is een willekeurige externe conversietool waarmee kan worden gespecificeerd -E optie (maximaal één
kunnen tegelijkertijd worden gedefinieerd). Er zijn enkele standaarden, geleverd samen met enca:
cstocs, hercoderen, kaart, umap en piconv. Het zijn allemaal wrapper-scripts: for cstocs(1) hercoderen(1)
kaart(1) umap(1), en piconv(1).

Let op: enca heeft weinig controle over wat de externe converter werkelijk doet. Als je instelt
het aan /bin/rm u bent volledig verantwoordelijk voor de gevolgen.

Als u uw eigen converter wilt maken voor gebruik met enca, moet u weten dat dit altijd het geval is
Dit betekent dat we onszelf en onze geliefden praktisch vergiftigen.

CONVERTER ENC_CURRENT ENC FILE [-]

WAAR CONVERTER is wat is ingesteld door -E, ENC_CURRENT wordt codering gedetecteerd, ENC vonden
is opgegeven met -x en FILE is het bestand dat moet worden geconverteerd, dwz het wordt voor elk bestand aangeroepen
afzonderlijk indienen. De optionele vierde parameter, -, zou (indien aanwezig) verzending moeten veroorzaken
resultaat van conversie naar standaarduitvoer in plaats van het bestand te overschrijven FILE. De
converter moet er ook voor zorgen dat de bestandsrechten niet worden gewijzigd en foutcode 1 wordt geretourneerd
wanneer het mislukt en de tijdelijke bestanden opschonen. Zie de standaard extern
converters voor voorbeelden.

Deze converter kan worden gespecificeerd als extern Met -C.

Standaard doel karakterset
De eenvoudige manier om de doeltekenset te specificeren is de -x optie, die elke optie overschrijft
standaardinstellingen. Wanneer Enca wordt genoemd als enconv, wordt de standaard doeltekenset precies geselecteerd
dezelfde manier als hercoderen(1) doet het.

Indien de DEFAULT_CHARSET omgevingsvariabele is ingesteld, wordt deze gebruikt als de doeltekenset.

Anders, als uw systeem de nl_langinfo(3) functie, de oorspronkelijke taal van de huidige locatie
tekenset wordt gebruikt als de doeltekenset.

Als beide methoden mislukken, klaagt Enca en beëindigt.

Omkeerbaarheid aantekeningen
Als omkeerbaarheid voor u cruciaal is, moet u enca helemaal niet als converter gebruiken (of misschien
Dat kan, met heel specifiek ontworpen hercoderen(1) omslag). Anders moet je bij
Weet in ieder geval dat er vier fundamentele manieren zijn om met onomkeerbare karakterentiteiten om te gaan:

falen - dit is ook een mogelijkheid, en overigens is het precies wat de huidige GNU libc
iconv-implementatie doet dit (hercoderen kan ook worden verteld om dit te doen)

raak ze niet aan - dit is wat de interne converter van Enca altijd doet en kan hercoderen;
Hoewel het niet omkeerbaar is, is een mens meestal in staat het origineel te reconstrueren (op
tenminste in principe)

benader ze - dit is wat cstocs kan doen, en ook hercoderen, zij het op een andere manier; en de
beste keuze als je de vervloekte tekst gewoon leesbaar wilt maken

laat ze vallen - dit is wat zowel hercoderen als cstocs kunnen doen (cstocs kan deze ook vervangen
karakters door een vast karakter in plaats van louter negeren); handig wanneer de
weg te laten tekens bevatten alleen ruis.

Raadpleeg de handleiding van uw favoriete converter voor meer informatie over dit probleem. Over het algemeen, als
je hebt niet het geluk om alle converteerbare tekens in je bestand, handleiding, te hebben
ingrijpen is hoe dan ook nodig.

Performance aantekeningen
Slechte prestaties van de beschikbare converters zijn een van de belangrijkste redenen geweest om dit op te nemen
ingebouwde converter in enca. Probeer het waar mogelijk te gebruiken, dat wil zeggen wanneer er bestanden binnenkomen
overwegingen zijn charset-clean genoeg of charset-rommelig genoeg zodat de nul ingebouwd is
intelligentie doet er niet toe. Het vereist geen extra schijfruimte of extra geheugen en kan
overtreffen hercoderen(1) meer dan 10 keer voor grote bestanden en Perl-versies (dwz hoe sneller
een van de cstocs(1) meer dan 400 keer op kleine bestanden (in feite is het bijna net zo snel als alleen
cp(1)).

Probeer externe converters te vermijden als dit niet absoluut noodzakelijk is vanwege al het forking
en het verplaatsen van spullen gaat ongelooflijk langzaam.

ENCODERING


U kunt een lijst met erkende tekensets krijgen met

enca --list tekensets

en gebruiken --naam parameter kunt u elke naam selecteren die u in de lijst wilt gebruiken.
Je kunt ook alle oppervlakken vermelden met

enca --list oppervlakken

Coderings- en oppervlaktenamen zijn hoofdlettergevoelig, niet-alfanumerieke tekens niet
rekening mee gehouden. Niet-alfanumerieke tekens zijn echter meestal helemaal niet toegestaan.
De enige toegestane zijn: `-', `_', `.', `:' en `/' (als tekenset/oppervlaktescheidingsteken). Dus
`ibm852' en `IBM-852' zijn hetzelfde, terwijl `IBM 852' niet wordt geaccepteerd.

Tekensets
De volgende lijst met erkende tekensets gebruikt de namen van Enca (-e) en verbale beschrijvingen als
gerapporteerd door Enca (-f):

ASCII 7bit ASCII-tekens
ISO-8859-2 ISO 8859-2-norm; ISO Latijn 2
ISO-8859-4 ISO 8859-4-norm; Latijn 4
ISO-8859-5 ISO 8859-5-norm; ISO Cyrillisch
ISO-8859-13 ISO 8859-13-norm; ISO Baltische; Latijn 7
ISO-8859-16 ISO 8859-16-norm
CP1125 MS-Windows-codepagina 1125
CP1250 MS-Windows-codepagina 1250
CP1251 MS-Windows-codepagina 1251
CP1257 MS-Windows-codepagina 1257; WinBaltRim
IBM852 IBM/MS-codetabel 852; PC (DOS) Latijn 2
IBM855 IBM/MS-codetabel 855
IBM775 IBM/MS-codetabel 775
IBM866 IBM/MS-codetabel 866
Baltische ISO-IR-179; Baltisch
KEYBCS2 Kamenicky-codering; KEYBCS2
macce Macintosh Midden-Europa

maccyr Macintosh Cyrillisch
ECMA-113 Ecma Cyrillisch; ECMA-113
KOI-8_CS_2 KOI8-CS2-code (`T602')
KOI8-R KOI8-R Cyrillisch
KOI8-U KOI8-U Cyrillisch
KOI8-UNI KOI8-Unified Cyrillisch
TeX (La)TeX-besturingssequenties
UCS-2 Universele tekenset 2 bytes; UCS-2; BMP
UCS-4 Universele tekenset 4 bytes; UCS-4; ISO-10646
UTF-7 Universeel transformatieformaat 7 bits; UTF-7
UTF-8 Universeel transformatieformaat 8 bits; UTF-8
KURK Kurkcodering; T1
GBK Vereenvoudigde Chinese nationale norm; GB2312
BIG5 Traditionele Chinese industriële standaard; Groot5
HZ HZ-gecodeerd GB2312
onbekend Niet-herkende codering

WAAR onbekend is geen echte codering, er wordt gerapporteerd wanneer Enca geen a kan geven
betrouwbaar antwoord.

Oppervlakken
Enca heeft enige experimentele ondersteuning voor zogenaamde oppervlakken (zie hieronder). Het detecteert
volgende oppervlakken (niet alle kunnen op alle tekensets worden toegepast):

/CR CR-lijnafsluitingen
/LF LF-lijnafsluitingen
/CRLF CRLF-lijnafsluitingen
NA Gemengde lijnterminators
NA Omringd door/vermengd met niet-tekstuele gegevens
/21 Bytevolgorde per paar omgekeerd (1,2 -> 2,1)
/4321 Bytevolgorde omgekeerd in viervoud (1,2,3,4 -> 4,3,2,1)
NA Zowel kleine als grote endian-brokken, aaneengeschakeld
/qp Quoted-printable gecodeerd

Let op: sommige oppervlakken hebben NA in plaats van identificatie; ze kunnen niet op commando worden gespecificeerd
lijn, kunnen ze alleen door Enca worden gerapporteerd. Dit is opzettelijk omdat ze u alleen informeren
waarom het bestand niet als oppervlakte-consistent kan worden beschouwd in plaats van een reëel bestand te vertegenwoordigen
oppervlak.

Elke tekenset heeft zijn natuurlijke oppervlak (in de hercodering 'geïmpliceerd' genoemd) dat niet wordt gerapporteerd,
Voor de IBM 852-tekenset zijn dit bijvoorbeeld `CRLF-lijnterminators'. Voor UCS-coderingen is big endian dat wel
beschouwd als natuurlijk oppervlak; ongebruikelijke byte-orders zijn opgebouwd uit 21 en 4321
permutaties: 2143 wordt eenvoudigweg gerapporteerd als 21, terwijl 3412 wordt gerapporteerd als combinatie van 4321
en 21.

Dubbel gecodeerde UTF-8 is geen tekenset of oppervlakte, zo wordt zojuist gerapporteerd.

Over tekensets, coderingen en oppervlakken
Tekenset is een reeks karakterentiteiten, terwijl codering de representatie ervan in de termen is
van bytes en bits. In Enca, het woord codering betekent hetzelfde als ‘weergave van tekst’,
dat wil zeggen de relatie tussen de reeks karakterentiteiten die de tekst vormen en
reeks bytes (bits) waaruit het bestand bestaat.

Het coderen is dus zowel een tekenset als een zogenaamd oppervlak (regelafsluitingen, bytevolgorde,
combineren, Base64-transformatie, enz.). Toch blijkt het handig om mee te werken
sommige {charset,surface} paren zoals bij echte karaktersets. Dus, zoals in hercoderen(1), alle UCS- en
UTF-coderingen van universele tekensets worden charsets genoemd. Zie hercoderen
documentatie voor meer details over dit probleem.

Het enige goede aan oppervlakken is: als je er niet mee gaat spelen, ook niet
Enca zal niet starten en zal proberen zich zoveel mogelijk als een oppervlakte-onbewuste te gedragen
programma, zelfs wanneer u praat om te hercoderen.

TALEN


Enca moet de taal van invoerbestanden kennen om betrouwbaar te kunnen werken, tenminste in het geval van
reguliere 8-bits codering. Multibyte-coderingen moeten worden herkend voor elk Latijn en Cyrillisch
of Griekse taal.

Je kunt (of moet) gebruiken -L optie om Enca de taal te vertellen. Omdat mensen het vaakst
werken met bestanden in dezelfde taal waarvoor ze de landinstellingen hebben geconfigureerd, probeert Enca
probeert de taal te raden door de waarde ervan te onderzoeken LC_CTYPE en andere landcategorieën
(alsjeblieft zie lokaal(7)) en gebruik het voor de taal als u er geen opgeeft. Van
Het kan natuurlijk helemaal verkeerd zijn en je onzinantwoorden geven en je schade berokkenen
bestanden, dus vergeet niet de -L keuze. Je kan ook gebruiken ENCAOPT milieu
variabele om een ​​standaardtaal in te stellen (zie sectie MILIEU).

De volgende talen worden ondersteund door Enca (elke taal wordt vermeld samen met ondersteund
8-bits coderingen).

Wit-Russische CP1251 IBM866 ISO-8859-5 KOI8-UNI maccyr IBM855
Bulgaarse CP1251 ISO-8859-5 IBM855 maccyr ECMA-113
Tsjechische ISO-8859-2 CP1250 IBM852 KEYBCS2 macce KOI-8_CS_2 KURK
Ests ISO-8859-4 CP1257 IBM775 ISO-8859-13 macce baltisch
Kroatische CP1250 ISO-8859-2 IBM852 macce CORK
Hongaarse ISO-8859-2 CP1250 IBM852 macce CORK
Litouws CP1257 ISO-8859-4 IBM775 ISO-8859-13 macce baltisch
Lets CP1257 ISO-8859-4 IBM775 ISO-8859-13 macce baltisch
Polijstmiddel ISO-8859-2 CP1250 IBM852 macce ISO-8859-13 ISO-8859-16 Baltisch KURK
Russische KOI8-R CP1251 ISO-8859-5 IBM866 maccyr
Slowaaks CP1250 ISO-8859-2 IBM852 KEYBCS2 macce KOI-8_CS_2 KURK
Sloveens ISO-8859-2 CP1250 IBM852 macce CORK
Oekraïense CP1251 IBM855 ISO-8859-5 CP1125 KOI8-U maccyr
Chinese GBK BIG5 HZ
geen

De bijzondere taal geen kan worden ingekort tot __, het bevat geen 8bit-coderingen, dus alleen
multibyte-coderingen worden gedetecteerd.

U kunt ook landinstellingen gebruiken in plaats van talen:

Wit-Russisch zijn
Bulgaarse geb
Tsjechisch cs
Ests enz
Kroatisch uur
Hongaars he
Litouwse lt
Lets lv
Pools mv
Russische Ru
Slowaakse sk
Sloveens sl
Oekraïens VK
Chinese z

KENMERKEN


Verschillende functies van Enca zijn afhankelijk van wat er beschikbaar is op uw systeem en hoe het was
gecompileerd. Je kunt hun lijst krijgen met

enca --versie

Een plusteken vóór de naam van een functie betekent dat deze beschikbaar is, een minteken betekent dat deze build ontbreekt
het specifieke kenmerk.

librecode-interface. Enca heeft een interface voor het hercoderen van tekensets in de GNU-bibliotheek
functies.

iconv-interface. Enca heeft een interface met UNIX98 iconv-tekensetconversiefuncties.

externe converter. Enca kan externe conversieprogramma's gebruiken (als u over geschikte programma's beschikt).
geïnstalleerd).

taaldetectie. Enca probeert de taal te raden (-L) van landinstellingen. Je hebt de
--taal optie, althans in principe.

locale-alias. Enca kan lokale aliassen ontsleutelen die voor taalnamen worden gebruikt.

doel-tekenset-auto. Enca probeert de tekenset van uw voorkeur uit de landinstellingen te detecteren. Keuze
--auto-conversie en Enca bellen als enconv werkt, althans in principe.

ENCAOPT. Enca kan deze omgevingsvariabele correct parseren vóór de opdrachtregel
parameters. Simpele dingen zoals ENCAOPT = "-L VK" zal zelfs zonder deze functie werken.

MILIEU


De variabele ENCAOPT kan een reeks standaard Enca-opties bevatten. De inhoud ervan wordt geïnterpreteerd
vóór opdrachtregelargumenten. Helaas werkt dit niet overal (must have
+ENCAOPT-functie).

LC_CTYPE, LC_COLLATE, LC_MESSAGES (mogelijk geërfd van LC_ALL or TAAL) is gebruikt voor
uw taal raden (moet een + taaldetectiefunctie hebben).

De variabele DEFAULT_CHARSET kan worden gebruikt door enconv als de standaard doeltekenset.

DIAGNOSE


Enca retourneert afsluitcode 0 wanneer alle invoerbestanden succesvol zijn uitgevoerd (dwz all
coderingen werden gedetecteerd en alle bestanden werden geconverteerd naar de vereiste codering, indien conversie
werd gevraagd). Afsluitcode 1 wordt geretourneerd wanneer Enca de codering niet kon raden of
voer conversie uit op elk invoerbestand omdat het niet slim genoeg is. Uitgangscode 2 is
teruggestuurd in geval van ernstige (bijvoorbeeld I/O) problemen.

VEILIGHEID


Het moet mogelijk zijn om Enca onbeheerd te laten werken, dat is het doel. Echter:

Er is geen garantie dat de detectie 100% werkt. Zet er niet op in, je kunt gemakkelijk verliezen
waardevolle gegevens.

Gebruik enca (het programma) niet, link in plaats daarvan naar libenca als je iets wilt dat erop lijkt
beveiliging. De uiteindelijke conversie dient u dan zelf uit te voeren.

Gebruik geen externe converters. Idealiter schakel je ze tijdens het compileren uit.

Bewust zijn van ENCAOPT en al het ingebouwde automagische raden van verschillende dingen
omgeving, namelijk locaties.

Gebruik enca online met behulp van onworks.net-services


Gratis servers en werkstations

Windows- en Linux-apps downloaden

Linux-commando's

Ad