InglêsFrancêsEspanhol

Ad


favicon do OnWorks

enconv - Online na nuvem

Execute enconv no provedor de hospedagem gratuita OnWorks no Ubuntu Online, Fedora Online, emulador online do Windows ou emulador online do MAC OS

Este é o comando enconv que pode ser executado no provedor de hospedagem gratuita OnWorks usando uma de nossas várias estações de trabalho online gratuitas, como Ubuntu Online, Fedora Online, emulador online do Windows ou emulador online do MAC OS

PROGRAMA:

NOME


enca - detecta e converte a codificação de arquivos de texto

SINOPSE


encaixo [-L IDIOMA] [OPÇÃO] ... [ARQUIVO] ...
enconv [-L IDIOMA] [OPÇÃO] ... [ARQUIVO] ...

INTRODUÇÃO E EXEMPLOS


Se você tiver sorte o suficiente, as únicas duas coisas que você precisará saber são: comando

encaixo ARQUIVO

dirá qual arquivo de codificação ARQUIVO usa (sem alterá-lo), e

enconv ARQUIVO

irá converter o arquivo ARQUIVO para sua codificação nativa local. Para converter o arquivo para algum outro
codificação usa o -x opção (ver -x entrada na seção OPÇÕES e seções CONVERSÃO e
CODIFICAÇÕES para mais detalhes).

Ambos trabalham com vários arquivos e também com entrada (saída) padrão. Por exemplo

enca -x latin2

garante que o arquivo `somethingext 'está em ISO Latin 2 quando é enviado para a impressora.

A principal razão pela qual esses comandos irão falhar e transformar seus arquivos em lixo é que o Enca
precisa saber seu idioma para detectar a codificação. Tenta determinar o seu idioma
e conjunto de caracteres preferido das configurações de localidade, que podem não ser o que você deseja.

Você pode (ou deve) usar -L opção de dizer o idioma certo. Suponha que você baixou
algum arquivo HTML russo, `file.htm ', afirma ser windows-1251, mas não é. Então você corre

enca -L ru arquivo.htm

e descubra que é KOI8-R (por exemplo). Esteja avisado, atualmente não há muitos compatíveis
idiomas (ver seção IDIOMAS).

Outro alerta diz respeito ao fato de várias funcionalidades do Enca, nomeadamente a sua conversão de charset
recursos, dependem fortemente de quais outras ferramentas estão instaladas em seu sistema (consulte
seção CONVERSÃO)--corre

enca --versão

para obter uma lista de recursos (consulte a seção CARATERÍSTICAS) Tente também

enca --ajuda

para obter a descrição de todas as outras opções do Enca (e para encontrar o resto desta página de manual
redundante).

DESCRIÇÃO


Enca lê determinados arquivos de texto ou entrada padrão quando nenhum é fornecido e usa o conhecimento
sobre sua linguagem (deve ser apoiado por você) e uma mistura de análise, estatística
análise, suposição e magia negra para determinar suas codificações, que então imprime para
saída padrão (ou confessa que não tem nenhuma ideia de qual poderia ser a codificação). Por
padrão, o Enca apresenta os resultados como descrições legíveis por humanos em várias linhas, vários outros
formatos estão disponíveis - consulte os seletores de tipo de saída abaixo.

O Enca também pode converter arquivos para alguma outra codificação ENC quando você pedir - seja usando um
conversor embutido, alguma biblioteca de conversão ou chamando um conversor externo.

O objetivo principal do Enca é ser utilizável sem supervisão, como uma ferramenta de conversão automática, embora
talvez ainda não tenha chegado a este ponto (consulte a seção SEGURANÇA).

Observe, exceto em casos raros, o Enca realmente precisa saber o idioma dos arquivos de entrada para fornecer
você uma resposta confiável. Por outro lado, ele pode lidar muito bem com arquivos que são
não é puramente textual ou mesmo detecta conjuntos de caracteres de strings de texto dentro de algum arquivo binário; de
claro, isso depende do caráter do componente não textual.

O Enca não se preocupa com a estrutura dos arquivos de entrada, ele os vê como uma peça uniforme de
texto / dados. No caso de arquivos multiparte (por exemplo, caixas de correio), você deve usar alguma ferramenta sabendo
a estrutura para extrair as partes individuais primeiro. É o custo da capacidade de detectar
codificações de quaisquer arquivos danificados, incompletos ou incorretos.

OPÇÕES


Existem várias categorias de opções: opções de modo de operação, seletores de tipo de saída,
parâmetros de adivinhação, parâmetros de conversão, opções gerais e listagens.

Todas as opções longas podem ser abreviadas, desde que sejam parâmetros obrigatórios e inequívocos
de opções longas são obrigatórias para opções curtas também.

Divisão de modos
estão seguindo:

-c, --auto-converter
Equivalente a chamar o Enca de enconv.

Se nenhum seletor de tipo de saída for especificado, detecte as codificações de arquivo, adivinhe seu
conjunto de caracteres preferido de localidades, e converter arquivos para ele (disponível apenas com
+ recurso target-charset-auto).

-g, --acho
Equivalente a chamar o Enca de encaixo.

Se nenhum seletor de tipo de saída for especificado, detecte as codificações de arquivo e relate-as.

saída tipo seletores
selecione a ação que o Enca realizará ao determinar a codificação; a maioria deles apenas
escolha entre diferentes nomes, formatos e convenções como as codificações podem ser impressas, mas
um deles (-x) é especial: diz ao Enca para recodificar os arquivos para alguma outra codificação ENC.
Essas opções são mutuamente exclusivas; se você especificar mais de um seletor de tipo de saída
o último tem precedência.

Vários tipos de saída representam o nome do conjunto de caracteres usado por algum outro programa, mas nem todos estes
programas sabem todos os conjuntos de caracteres que o Enca reconhece. Esteja avisado, Enca não faz diferença
entre charset não reconhecido e charset não tendo nenhum nome em um determinado namespace em tal
situações.

-d, --detalhes
Costumava imprimir algumas páginas de detalhes sobre o processo de adivinhação, mas desde o Enca
é apenas um programa vinculado à biblioteca do Enca, isso não é possível e esta opção
é aproximadamente equivalente a --legível para humanos, exceto que relata o motivo da falha quando
O Enca não reconhece a codificação.

-e, --nome-enca
Imprime o nome legal do Enca para o conjunto de caracteres, ou seja, talvez o mais geralmente aceito
e mais ou menos identificador de conjunto de caracteres legível por humanos, com superfícies anexadas.

Este nome também é usado ao chamar um conversor externo.

-f, --legível para humanos
Imprime a descrição verbal do conjunto de caracteres detectado e superfícies - algo que um humano
entende melhor. Este é o comportamento padrão.

O formato preciso é o seguinte: a primeira linha contém apenas o nome do conjunto de caracteres e
é seguido por zero ou mais linhas recuadas contendo nomes de superfícies detectadas.
Este formato não é, no entanto, adequado ou pretendido para processamento posterior de máquina,
e as descrições do conjunto de caracteres verbais podem mudar no futuro.

-i, --iconv-nome
Imprime como iconv(3) (e / ou iconv(1)) chama o conjunto de caracteres detectado. Mais precisamente,
ele imprime um apelido, escolhido mais ou menos arbitrariamente, aceito por iconv. Um conjunto de caracteres
desconhecido para iconv conta como desconhecido.

Este tipo de saída faz sentido apenas quando o Enca é compilado com suporte iconv (recurso
+ interface iconv).

-r, --rfc1345-nome
Imprime o nome do conjunto de caracteres RFC 1345. Quando esse nome não existe porque RFC 1345
não define uma determinada codificação, algum outro nome definido em algum outro RFC ou apenas
o nome que o autor considera `o mais canônico ', é impresso.

Como o RFC 1345 não define superfícies, nenhuma informação de superfície é anexada.

-m, --mime-nome
Imprime o nome MIME preferido do conjunto de caracteres detectado. Este é o nome que você deveria
normalmente usado ao corrigir e-mails ou páginas da web.

Um conjunto de caracteres não está presente em http://www.iana.org/assignments/character-sets conta como
desconhecido.

-s, --cstocs-nome
Imprime como cstocs(1) chama o conjunto de caracteres detectado. Um conjunto de caracteres desconhecido para cstocs
conta como desconhecido.

-n, --name =WORD
Imprime o nome do conjunto de caracteres (codificação) selecionado por WORD (pode ser abreviado, desde que seja
inequívoco). Para os nomes listados acima, --name =WORD é equivalente a --WORD.

utilização aliases como o tipo de saída faz com que o Enca imprima uma lista de todos os apelidos aceitos
de charset detectado.

-x, --convert-to =[..]ENC
Converte o arquivo em codificação ENC.

O opcional `.. 'antes do nome da codificação não tem nenhum significado especial, exceto que você pode usar
para se lembrar de que, ao contrário de recodificar(1), você deve especificar desejado
codificação, em vez de atual.

Você pode usar recodificar(1) cadeias de recodificação ou qualquer outro tipo de recodificação de cérebro
especificação para ENC, desde que você diga ao Enca para usar algum conhecimento de ferramenta
para conversão (ver seção CONVERSÃO).

Quando o Enca falha em determinar a codificação, ele imprime um aviso e deixa o
arquivo como está; quando é executado como um filtro, ele tenta fazer o melhor para copiar o padrão
entrada para saída padrão inalterada. No entanto, você não deve confiar nisso e fazer
cópia de segurança.

Adivinhação parâmetros
Só há um: -L configuração do idioma dos arquivos de entrada. Esta opção é obrigatória (mas veja
abaixo).

-L, --language =GRANDE
Define o idioma dos arquivos de entrada para GRANDE.

Mais precisamente, GRANDE pode ser qualquer nome de local válido (ou alias com + locale- alias
recurso) de algum idioma com suporte. Você também pode especificar `none 'como o nome do idioma,
apenas codificações multibyte são reconhecidas. Corre

enca - listar idiomas

para obter uma lista de idiomas suportados. Quando você não especifica nenhum idioma que o Enca tenta
para adivinhar o seu idioma a partir das configurações locais e assume que os arquivos de entrada usam este
língua. Veja a seção IDIOMAS para obter detalhes.

Conversão parâmetros
oferecem um controle mais preciso de como a conversão do conjunto de caracteres será realizada. Eles não afetam
qualquer coisa quando -x não é especificado como tipo de saída. Por favor, veja a seção CONVERSÃO para o
detalhes de conversão sangrentos.

-C, --try-conversores =LISTA
Anexos separados por vírgulas LISTA à lista de conversores que serão testados quando você
peça a conversão. Seus nomes podem ser abreviados, desde que sejam
inequívoco. Corre

enca - listar conversores

para obter uma lista de todos os nomes de conversor válidos (e consulte a seção CONVERSÃO por sua
Descrição).

A lista padrão depende de como o Enca foi compilado, execute

enca --ajuda

para descobrir a lista de conversores padrão.

Observe que a lista padrão é usada apenas quando você não especifica -C em absoluto. De outra forma,
a lista é construída como se estivesse inicialmente vazia e cada -C adiciona novo (s) conversor (es)
para isso. Além disso, especificando Nenhum como o nome do conversor causa a limpeza do conversor
Lista.

-E, --external-converter-program =PATH
Define o nome do programa conversor externo para PATH. Conversor externo padrão depende
sobre como o enca foi cumprido e a possibilidade de usar conversores externos podem
não estar disponível de todo. Corre

enca --ajuda

para descobrir o programa conversor padrão em sua construção enca.

Geral opções
não se encaixa em outras categorias de opções ...

-p, --com-nome do arquivo
Força o Enca a prefixar cada resultado com o nome do arquivo correspondente. Por padrão, Enca
prefixa resultados com nomes de arquivo quando executado em vários arquivos.

A entrada padrão é impressa como STDIN e saída padrão como STDOUT (o último pode ser
provavelmente visto apenas em mensagens de erro).

-P, --no-nome do arquivo
Força o Enca a não prefixar os resultados com nomes de arquivo. Por padrão, o Enca não prefixa
resultado com o nome do arquivo quando executado em um único arquivo (incluindo entrada padrão).

-V, --verbose
Aumenta o nível de verbosidade (cada uso aumenta em um).

Atualmente esta opção não é muito útil porque diferentes partes do Enca respondem
de forma diferente para o mesmo nível de verbosidade, principalmente de forma alguma.

Anúncios
são todos terminais, ou seja, quando o Enca encontra alguns deles, ele imprime a lista necessária
e termina sem processar nenhuma das opções a seguir.

-h, --Socorro
Imprime uma breve ajuda de uso.

-G, --licença
Imprime a licença Enca completa (por meio de um pager, se possível).

-l, --list =WORD
Imprime a lista especificada por WORD (pode ser abreviado, desde que não seja ambíguo).
As listas disponíveis incluem:

charsets embutidos. Todas as codificações conversíveis por conversor embutido, por grupo (ambos
a codificação de entrada e saída deve ser desta lista e pertencer ao mesmo grupo para
conversão interna).

codificações embutidas. Equivalente a charsets embutidos, mas considerado obsoleto; vai
ser aceito com um aviso, por um tempo.

conversores. Todos os nomes de conversores válidos (para serem usados ​​com -C).

conjuntos de caracteres. Todas as codificações (conjuntos de caracteres). Você pode selecionar quais nomes serão impressos
de --nome ou qualquer seletor de tipo de saída de nome (é claro, apenas codificações com um
o nome no namespace fornecido será impresso), o seletor deve ser especificado
antes --Lista.

codificações. Equivalente a conjuntos de caracteres, mas considerado obsoleto; será aceito com
um aviso, por um tempo.

línguas. Todos os idiomas suportados, juntamente com conjuntos de caracteres pertencentes a eles. Observação
o tipo de saída seleciona o estilo do nome do idioma, não o estilo do nome do conjunto de caracteres aqui.

nomes. Todos os valores possíveis de --nome opção.

listas. Todos os valores possíveis desta opção. (Louco?)

superfícies. Todas as superfícies que o Enca reconhece.

-v, --versão
Imprime a versão do programa e a lista de recursos (consulte a seção CARATERÍSTICAS).

CONVERSÃO


Embora o Enca tenha sido originalmente projetado como uma ferramenta apenas para adivinhar a codificação, agora
apresenta vários métodos de conversão de charset. Você pode controlar qual deles será
usado com -C.

O Enca tenta conversores sequencialmente da lista especificada por -C até encontrar algum que
é capaz de realizar a conversão necessária ou até esgotar a lista. Você deve especificar
conversores preferidos primeiro, menos preferidos depois. Conversor externo (externo) deveria estar
sempre especificado por último, apenas como último recurso, uma vez que geralmente não é possível recuperar
quando ele falha. A lista padrão de conversores sempre começa com construídas em e depois
continua com o primeiro disponível em: código livre, iconv, nenhuma coisa.

Ressalta-se que quando o Enca afirma que não é capaz de realizar a conversão, isso significa apenas
nenhum dos conversores é capaz de executá-lo. Ainda pode ser possível realizar o
conversão necessária em várias etapas, usando vários conversores, mas para descobrir como,
a inteligência humana é provavelmente necessária.

Autenticador conversor
é o mais simples e o mais rápido de todos, pode executar apenas alguns byte a byte
converte e modifica arquivos diretamente no local (pode ser considerado perigoso, mas é
bastante eficiente). Você pode obter uma lista de todas as codificações que podem ser convertidas com

enca --list integrado

Ao lado da velocidade, sua principal vantagem (e também desvantagem) é que ela não se importa: ela
simplesmente converte caracteres com uma representação na codificação de destino, não toca
qualquer outra coisa e nunca imprime nenhuma mensagem de erro.

Este conversor pode ser especificado como construídas em de -C.

Librecode conversor
é uma interface para a biblioteca GNU recode, que faz o trabalho real de recodificação. Pode ou pode
não ser compilado em; corre

enca --versão

para descobrir sua disponibilidade em seu enca build (feature + librecode-interface).

Você deve estar familiarizado com recodificar(1) antes de usá-lo, uma vez que recodificar é bastante
ferramenta de conversão de charset sofisticada e poderosa. Você pode ter problemas ao usá-lo
junto com o Enca, especialmente porque o suporte do Enca para superfícies não 100% compatíveis,
porque recode tenta muito fazer a transformação reversível, porque às vezes
ignora silenciosamente os erros de E / S, e porque é incrivelmente problemático. Por favor, veja GNU recode
páginas de informações para obter detalhes sobre a biblioteca de recodificação.

Este conversor pode ser especificado como código livre de -C.

Iconv conversor
é uma interface para o UNIX98 iconv(3) funções de conversão, que fazem a recodificação real
trabalho. Ele pode ou não ser compilado; corre

enca --versão

para descobrir sua disponibilidade em seu enca build (feature + iconv-interface).

Embora o iconv esteja presente na maioria dos sistemas atuais, ele raramente oferece algum conjunto útil de
conversões disponíveis, a única exceção notável sendo iconv do GNU libc. Isto é
geralmente muito exigente quanto às superfícies também (embora, ao mesmo tempo, não implemente a superfície
conversão). No entanto, provavelmente representa a única ferramenta padronizada (ized) capaz de realizar
conversão de / para Unicode. Por favor, consulte a documentação do iconv sobre para obter detalhes sobre seu
recursos em seu sistema específico.

Este conversor pode ser especificado como iconv de -C.

Externo conversor
é uma ferramenta de conversão externa arbitrária que pode ser especificada com -E opção (no máximo uma
pode ser definido simultaneamente). Existem alguns padrões, fornecidos junto com o enca:
cstocs, recodificar, mapa,, umap e Piconv. Todos são scripts de wrapper: para cstocs(1) recodificar(1)
mapa,(1) umap(1), e Piconv(1).

Observe que o enca tem pouco controle sobre o que o conversor externo realmente faz. Se você definir
a / bin / rm você é totalmente responsável pelas consequências.

Se você quiser fazer seu próprio conversor para usar com o enca, você deve saber que é sempre
chamado

CONVERSOR ENC_CURRENT ENC ARQUIVO [-]

onde CONVERSOR é o que foi definido por -E, ENC_CURRENT é detectada a codificação, ENC é o que
foi especificado com -x e ARQUIVO é o arquivo a ser convertido, ou seja, é chamado para cada
arquivo separadamente. O quarto parâmetro opcional, -, deve causar (quando presente) o envio
resultado da conversão para a saída padrão em vez de sobrescrever o arquivo ARQUIVO. O
conversor também deve tomar cuidado para não alterar as permissões do arquivo, retornando o código de erro 1
quando ele falhar e limpar seus arquivos temporários. Por favor, veja o padrão externo
conversores para exemplos.

Este conversor pode ser especificado como externo de -C.

Padrão alvo conjunto de caracteres
A maneira direta de especificar o conjunto de caracteres de destino é o -x opção, que substitui qualquer
padrões. Quando o Enca é chamado de enconv, o conjunto de caracteres de destino padrão é selecionado exatamente o
da mesma forma que recodificar(1) faz isso.

Se o DEFAULT_CHARSET a variável de ambiente é definida, é usada como o conjunto de caracteres de destino.

Caso contrário, se o seu sistema fornecer o nl_langinfo(3) função, nativo da localidade atual
charset é usado como o charset de destino.

Quando ambos os métodos falham, o Enca reclama e termina.

Reversibilidade notas
Se a reversibilidade é crucial para você, você não deve usar o enca como conversor (ou talvez
você pode, com um design muito específico recodificar(1) embalagem). Caso contrário, você deveria em
pelo menos saiba que existem quatro meios básicos de lidar com entidades de caráter inconversíveis:

fail - esta também é uma possibilidade e, aliás, é exatamente o que o GNU libc atual
a implementação do iconv o faz (recode também pode ser instruído a fazê-lo)

não toque neles - isso é o que o conversor interno enca sempre faz e a recodificação pode fazer;
embora não seja reversível, um ser humano geralmente é capaz de reconstruir o original (em
pelo menos em princípio)

aproxime-os - isso é o que cstocs pode fazer, e recodificar também, embora de forma diferente; e a
melhor escolha se você quiser apenas tornar o texto maldito legível

eliminá-los - isto é o que recodificação e cstocs podem fazer (cstocs também podem substituir estes
caracteres por algum caractere fixo em vez de simplesmente ignorar); útil quando o
os caracteres a serem omitidos contêm apenas ruído.

Consulte o manual do seu conversor favorito para obter detalhes sobre esse problema. Geralmente, se
você não tem a sorte de ter todos os caracteres conversíveis em seu arquivo, manual
intervenção é necessária de qualquer maneira.

Performance notas
O fraco desempenho dos conversores disponíveis foi uma das principais razões para incluir
conversor embutido em ENCA. Tente usá-lo sempre que possível, ou seja, quando os arquivos estiverem
consideração são charset-clean o suficiente ou charset-messy o suficiente para que seu zero embutido
inteligência não importa. Não requer espaço em disco extra nem memória extra e pode
Superar recodificar(1) mais de 10 vezes em arquivos grandes e versão Perl (ou seja, o mais rápido
um de cstocs(1) mais de 400 vezes em arquivos pequenos (na verdade, é quase tão rápido quanto
cp(1)).

Tente evitar conversores externos quando não for absolutamente necessário, pois todos os bifurcações
e mover as coisas é incrivelmente lento.

CODIFICAÇÕES


Você pode obter uma lista de conjuntos de caracteres reconhecidos com

enca - listar conjuntos de caracteres

e usando --nome parâmetro, você pode selecionar qualquer nome que deseja usar na lista.
Você também pode listar todas as superfícies com

enca --list superfícies

Os nomes de codificação e superfície não diferenciam maiúsculas de minúsculas e os caracteres não alfanuméricos não são
tidos em consideração. No entanto, os caracteres não alfanuméricos geralmente não são permitidos.
Os únicos permitidos são: `- ',` _', `. ',`:' E `/ '(como conjunto de caracteres / separador de superfície). assim
`ibm852 'e` IBM-852' são iguais, enquanto `IBM 852 'não é aceito.

Conjuntos de caracteres
A lista a seguir de conjuntos de caracteres reconhecidos usa os nomes do Enca (-e) e descrições verbais como
relatado pelo Enca (-f):

Caracteres ASCII de 7 bits ASCII
ISO-8859-2 padrão ISO 8859-2; ISO Latin 2
ISO-8859-4 padrão ISO 8859-4; Latino 4
ISO-8859-5 padrão ISO 8859-5; ISO cirílico
ISO-8859-13 padrão ISO 8859-13; ISO Baltic; 7 latim
ISO-8859-16 padrão ISO 8859-16
CP1125 página de código MS-Windows 1125
CP1250 página de código MS-Windows 1250
CP1251 página de código MS-Windows 1251
CP1257, página de código 1257 do MS-Windows; WinBaltRim
IBM852 página de código IBM / MS 852; PC (DOS) Latim 2
IBM855 IBM / MS página de código 855
IBM775 IBM / MS página de código 775
IBM866 IBM / MS página de código 866
báltico ISO-IR-179; báltico
Codificação KEYBCS2 Kamenicky; KEYBCS2
macce Macintosh da Europa Central

maccyr Macintosh cirílico
ECMA-113 Ecma Cirílico; ECMA-113
Código KOI-8_CS_2 KOI8-CS2 (`T602 ')
KOI8-R KOI8-R cirílico
KOI8-U KOI8-U cirílico
KOI8-UNI KOI8-Cirílico unificado
Sequências de controle TeX (La) TeX
UCS-2 Conjunto de caracteres universais de 2 bytes; UCS-2; BMP
UCS-4 Conjunto de caracteres universais de 4 bytes; UCS-4; ISO-10646
UTF-7 formato de transformação universal 7 bits; UTF-7
UTF-8 formato de transformação universal 8 bits; UTF-8
Codificação CORK Cork; T1
Padrão Nacional Chinês Simplificado GBK; GB2312
Padrão industrial chinês tradicional BIG5; Big5
HZ HZ codificado GB2312
codificação desconhecida não reconhecida

onde desconhecido não é uma codificação real, é relatado quando o Enca não é capaz de fornecer um
resposta confiável.

superfícies
O Enca tem algum suporte experimental para as chamadas superfícies (veja abaixo). Detecta
seguintes superfícies (nem todas podem ser aplicadas a todos os conjuntos de caracteres):

/ CR CR terminadores de linha
/ LF LF terminadores de linha
/ CRLF CRLF terminadores de linha
Terminadores de linha mista NA
NA rodeado por / mesclado com dados não textuais
/ 21 Ordem de bytes invertida em pares (1,2 -> 2,1)
/ 4321 Ordem de bytes revertida em quádruplos (1,2,3,4 -> 4,3,2,1)
NA Ambos os pequenos e grandes pedaços de endian, concatenados
/ qp Codificado para impressão entre aspas

Observe que algumas superfícies têm NA no lugar do identificador - eles não podem ser especificados no comando
linha, eles só podem ser relatados pelo Enca. Isso é intencional porque eles apenas informam você
porque o arquivo não pode ser considerado consistente com a superfície em vez de representar um
superfície.

Cada conjunto de caracteres tem sua superfície natural (chamada 'implícita' no recode) que não é relatada,
por exemplo, para o conjunto de caracteres IBM 852 é `terminadores de linha CRLF '. Para codificações UCS, big endian é
considerada como superfície natural; ordens de bytes incomuns são construídas a partir de 21 e 4321
permutações: 2143 é relatado simplesmente como 21, enquanto 3412 é relatado como combinação de 4321
e 21.

O UTF-8 duplamente codificado não é nem conjunto de caracteres nem superfície, apenas relatado.

Sobre conjuntos de caracteres, codificações e superfícies
Charset é um conjunto de entidades de caracteres, enquanto a codificação é sua representação nos termos
de bytes e bits. No Enca, a palavra codificação significa o mesmo que 'representação de texto',
ou seja, a relação entre a sequência de entidades de caráter que constituem o texto e
seqüência de bytes (bits) que constitui o arquivo.

Portanto, a codificação é tanto um conjunto de caracteres quanto a chamada superfície (terminadores de linha, ordem de bytes,
combinação, transformação Base64, etc.). No entanto, é conveniente trabalhar com
alguns pares {charset, surface} como com charsets genuínos. Então, como em recodificar(1), todos UCS- e
As codificações UTF do conjunto de caracteres Universal são chamadas de conjuntos de caracteres. Por favor, veja recodificar
documentação para obter mais detalhes sobre este problema.

A única coisa boa sobre as superfícies é: quando você não começa a brincar com elas, nem
O Enca não iniciará e tentará se comportar o máximo possível como uma superfície sem saber
programa, mesmo quando falando para recodificar.

IDIOMAS


O Enca precisa saber o idioma dos arquivos de entrada para funcionar de forma confiável, pelo menos no caso de
codificação regular de 8 bits. Codificações multibyte devem ser reconhecidas para qualquer alfabeto latino, cirílico
ou língua grega.

Você pode (ou deve) usar -L opção de informar o idioma ao Enca. Já que as pessoas com mais frequência
trabalhar com arquivos no mesmo idioma para o qual eles configuraram locales, o Enca tenta
tenta adivinhar o idioma examinando o valor de LC_CTYPE e outras categorias de localidade
(por favor, veja local(7)) e usá-lo para o idioma quando você não especificar nenhum. De
claro, pode estar completamente errado e dar-lhe respostas sem sentido e prejudicar o seu
arquivos, então, por favor, não se esqueça de usar o -L opção. Você também pode usar ENCAOPT meio Ambiente
variável para definir um idioma padrão (ver seção MEIO AMBIENTE).

Os seguintes idiomas são suportados pelo Enca (cada idioma é listado junto com os
Codificações de 8 bits).

Bielo-russo CP1251 IBM866 ISO-8859-5 KOI8-UNI maccyr IBM855
Búlgaro CP1251 ISO-8859-5 IBM855 maccyr ECMA-113
Checo ISO-8859-2 CP1250 IBM852 KEYBCS2 macce KOI-8_CS_2 CORK
Estoniano ISO-8859-4 CP1257 IBM775 ISO-8859-13 macce baltic
Croata CP1250 ISO-8859-2 IBM852 macce CORK
Húngaro ISO-8859-2 CP1250 IBM852 macce CORK
Lituano CP1257 ISO-8859-4 IBM775 ISO-8859-13 macce baltic
Letão CP1257 ISO-8859-4 IBM775 ISO-8859-13 macce baltic
Polonês ISO-8859-2 CP1250 IBM852 macce ISO-8859-13 ISO-8859-16 báltico CORK
Russo KOI8-R CP1251 ISO-8859-5 IBM866 maccyr
Eslovaco CP1250 ISO-8859-2 IBM852 KEYBCS2 macce KOI-8_CS_2 CORK
Esloveno ISO-8859-2 CP1250 IBM852 macce CORK
Ucraniano CP1251 IBM855 ISO-8859-5 CP1125 KOI8-U maccyr
Chinês GBK BIG5 HZ
Nenhum

A linguagem especial Nenhum pode ser reduzido para __, ele não contém codificações de 8 bits, então apenas
codificações multibyte são detectadas.

Você também pode usar nomes de localidade em vez de idiomas:

Bielo-russo
Búlgaro bg
Tcheco cs
Estoniano et
Hr croata
Húngaro hu
Lt. Lituano
Letão lv
Polonês pl
Ru russo
Sk eslovaco
Slovene
Ucraniano reino unido
Zh chinês

CARATERÍSTICAS


Vários recursos do Enca dependem do que está disponível em seu sistema e como ele estava
compilado. Você pode obter a lista deles com

enca --versão

O sinal de mais antes do nome de um recurso significa que ele está disponível, o sinal de menos significa que falta nesta compilação
o recurso específico.

interface de librecode. Enca tem interface para conversão de conjunto de caracteres de biblioteca de recodificação GNU
funções.

interface iconv. Enca tem interface para funções de conversão de conjunto de caracteres do UNIX98 iconv.

conversor externo. O Enca pode usar programas de conversão externos (se você tiver algum
instalado).

detecção de linguagem. Enca tenta adivinhar a linguagem (-L) de localidades. Você não precisa do
--língua opção, pelo menos em princípio.

locale-alias. O Enca é capaz de descriptografar aliases de localidade usados ​​para nomes de idiomas.

target-charset-auto. O Enca tenta detectar seu conjunto de caracteres preferido nas localidades. Opção
--auto-converter e chamando o Enca de enconv funciona, pelo menos em princípio.

ENCAOPT. O Enca é capaz de analisar corretamente esta variável de ambiente antes da linha de comando
parâmetros. Coisas simples como ENCAOPT = "- L Reino Unido" funcionará mesmo sem esse recurso.

MEIO AMBIENTE


A variável ENCAOPT pode conter um conjunto de opções padrão do Enca. Seu conteúdo é interpretado
antes dos argumentos da linha de comando. Infelizmente, isso não funciona em todos os lugares (deve ter
+ Recurso ENCAOPT).

LC_CTYPE, LC_COLLATE, LC_MESSAGES (possivelmente herdado de LC_ALL or GRANDE) é usado para
adivinhar seu idioma (deve ter + recurso de detecção de idioma).

A variável DEFAULT_CHARSET pode ser usado por enconv como o conjunto de caracteres de destino padrão.

DIAGNÓSTICO


O Enca retorna o código de saída 0 quando todos os arquivos de entrada foram processados ​​com sucesso (ou seja, todos
codificações foram detectadas e todos os arquivos foram convertidos para a codificação necessária, se a conversão
foi solicitado). O código de saída 1 é retornado quando o Enca não consegue adivinhar a codificação ou
execute a conversão em qualquer arquivo de entrada porque não é inteligente o suficiente. O código de saída 2 é
retornado em caso de problemas sérios (por exemplo, E / S).

SEGURANÇA


Deveria ser possível deixar o Enca trabalhar sem supervisão, é o seu objetivo. Contudo:

Não há garantia de que a detecção funciona 100%. Não aposte nisso, você pode perder facilmente
dados valiosos.

Não use enca (o programa), link para libenca em vez se você quiser algo semelhante
segurança. Você tem que realizar a eventual conversão sozinho então.

Não use conversores externos. O ideal é desabilitá-los em tempo de compilação.

Estar ciente de ENCAOPT e toda a automagia embutida adivinhando várias coisas de
ambiente, nomeadamente locais.

Use enconv online usando serviços onworks.net


Servidores e estações de trabalho gratuitos

Baixar aplicativos Windows e Linux

Comandos Linux

Ad