Este é o comando kcc que pode ser executado no provedor de hospedagem gratuita OnWorks usando uma de nossas várias estações de trabalho online gratuitas, como Ubuntu Online, Fedora Online, emulador online do Windows ou emulador online do MAC OS
PROGRAMA:
NOME
kcc - codificador de código Kanji com detecção automática de codificação
SINOPSE
kcc [ -IOchnvxz ] [ -b tamanho grande ] [ lima ] ...
DESCRIÇÃO
kcc é um filtro que lê lima sequencialmente, converte as codificações de kanji e a saída para
stdout. Se nenhum arquivo for especificado ou especificado - como nome de arquivo, é lido de stdin. Você pode
especificar codificações kanji para entrada / saída. Contudo, kcc detectar codificação de entrada automaticamente,
se você não especificar a codificação de entrada.
As codificações de kanji disponíveis são JIS (7 bits e / ou 8 bits), Shift JISEUCDEC. Para entrada
codificação, você pode misturar quando estes são um par de EUC DEC ou Shift JIS e 7 bits JIS.
SI/SOESC (são reconhecidos como meia largura de JIS.
OPÇÕES
-O
-IO I para codificação de entrada de kanji ¡¤O para codificação kanji de saída. Quando não há codificação de entrada
especificado, ele será detectado automaticamente, e se ambas as entradas / saídas não forem
especificado, a codificação de saída é JIS de 7 bits.
Você pode especificar um dos seguintes para a opção de codificação de entrada, I.
e EUC (disponível com JIS de 7 bits)
d DEC (disponível com JIS de 7 bits)
s Shift JIS (disponível com JIS de 7 bits)
j7 or k
7 bits JIS
8 8 bits JIS
Você pode especificar um dos seguintes para a opção de codificação de saída, O.
e EUC
d Dezembro
s Mudar JIS
jXY or 7XY
JIS de 7 bits (usandoSI/SO para designação JIS kana)
kXY JIS de 7 bits (usandoESC (I para designação JIS kana)
8XY 8 bits JIS
By XY in O opção, você pode especificar qual sequência de escape usada na codificação JIS. BJ
é o padrão. A designação suplementar de kanji é fixada em ESC $ (D
X Kanji é designado por:
B ESC $ B(JISX0208-1983)
@ ESC $ @(JISX0208-1978)
+ ESC & @ ESC $ B(JISX0212-1990)
Y Alpha Numerical é designado por:
B ESC (B(ASCII)
J ESC (J(JIS Romano; JIS X0201)
H ESC (H(Sueco; fortemente obsoleto)
-v envia o resultado da detecção de codificação de entrada para stderr.
-x Modo de extensão. Pela detecção automática de codificações de entrada, reconhece
caracteres e região de caracteres estendidos (fora do intervalo de EUC, meia largura indefinida
kana, caractere de controle, área C1 e / ou região de caractere estendido Shift C1 JIS).
A distinção entre DEC e EUC é feita neste modo.
-z Modo de redução. Não reconhece kana de meia largura (exceto JIS de 7 bits) com codificação de entrada
detecção. Com esta opção, a precisão da detecção automática de codificações de entrada torna-se
muito melhor para arquivo sem kana de meia largura.
-h Normalmente, quando convertido em kana de meia largura para DEC, ele se torna Katakana de largura total.
Com esta opção, torna-se Hiragana.
-n caracteres definidos pelo usuário, caracteres estendidos e caracteres kanji suplementares
são convertidos em caixa branca de largura total, e a região indefinida de kana de meia largura são
convertido em ponto centralizado de meia largura.
-b tamanho grande
especifique o tamanho do buffer. 8kbytes é o padrão.
-c não converta, mas verifique a codificação de entrada e imprima o resultado em stdout. Diferente com
detecção automática normal, todo o conteúdo do arquivo é verificado. Porém, quando
for encontrada inconsistência de codificações, aborte a leitura e imprima "dados". Opções
exceto -x¡¤-z são ignorados.
EXEMPLOS
% kcc -e lima
A codificação de entrada é detectada automaticamente e a saída está em codificação EUC.
% kcc -sj file1 file2
Dois arquivos em Shift JIS concatinados com a conversão para JIS.
% comando | kcc -k + J
saída de comando e guarante que os mesmos estão convertido para JIS (JIS JIS X0208 JIS JIS Roman¡¤ESC (I Meia largura
Kana JIS)
% kcc -c lima
Codificação de conteúdo de lima é detectado (sem conversão)
ERRO
A detecção automática de codificação de entrada é bem feita para o caso normal, no entanto, tem o
seguintes problemas.
O JIS de 7 bits é reconhecido pela seqüência de escape em certos. EUC e DEC são iguais (referido
como série EUC). Meia largura kana de JIS de 8 bits é o mesmo que meia largura kana de Shift JIS
(referido como série Shift JIS). No entanto, a série EUC e JIS, que são ambos de 8 bits
codificação, estão compartilhando as mesmas regiões amplamente. Então, o problema na detecção automática é
detecção dessas 2 codificações.
A detecção de série EUC / série Shift JIS é feita linha por linha, quando for verificado que
não é série Shift JIS, ou não é série EUC, a codificação é determinada. Quando
inconsistente encontrado, ele será tratado como "dados" e o conteúdo da saída não é
garantido.
Embora determinado entre série EUC / série Shift JIS após o código de 8 bits encontrado, as conversões
estão pendentes e colocam os dados de entrada no buffer, no entanto, o buffer está cheio, ele assume que é EUC
série e forças para iniciar a conversão. Justificativa. Normalmente, podemos assumir que os documentos
com kanji incluem JIS não kanji ou JIS primeiro padrão, pode ser detectado em certos se
é Shift JIS, que não compartilha região com EUC. Então, se não puder ser determinado,
é muito provável que seja EUC.
JIS de 8 bits e sempre tem um número par de sequências kana de meia largura, então será
detectado incorretamente como kanji EUC. Seja ceraful.
Se a codificação de entrada não tiver meia largura kana, use -z e a precisão da detecção torna-se
muito melhor. Isso ocorre porque a região compartilhada está restrita à área de segundo JIS
.
Região estendida da área definida pelo usuário Shift JIS de EUC, caracteres de controle C1 de EUC,
região indefinida de meia largura kana de EUC está fora do intervalo de detecção automática, então
falha em detectar codificações se a entrada tiver esses caracteres. Usar -x opção para especificar
modo estendido ou especifique o código de entrada.
Use kcc online usando serviços onworks.net