Questo è il comando kcc che può essere eseguito nel provider di hosting gratuito OnWorks utilizzando una delle nostre molteplici postazioni di lavoro online gratuite come Ubuntu Online, Fedora Online, emulatore online Windows o emulatore online MAC OS
PROGRAMMA:
NOME
kcc - Rilevatore di codici Kanji con rilevamento automatico della codifica
SINOSSI
cc [ -IOchnvxz ] [ -b buffe ] [ filetto ]...
DESCRIZIONE
cc è un filtro che legge filetto in sequenza, converte le codifiche kanji e l'output in
stdout. Se non viene specificato o specificato alcun file - come nome file, viene letto da stdin. Puoi
specificare le codifiche kanji per input/output. Però, cc rileva automaticamente la codifica dell'input,
se non specifichi la codifica di input.
Le codifiche kanji disponibili sono JIS (7 bit e/o 8 bit), Shift JISEUCDEC. Per l'input
codifica, puoi mescolare quando questi sono una coppia di EUC DEC o Shift JIS e JIS a 7 bit.
SI/SOESC (sono riconosciuto come metà larghezza di JIS.
VERSIONI
-O
-IO I per la codifica kanji di input¡¤O per la codifica kanji di output. Quando nessuna codifica di input
specificato, verrà rilevato automaticamente e se entrambi gli input/output non lo sono
specificato, la codifica di output è JIS a 7 bit.
È possibile specificare uno dei seguenti per l'opzione di codifica dell'input, I.
e EUC (disponibile con JIS a 7 bit)
d DEC (disponibile con JIS a 7 bit)
s Shift JIS (disponibile con JIS a 7 bit)
j7 or k
JIS a 7 bit
8 JIS a 8 bit
È possibile specificare una delle seguenti opzioni per la codifica dell'output, O.
e EUC
d Dicembre
s Maiusc JIS
jXY or 7XY
JIS a 7 bit (usandoSI/SO per JIS kana designazione)
kXY JIS a 7 bit (usandoESC(io per JIS kana designazione)
8XY JIS a 8 bit
By XY in O opzione, è possibile specificare quale sequenza di escape utilizzata nella codifica JIS. BJ
è predefinito. La designazione kanji supplementare è fissata su ESC$(D
X Kanji è designato da:
B ESC$B(JISX0208-1983)
@ ESC$@(JISX0208-1978)
+ ESC&@ESC$B(JISX0212-1990)
Y Alfa numerico è designato da:
B ESC(B(ASCII)
J ESC(J(JIS romano; JIS X0201)
H ESC(h(Svedese; fortemente deprecato)
-v emette il risultato del rilevamento della codifica in ingresso su stderr.
-x Modalità di estensione. Con il rilevamento automatico delle codifiche di input, riconosce quelle definite dall'utente
caratteri e regione di caratteri estesa (fuori dall'intervallo di EUC, metà larghezza non definita
kana, carattere di controllo, area C1 e/o regione di caratteri estesa Shift C1 JIS ).
La distinzione tra DEC e EUC viene eseguita in questa modalità.
-z Modalità Riduci. Non riconosce il kana a metà larghezza (eccetto JIS a 7 bit) con la codifica dell'input
rilevamento. Con questa opzione, la precisione del rilevamento automatico delle codifiche di input diventa
molto meglio per file senza kana a metà larghezza.
-h Normalmente, quando viene convertito kana a metà larghezza in DEC , diventa Katakana a larghezza intera.
Con questa opzione, diventa Hiragana.
-n caratteri definiti dall'utente, caratteri estesi e caratteri kanji supplementari
vengono convertiti in una casella bianca a larghezza intera e la regione indefinita di kana a metà larghezza è
convertito in punto centrato a metà larghezza.
-b buffe
specificare la dimensione del buffer. 8 kbyte è l'impostazione predefinita.
-c non convertire ma controlla la codifica di input e stampa il risultato su stdout. Diverso da
normale rilevamento automatico, viene controllato l'intero contenuto del file. Tuttavia, quando
trovata un'incoerenza delle codifiche, interrompe la lettura e stampa i "dati". Opzioni
con l’esclusione di -x¡¤-z sono ignorati
ESEMPI
% cc -e filetto
La codifica dell'input viene rilevata automaticamente e l'output è nella codifica EUC.
% cc -sj file1 file2
Due file in Shift JIS concatenati con la conversione in JIS.
% command | cc -k+J
uscita di command sono convertito a JIS (JIS JIS X0208 JIS JIS romano ¡¤ESC(io metà larghezza
Kana JIS)
% cc -c filetto
Codifica dei contenuti di filetto viene rilevato (nessuna conversione)
INSETTO
Il rilevamento automatico della codifica di input è ben fatto per il caso normale, tuttavia, ha il
seguenti problemi.
JIS a 7 bit è riconosciuto dalla sequenza di escape in modo certo. EUC e DEC sono gli stessi (riferito
come serie EUC). Il kana a metà larghezza di JIS a 8 bit è uguale al kana a metà larghezza di Shift JIS
(indicato come serie Shift JIS). Tuttavia, la serie EUC e JIS, che sono entrambi a 8 bit
codifica, condividono ampiamente le stesse regioni. Quindi, il problema nel rilevamento automatico è
rilevamento di queste 2 codifiche.
Il rilevamento della serie EUC/Shift JIS viene eseguito riga per riga, quando viene rilevato che
non è la serie Shift JIS, o non è la serie EUC, la codifica è determinata. quando
trovata un'incoerenza, verrà trattata come "dati" e il contenuto dell'output non lo è
garantita.
Sebbene determinato tra serie EUC/serie Shift JIS dopo aver trovato il codice a 8 bit, le conversioni
sono in sospeso e mettono i dati di input nel buffer, tuttavia, il buffer è pieno, presuppone che sia EUC
serie e forze per avviare la conversione. Fondamento logico. Di solito, possiamo supporre che i documenti
con kanji includi JIS non kanji o JIS primo standard, può essere rilevato in alcuni se
è Shift JIS , che non condivide la regione con EUC. Quindi, se non può essere determinato,
è molto probabile che sia EUC.
JIS a 8 bit e ha sempre un numero pari di sequenze kana a metà larghezza, quindi sarà
erroneamente rilevato come kanji EUC. Sii sincero.
Se la codifica di input non ha kana a metà larghezza, usa -z e l'accuratezza del rilevamento diventano
molto meglio. Questo perché le regioni condivise sono limitate all'area del secondo JIS
standard.
Area estesa di Shift JIS area definita dall'utente di EUC, caratteri di controllo C1 di EUC,
la regione indefinita del kana a metà larghezza di EUC è fuori dalla portata del rilevamento automatico, quindi lo farà
non riesce a rilevare le codifiche se l'input ha questi caratteri. Utilizzo -x opzione da specificare
modalità estesa o specificare il codice di input.
Usa kcc online utilizzando i servizi onworks.net