англійськафранцузькаіспанська

Ad


Значок OnWorks

kcc - онлайн у хмарі

Запустіть kcc у постачальнику безкоштовного хостингу OnWorks через Ubuntu Online, Fedora Online, онлайн-емулятор Windows або онлайн-емулятор MAC OS

Це команда kcc, яку можна запустити в постачальнику безкоштовного хостингу OnWorks за допомогою однієї з наших численних безкоштовних робочих станцій, таких як Ubuntu Online, Fedora Online, онлайн-емулятор Windows або онлайн-емулятор MAC OS.

ПРОГРАМА:

ІМ'Я


kcc - прикриває код кандзі з автоматичним визначенням кодування

СИНТАКСИС


kcc [ -IOchnvxz ] [ -b bufsize ] [ файл ] ...

ОПИС


kcc є фільтром, який читає файл послідовно перетворює кодування кандзі та виводить у
стандартний вихід. Якщо файл не вказано або вказано - як ім'я файлу, він читається зі стандартного входу. Ти можеш
вкажіть кодування кандзі для введення/виводу. однак, kcc автоматично виявляти кодировку введення,
якщо ви не вкажете кодування введення.

Доступні кодування кандзі: JIS (7 біт та/або 8 біт), Shift JISEUCDEC. Для введення
кодування, ви можете змішувати, коли це пара одного з EUC DEC або Shift JIS і 7 біт JIS.
SI/SOESC (я розпізнається як половинна ширина JIS.

ВАРІАНТИ


-O
-IO I для кодування кандзі ¡¤O для вихідного кодування кандзі. Коли немає кодування введення
вказано, воно буде виявлено автоматично, а якщо обидва введення/виведення не є
вказано, вихідне кодування 7 біт JIS.

Ви можете вказати одну з наведених нижче опцій для параметра кодування введення, I.

e EUC (доступно з 7-бітовим JIS)
d DEC (доступно з 7-бітовим JIS)
s Shift JIS (доступно з 7-бітним JIS)
j7 or k
7 біт JIS
8 8 біт JIS

Ви можете вказати один із наступних варіантів кодування вихідних даних, O.

e EUC
d Грудень
s Shift JIS
jXY or 7XY
7-бітний JIS (використовуючиSI/SO для позначення JIS kana)
kXY 7-бітний JIS (використовуючиESC (І для позначення JIS kana)
8XY 8 біт JIS

By XY in O Ви можете вказати, яка escape-послідовність використовується в кодуванні JIS. BJ
за замовчуванням. Додаткове позначення кандзі фіксується ESC$(D

X Канджі позначається:
B ESC$B(JIS X0208-1983)
@ ESC$@(JIS X0208-1978)
+ ESC&@ESC$B(JIS X0212-1990)
Y Alpha Numerical позначається:
B ESC(B(ASCII)
J ESC (J(JIS Роман; JIS X0201)
H ESC(H(шведська; категорично не рекомендується)

-v виводить результат виявлення вхідного кодування в stderr.

-x Режим розширення. За допомогою автоматичного визначення кодування введення, розпізнавання визначених користувачем
символи та розширена область символів (за межами діапазону EUC, невизначена напівширина
kana, контрольний символ, область C1 та/або розширена область символів Shift C1 JIS ).
Розрізнення DEC та EUC здійснюється в цьому режимі.

-z Режим скорочення. Не розпізнає кана половинної ширини (крім 7-бітного JIS) із кодуванням введення
виявлення. З цією опцією, точність автоматичного визначення вхідних кодувань стає
набагато краще для файлу без половинної ширини kana.

-h Зазвичай, при перетворенні кана половинної ширини в DEC вона стає повношириною катаканою.
З цим параметром він стає хіраганою.

-n визначені користувачем символи, розширені символи та додаткові символи кандзі
перетворені в білий квадрат повної ширини, а невизначена область половинної ширини кана є
перетворюється на точку з центром на половину ширини.

-b bufsize
вкажіть розмір буфера. 8 Кбайт за замовчуванням.

-c не конвертуйте, а перевірте кодування введення та роздрукуйте результат у стандартний вихід. Різні з
нормальне автоматичне визначення, перевіряється весь вміст файлу. Однак коли
виявлено невідповідність кодувань, переривання читання та друку "даних". Параметри
крім -x¡¤-z ігноруються.

ПРИКЛАДИ


% kcc -e файл
Вхідне кодування визначається автоматично, а вихід — у кодуванні EUC.

% kcc -sj file1 file2
Два файли в Shift JIS об’єднані з перетворенням у JIS.

% команда | kcc -k+J
вихід з команда він має перероблений до JIS(JIS JIS X0208 JIS JIS Роман¡¤ESC (І Напівширини
Kana JIS)

% kcc -c файл
Кодування вмісту файл виявлено (без перетворення)

BUG


Автоматичне визначення кодування введення добре зроблено для звичайного випадку, однак воно має свої можливості
наступні проблеми.

7-розрядний JIS розпізнається керуючою послідовністю. EUC і DEC однакові (посил
як серія EUC). Половина кана 8-розрядної JIS така ж, як і напівширина кана Shift JIS
(називається серією Shift JIS). Однак серії EUC і JIS, обидва 8-розрядні
кодування, широко використовують одні й ті ж регіони. Отже, проблема в автоматичному виявленні
виявлення цих 2 кодувань.

Виявлення серії EUC/Shift JIS виконується по рядку, коли це буде виявлено
це не серія Shift JIS, або це не серія EUC, кодування визначається. Коли
виявлено невідповідність, він буде розглядатися як "дані", а вміст виводу - ні
гарантовано.

При визначенні між серією EUC/серією Shift JIS після знайденого 8-бітового коду конверсії
очікують на розгляд і поміщають вхідні дані в буфер, однак буфер заповнений, він передбачає, що це EUC
ряди і сили для початку перетворення. Обгрунтування. Зазвичай можна припустити, що документи
з кандзі включають JIS без кандзі або перший стандарт JIS, це можна виявити у певному if
це Shift JIS, який не має спільного регіону з EUC. Отже, якщо це не можна визначити,
дуже ймовірно, що це буде EUC.

8-розрядний JIS і завжди має парну кількість послідовностей кана половинної ширини, тоді це буде
помилково визначено як кандзі EUC. Будьте уважні.

Якщо вхідне кодування не має половинної ширини kana, використовуйте -z і точність виявлення стає
набагато краще. Це пов’язано з тим, що спільні регіони обмежені областю другого JIS
стандарти

Розширена область Shift JIS, визначена користувачем області EUC, контрольні символи C1 EUC,
невизначена область половинної ширини кана EUC виходить за межі діапазону автоматичного виявлення, тому буде
не вдається виявити кодування, якщо введення містить ці символи. Використовуйте -x можливість вказати
розширений режим або вкажіть код введення.

Використовуйте kcc онлайн за допомогою служб onworks.net


Безкоштовні сервери та робочі станції

Завантажте програми для Windows і Linux

Команди Linux

Ad