GoGPT Best VPN GoSearch

OnWorksファビコン

enca - クラウドでオンライン

Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、または MAC OS オンライン エミュレーターを介して、OnWorks の無料ホスティング プロバイダーで enca を実行します。

これは、Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、MAC OS オンライン エミュレーターなど、複数の無料オンライン ワークステーションのいずれかを使用して、OnWorks 無料ホスティング プロバイダーで実行できるコマンド enca です。

プログラム:

NAME


enca -- テキスト ファイルのエンコーディングを検出して変換します。

SYNOPSIS


エンカ [-L 言語] [オプション] ... [FILE] ...
暗号化 [-L 言語] [オプション] ... [FILE] ...

はじめに そして


幸運であれば、知っておく必要があるのは次の XNUMX つのことだけです。 コマンド

エンカ FILE

どのエンコードファイルかがわかります FILE (変更せずに) を使用し、

暗号化 FILE

ファイルを変換します FILE ロケールのネイティブエンコーディングに合わせます。 ファイルを他のファイルに変換するには
エンコーディングを使用する -x オプション(を参照) -x セクションのエントリ OPTIONS とセクション 変換  
エンコーディング 詳細については)。

どちらも複数のファイルと標準入力 (出力) で動作します。 例えば

enca -x ラテン2

ファイル `sometext' がプリンタに送信されるときに ISO Latin 2 であることを保証します。

これらのコマンドが失敗してファイルがゴミになってしまう主な理由は、Enca
エンコーディングを検出するには言語を知る必要があります。 あなたの言語を判断しようとします
また、ロケール設定から優先される文字セットも選択されますが、これは希望どおりではない可能性があります。

使用できます(または使用する必要があります) -L 正しい言語を伝えるオプション。 ダウンロードしたとします。
ロシアの HTML ファイル「file.htm」は、Windows-1251 であると主張していますが、そうではありません。 それであなたは走ります

enca -L ru file.htm

それが KOI8-R (たとえば) であることがわかります。 現在サポートされている機能はあまり多くないことに注意してください
言語 (セクションを参照) LANGUAGES).

もう XNUMX つの警告は、Enca のいくつかの機能、つまり文字セット変換に関するものです。
機能は、システムにインストールされている他のツールに大きく依存します (「
変換)- 走る

enca --バージョン

機能のリストを取得するには (セクションを参照) 商品特徴)。 こちらも試してみてください

enca --ヘルプ

他のすべての Enca オプションの説明を取得するには (およびこのマニュアル ページの残りの部分を参照するには)
冗長です)。

DESCRIPTION


Enca は、指定されたテキスト ファイル、または何も指定されていない場合は標準入力を読み取り、知識を使用します。
彼らの言語(あなたがサポートする必要があります)と解析、統計の組み合わせについて
分析、推測、黒魔術を使ってエンコーディングを決定し、それを出力します。
標準出力 (または、エンコーディングが何であるかまったくわからないと告白します)。 による
デフォルトでは、Enca は結果を人間が判読できる複数行の説明として表示します。
フォーマットが利用可能です -- 以下の出力タイプセレクターを参照してください。

Enca はファイルを他のエンコーディングに変換することもできます ENC 要求するときは、
組み込みコンバータ、何らかの変換ライブラリ、または外部コンバータを呼び出すことによって。

Enca の主な目標は、自動変換ツールとして無人で使用できるようにすることですが、
おそらくまだこの点に達していません (セクションを参照してください) SECURITY).

まれなケースを除いて、Enca が提供する入力ファイルの言語を実際に知っている必要があることに注意してください。
信頼できる答えです。 一方、次のようなファイルには非常にうまく対処できます。
純粋にテキストではない、あるいはバイナリ ファイル内のテキスト文字列の文字セットを検出することさえありません。 の
もちろん、それは非テキストコンポーネントの性質に依存します。

Enca は入力ファイルの構造を気にせず、入力ファイルを単一のファイルとして認識します。
テキスト/データ。 マルチパート ファイル (メールボックスなど) の場合は、次のことを知っているツールを使用する必要があります。
最初に個々の部分を抽出する構造。 それは検出能力のコストです
破損したファイル、不完全なファイル、または正しくないファイルのエンコーディング。

OPTIONS


オプションには、動作モード オプション、出力タイプ セレクター、
推測パラメータ、変換パラメータ、一般的なオプションとリスト。

明確な必須パラメータである限り、長いオプションはすべて省略できます。
の長いオプションは短いオプションにも必須です。

操作 モード
次のとおりです。

-c, --自動変換
Enca を次のように呼ぶのと同じ 暗号化.

出力タイプ セレクターが指定されていない場合は、ファイル エンコーディングを検出し、出力タイプを推測します。
ロケールから優先文字セットを選択し、ファイルをそれに変換します (
+target-charset-auto 機能)。

-g, - 推測してみて
Enca を次のように呼ぶのと同じ エンカ.

出力タイプ セレクターが指定されていない場合は、ファイル エンコーディングを検出して報告します。

出力 type セレクタ
Enca がエンコードを決定するときに実行するアクションを選択します。 それらのほとんどはただ
エンコーディングを印刷する方法は、さまざまな名前、形式、規則の中から選択できますが、
それらの中の一つ (-x) は特別です。Enca にファイルを他のエンコーディングに再コード化するよう指示します。 ENC.
これらのオプションは相互に排他的です。 複数の出力タイプ セレクターを指定した場合
最後のものが優先されます。

いくつかの出力タイプは、他のプログラムで使用される文字セット名を表しますが、これらすべてではありません
プログラムは、Enca が認識するすべての文字セットを知っています。 エンカは関係ないので注意してください
認識されない文字セットと、指定された名前空間に名前がない文字セットの間
状況。

-d, - 詳細
以前は推測プロセスの詳細が数ページに渡って印刷されていましたが、Enca 以降は
これは Enca ライブラリに対してリンクされた単なるプログラムです。これは不可能であり、このオプションは
とほぼ同等です -人間が読める形式ただし、次の場合に失敗の理由を報告する場合を除きます。
Enca はエンコードを認識しません。

-e, --エンカ名
Enca の文字セットの素敵な名前、つまりおそらく最も一般的に受け入れられている文字セットの名前を出力します。
サーフェスが追加された、多かれ少なかれ人間が判読できる文字セット識別子。

この名前は、外部コンバータを呼び出すときにも使用されます。

-f, -人間が読める形式
検出された文字セットと表面の口頭による説明を出力します (人間によるもの)
が一番よくわかります。 これはデフォルトの動作です。

正確な形式は次のとおりです。最初の行には文字セット名のみが含まれ、
その後に、検出された表面の名前を含む XNUMX 個以上のインデントされた行が続きます。
ただし、この形式は、さらなる機械処理には適していないか、またはそれを意図したものではありません。
そして、口頭での文字セットの説明は将来的に変更される可能性があります。

-i, --アイコン名
印刷方法 iconv(3) (および/または iconv(1)) は、検出された文字セットを呼び出します。 より正確に、
iconv によって受け入れられる、多かれ少なかれ任意に選択された XNUMX つのエイリアスを出力します。 文字セット
iconv にとって不明なものは不明としてカウントされます。

この出力タイプは、Enca が iconv サポート (機能) を使用してコンパイルされている場合にのみ意味を持ちます。
+iconv-インターフェイス)。

-r, --rfc1345-名前
RFC 1345 文字セット名を出力します。 RFC 1345によりそのような名前が存在しない場合
特定のエンコーディングを定義していないか、他の RFC で定義されている別の名前、または単に
著者が「最も標準的」と考える名前が印刷されます。

RFC 1345 ではサーフェスが定義されていないため、サーフェス情報は追加されません。

-m, --マイム名
検出された文字セットの優先 MIME 名を出力します。 これはあなたがすべき名前です
通常、電子メールや Web ページを修正するときに使用します。

存在しない文字セット http://www.iana.org/assignments/character-sets としてカウント
未知の。

-s, --cstocs 名
印刷方法 クストク(1) 検出された文字セットを呼び出します。 cstocs に不明な文字セット
不明としてカウントされます。

-n, --name =WORD
で選択された文字セット (エンコーディング) 名を出力します。 WORD (省略可能です。
明確です)。 上記に挙げた名前については、 --name =WORD に相当します --WORD.

使い方 エイリアス 出力タイプにより、Enca は受け入れられるすべてのエイリアスのリストを出力します。
検出された文字セット。

-x, --convert-to=[..]ENC
ファイルをエンコーディングに変換します ENC.

エンコーディング名の前にあるオプションの `..' には特別な意味はありません。
とは異なり、それを自分に思い出させるためです 再コーディング(1) を指定する必要があります 希望
現在のエンコーディングの代わりに。

あなたが使用することができます 再コーディング(1) チェーンの再コーディングまたはその他の種類のブレインデッド再コーディング
の仕様 ENC、Enca に何らかのツールを使用するよう指示した場合に限ります。
変換用にそれを使用します (セクションを参照) 変換).

Enca がエンコードの決定に失敗すると、警告が出力され、
そのままファイルします。 フィルターとして実行すると、標準をコピーするために最善を尽くします。
標準出力への入力は変更されません。 それでも、それに頼ってはいけません。
バックアップ

推測 パラメータ
ただ一つしかない: -L 入力ファイルの言語を設定します。 このオプションは必須です (ただし、「
下)。

-L, -言語=言語
入力ファイルの言語を次のように設定します。 言語.

より正確に、 言語 任意の有効なロケール名 (または +locale-alias を使用したエイリアス) を指定できます
機能) の一部のサポートされている言語。 言語名として「none」を指定することもできます。
この場合、マルチバイトエンコーディングのみが認識されます。 走る

enca --リスト言語

サポートされている言語のリストを取得します。 言語を指定しない場合、Enca は言語を試行します
ロケール設定から言語を推測し、入力ファイルがこれを使用していると想定します
言語。 セクションを参照 LANGUAGES より詳細をご確認いただけます。

変換 パラメータ
文字セット変換の実行方法をより細かく制御できます。 それらは影響しません
いつでも何でも -x 出力タイプとして指定されていません。 セクションを参照してください 変換
悲惨な変換の詳細。

-C, --try-converters=LIST
カンマ区切りで追加します LIST 次の場合に試行されるコンバータのリストに追加します。
変換を要求します。 名前は省略可能です。
明確な。 走る

enca --list コンバータ

すべての有効なコンバータ名のリストを取得するには (セクションを参照してください) 変換 彼らのために
説明)。

デフォルトのリストは、Enca のコンパイル方法によって異なります。

enca --ヘルプ

デフォルトのコンバータリストを確認します。

デフォルトのリストは、指定しない場合にのみ使用されることに注意してください。 -C 全然。 さもないと、
リストは最初は空であるかのように構築され、 -C 新しいコンバータを追加します
それに。 また、指定すると、 なし コンバータ名によりコンバータがクリアされるため
リスト。

-E, --外部コンバータープログラム=パス
外部コンバータプログラム名を次のように設定します。 パス。 デフォルトの外部コンバータに応じて異なります
enca がどのように準拠されているか、および外部コンバータを使用する可能性については、
まったく利用できません。 走る

enca --ヘルプ

enca ビルドのデフォルトのコンバーター プログラムを見つけます。

全般 オプション
他のオプション カテゴリに当てはまらない...

-p, --with-ファイル名
Enca は各結果に対応するファイル名をプレフィックスとして付加します。 デフォルトではエンカ
複数のファイルに対して実行すると、結果にファイル名がプレフィックスとして付けられます。

標準入力は次のように出力されます。 標準入力 標準出力は次のようになります 標準出力 (後者は可能です
おそらくエラー メッセージでのみ表示されます)。

-P, --no-ファイル名
Enca が結果の先頭にファイル名を付加しないように強制します。 デフォルトでは、Enca にはプレフィックスが付きません
単一ファイル (標準入力を含む) で実行した場合のファイル名付きの結果。

-V, -詳細
詳細レベルを上げます (使用するたびにレベルが XNUMX ずつ上がります)。

Enca のさまざまな部分が応答するため、現時点ではこのオプションはあまり役に立ちません。
同じ冗長レベルとは異なりますが、ほとんどの場合はまったくそうではありません。

アップロード履歴
すべて端末です。つまり、Enca がそれらの一部に遭遇すると、必要なリストを出力します。
そして、後続のオプションを処理せずに終了します。

-h, - 助けて
簡単な使用方法のヘルプを表示します。

-G, - ライセンス
Enca ライセンス全体を印刷します (可能な場合はポケットベルを使用して)。

-l, --リスト=WORD
で指定されたリストを印刷します WORD (明確である限り省略できます)。
利用可能なリストは次のとおりです。

組み込みの文字セット。 内蔵コンバーターにより、グループごとに変換可能なすべてのエンコーディング (両方
入力および出力エンコーディングはこのリストにあるものであり、同じグループに属している必要があります。
内部変換)。

組み込みエンコーディング。 に相当 組み込みの文字セット、しかし時代遅れであると考えられています。 意思
しばらくの間、警告付きで受け入れられます。

コンバータ。 すべての有効なコンバータ名 (一緒に使用されます) -C).

チャーセット。 すべてのエンコーディング (文字セット)。 印刷する名前を選択できます
  - 名前 または任意の名前出力タイプ セレクター (もちろん、
指定された名前空間の名前が出力されます)、セレクターを指定する必要があります
- リスト.

エンコーディング。 に相当 チャーセット、しかし時代遅れであると考えられています。 で受け入れられます
しばらくの間、警告が表示されます。

言語。 サポートされているすべての言語とその言語に属する文字セット。 注記
ここでは、出力タイプは文字セット名のスタイルではなく、言語名のスタイルを選択します。

。 可能なすべての値 - 名前 オプションを選択します。

lists。 このオプションのすべての可能な値。 (クレイジー?)

表面。 Enca が認識するすべての表面。

-v, - バージョン
プログラムのバージョンと機能のリストを出力します (セクションを参照) 商品特徴).

変換


Enca は元々、エンコーディングを推測するためだけのツールとして設計されましたが、現在では
文字セット変換のいくつかの方法を備えています。 どちらになるかを制御できます
で使用 -C.

Enca は、指定されたリストからコンバータを順番に試行します。 -C それが見つかるまで
必要な変換を実行するか、リストを使い果たすまで実行できます。 指定する必要があります
優先コンバータが最初にあり、その後はあまり優先されません。 外部コンバータ(外部) する必要があります
通常は回復できないため、最後の手段としてのみ常に最後に指定されます。
失敗したとき。 コンバータのデフォルトのリストは常に次で始まります。 内蔵 その後
最初のものは次から入手できます。 リブレコード, iconv、 なし。

Enca が変換を実行できないと言っている場合、それは単に意味するものであることに注意してください。
どのコンバータもそれを実行できません。 まだ実行できる可能性があります
いくつかのコンバータを使用して、いくつかのステップで変換する必要がありましたが、その方法を理解するには、
おそらく人間の知性が必要です。

内蔵 コンバータ
すべての中で最も単純ではるかに高速であり、バイトごとに数バイトしか実行できません
ファイルをその場で直接変換および変更します (危険だと思われるかもしれませんが、
かなり効率的です)。 変換できるすべてのエンコーディングのリストを取得できます

enca --list 組み込み

速度のほかに、その主な利点 (欠点でもあります) は、気にしないことです。
ターゲットエンコーディングで表現された文字を変換するだけであり、変換は行いません。
それ以外のものは何も表示されず、エラー メッセージは表示されません。

このコンバータは次のように指定できます。 内蔵   -C.

リブレコード コンバータ
GNU 再コード ライブラリへのインターフェイスであり、実際の再コード ジョブを実行します。 そうかもしれないし、かもしれない
コンパイルしないでください。 走る

enca --バージョン

enca ビルドで利用できるかどうかを確認します (機能 +librecode-interface)。

あなたはよく知っているはずです 再コーディング(1) recode は非常に難しいため、使用する前に
洗練された強力な文字セット変換ツール。 使用すると問題が発生する可能性があります
特に Enca のサーフェスのサポートは 100% 互換性がないため、Enca と併用すると、
recode は変換を元に戻そうと頑張りすぎるため、
非常にバグが多いため、I/O エラーを黙って無視します。 GNU リコードを参照してください
レコードライブラリの詳細については、情報ページを参照してください。

このコンバータは次のように指定できます。 リブレコード   -C.

iconv コンバータ
UNIX98へのインターフェースです。 iconv(3) 実際の記録を行う変換関数
仕事。 コンパイルされる場合とされない場合があります。 走る

enca --バージョン

enca ビルドで利用できるかどうかを確認します (機能 +iconv-interface)。

iconv は今日のほとんどのシステムに存在しますが、便利な一連の機能を提供することはほとんどありません。
利用可能な変換が可能ですが、唯一の注目すべき例外は GNU libc からの iconv です。 それは
通常、サーフェスについても非常にこだわります (同時に、サーフェスを実装しません)
変換)。 ただし、これはおそらく、次のことを実行できる唯一の標準化されたツールを表します。
Unicode から/への変換。 詳細については、iconv のドキュメントを参照してください。
特定のシステムの機能。

このコンバータは次のように指定できます。 iconv   -C.

外部 コンバータ
で指定できる任意の外部変換ツールです。 -E オプション (最大 XNUMX つ
同時に定義できます)。 enca と一緒に提供される標準がいくつかあります。
クストク, 再コーディング, 地図, ウマップ, ピコンブ。 すべてラッパー スクリプトです: クストク(1) 再コーディング(1)
地図(1) ウマップ(1)と、 ピコンブとします。

enca は外部コンバータの実際の動作をほとんど制御できないことに注意してください。 設定した場合
それに /bin/rm あなたはその結果に対して全責任を負います。

enca で使用する独自のコンバータを作成したい場合は、それが常に
呼ばれます

コンバータ ENC_CURRENT ENC FILE [-]

コラボレー コンバータ によって設定されたものです -E, ENC_CURRENT エンコーディングが検出され、 ENC 何です
で指定されています -x, FILE 変換するファイルです。つまり、ファイルごとに呼び出されます。
別途ファイルします。 オプションの XNUMX 番目のパラメーター -、(存在する場合)送信を引き起こすはずです
ファイルを上書きせずに標準出力に変換した結果 FILEを選択します。
コンバーターはファイルのアクセス許可を変更しないように注意し、エラー コード 1 を返す必要があります。
失敗したときに一時ファイルをクリーンアップします。 標準外装をご覧ください
たとえばコンバータ。

このコンバータは次のように指定できます。 外部   -C.

デフォルト ターゲット 文字セット
ターゲットの文字セットを指定する簡単な方法は、 -x オプション。これは任意のオプションをオーバーライドします。
デフォルト。 エンカというと 暗号化、デフォルトのターゲット文字セットは正確に選択されます。
と同じように 再コーディング(1)はそうなります。

Status DEFAULT_CHARSET 環境変数が設定されている場合、それがターゲットの文字セットとして使用されます。

それ以外の場合、システムが提供する場合は、 nl_langinfo(3) 関数、現在のロケールのネイティブ
charset はターゲットの文字セットとして使用されます。

両方のメソッドが失敗すると、Enca はエラーを発生して終了します。

可逆性 ノート
可逆性が重要である場合は、enca をコンバーターとしてまったく使用しないでください (あるいは、おそらく
非常に特別に設計されたものであれば、それが可能です 再コーディング(1)ラッパー)。 それ以外の場合は、
変換不可能な文字エンティティを処理する XNUMX つの基本的な手段があることはあまり知られていません。

失敗 -- これも可能性がありますが、ちなみにこれは現在の GNU libc とまったく同じです。
iconv 実装はそうします (recode にそうするように指示することもできます)

それらには触れないでください。これは enca 内部コンバータが常に行うことであり、recode で実行できることです。
可逆的ではありませんが、人間は通常、元の状態を再構築することができます。
少なくとも原則として)

それらを近似します。これが cstocs で実行できることです。方法は異なりますが、再コード化することもできます。 そしてその
呪われたテキストを読みやすくしたいだけの場合に最適な選択

それらを削除します -- これは、recode と cstocs の両方で実行できることです (cstocs はこれらを置き換えることもできます)
文字を単に無視するのではなく、何らかの固定文字で置き換えます)。 というときに便利です。
省略される文字にはノイズのみが含まれます。

この問題の詳細については、お好みのコンバータのマニュアルを参照してください。 一般的に、次の場合、
ファイル内にすべての変換可能な文字を持っているほど幸運ではありません、手動
とにかく介入が必要です。

パフォーマンス ノート
利用可能なコンバータのパフォーマンスが低いことが、以下を含む主な理由の XNUMX つです。
encaにコンバーターを内蔵。 可能な限り、これを使用するようにしてください。つまり、ファイルが
十分に文字セットがクリーンであるか、または十分に文字セットが乱雑であるため、組み込みがゼロになるように考慮する必要があります。
知性は関係ありません。 余分なディスク容量やメモリは必要なく、
優れたパフォーマンス 再コーディング(1) 大きなファイルと Perl バージョンで 10 回以上 (つまり、より速い)
の一つ クストク(1) 小さなファイルでは 400 回以上 (実際には、単なるファイルとほぼ同じ速度です)
cp(1))。

外部コンバータはすべて分岐するため、絶対に必要でない場合は避けるようにしてください。
そして、物を移動させるのは信じられないほど遅いです。

エンコーディング


認識された文字セットのリストを取得するには、

enca --list 文字セット

を使用して - 名前 パラメータでは、リストで使用する任意の名前を選択できます。
すべてのサーフェスをリストすることもできます

enca --リスト サーフェス

エンコーディング名とサーフェス名は大文字と小文字が区別されず、英数字以外の文字は区別されません。
考慮されます。 ただし、英数字以外の文字はほとんど使用できません。
許可されるのは、`-'、`_'、`.'、`:'、および `/' (文字セット/表面の区切り文字として) のみです。 それで
「ibm852」と「IBM-852」は同じですが、「IBM 852」は受け入れられません。

文字セット
次の認識される文字セットのリストでは、Enca の名前が使用されています (-e) と口頭での説明
Enca が報告 (-f):

ASCII 7 ビット ASCII 文字
ISO-8859-2 ISO 8859-2 規格。 ISO ラテン 2
ISO-8859-4 ISO 8859-4 規格。 ラテン語 4
ISO-8859-5 ISO 8859-5 標準。 ISOキリル文字
ISO-8859-13 ISO 8859-13 規格。 ISO バルト海; ラテン7
ISO-8859-16 ISO 8859-16 規格
CP1125 MS-Windows コードページ 1125
CP1250 MS-Windows コードページ 1250
CP1251 MS-Windows コードページ 1251
CP1257 MS-Windows コードページ 1257。 ウィンバルトリム
IBM852 IBM/MS コードページ 852。 PC (DOS) ラテン 2
IBM855 IBM/MS コードページ 855
IBM775 IBM/MS コードページ 775
IBM866 IBM/MS コードページ 866
バルト海 ISO-IR-179; バルト
KEYBCS2 カメニッキーエンコーディング。 KEYBCS2
macce マッキントッシュ 中央ヨーロッパ

maccir マッキントッシュ キリル文字
ECMA-113 エクマ キリル文字; ECMA-113
KOI-8_CS_2 KOI8-CS2 コード (`T602')
KOI8-R KOI8-R キリル文字
KOI8-U KOI8-U キリル文字
KOI8-UNI KOI8-統一キリル文字
TeX (La)TeX 制御シーケンス
UCS-2 ユニバーサル文字セット 2 バイト。 UCS-2; BMP
UCS-4 ユニバーサル文字セット 4 バイト。 UCS-4; ISO-10646
UTF-7 ユニバーサル変換フォーマット 7 ビット。 UTF-7
UTF-8 ユニバーサル変換フォーマット 8 ビット。 UTF-8
CORK コルクエンコーディング。 T1
GBK 簡体字中国語国家標準。 GB2312
BIG5 伝統的な中国工業規格。 Big5
HZ HZ エンコード GB2312
不明 認識できないエンコーディング

コラボレー 未知の は実際のエンコーディングではありません。Enca が
信頼できる答え。

サーフェス
Enca には、いわゆるサーフェスに対する実験的なサポートがいくつかあります (下記を参照)。 検出します
次のサーフェス (すべてをすべての文字セットに適用できるわけではありません):

/CR CR ラインターミネータ
/LF LF ラインターミネータ
/CRLF CRLF 行終端文字
NA 混合回線終端記号
NA 非テキスト データに囲まれている/非テキスト データが混在している
/21 ペアでバイト順序を反転 (1,2 -> 2,1)
/4321 バイト順序が 1,2,3,4 倍に反転されました (4,3,2,1 -> XNUMX)
NA リトル エンディアン チャンクとビッグ エンディアン チャンクの両方を連結
/qp Quoted-printable エンコード済み

一部のサーフェスでは識別子の代わりに NA が付いていることに注意してください。これらはコマンドで指定できません
ラインでは、Enca によってのみ報告できます。 これは意図的なものであり、あなたにのみ通知するためです。
ファイルが実際のファイルを表すのではなく、表面の一貫性があるとみなせない理由
表面。

各文字セットには、報告されない自然な表面 (レコードでは「暗黙的」と呼ばれます) があります。
たとえば、IBM 852 文字セットの場合、それは「CRLF 行終端記号」です。 UCS エンコーディングの場合、ビッグ エンディアンは次のとおりです。
自然の表面とみなされます。 異常なバイトオーダーは 21 と 4321 から構成されます
順列: 2143 は単純に 21 として報告され、3412 は 4321 の組み合わせとして報告されます。
と21。

二重エンコードされた UTF-8 は文字セットでもサーフェスでもありません。報告されただけです。

企業情報 文字セット、 エンコーディング   表面
文字セットは文字エンティティのセットであり、エンコーディングは用語での表現です。
バイトとビットの。 エンカの言葉は、 エンコーディング 「テキストの表現」と同じ意味です。
つまり、テキストを構成する文字エンティティのシーケンスと、
ファイルを構成するバイト (ビット) のシーケンス。

したがって、エンコーディングは文字セットといわゆる表面 (行末記号、バイト順序、
結合、Base64 変換など)。 それにもかかわらず、それは作業するのに便利であることがわかります
本物の文字セットと同様に、いくつかの {charset,surface} ペア。 したがって、次のように 再コーディング(1)、すべての UCS-および
ユニバーサル文字セットの UTF エンコーディングは文字セットと呼ばれます。 録画を参照してください
この問題の詳細については、ドキュメントを参照してください。

表面の唯一の良い点は、表面で遊び始めないときは、どちらも役に立たないことです。
Enca は起動せず、可能な限り表面非認識型として動作しようとします。
たとえ再コードするために話しているときでも、プログラム。

LANGUAGES


Enca が確実に動作するには、少なくとも以下の場合には入力ファイルの言語を知る必要があります。
通常の 8 ビットエンコーディング。 マルチバイトエンコーディングは、ラテン語、キリル文字で認識される必要があります。
またはギリシャ語。

使用できます(または使用する必要があります) -L Enca に言語を伝えるオプション。 なぜなら、人々はほとんどの場合、
Enca は、ロケールが設定されているのと同じ言語でファイルを操作しようとします。
の値を調べて言語を推測しようとします LC_CTYPE およびその他のロケール カテゴリ
(参照してください ローカル(7)) を指定せず、言語として使用します。 の
もちろん、それは完全に間違っている可能性があり、意味のない答えを返し、あなたの人生に損害を与えるでしょう。
ファイルを使用することを忘れないでください。 -L オプション。 も使用できます エンカオプト 環境
デフォルト言語を設定する変数 (セクションを参照) ENVIRONMENT).

Enca では次の言語がサポートされています (各言語はサポートされている言語とともにリストされています)
8ビットエンコーディング)。

ベラルーシ CP1251 IBM866 ISO-8859-5 KOI8-UNI maccir IBM855
ブルガリア語 CP1251 ISO-8859-5 IBM855 maccir ECMA-113
チェコ語 ISO-8859-2 CP1250 IBM852 KEYBCS2 macce KOI-8_CS_2 CORK
エストニア ISO-8859-4 CP1257 IBM775 ISO-8859-13 マックセ・バルティック
クロアチア CP1250 ISO-8859-2 IBM852 macce CORK
ハンガリー ISO-8859-2 CP1250 IBM852 macce CORK
リトアニア CP1257 ISO-8859-4 IBM775 ISO-8859-13 マッセ・バルティック
ラトビア CP1257 ISO-8859-4 IBM775 ISO-8859-13 マッチェ・バルティック
ポーランド ISO-8859-2 CP1250 IBM852 macce ISO-8859-13 ISO-8859-16 バルトコルク
ロシア語 KOI8-R CP1251 ISO-8859-5 IBM866 maccir
スロバキア CP1250 ISO-8859-2 IBM852 KEYBCS2 macce KOI-8_CS_2 CORK
スロベニア ISO-8859-2 CP1250 IBM852 macce CORK
ウクライナ CP1251 IBM855 ISO-8859-5 CP1125 KOI8-U maccir
中国 GBK BIG5 HZ
なし

特殊な言語 なし 短縮することができます __、8 ビット エンコーディングは含まれていないため、
マルチバイトエンコーディングが検出されました。

言語の代わりにロケール名を使用することもできます。

ベラルーシ語
ブルガリア語
チェコCS
エストニア語と
クロアチア時間
ハンガリーのフー
リトアニア語
ラトビア語レベル
ポーランド語
ロシア語
スロバキアスク
スロベニアSL
ウクライナ英国
中国語のzh

商品特徴


Enca のいくつかの機能は、システムで利用可能なものとその使用状況によって異なります。
編集済み。 彼らのリストは次のようにして取得できます

enca --バージョン

機能名の前のプラス記号はその機能が利用可能であることを意味し、マイナス記号はこのビルドに機能がないことを意味します
特別な機能。

リブレコードインターフェイス。 Enca には GNU 再コード ライブラリの文字セット変換へのインターフェイスがあります
機能します。

iconv インターフェイス。 Enca には、UNIX98 iconv 文字セット変換関数へのインターフェイスがあります。

外部コンバータ。 Enca は外部変換プログラムを使用できます (適切な変換プログラムがある場合)
インストールされています)。

言語検出。 Enca は言語を推測しようとします (-L) ロケールから。 必要ありません
- 言語 少なくとも原則としてはオプションです。

ロケールエイリアス。 Enca は、言語名に使用されるロケール エイリアスを復号化できます。

ターゲット文字セット自動。 Enca は、ロケールから優先文字セットを検出しようとします。 オプション
--自動変換 そしてEncaを次のように呼びます 暗号化 少なくとも原理的には機能します。

エンカオプト。 Enca は、コマンド ラインの前にこの環境変数を正しく解析できます。
パラメーター。 みたいな単純なもの ENCAOPT="-L イギリス" この機能がなくても動作します。

ENVIRONMENT


変数 エンカオプト デフォルトの Enca オプションのセットを保持できます。 その内容が解釈される
コマンドライン引数の前に。 残念ながら、これはどこでも機能するわけではありません(必須
+ENCAOPT 機能)。

LC_CTYPE, LC_COLLATE, LC_MESSAGES (おそらくから受け継いだもの LC_ALL or 言語)は
あなたの言語を推測します (+言語検出機能が必要です)。

変数 DEFAULT_CHARSET によって使用できます 暗号化 デフォルトのターゲット文字セットとして。

診断


すべての入力ファイルが正常に処理された場合 (つまり、すべての入力ファイルが正常に処理された場合)、Enca は終了コード 0 を返します。
エンコーディングが検出され、変換された場合、すべてのファイルが必要なエンコーディングに変換されました
求められました)。 Enca がエンコードを推測できなかった場合、または
入力ファイルに対して変換を実行するのは賢明ではないためです。 終了コード2は
重大な (I/O など) トラブルの場合に返されます。

SECURITY


Enca を無人で動作させることが可能であるべきであり、それが目標です。 しかし:

検出が 100% 機能するという保証はありません。 簡単に負ける可能性があるので、賭けないでください
貴重なデータ。

enca (プログラム) を使用しないでください。類似したものが必要な場合は、代わりに libenca にリンクしてください。
安全。 最終的な変換は自分で実行する必要があります。

外部コンバータは使用しないでください。 理想的には、コンパイル時にそれらを無効にします。

の点に注意してください。 エンカオプト そして、すべての組み込みの自動魔法は、そこからさまざまなことを推測します。
環境、つまりロケール。

onworks.net サービスを使用して enca online を使用する


無料のサーバーとワークステーション

Windows と Linux のアプリをダウンロード

Linuxコマンド

Ad




×
Advertisement
❤️ここでショッピング、予約、購入してください。料金はかかりません。これにより、サービスが無料で維持されます。