これは、Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、MAC OS オンライン エミュレーターなどの複数の無料オンライン ワークステーションの XNUMX つを使用して、OnWorks 無料ホスティング プロバイダーで実行できるコマンド dictfmt です。
プログラム:
NAME
dictfmt - DICT プロトコル辞書データベースをフォーマットします
SYNOPSIS
辞書 -c5|-t|-e|-f|-h|-j|-p [オプション] ベース名
辞書 -i|-私 [オプション]
DESCRIPTION
辞書 ファイルを受け取り、 ファイル、 標準入力上に、という名前の辞書データベースを作成します。
ベース名.dict、 DICTプロトコルに準拠しています。 また、次の名前のインデックス ファイルも作成されます。
ベース名.インデックス。 デフォルトでは、インデックスは C ロケールに従ってソートされます。
ソートには英数字とスペースが使用されますが、これは次のように変更できます。
--locale および --allchars オプション。 ( ベース名 に対応するように選択されるのが一般的です。
のベース名 FILE ただし、これは必須ではありません。)
データベースが非常に小さい場合を除き、次のことを強くお勧めします。 ベース名.dict be
で圧縮された /usr/bin/dictzip 作成する ベース名.dict.dz。 (dictzip は
口述 ソースパッケージ。)
FILE は、形式オプション -c5、-t、-e、-f、
-h、-j、-p、-i、または -I。 これらのオプションのうち XNUMX つだけを指定する必要があります。
辞書 いくつかのヘッダーが .dict ファイルの先頭に追加されます。 00-database-url ヘッダーは次のようになります。
元のデータベースの作成元のサイトの URL としての -u オプションの値
得られた。 00-database-short ヘッダーは、-s オプションの値を短縮名として指定します。
辞書の。 (この「短い名前」は、「dict-D」によって与えられる識別名です。
-u および/または -s オプションを省略した場合、これらの値は次のように表示されます。
「不明」。公的に分散されたデータベースにとっては望ましくない。
変換 (フォーマット) の日付は 00-database-info ヘッダーに示されます。 すべてのテキストが入っています
最初の見出し語の前の入力ファイル (適切な書式設定によって定義される)
オプション) がこのヘッダーに追加されます。 見出し語に続く入力ファイル内のすべてのテキスト、上
次の見出し語までが変更されずに .dict ファイルにコピーされます。
フォーマット OPTIONS
-c5 FILE でフォーマットされています 見出し語 先頭に 5 つ以上のアンダースコア文字 (_)
そして空白行。 次までのすべてのテキスト 見出し語 という定義が考えられます。
先頭の「@」文字はすべて削除されますが、それ以外の点ではファイルは変更されません。
このオプションは、CIA WORLD FACTBOOK 1995 をフォーマットするために作成されました。
-t -c5、--without-info、--without-headword オプションは暗黙的に指定されます。 このオプションを使用すると、
入力データベースが由来する場合 辞書形式 ユーティリティ。
-e FILE html形式であり、 見出し語 太字としてタグ付けされています。 (見出し語 - )
このオプションは、EASTON の 1897 BIBLE DICTIONARY をフォーマットするために作成されました。 典型的なエントリー
イーストンからは次のとおりです。
アバグサ -
アハシュエロスの宮廷にいる 1 人の宦官の 10 人 (エステル 2:21; XNUMX:XNUMX)。
これは次のように変換されます。
アバグサ
アハシュエロスの宮廷にいる 1 人の宦官の 10 人 (エステル 2:21; XNUMX:XNUMX)。
見出し「」は省略されており、 見出し語 「Abagtha」はインデックスに登録されています。
注: このオプションは注意して使用する必要があります。 いくつかのHTMLタグを削除します
(Easton を適切にフォーマットするには十分です)、ただしすべてではありません。 もともとあったMakefile
dict-easton 形式で記述され、sed スクリプトを使用して特定の相互参照を変更します
タグ。 sed スクリプトを介して入力ファイルをパイプするか、スクリプトをハッキングする必要がある場合があります。
他の HTML データベースを適切にフォーマットするための dictfmt のソース。
-f FILE でフォーマットされています 見出し語 列 0 から始まる定義
後続の行では少なくとも XNUMX つのスペース (またはタブ文字) をインデントします。 当学校区の 三番 ライン
起動 in の項目に表示されます。 0 is 撮影 as 最初の 見出し語 、と最初の XNUMX 行
列 0 で始まるものは、00-database-info ヘッダーの一部として扱われます。 これ
FOLDOC をフォーマットするためにオプションが書き込まれました
-h FILE でフォーマットされています 見出し語 列 0 から始まり、その後にカンマが続きます。
定義は同じ行に続きます。 最初のシングルの前のすべてのテキスト
00-database-info ヘッダーに文字行が含まれる行、および XNUMX つだけの行
文字は .dict ファイルから省略されます。 当学校区の 最初の 見出し語 is on ライン
フォロー中 最初の 文字 ライン。 当学校区の 見出し語 インデックスが付けられています。 のテキスト
ファイルは変更されません。 このオプションは、ヒッチコックの聖書名をフォーマットするために作成されました。
辞書。
-j FILE でフォーマットされています 見出し語 列 0 から始まり、コロンで囲まれ、その後に続きます
定義。 周囲の結腸は、 見出し語 が削除され、 見出し語
インデックスされています。 「*」、「=」、「-」で始まる行も削除されます。 すべてのテキスト
最初の見出し語がヘッダーに含まれる前。 このオプションが書かれたのは、
JARGON ファイルをフォーマットします。
注: JARGON ファイルの一部の最近のバージョンでは、
各見出し語の最初のコロン。 これらは、次の方法で処理する前に削除する必要があります。
dictfmt。 (この目的には sed スクリプトが使用されています。ed、awk、または perl スクリプト
も可能です。)
-p FILE 列 0 に `%h'、その後に空白、その後に
見出し語、 オプションで、その後に列 0 に `%d' を含む行が続きます。
定義は次の行から始まります。 '%h' で始まる最初の行と任意の
'%d' で始まる行は .dict ファイルから削除され、'%h ' は .dict ファイルから削除されます。
見出しの前に。 最初の見出し語より前のすべてのテキストが、
ヘッダー。 当学校区の 2番目の ライン 初め '%h' is 撮影 as 最初の 見出し語。
このオプションは、Jay Kominek の要素データベースをフォーマットするために作成されました。
-i -I これら XNUMX つのオプションは、他のすべての書式設定オプションとは異なります。 彼らです
リゾートを意図した(によると) 口述 要件)標準入力で指定された .index ファイル。
つまり、.dict ファイルはまったく生成されません。 リゾートのみが行われます。 XNUMXつまたは
XNUMX 列の .index のような入力が期待されます。 -i XNUMX 進数のオフセットと長さを想定しています。
while -I これらはbase64形式であることが期待されます。
OPTIONS
-u URL 生のデータベースを取得したサイトの URL を指定します。 これなら
オプションを指定すると、00-database-url 見出し語と適切な定義が表示されます。
無視されます。
-s 名
データベースの名前と、オプションでバージョンと日付を指定します。 (もしも
これにはスペースが含まれるため、引用符で囲む必要があります。) このオプションを指定すると、
00-database-short 見出し語と適切な定義は無視されます。
-L ライセンスと著作権情報を表示する
-V バージョン情報を表示する
-D デバッグ情報を出力する
- 助けて ヘルプメッセージを表示する
-ロケール ローカル
並べ替えに使用するロケールを指定します。 ロケールが指定されていない場合は、「C」ロケールが使用されます。
使用されている。 UTF-8 モードを使用するには、--utf8 が必要です。
--8ビット データベースを 8 ビット モードで生成します。を参照してください。 -ロケール オプションも。
注意: このオプションは廃止されました。 8 ビット (非 UTF8) 辞書の作成に使用します。
それだけ。 UTF-8辞書を作成するには、次を使用します。 --utf8 代わりにオプション。
--utf8 指定すると、UTF-8 データベースが作成されます。
--allchars
すべての文字を検索に使用することを指定します (デフォルトのみ)。
英字、数字、スペースは .index ファイルに保存されるため、
検索で使用されます。 特別なエントリ 00-database-allchars を作成します。
- 大文字と小文字を区別
検索では大文字と小文字が区別されます。 特別なエントリ 00-database-case- を作成します。
敏感です。
--見出し語区切り 9月
見出し語の区切り文字を設定します。これにより、複数の単語に同じ文字を含めることができます。
意味。 たとえば、「--headword-separator %%%」が指定され、入力
ファイルに「autumn%%%fall」が含まれている場合、「autumn」と「fall」の両方が次のようにインデックス付けされます。
同じ定義の見出し語。
--インデックスデータ区切り文字 9月
インデックス/データ区切り文字を設定します。これにより、最初と XNUMX 番目の列を設定できます。
.index ファイルを独立して作成します。 つまり、最初の列をインデックスとして扱うことができます。
列 (MATCH コマンドが検索する場所) と結果列としての XNUMX 番目の列
(MATCH が返される値を取得する場合)、それら (1 番目と 4 番目の列) は次のとおりです。
互いに完全に独立しています。 この区切り文字のデフォルト値は次のとおりです。
ASCII記号「\034」。
--break-見出し語
複数の見出し語は、.dict ファイル内の別々の行に書き込まれます。 使用する場合
「--見出し語区切り文字」を使用します。
--index-keep-orig
--utf-8 が指定されている場合、見出し語は小文字および英数字以外の文字になります。
検索を簡素化するために、.index ファイルに保存する前にファイルから削除されます。
--index-keep-orig オプションを使用すると、(必要に応じて) XNUMX 番目の列が作成されます。
.index ファイルであり、MATCH コマンドによって返される元の見出し語が含まれています。
このオプションは、「AT&T」から「ATT」への変換を防止したり、適切な値を維持したりするのに役立つ場合があります。
最初の文字が大文字の名詞。
--見出し語なし
見出し語は .dict ファイルには含まれません
--ヘッダーなし
ヘッダーは DB 情報エントリにコピーされません
--URLなし
URL は DB 情報エントリにコピーされません
--時間なし
作成時刻は DB 情報エントリにコピーされません
--なし-ver
デフォルトでは 辞書 を含む特別なエントリ 00-database-dictfmt-XYZ を作成します。
(.dict ファイル内) dictfmt-XYZ 形式の dictfmt バージョン このオプションは、
--情報なし
DB情報エントリは作成されません。 これは、00-database-info 見出し語の場合に役立つ可能性があります。
stdin から期待されます (dictunformat がそれを出力します)。
-列 コラム
デフォルトでは 辞書 標準入力から読み取られた文字列を 72 列にラップします。 このオプション
このデフォルトを変更します。 ゼロまたは負の値に設定すると、ラッピングはオフになります。
--デフォルトの戦略 戦略
データベースのデフォルトの検索戦略を設定します。 の代わりに使用されます
ストラテジー '。'。 特別エントリー 00-データベース-デフォルト-戦略 このために作成されました
目的。 このオプションは、たとえば次のような辞書に役立つ場合があります。
主にフレーズですが、単一の単語です。 いずれにしても、次の場合はこのオプションを使用してください。
あなたが何をしているのか絶対にわかります。
--mime-ヘッダー mime_header
クライアントが送信するとき オプション MIME コマンドを 口述 、定義はこの中にあります
データベースには、指定された MIME ヘッダーが先頭に付加されます。 特別なエントリを作成します
00-データベース-mime-ヘッダー。
CREDITS
辞書 リク・フェイス ([メール保護]) dict-misc パッケージの一部として。
辞書 は、GNU General Public License の条件に基づいて配布されます。 もしあなたが必要ならば
他の条件で配布する場合は、著者に連絡してください。
onworks.net サービスを使用してオンラインで dictfmt を使用する
