これは、Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、または MAC OS オンライン エミュレーターなどの複数の無料オンライン ワークステーションの XNUMX つを使用して、OnWorks 無料ホスティング プロバイダーで実行できるコマンド yaz-icu です。
プログラム:
NAME
yaz-icu - YAZ ICU ユーティリティ
SYNOPSIS
ヤズイク [-NS 設定] [-NS オプト] [-s] [-x] [infile]
DESCRIPTION
ヤズイク yaz の ICU チェーン モジュールをデモするユーティリティです。 (yaz/icu.h)。
このユーティリティは XNUMX つの方法で使用できます。 XML 設定を使用してテキストを読み取る場合があります。
ICU を設定し、テキスト分析を表示します。 このモードはオプション -c によってトリガーされます。
使用する構成を指定します。 入力ファイルは標準入力から読み取られます。または
infile が指定されている場合はファイルから。
このユーティリティは ICU 情報も表示する場合があります。 これはオプション -p によってトリガーされます。
OPTIONS
-c 設定
XML ベースの ICU チェーン構成を含むファイルを指定します。
-p type
ICU システムに関して出力する追加情報を指定します。 もしも type cならICU
コンバーターが印刷されています。 もしも type 利用可能なロケールが表示されます。 もしも type です
利用可能な音訳文字が印刷されます。
-s
出力にソートキーも含めるように指定します。 ソートキーが異なることに注意してください
ICU バージョン間。
-x
出力が「テキスト」ベースではなく XML ベースであることを指定します。
ICU 鎖 CONFIGURATION
ICU チェーン構成では、テキスト データをトークンに変換するための XNUMX つ以上のルールを指定します。
設定形式は XML ベースです。
最上位要素の名前は icu_chain にする必要があります。 icu_chain 要素には必須の要素が XNUMX つあります
属性 locale は、変換ステップで使用される ICU ロケールを指定します。
icu_chain 要素には、各要素が変換を指定する要素が含まれている必要があります
ステップ。 変換は変換ステップの順序で実行されます。
指定。 各変換要素は XNUMX つの属性 (引数として機能するルール) を取ります。
変換ステップ。
次の変換要素が利用可能です。
ケースマップ
大文字と小文字を変換し、ルールで次の方法を指定します。
l
ICU 関数 u_strToLower を使用して小文字にします。
u
ICU 関数 u_strToUpper を使用して大文字にします。
t
UCU 関数 u_strToTitle を使用してタイトルを付けます。
f
ICU 関数 u_strFoldCase を使用してケースを折ります。
ディスプレイ
これは、用語/トークンが表示されることを指定するメタ ステップです。 この用語は
関数 icu_chain_token_display (yaz/icu.h) を使用してアプリケーションで取得されます。
変換
音訳識別子を使用して ICU 変換ルールを指定します。 ルール属性
音訳者の識別子です。 見る ICU 変換詳細については [1] を参照してください。
翻字する
ルールベースの音訳文字を指定します。 ルール属性はカスタム変換です
使用されるルール。 見る ICU 変換詳細については [1] を参照してください。
トークン化する
ICU 関数 ubrk_open を使用して、文字列をコンポーネントに分割/トークン化します。
ubrk_setText、.. . ルールは次のいずれかです。
l
ライン。 ICU: UBRK_LINE。
s
文。 ICU: UBRK_SENTENCE。
w
言葉。 ICU: UBRK_WORD。
c
キャラクター。 ICU: UBRK_CHARACTER。
t
タイトル。 ICU: UBRK_TITLE。
例
次のコマンドは、ICU チェーン構成chain.xml を使用してファイル text 内のテキストを分析します。
猫のテキスト | yaz-icu -cchain.xml
chain.xml は次のようになります。
z"/>
onworks.net サービスを使用してオンラインで yaz-icu を使用する
