英語フランス語スペイン語

Ad


OnWorksファビコン

ids2ngram - クラウドでオンライン

Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、または MAC OS オンライン エミュレーター上の OnWorks 無料ホスティング プロバイダーで ids2ngram を実行します。

これは、Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、または MAC OS オンライン エミュレーターなどの複数の無料オンライン ワークステーションの 2 つを使用して、OnWorks 無料ホスティング プロバイダーで実行できるコマンド idsXNUMXngram です。

プログラム:

NAME


ids2ngram - ids ファイルから n-gram データ ファイルを生成します

SYNOPSIS


ids2ngram [オプション] ... ids_file...

DESCRIPTION


ids2ngram バイナリからソートされた [id1,..,idN,freq] 配列である idngram ファイルを生成します
ID ストリーム ファイル。 ここで、id ストリーム ファイルは常に次のように生成されます。 ミリセグ or slmseg.
基本的に、n 語のタプル (つまり、(id1,..,idN) のタプル) の出現をすべて検索します。
これらのタプルを、タプルを構成する ID の辞書編集順に並べ替えてから、次のように書き込みます。
それらを指定された出力ファイルに保存します。

入力


入力ファイルは、次のようなバイナリ ID ストリームとして表示されます。
[id0,...,idX]

OPTIONS


以下のオプションはすべて必須です。

-n,--NMax N
生成 N-グラムの結果。 ids2ngram ユニグラム、バイグラム、トライグラムのみをサポートします。
したがって、1 ~ 3 の範囲にない数値は無効です。

-s,- スワップ スワップファイル
一時中間ファイルを指定します。

-o, - アウト 出力ファイル
結果の idngram ファイルを指定します (例: [id1, ..., idN, freq] の配列)。

-p, --パラ N
段落ごとの最大 N-gram 項目を指定します。 ids2ngram 一時ファイルに書き込みます
段落ごとに。 段落を書き出すたびに、
対応するメモリが割り当てられます。 コンピュータ システムが許可する場合、より高い N
と提案される。 これにより、I/O が減り、処理速度が向上します。

実施例


次の例では、1,2,3 つの入力 idstream ファイル idsfile[XNUMX] を使用して、
idngram ファイル all.id3gram。 各パラ (内部マップ サイズまたはハッシュ サイズ) は 1024000 になります。
一時結果にスワップ ファイルを使用します。 すべての一時パラメータの結果は最終的にマージされて取得されます
最終結果。

ids2ngram -n 3 -s /tmp/swap -o all.id3gram -p 1024000 idsfile1 idsfile2 idsfile3

onworks.net サービスを使用してオンラインで ids2ngram を使用する


無料のサーバーとワークステーション

Windows と Linux のアプリをダウンロード

Linuxコマンド

Ad