英语法语西班牙语

Ad


OnWorks 网站图标

ids2ngram - 云端在线

通过 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器在 OnWorks 免费托管服务提供商中运行 ids2ngram

这是 ids2ngram 命令,可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器

程序:

您的姓名


ids2ngram - 从 ids 文件生成 n-gram 数据文件

概要


ids2ngram [选项] ... ids_文件...

商品描述


ids2ngram 从二进制生成 idngram 文件,这是一个排序的 [id1,..,idN,freq] 数组
id 流文件。 在这里,id 流文件总是由 毫米段 or slmseg.
基本上,它会找到所有出现的 n 字元组(即 (id1,..,idN) 的元组),并且
按组成元组的 id 的字典顺序对这些元组进行排序,然后写
它们到指定的输出文件。

INPUT


输入文件显示为二进制 id 流,如下所示:
[id0,...,idX]

配置


以下所有选项都是强制性的。

-n,--N最大 N
生成 N-克结果。 ids2ngram 只支持 uni-gram、bi-gram 和 trigram,
所以任何不在 1..3 范围内的数字都是无效的。

-s,- 交换 交换文件
指定临时中间文件。

-o, - 出去 输出文件
指定结果idngram文件,例如[id1, ..., idN, freq]的数组

-p, --para N
指定每个段落的最大 n-gram 项。 ids2ngram 写入临时文件
以每段为基础。 每次它写出一个段落,它就会释放
为其分配了相应的内存。 当您的计算机系统允许时,更高的 N
建议。 由于更少的 I/O,这可以加快处理速度。


以下示例将使用三个输入 idstream 文件 idsfile[1,2,3] 来生成
idngram 文件 all.id3gram。 每个参数(内部映射大小或哈希大小)将为 1024000,
使用交换文件获取临时结果。 所有临时结果最终都会合并到 got
最终结果。

ids2ngram -n 3 -s /tmp/交换 -o 全部.id3gram -p 1024000 ids文件1 ids文件2 ids文件3

使用 onworks.net 服务在线使用 ids2ngram


免费服务器和工作站

下载 Windows 和 Linux 应用程序

Linux 命令

Ad