这是命令 mkbingram,可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器
程序:
您的姓名
米克宾格拉姆
- 从 ARPA N-gram 文件制作二进制 N-gram
概要
米克宾格拉姆 [-nlr forward_ngram.arpa] [-nrl 向后_ngram.arpa] [-d 旧的_bingram_文件]
{输出_bingram_文件}
商品描述
米克宾格拉姆 是一种将 ARPA 标准格式的 N-gram 定义文件转换为
紧凑的 Julius 二进制格式。 它将大大加快 N-gram 的初始加载时间
快点。 它可以直接读取 gzip 文件。
从 rev.4.0 开始,Julius 可以处理前向 N-gram、后向 N-gram 及其组合。
所以, 米克宾格拉姆 现在从其中一个生成二进制 N-gram 文件,或者将它们两个组合成
产生一个二进制 N-gram。
当只指定一个前向 N-gram 时, 米克宾格拉姆 仅从
前向 N-gram。 当在 Julius 使用这个二进制 N-gram 时,它执行第一遍
N-gram 中的 2-gram 概率,并用给定的 N-gram 完全运行第二遍,用
通过贝叶斯规则将前向概率转换为后向概率。
当只指定了一个反向 N-gram 时, 米克宾格拉姆 生成一个二进制 N-gram 文件
只包含后向 N-gram。 第一遍将使用前向 1-gram 概率
可以使用贝叶斯规则从后向 2-gram 计算,第二遍使用给定的
完全向后 N-gram。
当前向和后向 N-gram 都被指定时,前向和后向 N-gram 中的 2-gram 部分
N-gram 和所有后向 N-gram 将合并为单个 bingram 文件。 前锋
2-gram 将应用于第一遍,反向 N-gram 将应用于第二遍。 注意
两个 N-gram 应该在相同的语料库中使用相同的参数进行训练(即截止
阈值),具有相同的词汇。
旧的二进制 N-gram 由 米克宾格拉姆 版本 3.x 及更早版本可用于
Julius-4,但您可以通过将其指定为输入来将旧版本转换为新版本
目前的 米克宾格拉姆 按选项“-d".
请注意,二进制 N-gram 文件由 米克宾格拉姆 4.0 及更高版本不能
由较旧的 Julius 3.x 阅读。
配置
-nlr forward_ngram.arpa
读入 ARPA 标准格式的前向(从左到右)单词 N-gram 文件。
-nrl 向后_ngram.arpa
以 ARPA 标准格式读取后向(从右到左)单词 N-gram 文件。
-d 旧的_bingram_文件
读入一个二进制 N-gram 文件。
-交换
在 N-gram 中交换 BOS 词和 EOS 词。
输出_bingram_文件
要输出的二进制 N-gram 文件名。
示例
将一组 ARPA 格式的前向和后向 N-gram 转换为 Julius 二进制形式:
将 ARPA 格式的单个前向 4-gram 转换为二进制文件:
将旧的二进制 N-gram 文件转换为当前格式:
使用 onworks.net 服务在线使用 mkbingram