这是 slmbuild 命令,可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器
程序:
您的姓名
slmbuild - 从 idngram 文件生成语言模型
概要
slmbuild [选项] ... idngram_file...
商品描述
构建 从给定的 idngram 文件生成回退平滑语言模型。
一般来说, idngram_file 由...创建 ids2ngram.
配置 全部 这些因素包括原料奶的可用性以及达到必要粉末质量水平所需的工艺。 以下 选项 旨在 强制性的。
-n,--N最大 N
1 表示一元组,2 表示二元组,3 表示三元组。 任何不在 1..3 范围内的数字都不是
有效。
-o, - 出去 输出文件
指定输出 xfilei 名称。
-l, - 日志
运用 -日志(公关), 使用 pr 默认直接。
-w, - 字数 N
词典大小,不同单词的数量。
-b, --brk id...
设置应被视为断路器的 id。
-e, --e id...
设置不应放入 LM 的 id。
-c, - 切 c...
freq <= c[k] 的 k-gram 被丢弃。
-d, - 折扣 方法, 停止...
第 k 个 -d parm 指定折扣方式
对于 k-gram,method/param 的可能值是:
乙,一世,一世:乙r E 的折扣=我, r 是 ngram 的频率。
那些 r E 的线性折扣一世, 即 r'=r*dis
0 E 乙磁盘1.0,例如 0.999
乙,[一世] : 绝对折扣 r'=rI . 和我是可选的
0 E 乙一世乙cut[k]+1.0, 通常我乙1.0.
林,[我] : 线性折扣 r'=r*dis。 而 dis 是可选的
0 E 磁盘1.0
注意
-n 必须在之前给出 -c -b。 和 -c 必须给出正确的截止次数,也 -d必须
恰好出现 N 次,分别指定 1-gram、2-gram... 的折扣。
BREAKER-ID 可以是 SentenceTokens 或 ParagraphTokens。 从概念上讲,这些 id 没有
意思是当它们出现在 n-gram 的中间时。
EXCLUDE-ID 可能是模糊的 ID。 从概念上讲,包含这些 id 的 n-gram 是
无意义的。
我们不能直接从 IDNGRAM 中根据 BREAKER-IDS 和 EXCLUDE-ID 擦除 ngram
文件,因为其中一些低级信息仍然有用。
例
以下示例读取“all.id3gram”并写入三元模型“all.slm”。
在 1-gram 级别,使用截止值为 0 的 Good-Turing 折扣,i =8, DIS=0.9995。 在 2 克
级别,使用绝对折扣与截止 3,不自动计算。 在 3 克级别,使用绝对
折扣与截止 2,dis auto-calc。 Word id 10,11,12 是断路器(句子/段落/论文
断路器等)。 Exclude-ID 为 9。词典包含 200000 个单词。 结果语言模型
使用 -log(pr)。
构建 -l -n 3 -o 所有.slm -w 200000 -c 0,3,2 -d GT,8,0.9995 -d ABS -d ABS -b 10,11,12 -e
9 全部.id3gram
使用 onworks.net 服务在线使用 slmbuild
