英语法语西班牙语

Ad


OnWorks 网站图标

mmseg - 云端在线

通过 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器在 OnWorks 免费托管服务提供商中运行 mmseg

这是命令 mmseg,可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器

程序:

您的姓名


mmseg - 最大匹配段中文文本。

概要


毫米段 -d 字典文件 [选项]……[语料库文件] ...

商品描述


毫米段 是一种使用最大匹配算法将中文文本分割成单词的工具。
毫米段 中模板 语料库文件, 如果未指定文件名,则为标准输入,并写入
分割结果到标准输出。

配置


-d 字典文件
使用 字典文件 作为词典。 可以在以下位置找到默认词典
/usr/share/sunpinyin-slm/dict.utf8.

-f,- 格式 (文本|箱子)
输出格式,可以是“text”或“bin”。 默认'bin'。 通常,在文本模式下,word
text 是输出,而在二进制模式下,word-id 的二进制短整数是
写入标准输出。

-s, --斯托克 斯托克_ID
句子标记 ID。 默认 10. 之后将以二进制方式写入输出
每一句话。

-i, --显示 ID
显示 ID 信息。 在文本输出格式模式下,在已知单词后附加 id。 如果在
二进制模式,在文本中打印 id(s)。

-a, --ambiguous-id AMBI-ID
模棱两可的意思 美国广播公司 => A BC or AB C. 如果指定 (AMBI-ID != 0), 序列 美国广播公司
不会被分段,在二进制模式下, AMBI-ID 被写出; 在文本模式下,
” 美国广播公司" 将被输出。默认值为 0。

附注


二进制 模式下,连续的 0 的 id 合并为一个 0。 文本 模式,没有空间
插入未知词之间。

使用 onworks.net 服务在线使用 mmseg


免费服务器和工作站

下载 Windows 和 Linux 应用程序

Linux 命令

Ad