这是 ucto 命令,可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器
程序:
您的姓名
ucto - Unicode 分词器
综合系统
ucto [[选项]] [输入文件] [[输出文件]]
商品描述
乌克托 ucto 标记文本文件:它将单词与标点符号分开,拆分句子(和
可选段落),并找到成对的引号。 Ucto 预先配置了标记化
多种语言的规则。
配置
-c 配置文件
从文件中读取设置
-d 折扣值
将调试模式设置为“值”
-e 折扣值
设置输入编码。 (默认 UTF8)
-f
禁用特殊字符过滤
-L language
按语言代码自动选择配置文件。 例如 'fr' will
从安装目录中选择文件 tokconfig-fr
-l
转换为全部小写
-u
转换为全部大写
-n
在输出上每行发出一个句子
-m
假设每行输入一个句子
--直通
不标记,但执行输入解码和简单的标记角色检测
-P
禁用段落检测
-Q
启用报价检测。 (这是实验性的,可能会导致意想不到的结果)
-S
禁用句子检测
-s
设置句尾标记。 (默认)
-V
显示版本信息
-v
设置详细模式
-F
读取 FoLiA XML 文档,对其进行标记,并输出修改后的文档。 (这会禁用
大多数其他选项的用法:-nulPQvsS)
--文本类 CLS
标记 FoLiA XML 文档时,搜索类“cls”的文本节点
-X
输出 FoLiA XML。 (这将禁用大多数其他选项的使用:-nulPQvsS)
- ID
为 FoLiA XML 使用指定的文档 ID
-x (过时的)
输出 FoLiA XML,使用指定的文档 ID。 (这会禁用大多数其他
选项:-nulPQvsS)
过时的 使用 VHDL 语言编写 -X 和 - ID 代替
使用 onworks.net 服务在线使用 ucto