英语法语西班牙语

Ad


OnWorks 网站图标

combine_tessdata - 云端在线

通过 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器在 OnWorks 免费托管服务提供商中运行 combine_tessdata

这是命令 combine_tessdata 可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器

程序:

您的姓名


combine_tessdata - 组合/提取/覆盖 Tesseract 数据

概要


组合_tessdata [OPTION] 文件...

商品描述


组合_tessdata(1)是组合/提取/覆盖tessdata组件的主程序
在 [lang].traineddata 文件中。

结合所有单独的 tessdata 组件(unicharset、DAWG、分类器
模板、歧义、语言配置)位于,例如, / home /$USER/temp/eng.* 运行:

组合_tessdata / home /$用户/温度/英语。

结果将是一个组合的 tessdata 文件 / home /$USER/temp/eng.traineddata

如果您想从组合中提取单个组件,请指定选项 -e
训练数据文件。 例如,要从中提取语言配置文件和 unicharset
tessdata/eng.traineddata 运行:

组合_tessdata -e tessdata/eng.traineddata \
/ home /$USER/temp/eng.config / home /$USER/temp/eng.unicharset

所需的配置文件和 unicharset 将被写入 / home /$USER/temp/eng.config
/ home /$USER/temp/eng.unicharset

指定选项 -o 以覆盖给定 [lang].traineddata 文件的各个组件。
例如,要覆盖语言配置和 unichar 歧义文件
tessdata/eng.traineddata 使用:

组合_tessdata -o tessdata/eng.traineddata \
/ home /$USER/temp/eng.config / home /$USER/temp/eng.unicharambigs

因此,tessdata/eng.traineddata 将包含新的语言配置和 unichar
ambigs,加上所有原始的 DAWG,分类器模板等。

注意:要提取和覆盖的文件的文件名应具有
适当的文件后缀(扩展名)表明它们的 tessdata 组件类型
(.unicharset 为 unicharset,.unicharambigs 为 unichar ambigs 等)。 见 k*FileSuffix
ccutil/tessdatamanager.h 中的变量。

指定选项 -u 将所有组件解包到指定路径:

组合_tessdata -u tessdata/eng.traineddata / home /$用户/温度/英语。

这将创建 / home /$USER/temp/eng.* 文件中的单个 tessdata 组件来自
tessdata/eng.traineddata。

配置


-e .traineddata 文件...:从 .traineddata 文件中提取指定的组件

-o .traineddata 文件...:用 .traineddata 文件覆盖指定的组件
那些在命令行上提供的。

-u .traineddata 路径前缀 使用提供的前缀解压缩 .traineddata。

洞穴


字首 指完整的文件前缀,包括句点 (.)

组件


从 Tesseract 3.02 开始,Tesseract lang.traineddata 文件中的组件是简要的
如下面所描述的; 有关其中许多文件的更多信息,请参阅
https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract

语言配置文件
(可选)对默认配置变量的特定于语言的覆盖。

语言unicharset
(必需)Tesseract 识别的符号列表,具有属性。 看
单字符集(5)。

语言unicharambigs
(可选)此文件包含有关已识别符号对的信息
经常混淆。 例如, rnm.

语言临时文件
(必需)每个 unichar 的字符形状模板。 由。。。生产 培训(1)。

语言表
(必需)每个 unichar 预期的功能数量。 由。。。生产 培训(1)
.tr 文件。

语言规范
(必需)由生成的字符规范化原型 培训(1) .tr
文件。

lang.punc-dawg
(可选)由围绕单词发现的标点符号模式组成的 dawg。 “词”部分
由一个空格代替。

lang.word-dawg
(可选)由该语言的字典单词制成的 dawg。

lang.number-dawg
(可选)由最初包含数字的令牌制成的 dawg。 每个数字是
替换为空格字符。

语言频率-dawg
(可选)由最常用的单词组成的 dawg
word-dawg。

lang.固定长度-dawgs
(可选)几个不同固定长度的 dawgs — 对诸如
中文。

lang.cube-unicharset
(可选)立方体的 unicharset,如果立方体是在不同的符号集上训练的。

lang.cube-word-dawg
(可选)用于多维数据集备用 unicharset 的单词 dawg。 如果 Cube 受过训练,则不需要
使用 Tesseract 的 unicharset。

语言形状表
(可选)如果存在,shapetable 是字符之间的额外层
分类器和单词识别器,允许字符分类器返回一个
unichar id 和字体的集合,而不是单个 unichar-id 和字体。

语言二元组
(可选)单词 bigrams 的 dawg,其中单词由空格分隔,每个单词
数字被替换为 ?.

lang.unambig-dawg
(可选)TODO:描述。

lang.params-训练模型
(可选)TODO:描述。

历史


组合_tessdata(1) 首次出现在 Tesseract 3.00 版本中

通过 onworks.net 服务在线使用 combine_tessdata


免费服务器和工作站

下载 Windows 和 Linux 应用程序

Linux 命令

Ad