这是命令 combine_tessdata 可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器
程序:
您的姓名
combine_tessdata - 组合/提取/覆盖 Tesseract 数据
概要
组合_tessdata [OPTION] 文件...
商品描述
组合_tessdata(1)是组合/提取/覆盖tessdata组件的主程序
在 [lang].traineddata 文件中。
结合所有单独的 tessdata 组件(unicharset、DAWG、分类器
模板、歧义、语言配置)位于,例如, / home /$USER/temp/eng.* 运行:
组合_tessdata / home /$用户/温度/英语。
结果将是一个组合的 tessdata 文件 / home /$USER/temp/eng.traineddata
如果您想从组合中提取单个组件,请指定选项 -e
训练数据文件。 例如,要从中提取语言配置文件和 unicharset
tessdata/eng.traineddata 运行:
组合_tessdata -e tessdata/eng.traineddata \
/ home /$USER/temp/eng.config / home /$USER/temp/eng.unicharset
所需的配置文件和 unicharset 将被写入 / home /$USER/temp/eng.config
/ home /$USER/temp/eng.unicharset
指定选项 -o 以覆盖给定 [lang].traineddata 文件的各个组件。
例如,要覆盖语言配置和 unichar 歧义文件
tessdata/eng.traineddata 使用:
组合_tessdata -o tessdata/eng.traineddata \
/ home /$USER/temp/eng.config / home /$USER/temp/eng.unicharambigs
因此,tessdata/eng.traineddata 将包含新的语言配置和 unichar
ambigs,加上所有原始的 DAWG,分类器模板等。
注意:要提取和覆盖的文件的文件名应具有
适当的文件后缀(扩展名)表明它们的 tessdata 组件类型
(.unicharset 为 unicharset,.unicharambigs 为 unichar ambigs 等)。 见 k*FileSuffix
ccutil/tessdatamanager.h 中的变量。
指定选项 -u 将所有组件解包到指定路径:
组合_tessdata -u tessdata/eng.traineddata / home /$用户/温度/英语。
这将创建 / home /$USER/temp/eng.* 文件中的单个 tessdata 组件来自
tessdata/eng.traineddata。
配置
-e .traineddata 文件...:从 .traineddata 文件中提取指定的组件
-o .traineddata 文件...:用 .traineddata 文件覆盖指定的组件
那些在命令行上提供的。
-u .traineddata 路径前缀 使用提供的前缀解压缩 .traineddata。
洞穴
字首 指完整的文件前缀,包括句点 (.)
组件
从 Tesseract 3.02 开始,Tesseract lang.traineddata 文件中的组件是简要的
如下面所描述的; 有关其中许多文件的更多信息,请参阅
https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract
语言配置文件
(可选)对默认配置变量的特定于语言的覆盖。
语言unicharset
(必需)Tesseract 识别的符号列表,具有属性。 看
单字符集(5)。
语言unicharambigs
(可选)此文件包含有关已识别符号对的信息
经常混淆。 例如, rn 和 m.
语言临时文件
(必需)每个 unichar 的字符形状模板。 由。。。生产 培训(1)。
语言表
(必需)每个 unichar 预期的功能数量。 由。。。生产 培训(1)
止 .tr 文件。
语言规范
(必需)由生成的字符规范化原型 培训(1) .tr
文件。
lang.punc-dawg
(可选)由围绕单词发现的标点符号模式组成的 dawg。 “词”部分
由一个空格代替。
lang.word-dawg
(可选)由该语言的字典单词制成的 dawg。
lang.number-dawg
(可选)由最初包含数字的令牌制成的 dawg。 每个数字是
替换为空格字符。
语言频率-dawg
(可选)由最常用的单词组成的 dawg
word-dawg。
lang.固定长度-dawgs
(可选)几个不同固定长度的 dawgs — 对诸如
中文。
lang.cube-unicharset
(可选)立方体的 unicharset,如果立方体是在不同的符号集上训练的。
lang.cube-word-dawg
(可选)用于多维数据集备用 unicharset 的单词 dawg。 如果 Cube 受过训练,则不需要
使用 Tesseract 的 unicharset。
语言形状表
(可选)如果存在,shapetable 是字符之间的额外层
分类器和单词识别器,允许字符分类器返回一个
unichar id 和字体的集合,而不是单个 unichar-id 和字体。
语言二元组
(可选)单词 bigrams 的 dawg,其中单词由空格分隔,每个单词
数字被替换为 ?.
lang.unambig-dawg
(可选)TODO:描述。
lang.params-训练模型
(可选)TODO:描述。
历史
组合_tessdata(1) 首次出现在 Tesseract 3.00 版本中
通过 onworks.net 服务在线使用 combine_tessdata