GoGPT Best VPN GoSearch

OnWorks 网站图标

ocrodjvu - 云端在线

通过 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器在 OnWorks 免费托管服务提供商中运行 ocrodjvu

这是 ocrodjvu 命令,可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器

程序:

您的姓名


ocrodjvu - DjVu 文件的 OCR

概要


奥克罗杰武 {-o | --保存捆绑} 输出 djvu 文件 [选项...] djvu 文件

奥克罗杰武 {-i | --save-间接} 索引 djvu 文件 [选项...] djvu 文件

奥克罗杰武 --保存脚本 脚本文件 [选项...] djvu 文件

奥克罗杰武 - 到位 [选项...] djvu 文件

奥克罗杰武 --试运行 [选项...] djvu 文件

奥克罗杰武 {- 版 | - 帮帮我 | -h | --列表引擎 | --列表语言}

商品描述


ocrodjvu 是 OCR 系统的包装器,允许您对 DjVu 文件执行 OCR。

支持以下 OCR 引擎:

· 章鱼[1](在内部,ocrodjvu 调用 抄写's 承认 (或 考试) 命令,
以便最终 Tesseract 充当 OCR 后端);

· 楔形的 HPMC胶囊 Linux[2]。

· 奥克拉德[3]。

· GOCR[4]。

· 单机 正方体[5]。

配置


OCR 发动机 选项
-e, --引擎=引擎 ID
使用此 OCR 引擎。

默认是“tesseract”。 (在 ocrodjvu 0.8 之前的默认值是“ocropus”。)

--列表引擎
打印可用 OCR 引擎的列表。

可选项 控制 产量
-o, --保存捆绑=输出 djvu 文件
将 OCR 结果作为捆绑的多页文档保存到 输出 djvu 文件.

-i, --保存间接=索引 djvu 文件
将 OCR 结果另存为间接多页文档。 用 索引 djvu 文件 作为索引
文档名称; 将组件文件放在同一目录中。 目录必须存在
并且是可写的。

--保存脚本=脚本文件
保存一个 已使用 带有 OCR 结果的脚本 脚本文件.

- 到位
将 OCR 结果保存到位。

(使用此选项可保持与 ocrodjvu < 0.2 的兼容性。)

--试运行
不要更改任何文件,丢弃 OCR 结果。

必须完全使用上述选项之一。

--仅 ocr
如果要将 OCR 结果保存到单独的文档 (-o/--保存捆绑 or
-i/--save-间接),仅保存为 OCR 选择的页面。

默认是保存所有页面,即使 -p/--页面 选项有效。

--明文
如果存在于未选择用于 OCR 的页面中,则删除现有的隐藏文本。

(使用此选项可保持与 ocrodjvu < 0.2 的兼容性。)

--save-raw-ocr=输出目录
将原始 OCR 结果(通常为 hOCR 格式)保存到 输出目录。 该
目录必须存在且可写。

--raw-ocr-文件名-模板=模板
指定原始 OCR 结果的文件命名方案。

模板语言使用 Python 绳子 格式 句法[6]。 下列
字段可用:

, 页+N, 第N页
页码,可选择移动一个数字 N

id
页面标识符

身份分机
没有文件扩展名的页面标识符

默认模板是“{id-ext}”。

文本 分割 选项
-t 生产线, - 细节 生产线
记录每一行的位置。 不要记录特定单词的位置或
字符。

这是 OCRopus 0.2 的默认设置。 该选项对单机无效
立方体 2.0。

-t , --details=单词
记录每一行和每个单词的位置。 不要记录特定的位置
字符。

这是大多数 OCR 引擎的默认设置。

此选项对 OCRopus 0.2 和独立的 Tesseract 2.0 无效。

-t 字符, --详细信息=字符
记录每一行、每个单词和每个字符的位置。

此选项对 OCRopus 0.2 和独立的 Tesseract 2.0 无效。

--word-segmentation=简单
将每个非空白字符的非空序列视为一个单词。

这是默认设置,尽管在语言上不正确。

--分词=uax29
使用 统一 文本 用户分类[7] 将行分成单词的算法。

此选项打破了一些 DjVu 工具的假设,即单词由空格分隔,
因此不推荐。

其他 选项
-l, --语言=语言标识
设置识别语言。 语言标识 通常是 ISO 639-2/T 三字母代码。

Tesseract ≥ 3.02 允许指定由“+”字符分隔的多种语言。

对于 OCRopus,默认为“eng”(英文),除非 测试语言 环境
变量设置。 对于其他 OCR 引擎,默认值始终为“eng”。

--列表语言
打印当前所选 OCR 引擎的可用语言列表。

--render=掩码
仅渲染页面图像的遮罩。

这是默认设置。

--render=前景
仅渲染页面图像的前景层。

--渲染=全部
渲染页面图像的所有层。

此选项对于具有无效前景/背景的 OCR DjVu 文件是必需的
分离。

-p, --页面=页范围
指定要处理的页面。 页范围 是一个逗号分隔的子范​​围列表。 每个
子范围是单个页面(例如 17)或连续的页面范围
(例如 37-42)。 页从 1 开始编号。

默认是处理所有页面。

-j, --工作=n
启动至 n OCR 流程。

- 版
输出版本信息并退出。

-h, - 帮帮我
显示帮助并退出。

先进的 选项
-D, -调试
为了便于调试,不要删除中间文件。

-X =折扣值
此选项允许控制 ocrodjvu 如何操作的一些细节。

--on-error=中止
当出现异常情况时停止程序执行(例如,错误的输出
OCR 引擎、内部 ocrodjvu 错误等)发生。

这是默认设置。

--on-error=恢复
尝试从异常情况中恢复过来。

强烈建议不要使用此选项。

--html5
使用 HTML5 解析器[8],它比默认解析器更健壮但速度更慢。

退出 状态


ocrodjvu 可以返回以下退出值之一:

0
程序顺利完成。

1
发生了致命错误。

2
程序从错误中恢复(--on-error=恢复).

环境


以下环境变量会影响 ocrodjvu:

测试语言
Tesseract 的识别语言。

(不推荐使用此变量,而赞成使用 - 语 选项。)

TMPDIR
ocrodjvu 大量使用临时文件。 它将它们存储在一个目录中
由该变量指定。 默认为 /tmp。

使用 onworks.net 服务在线使用 ocrodjvu


免费服务器和工作站

下载 Windows 和 Linux 应用程序

Linux 命令

Ad




×
广告
❤️在这里购物、预订或购买——免费,有助于保持服务免费。