ocrodjvu - 云端在线

通过 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器在 OnWorks 免费托管服务提供商中运行 ocrodjvu

这是 ocrodjvu 命令，可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行，例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器

在 Ubuntu 中运行在 Fedora 中运行在 Windows Sim 中运行在 MACOS Sim 中运行

程序：

您的姓名

ocrodjvu - DjVu 文件的 OCR

概要

奥克罗杰武 {-o | --保存捆绑} 输出 djvu 文件 [选项...] djvu 文件

奥克罗杰武 {-i | --save-间接} 索引 djvu 文件 [选项...] djvu 文件

奥克罗杰武 --保存脚本 脚本文件 [选项...] djvu 文件

奥克罗杰武 - 到位 [选项...] djvu 文件

奥克罗杰武 --试运行 [选项...] djvu 文件

奥克罗杰武 {- 版 | - 帮帮我 | -h | --列表引擎 | --列表语言}

商品描述

ocrodjvu 是 OCR 系统的包装器，允许您对 DjVu 文件执行 OCR。

支持以下 OCR 引擎：

· 章鱼[1]（在内部，ocrodjvu 调用抄写's 承认（或考试）命令，
以便最终 Tesseract 充当 OCR 后端）；

· 楔形的 HPMC胶囊 Linux[2]。

· 奥克拉德[3]。

· GOCR[4]。

· 单机正方体[5]。

配置

OCR 发动机 选项
-e, --引擎=引擎 ID
使用此 OCR 引擎。

默认是“tesseract”。（在 ocrodjvu 0.8 之前的默认值是“ocropus”。）

--列表引擎
打印可用 OCR 引擎的列表。

可选项 控制产量
-o, --保存捆绑=输出 djvu 文件
将 OCR 结果作为捆绑的多页文档保存到输出 djvu 文件.

-i, --保存间接=索引 djvu 文件
将 OCR 结果另存为间接多页文档。用索引 djvu 文件作为索引
文档名称; 将组件文件放在同一目录中。目录必须存在
并且是可写的。

--保存脚本=脚本文件
保存一个 已使用 带有 OCR 结果的脚本脚本文件.

- 到位
将 OCR 结果保存到位。

（使用此选项可保持与 ocrodjvu < 0.2 的兼容性。）

--试运行
不要更改任何文件，丢弃 OCR 结果。

必须完全使用上述选项之一。

--仅 ocr
如果要将 OCR 结果保存到单独的文档 (-o/--保存捆绑 or
-i/--save-间接)，仅保存为 OCR 选择的页面。

默认是保存所有页面，即使 -p/--页面 选项有效。

--明文
如果存在于未选择用于 OCR 的页面中，则删除现有的隐藏文本。

（使用此选项可保持与 ocrodjvu < 0.2 的兼容性。）

--save-raw-ocr=输出目录
将原始 OCR 结果（通常为 hOCR 格式）保存到输出目录。该
目录必须存在且可写。

--raw-ocr-文件名-模板=模板
指定原始 OCR 结果的文件命名方案。

模板语言使用 Python 绳子格式句法[6]。下列
字段可用：

页, 页+N, 第N页
页码，可选择移动一个数字 N

id
页面标识符

身份分机
没有文件扩展名的页面标识符

默认模板是“{id-ext}”。

文本分割选项
-t 生产线, - 细节 生产线
记录每一行的位置。不要记录特定单词的位置或
字符。

这是 OCRopus 0.2 的默认设置。该选项对单机无效
立方体 2.0。

-t 话, --details=单词
记录每一行和每个单词的位置。不要记录特定的位置
字符。

这是大多数 OCR 引擎的默认设置。

此选项对 OCRopus 0.2 和独立的 Tesseract 2.0 无效。

-t 字符, --详细信息=字符
记录每一行、每个单词和每个字符的位置。

此选项对 OCRopus 0.2 和独立的 Tesseract 2.0 无效。

--word-segmentation=简单
将每个非空白字符的非空序列视为一个单词。

这是默认设置，尽管在语言上不正确。

--分词=uax29
使用统一文本用户分类[7] 将行分成单词的算法。

此选项打破了一些 DjVu 工具的假设，即单词由空格分隔，
因此不推荐。

其他选项
-l, --语言=语言标识
设置识别语言。语言标识通常是 ISO 639-2/T 三字母代码。

Tesseract ≥ 3.02 允许指定由“+”字符分隔的多种语言。

对于 OCRopus，默认为“eng”（英文），除非测试语言环境
变量设置。对于其他 OCR 引擎，默认值始终为“eng”。

--列表语言
打印当前所选 OCR 引擎的可用语言列表。

--render=掩码
仅渲染页面图像的遮罩。

这是默认设置。

--render=前景
仅渲染页面图像的前景层。

--渲染=全部
渲染页面图像的所有层。

此选项对于具有无效前景/背景的 OCR DjVu 文件是必需的
分离。

-p, --页面=页范围
指定要处理的页面。页范围是一个逗号分隔的子范围列表。每个
子范围是单个页面（例如 17）或连续的页面范围
（例如 37-42）。页从 1 开始编号。

默认是处理所有页面。

-j, --工作=n
启动至 n OCR 流程。

- 版
输出版本信息并退出。

-h, - 帮帮我
显示帮助并退出。

先进的 选项
-D, -调试
为了便于调试，不要删除中间文件。

-X 键=折扣值
此选项允许控制 ocrodjvu 如何操作的一些细节。

--on-error=中止
当出现异常情况时停止程序执行（例如，错误的输出
OCR 引擎、内部 ocrodjvu 错误等）发生。

这是默认设置。

--on-error=恢复
尝试从异常情况中恢复过来。

强烈建议不要使用此选项。

--html5
使用 HTML5 解析器[8]，它比默认解析器更健壮但速度更慢。

退出状态

ocrodjvu 可以返回以下退出值之一：

0
程序顺利完成。

1
发生了致命错误。

2
程序从错误中恢复（--on-error=恢复).

环境

以下环境变量会影响 ocrodjvu：

测试语言
Tesseract 的识别语言。

（不推荐使用此变量，而赞成使用 - 语 选项。）

TMPDIR
ocrodjvu 大量使用临时文件。它将它们存储在一个目录中
由该变量指定。默认为 /tmp。

使用 onworks.net 服务在线使用 ocrodjvu

ocrodjvu - 云端在线

程序：

您的姓名

概要

商品描述

配置

退出 状态

环境

退出状态