Amazon Best VPN GoSearch

OnWorks 网站图标

pdfsandwich - 云端在线

通过 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器在 OnWorks 免费托管服务提供商中运行 pdfsandwich

这是 pdfsandwich 命令,可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器

程序:

您的姓名


pdf三明治 - 从扫描的 pdf 文件中生成三明治 OCR pdf 的生成器

概要


pdf三明治 [选项] 输入文件.pdf

商品描述


pdf三明治 生成“三明治”OCR pdf 文件,即仅包含图像的 pdf 文件
(无文字)将被光学字符识别(OCR)处理,文字将被
添加到每个页面无形“背后”的图像。 注意 pdf三明治 需要的
以下程序:unpaper、convert、gs、hocr2pdf(适用于 tesseract < 3.03)和 tesseract。
由于tesseract >= 3.03 可以写pdf文件,所以只有旧版本的需要hocr2pdf
超立方体。 请拜访 http://www.tobias-elze.de/pdf三明治.

配置


-转变
-转变 文件名:转换二进制文件的名称(默认:转换)

-咕 -咕 选项 : 额外转换 选项; 确保报价; 例如 -咕
"-标准化 -黑阈值 75%" 呼叫转换 - 帮帮我 或人为所有人转换
兑换 选项

-调试 保留所有临时文件 / tmp目录 (用于调试)

-enforcehocr2pdf
即使 tesseract >= 2 也使用 hocr3.03pdf

-第一页
-第一页 number : 开始 OCR 的页数(默认值:1)

-灰色过滤器
启用 unpaper 的灰色过滤器; 更远 选项 可以通过设置 -云浦

-gs -gs 文件名:gs 二进制文件的名称(默认值:gs)

-hocr2pdf
-hocr2pdf 文件名:hocr2pdf 二进制文件的名称(默认:hocr2pdf); 忽略
tesseract >= 3.03 除非选项 -enforcehocr2pdf 设置

-呼 -呼 选项 : 额外的 hocr2pdf 选项; 确保报价

-确认
-确认 文件名:标识二进制文件的名称(默认值:标识)

-最后一页
-最后一页 number : 处理 OCR 的页数(默认:
输入文件中的页面)

-郎 -郎 语言:文本的语言; tesseract的选项(默认:eng)例如:eng,
deu, deu-frak, fra, rus, swe, spa, ita, ... 查看选项 -list_langs; 多种的
可以指定语言,用加号分隔。

-布局
-布局 { 单 | 双| none } : 扫描页面的布局; 需要无纸
单:每张一页双:每张两页无:没有自动布局
(默认)

-list_langs
列出当前可用的语言并退出; 如果是自定义二进制文件
tesseract,把它放在 -正方体 选项

-最大像素
-最大像素 NUM : 输入文件允许的最大像素数,如果
(resolution/72)^2 *width*height > maxpixels 然后缩小输入文件的页面
在 OCR 之前,以像素为单位的页面大小对应于 maxpixels; 默认:
17415167(A3 @ 300 dpi)

-没有图像
不要将图像放在文本上(需要 hocr2pdf;没有
-enforcehocr2pdf 选项​​)

-nopreproc
不要用无纸预处理

-n线程
-n线程 number : 并行线程的数量(默认值:猜测的 CPU 数量;如果
猜测失败:1)

-o -o 文件名:输出文件; 默认值:inputfile_ocr.pdf(如果扩展名不同
从 .pdf,保留原始扩展名)

-页面大小
-页面大小 { 原 | NUMxNUM } : 设置输出pdf原件的页面大小:同
输入文件(默认) NUMxNUM:像素宽 x 高(例如对于 A4: -页面大小
595x842)

-解析度
-解析度 NUM :用于 OCR 的分辨率 (dpi)(默认值:300)

-RGB 对图像使用 RGB 色彩空间(默认:黑白); 小心使用:原因
一些色彩空间的问题

-草率的文字
随意放置文字,组合词,不要绘制单个字形; 忽略tesseract
>= 3.03 除非选项 -enforcehocr2pdf 设置

-正方体
-正方体 文件名:tesseract 二进制文件的名称(默认:tesseract)

-泰索 -泰索 选项 : 额外的tesseract 选项; 确保报价

- 拆纸
- 拆纸 filename : unpaper 二进制文件的名称(默认值:unpaper)

-云浦 -云浦 选项 : 额外的非纸 选项; 确保报价

-安静的 抑制输出

-冗长
产生更多的输出

-版
打印版本并退出

-救命 显示此列表 选项

- 帮帮我 显示此列表 选项

语言


通过 Tesseract,可以使用多种语言包 - 请点击此链接
http://code.google.com/p/tesseract-ocr/downloads/list 获取完整列表。 这是一个
支持的语言及其缩写的选择不完整:

ara(阿拉伯语)、aze(阿塞拜疆语)、bul(保加利亚语)、cat(加泰罗尼亚语)、ces(捷克语)、chi_sim
(简体中文)、chi_tra(繁体中文)、chr(切诺基语)、dan(丹麦语)、dan-
frak(丹麦语(Fraktur))、deu(德语)、ell(希腊语)、eng(英语)、enm(古英语)、epo
(世界语)、est(爱沙尼亚语)、fin(芬兰语)、fra(法语)、frm(古法语)、glg
(加利西亚语)、heb(希伯来语)、hin(印地语)、hrv(克罗地亚语)、hun(匈牙利语)、ind(印度尼西亚语)、
ita(意大利语)、jpn(日语)、kor(韩语)、lav(拉脱维亚语)、lit(立陶宛语)、nld(荷兰语)、
nor(挪威语)、pol(波兰语)、por(葡萄牙语)、ron(罗马尼亚语)、rus(俄语)、slk
(斯洛伐克语)、slv(斯洛文尼亚语)、sqi(阿尔巴尼亚语)、spa(西班牙语)、srp(塞尔维亚语)、swe(瑞典语)、
tam(泰米尔语)、tel(泰卢固语)、tgl(他加禄语)、tha(泰语)、tur(土耳其语)、ukr(乌克兰语)、vie
(越南文)

可以指定多种语言,用加号分隔。 请注意,
需要在您的系统上安装相应的 tesseract 语言包才能被
pdf三明治. 选项 -list_langs 列出系统上可用的语言。

可用性


可以在以下位置找到源和包以及全面的帮助 http://www.tobias-
elze.de/pdf三明治.

使用 onworks.net 服务在线使用 pdfsandwich


免费服务器和工作站

下载 Windows 和 Linux 应用程序

Linux 命令

Ad




×
广告
❤️在这里购物、预订或购买——免费,有助于保持服务免费。