pdfsandwich - онлайн у хмарі

Це команда pdfsandwich, яку можна запустити в постачальнику безкоштовного хостингу OnWorks за допомогою однієї з наших численних безкоштовних робочих станцій, таких як Ubuntu Online, Fedora Online, онлайн-емулятор Windows або онлайн-емулятор MAC OS

ПРОГРАМА:

ІМ'Я


pdfсендвіч - Генератор для бутербродних OCR pdf-файлів із відсканованих pdf-файлів

СИНТАКСИС


pdfсендвіч [опції] вхідний файл.pdf

ОПИС


pdfсендвіч генерує "бутербродові" файли OCR pdf, тобто файли PDF, які містять лише зображення
(без тексту) буде оброблено за допомогою оптичного розпізнавання символів (OCR), і текст буде
додані на кожну сторінку непомітно «за» зображеннями. Зауважте, що pdfсендвіч потребує
такі програми: unpaper, convert, gs, hocr2pdf (для tesseract < 3.03) і tesseract.
Оскільки tesseract >= 3.03 може записувати файли pdf, hocr2pdf потрібен лише для старих версій
тессеракт. Будь ласка, відвідайте http://www.tobias-elze.de/pdfсендвіч.

ВАРІАНТИ


- конвертувати
- конвертувати ім'я файлу : ім'я двійкового перетворення (за замовчуванням: конвертувати)

-ку -ку опції : додатковий конверт опції; обов’язково процитуйте; наприклад -ку
"- нормалізувати -чорний поріг 75%" конвертація викликів --допомога або людина навернеться для всіх
конвертувати опції

-відлагоджувати зберігати всі тимчасові файли / Tmp (для налагодження)

-enforcehocr2pdf
використовуйте hocr2pdf, навіть якщо teseract >= 3.03

-перша_сторінка
-перша_сторінка number : кількість сторінки, з якої потрібно почати OCR (за замовчуванням: 1)

- сірий фільтр
увімкніть сірий фільтр для видалення паперу; далі опції можна встановити за допомогою - unpo

-gs -gs ім'я файлу: ім'я двійкового файлу gs (за замовчуванням: gs)

-hocr2pdf
-hocr2pdf filename : ім'я двійкового файлу hocr2pdf (за замовчуванням: hocr2pdf); проігноровано для
тессеракт >= 3.03, якщо немає опції -enforcehocr2pdf встановлений

-оо -оо опції : додатковий hocr2pdf опції; обов'язково процитуйте

- ідентифікувати
- ідентифікувати filename : ім'я двійкового ідентифікатора (за замовчуванням: ідентифікувати)

-остання_сторінка
-остання_сторінка number : номер сторінки, до якої обробляється OCR (за замовчуванням: кількість
сторінки у вхідному файлі)

-язик -язик мова : мова тексту; можливість тесеракту (за замовчуванням: eng), наприклад: eng,
deu, deu-frak, fra, rus, swe, spa, ita, ... див. варіант -list_langs; Кілька
Мови можна вказати, розділивши їх символами плюс.

-розклад
-розклад {одиночний | подвійний | немає } : макет відсканованих сторінок; вимагає непапір
одинарний: одна сторінка на аркуші подвійний: дві сторінки на аркуші немає: немає автоматичного макета
(За замовчуванням)

-list_langs
список доступних на даний момент мов і вихід; у разі користувацьких двійкових файлів
тессеракт, помістіть це після -тессеракт варіант

-макспікселі
-макспікселі NUM : максимальна кількість пікселів, дозволена для вхідного файлу, якщо
(роздільна здатність/72)^2 *ширина*висота > максимум пікселів, потім зменшити сторінку вхідного файлу
перед OCR, щоб розмір сторінки в пікселях відповідав максимальним пікселям; за замовчуванням:
17415167 (A3 @ 300 dpi)

-німадж
не розміщуйте зображення поверх тексту (потрібен hocr2pdf; ігнорується без
-enforcehocr2pdf опція)

-nopreproc
не обробляйте попередньо розпапір

-nthreads
-nthreads number : кількість паралельних потоків (за замовчуванням: вгадана кількість ЦП; якщо
вгадування не вдається: 1)

-o -o ім'я файлу: вихідний файл; за замовчуванням: inputfile_ocr.pdf (якщо розширення інше
з .pdf, оригінальне розширення збережено)

-розмір сторінки
-розмір сторінки {оригінал | NUMxNUM } : встановити розмір сторінки вихідного PDF-оригіналу: те саме, що
вхідний файл (за замовчуванням) NUMxNUM: ширина x висота в пікселях (наприклад, для A4: -розмір сторінки
595x842)

- резолюція
- резолюція NUM : роздільна здатність (dpi), що використовується для OCR (за замовчуванням: 300)

-rgb використовувати колірний простір RGB для зображень (за замовчуванням: чорно-біле); використовуйте з обережністю: причини
проблеми з деякими колірними просторами

-неохайний_текст
неакуратно розміщуйте текст, групуйте слова, не малюйте поодинокі гліфи; ігнорується для тессеракта
>= 3.03 за винятком варіантів -enforcehocr2pdf встановлений

-тессеракт
-тессеракт ім'я файлу : ім'я двійкового файлу tesseract (за замовчуванням: tesseract)

-тессо -тессо опції : додатковий тессеракт опції; обов'язково процитуйте

-непапір
-непапір filename : ім'я непаперового двійкового файлу (за замовчуванням: unpaper)

- unpo - unpo опції : додатковий непапір опції; обов'язково процитуйте

-спокійно придушити вихід

-вербозний
виробляти більше продукції

-версія
роздрукувати версію і вийти

-допомога Відобразити цей список опції

--допомога Відобразити цей список опції

МОВИ


Через Tesseract доступні численні мовні пакети - перейдіть за цим посиланням
http://code.google.com/p/tesseract-ocr/downloads/list для повного списку. Ось
неповний вибір підтримуваних мов та їх скорочень:

ara (арабська), aze (азербайджанська), bul (болгарська), cat (каталонська), ces (чеська), chi_sim
(спрощена китайська), chi_tra (традиційна китайська), chr (черокі), dan (датська), dan-
frak (датська (Fraktur)), deu (німецька), ell (грецька), eng (англійська), enm (староанглійська), epo
(есперанто), est (естонська), fin (фінська), fra (французька), frm (давньофранцузька), glg
(галицька), heb (іврит), hin (хінді), hrv (хорватська), hun (угорська), ind (індонезійська),
ita (італійська), jpn (японська), kor (корейська), lav (латвійська), lit (литовська), nld (голландська),
nor (норвезька), pol (польська), por (португальська), ron (румунська), rus (рос.), slk
(словацька), slv (словенська), sqi (албанська), spa (іспанська), srp (сербська), swe (шведська),
tam (тамільська), tel (телугу), tgl (тагальська), tha (тайська), tur (турецька), ukr (українська), vie
(В'єтнамська)

Можна вказати кілька мов, розділених символами плюса. Зауважте, що
відповідний мовний пакет tesseract має бути встановлений у вашій системі, щоб його можна було використовувати
pdfсендвіч. Варіант -list_langs перелічує мови, доступні у вашій системі.

НАЯВНІСТЬ


Джерела та пакети, а також комплексну допомогу можна знайти за адресою http://www.tobias-
elze.de/pdfсендвіч.

Використовуйте pdfsandwich онлайн за допомогою служб onworks.net



Найновіші онлайн-програми для Linux і Windows