tesseract - онлайн у хмарі

Це тессеракт команди, який можна запустити в постачальнику безкоштовного хостингу OnWorks за допомогою однієї з наших численних безкоштовних робочих станцій, таких як Ubuntu Online, Fedora Online, онлайн- емулятор Windows або онлайн-емулятор MAC OS

ПРОГРАМА:

ІМ'Я


tesseract - механізм командного рядка OCR

СИНТАКСИС


tesseract ім'я зображення|stdin вихідна база|stdout [параметри...] [файл конфігурації...]

ОПИС


tesseract(1) — це двигун OCR комерційної якості, спочатку розроблений в HP між 1985 роком
і 1995. У 1995 році цей двигун увійшов до 3 найкращих оцінених UNLV. Це було з відкритим кодом
від HP та UNLV у 2005 році і з тих пір розробляється в Google.

IN OUT АРГУМЕНТИ


ім'я зображення
Ім'я вхідного зображення. Більшість форматів файлів зображень (все, що читається Leptonica)
підтримуються.

stdin
Інструкція для зчитування даних зі стандартного введення

вихідна база
Базове ім'я вихідного файлу (до якого буде додано відповідне розширення).
За замовчуванням вихід буде названий outbase.txt.

stdout
Інструкція для відправки вихідних даних на стандартний вихід

ВАРІАНТИ


--tessdata-каталог /шлях
Вкажіть розташування шляху tessdata

--користувач-слова /шлях/до/файлу
Вкажіть розташування файлу слів користувача

--шаблони користувача /шлях/до/файлу вкажіть
Розташування файлу шаблонів користувача

-c configvar=значення
Встановіть значення для параметра керування. Допускається декілька аргументів -c.

-l яз
Мова для використання. Якщо нічого не вказано, передбачається англійська мова. Можливе використання кількох мов
вказується, розділяючись символами плюса. Tesseract використовує 3-символьний ISO 639-2
мовні коди. (Див. МОВИ)

-псм N
Налаштуйте Tesseract на виконання лише підмножини аналізу макета та приймання певної форми
зображення. Варіанти для N є:

0 = Лише визначення орієнтації та сценарію (OSD).
1 = Автоматична сегментація сторінки з екранним меню.
2 = Автоматична сегментація сторінки, але без OSD або OCR.
3 = Повністю автоматична сегментація сторінки, але без екранного меню. (за замовчуванням)
4 = Припустимо один стовпець тексту змінного розміру.
5 = Припустимо єдиний однорідний блок вертикально вирівняного тексту.
6 = Припустимо один єдиний блок тексту.
7 = Розглядати зображення як один текстовий рядок.
8 = Розглядайте зображення як одне слово.
9 = Розглядайте зображення як одне слово в колі.
10 = Розглядати зображення як один символ.

конфігураційний файл
Ім'я конфігурації для використання. Конфігурація - це відкритий текстовий файл, який містить список
змінні та їх значення, по одному в рядку, з пробілом, що відділяє змінну від значення.
Цікаві файли конфігурації включають:

· hocr - Виведення у форматі hOCR замість текстового файлу.

· pdf - Виведення в pdf замість текстового файлу.

Увага Бене: Варіанти -l яз та -псм N має відбуватися перед будь-яким конфігураційний файл.

SINGLE ВАРІАНТИ


-v
Повертає поточну версію файлу tesseract(1) виконуваний файл.

--list-langs
перелік доступних мов для движка tesseract. Можна використовувати з --tessdata-dir.

--параметри друку
надрукувати параметри тессеракта в стандартний вивід.

МОВИ


Наразі доступні мовні пакети для таких мов (в
https://github.com/tesseract-ocr/tessdata):

аф (африкаанс) amh (амхарська) ара (Арабською) асм (ассамський) дива (азербайджанський) aze_cyrl
(азербайджанська - кирилиця) bel (білоруська) Бен (бенгальська) точка (тибетська) BOS (боснійська) бул
(болгарська) як (каталонська; валенсійська) ceb (себуано) CES (чеська) chi_sim (китайська -
спрощено) чи_тра (Китайський традиційний) хр (черокі) цим (валлійська) Дан (Датська)
dan_frak (данська - Fraktur) DEU (На німецькому) deu_frak (німецька - Fraktur) дзо (Дзонгкха) ell
(грецька, сучасна (1453-)) ENG (Англійська) анм (англійська, середня (1100-1500)) епо (есперанто)
екв (Модуль виявлення математики / рівнянь) Est (естонська) eus (баскський) Марокко (Перська) плавник
(фінська) Від (Французька) frk (французька) фрм (французька, середня (прибл. 1400-1600)) гле (ірландський) GLG
(галицька) грц (грецька, стародавня (до 1453 р.)) guj (гуджараті) hat (гаїтянська; гаїтянська креольська) євр
(іврит) хин (хінді) грн (Хорватська) гун (Угорська) Iku (інуктитут) ind (індонезійська) isl
(Ісландська) іта (Італійська) ita_old (італійська - стара) JAV (яванська) JPN (Японська) може бути
(каннада) Kat (грузинський) kat_old (грузинська - старовинна) каз (казахська) кхм (центральний кхмерський) кір
(киргизький; киргизький) Kor (Корейська) кур (Курдська) лао (лаоський) лат (латиниця) низький (латвійська) ліжко
(литовська) раз (малаялам) березня (маратхі) мкд (македонська) MLT (мальтійська) MSA (малайська) мій
(Бірманська) неп (непальський) nld (голландська; фламандська) ні (норвезька) ори (Орія) osd (Орієнтація
і модуль визначення сценарію) каструля (панджабі; пенджабі) полюс (польська) по (Португальська) гній
(пушту; пушту) Рон (румунська; молдавська; молдовська) Русский (Російський) Святий (Санскрит) гріх
(сингальська; сингальська) SLK (словацька) slk_frak (словацька – Fraktur) slv (словенська) спа
(іспанська; кастильська) spa_old (іспанська; кастильська - старовинна) sqi (албанська) зрп (сербська)
srp_latn (сербська - латиниця) сва (суахілі) SWE (Шведська) сер (сирійська) TAM (тамільська) такі
(телугу) tgk (таджицька) tgl (тагальська) тa (тайська) гроза з дощем (Тигрінья) тур (Турецька) uig (уйгурський;
уйгурський) укр (українська) urd (Урду) узб (узбецька) uzb_cyrl (узбецька - кирилиця) суперничати (В'єтнамська)
їд (ідиш)

Щоб використовувати нестандартний мовний пакет imen foo.traineddata, встановіть TESSDATA_PREFIX
змінна середовища, щоб файл можна було знайти за адресою TESSDATA_PREFIX/tessdata/Foo.traineddata
і надайте Тессеракту аргумент -l Foo.

КОНФІГ ФАЙЛИ І Збільшення З USER ДАНІ


Файли конфігурації Tesseract складаються з рядків із парами змінних-значень (розділені пробілом). The
змінні задокументовані як прапорці у вихідному коді, подібно до наступного в
tesseractclass.h:

STRING_VAR_H(tessedit_char_blacklist, "", "Чорний список символів, які не можна розпізнати");

Ці змінні можуть увімкнути або вимкнути різні функції двигуна і можуть спричинити його
завантажувати (або не завантажувати) різні дані. Наприклад, припустимо, ви хочете розпізнавати текст англійською мовою,
але придушити звичайний словник і завантажити альтернативний список слів і альтернативу
список шаблонів — ці два файли є найбільш часто використовуваними додатковими файлами даних.

Якщо ваш мовний пакет знаходиться в /path/to/eng.traineddata, а конфігурація hocr знаходиться в
/path/to/configs/hocr потім створіть три нові файли:

/path/to/eng.user-words:


швидкий
коричневий
лисиця
підскочили

/path/to/eng.user-patterns:

1-\д\д\д-GOOG-411
www.\n\\\*.com

/шлях/до/конфігурацій/базару:

load_system_dawg F
load_freq_dawg F
user_words_suffix слів користувача
user_patterns_suffix шаблони користувача

Тепер, якщо ви передаєте слово базар як кінцевий параметр командного рядка для Tesseract,
Tesseract не буде завантажувати системний словник або словник часто
слова і завантажить і використовуватиме надані вами файли eng.user-words і eng.user-patterns.
Перший – це простий список слів, по одному на рядок. Формат останнього задокументовано в
dict/trie.h на read_pattern_list().

ІСТОРІЯ


Двигун був розроблений в Hewlett Packard Laboratories Bristol і Hewlett Packard
Co, Greeley Colorado між 1985 і 1994 роками, з деякими змінами, внесеними в 1996 році в порт на
Windows і трохи кодування C++ у 1998 році. Багато коду було написано на C, а потім ще трохи
був написаний на C++. Код C\++ інтенсивно використовує систему списків за допомогою макросів. Це
передував stl, був переносимим до stl і є більш ефективним, ніж списки stl, але має
великим мінусом є те, що якщо ви отримуєте порушення сегментації, його важко налагодити.

Версія 2.00 забезпечила підтримку Unicode (UTF-8), шість мов і можливість навчання
Тессеракт.

Tesseract було включено до четвертого щорічного тесту точності OCR UNLV. Побачити
https://github.com/tesseract-ocr/docs/blob/master/AT-1995.pdf. З Tesseract 2.00,
тепер включені сценарії, які дозволяють будь-кому відтворити деякі з цих тестів. Побачити
https://github.com/tesseract-ocr/tesseract/wiki/TestingTesseract для більш докладної інформації.

Tesseract 3.00 додає низку нових мов, включаючи китайську, японську та корейську. Це
також представляє нову однофайлову систему керування мовними даними.

Tesseract 3.02 додає підтримку двонаправленого тексту, можливість розпізнавання кількох
мови в одному зображенні та покращений аналіз макета.

Для отримання додаткової інформації див. файл ReleaseNotes, що входить до дистрибутива.

РЕСУРСИ


Головний веб-сайт: https://github.com/tesseract-ocr Інформація про навчання:
https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract

Використовуйте teseract онлайн за допомогою служб onworks.net



Найновіші онлайн-програми для Linux і Windows