Это команда ocrodjvu, которую можно запустить в провайдере бесплатного хостинга OnWorks, используя одну из наших многочисленных бесплатных онлайн-рабочих станций, таких как Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS.
ПРОГРАММА:
ИМЯ
ocrodjvu - OCR для файлов DjVu
СИНТАКСИС
Ocrodjvu {-o | --save-в комплекте} выходной-djvu-файл [вариант...] djvu-файл
Ocrodjvu {-i | - сохранить-косвенный} индекс-djvu-файл [вариант...] djvu-файл
Ocrodjvu --save-скрипт скрипт-файл [вариант...] djvu-файл
Ocrodjvu --на месте [вариант...] djvu-файл
Ocrodjvu --прогон, репетиция [вариант...] djvu-файл
Ocrodjvu {--версия | --Помогите | -h | --list-engine | --список языков}
ОПИСАНИЕ
ocrodjvu - это оболочка для систем OCR, которая позволяет выполнять OCR для файлов DjVu.
Поддерживаются следующие механизмы OCR:
· ОКРопус[1] (внутри ocrodjvu вызывает расшифровка's признавать (или отдых) команда,
так что в конечном итоге Tesseract действует как серверная часть OCR);
· клинопись для Linux[2].
· Окрад[3].
· ГОКР[4].
· Автономный Тессеракт[5].
ДОПОЛНИТЕЛЬНЫЕ ОПЦИИ
OCR двигатель кредита
-e, --engine =двигатель
Используйте этот движок OCR.
По умолчанию - «тессеракт». (До ocrodjvu 0.8 по умолчанию использовалось «ocropus».)
--list-engine
Распечатать список доступных механизмов распознавания текста.
Варианты контролирует выходной
-o, --save-bundled =выходной-djvu-файл
Сохраните результаты OCR в виде объединенного многостраничного документа в выходной-djvu-файл.
-i, --save-косвенный =индекс-djvu-файл
Сохраните результаты OCR как косвенный многостраничный документ. Использовать индекс-djvu-файл в качестве индекса
имя файла; поместите файлы компонентов в тот же каталог. Каталог должен существовать
и быть доступным для записи.
--save-script =скрипт-файл
Сохранить djvused скрипт с результатами OCR в скрипт-файл.
--на месте
Сохраните результаты распознавания текста на месте.
(Используйте этот параметр, чтобы сохранить совместимость с ocrodjvu <0.2.)
--прогон, репетиция
Не меняйте файлы, выбросьте результаты распознавания текста.
Обязательно использовать только один из вышеперечисленных вариантов.
--ocr-только
Если результаты OCR нужно сохранить в отдельный документ (-o/--save-в комплекте or
-i/- сохранить-косвенный), сохраните только страницы, выбранные для OCR.
По умолчанию все страницы сохраняются, даже если -p/--страницы опция действует.
--очистить текст
Удалите существующий скрытый текст, если он присутствует на страницах, не выбранных для OCR.
(Используйте этот параметр, чтобы сохранить совместимость с ocrodjvu <0.2.)
--save-raw-ocr =выходной каталог
Сохраните необработанные результаты OCR (обычно в формате hOCR) в выходной каталог,
каталог должен существовать и быть доступным для записи.
--raw-ocr-filename-template =шаблон
Задает схему именования файлов для необработанных результатов распознавания текста.
Язык шаблонов использует Питон string форматирование синтаксис[6]. Следующий
доступны поля:
страница, страница + N, страница-N
номер страницы, опционально смещенный на номер N
id
идентификатор страницы
идентификатор-добавочный
идентификатор страницы без расширения файла
Шаблон по умолчанию - «{id-ext}».
Текст сегментация кредита
-t линий, --Детали линий
Запишите расположение каждой строки. Не записывайте расположение определенных слов или
символы.
Это значение по умолчанию для OCRopus 0.2. Вариант малоэффективен с автономным
Тессеракт 2.0.
-t слова, --details = слова
Запишите расположение каждой строки и каждого слова. Не записывайте местоположения определенных
символы.
Это значение по умолчанию для большинства систем распознавания текста.
Эта опция неэффективна с OCRopus 0.2 и автономным Tesseract 2.0.
-t символы, --details = символы
Запишите расположение каждой строки, каждого слова и каждого символа.
Эта опция неэффективна с OCRopus 0.2 и автономным Tesseract 2.0.
--word-segmentation = простой
Считайте каждую непустую последовательность непробельных символов одним словом.
Это значение по умолчанию, несмотря на то, что оно неверно с лингвистической точки зрения.
--word-segmentation = uax29
Использовать Unicode Текст Сегментация[7] алгоритм разбиения строк на слова.
Эта опция нарушает предположения некоторых инструментов DjVu о том, что слова разделяются пробелами,
и поэтому не рекомендуется.
Прочее кредита
-l, --language =идентификатор языка
Установите язык распознавания. идентификатор языка обычно представляет собой трехбуквенный код ISO 639-2 / T.
Tesseract ≥ 3.02 позволяет указывать несколько языков, разделенных символами «+».
Для OCRopus по умолчанию используется «eng» (английский), если только язык охрана окружающей среды
переменная установлена. Для других механизмов OCR по умолчанию всегда используется значение «eng».
--список языков
Распечатать список доступных языков для выбранной в данный момент системы распознавания текста.
--render = маска
Отображать только маски изображений страниц.
Это значение по умолчанию.
--render = передний план
Рендеринг только слоев переднего плана изображений страниц.
--render = все
Визуализируйте все слои изображений страниц.
Эта опция необходима для распознавания файлов DjVu с недопустимым передним или задним планом.
разделение.
-p, --pages =диапазон страниц
Задает страницы для обработки. диапазон страниц представляет собой список поддиапазонов, разделенных запятыми. Каждый
поддиапазон - это либо одна страница (например, 17), либо непрерывный диапазон страниц.
(например, 37-42). Страницы нумеруются от 1.
По умолчанию обрабатываются все страницы.
-j, --jobs =n
Начать до n OCR процессы.
--версия
Вывести информацию о версии и выйти.
-h, --Помогите
Показать справку и выйти.
Фильтр кредита
-D, --отлаживать
Чтобы упростить отладку, не удаляйте промежуточные файлы.
-X ключ=ценностное
Эта опция позволяет контролировать некоторые детали работы ocrodjvu.
--on-error = прервать
Остановить выполнение программы в исключительной ситуации (например, неверный вывод из
OCR Engine, внутренняя ошибка ocrodjvu и т. Д.).
Это значение по умолчанию.
--on-error = возобновить
Попытка оправиться от исключительных ситуаций.
Этот вариант настоятельно не рекомендуется.
--html5
Использовать HTML5 синтаксический анализатор[8], который более надежен, но медленнее, чем синтаксический анализатор по умолчанию.
ВЫХОД статус
Ocrodjvu может вернуть одно из следующих значений выхода:
0
Программа успешно завершилась.
1
Произошла фатальная ошибка.
2
Программа восстановилась после ошибки (--on-error = возобновить).
ОКРУЖАЮЩАЯ СРЕДА
Следующие переменные среды влияют на ocrodjvu:
язык
Язык распознавания Tesseract.
(Использование этой переменной не рекомендуется в пользу - язык опция).
TMPDIR
ocrodjvu интенсивно использует временные файлы. Он сохранит их в каталоге
определяется этой переменной. По умолчанию это / tmp.
Используйте ocrodjvu онлайн с помощью сервисов onworks.net