GoGPT Best VPN GoSearch

Значок OnWorks

ocrodjvu - Интернет в облаке

Запустите ocrodjvu в бесплатном хостинг-провайдере OnWorks через Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS

Это команда ocrodjvu, которую можно запустить в провайдере бесплатного хостинга OnWorks, используя одну из наших многочисленных бесплатных онлайн-рабочих станций, таких как Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS.

ПРОГРАММА:

ИМЯ


ocrodjvu - OCR для файлов DjVu

СИНТАКСИС


Ocrodjvu {-o | --save-в комплекте} выходной-djvu-файл [вариант...] djvu-файл

Ocrodjvu {-i | - сохранить-косвенный} индекс-djvu-файл [вариант...] djvu-файл

Ocrodjvu --save-скрипт скрипт-файл [вариант...] djvu-файл

Ocrodjvu --на месте [вариант...] djvu-файл

Ocrodjvu --прогон, репетиция [вариант...] djvu-файл

Ocrodjvu {--версия | --Помогите | -h | --list-engine | --список языков}

ОПИСАНИЕ


ocrodjvu - это оболочка для систем OCR, которая позволяет выполнять OCR для файлов DjVu.

Поддерживаются следующие механизмы OCR:

· ОКРопус[1] (внутри ocrodjvu вызывает расшифровка's признавать (или отдых) команда,
так что в конечном итоге Tesseract действует как серверная часть OCR);

· клинопись для Linux[2].

· Окрад[3].

· ГОКР[4].

· Автономный Тессеракт[5].

ДОПОЛНИТЕЛЬНЫЕ ОПЦИИ


OCR двигатель кредита
-e, --engine =двигатель
Используйте этот движок OCR.

По умолчанию - «тессеракт». (До ocrodjvu 0.8 по умолчанию использовалось «ocropus».)

--list-engine
Распечатать список доступных механизмов распознавания текста.

Варианты контролирует выходной
-o, --save-bundled =выходной-djvu-файл
Сохраните результаты OCR в виде объединенного многостраничного документа в выходной-djvu-файл.

-i, --save-косвенный =индекс-djvu-файл
Сохраните результаты OCR как косвенный многостраничный документ. Использовать индекс-djvu-файл в качестве индекса
имя файла; поместите файлы компонентов в тот же каталог. Каталог должен существовать
и быть доступным для записи.

--save-script =скрипт-файл
Сохранить djvused скрипт с результатами OCR в скрипт-файл.

--на месте
Сохраните результаты распознавания текста на месте.

(Используйте этот параметр, чтобы сохранить совместимость с ocrodjvu <0.2.)

--прогон, репетиция
Не меняйте файлы, выбросьте результаты распознавания текста.

Обязательно использовать только один из вышеперечисленных вариантов.

--ocr-только
Если результаты OCR нужно сохранить в отдельный документ (-o/--save-в комплекте or
-i/- сохранить-косвенный), сохраните только страницы, выбранные для OCR.

По умолчанию все страницы сохраняются, даже если -p/--страницы опция действует.

--очистить текст
Удалите существующий скрытый текст, если он присутствует на страницах, не выбранных для OCR.

(Используйте этот параметр, чтобы сохранить совместимость с ocrodjvu <0.2.)

--save-raw-ocr =выходной каталог
Сохраните необработанные результаты OCR (обычно в формате hOCR) в выходной каталог,
каталог должен существовать и быть доступным для записи.

--raw-ocr-filename-template =шаблон
Задает схему именования файлов для необработанных результатов распознавания текста.

Язык шаблонов использует Питон string форматирование синтаксис[6]. Следующий
доступны поля:

страница, страница + N, страница-N
номер страницы, опционально смещенный на номер N

id
идентификатор страницы

идентификатор-добавочный
идентификатор страницы без расширения файла

Шаблон по умолчанию - «{id-ext}».

Текст сегментация кредита
-t линий, --Детали линий
Запишите расположение каждой строки. Не записывайте расположение определенных слов или
символы.

Это значение по умолчанию для OCRopus 0.2. Вариант малоэффективен с автономным
Тессеракт 2.0.

-t слова, --details = слова
Запишите расположение каждой строки и каждого слова. Не записывайте местоположения определенных
символы.

Это значение по умолчанию для большинства систем распознавания текста.

Эта опция неэффективна с OCRopus 0.2 и автономным Tesseract 2.0.

-t символы, --details = символы
Запишите расположение каждой строки, каждого слова и каждого символа.

Эта опция неэффективна с OCRopus 0.2 и автономным Tesseract 2.0.

--word-segmentation = простой
Считайте каждую непустую последовательность непробельных символов одним словом.

Это значение по умолчанию, несмотря на то, что оно неверно с лингвистической точки зрения.

--word-segmentation = uax29
Использовать Unicode Текст Сегментация[7] алгоритм разбиения строк на слова.

Эта опция нарушает предположения некоторых инструментов DjVu о том, что слова разделяются пробелами,
и поэтому не рекомендуется.

Прочее кредита
-l, --language =идентификатор языка
Установите язык распознавания. идентификатор языка обычно представляет собой трехбуквенный код ISO 639-2 / T.

Tesseract ≥ 3.02 позволяет указывать несколько языков, разделенных символами «+».

Для OCRopus по умолчанию используется «eng» (английский), если только язык охрана окружающей среды
переменная установлена. Для других механизмов OCR по умолчанию всегда используется значение «eng».

--список языков
Распечатать список доступных языков для выбранной в данный момент системы распознавания текста.

--render = маска
Отображать только маски изображений страниц.

Это значение по умолчанию.

--render = передний план
Рендеринг только слоев переднего плана изображений страниц.

--render = все
Визуализируйте все слои изображений страниц.

Эта опция необходима для распознавания файлов DjVu с недопустимым передним или задним планом.
разделение.

-p, --pages =диапазон страниц
Задает страницы для обработки. диапазон страниц представляет собой список поддиапазонов, разделенных запятыми. Каждый
поддиапазон - это либо одна страница (например, 17), либо непрерывный диапазон страниц.
(например, 37-42). Страницы нумеруются от 1.

По умолчанию обрабатываются все страницы.

-j, --jobs =n
Начать до n OCR процессы.

--версия
Вывести информацию о версии и выйти.

-h, --Помогите
Показать справку и выйти.

Фильтр кредита
-D, --отлаживать
Чтобы упростить отладку, не удаляйте промежуточные файлы.

-X ключ=ценностное
Эта опция позволяет контролировать некоторые детали работы ocrodjvu.

--on-error = прервать
Остановить выполнение программы в исключительной ситуации (например, неверный вывод из
OCR Engine, внутренняя ошибка ocrodjvu и т. Д.).

Это значение по умолчанию.

--on-error = возобновить
Попытка оправиться от исключительных ситуаций.

Этот вариант настоятельно не рекомендуется.

--html5
Использовать HTML5 синтаксический анализатор[8], который более надежен, но медленнее, чем синтаксический анализатор по умолчанию.

ВЫХОД статус


Ocrodjvu может вернуть одно из следующих значений выхода:

0
Программа успешно завершилась.

1
Произошла фатальная ошибка.

2
Программа восстановилась после ошибки (--on-error = возобновить).

ОКРУЖАЮЩАЯ СРЕДА


Следующие переменные среды влияют на ocrodjvu:

язык
Язык распознавания Tesseract.

(Использование этой переменной не рекомендуется в пользу - язык опция).

TMPDIR
ocrodjvu интенсивно использует временные файлы. Он сохранит их в каталоге
определяется этой переменной. По умолчанию это / tmp.

Используйте ocrodjvu онлайн с помощью сервисов onworks.net


Бесплатные серверы и рабочие станции

Скачать приложения для Windows и Linux

Команды Linux

Ad




×
Реклама
❤️Совершайте покупки, бронируйте или заказывайте здесь — никаких затрат, что помогает поддерживать бесплатность услуг.