Это команда comb_tessdata, которую можно запустить в провайдере бесплатного хостинга OnWorks, используя одну из наших многочисленных бесплатных онлайн-рабочих станций, таких как Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS.
ПРОГРАММА:
ИМЯ
comb_tessdata - объединить / извлечь / перезаписать данные Tesseract
СИНТАКСИС
comb_tessdata [ВАРИАНТ] ФАЙЛОВ...
ОПИСАНИЕ
comb_tessdata(1) - это основная программа для объединения / извлечения / перезаписи компонентов tessdata
в файлах [lang] .traineddata.
Чтобы объединить все отдельные компоненты tessdata (unicharset, DAWG, классификатор
шаблоны, неоднозначности, языковые конфигурации), расположенные, скажем, /Главная/$ USER / temp / eng. * Запустить:
comb_tessdata /Главная/$ USER / темп / англ.
Результатом будет комбинированный файл tessdata /Главная/$ USER / temp / eng.traineddata
Укажите опцию -e, если вы хотите извлечь отдельные компоненты из комбинированного
файл обученных данных. Например, чтобы извлечь файл конфигурации языка и кодировку unicharset из
tessdata / eng.traineddata run:
comb_tessdata -e tessdata / eng.traineddata \
/Главная/$ USER / temp / eng.config /Главная/$ USER / temp / eng.unicharset
Желаемый конфигурационный файл и unicharset будут записаны в /Главная/$ USER / temp / eng.config
/Главная/$ USER / temp / eng.unicharset
Укажите опцию -o, чтобы перезаписать отдельные компоненты данного файла [lang] .traineddata.
Например, чтобы перезаписать файлы конфигурации языка и неоднозначности unichar в
tessdata / eng.trained использование данных:
comb_tessdata -o tessdata / eng.traineddata \
/Главная/$ USER / temp / eng.config /Главная/$ USER / temp / eng.unicharambigs
В результате tessdata / eng.traineddata будет содержать новую языковую конфигурацию и unichar
неоднозначности, плюс все оригинальные DAWG, шаблоны классификаторов и т. д.
Примечание: имена файлов для извлечения и перезаписи должны иметь
соответствующие суффиксы (расширения) файлов, указывающие их тип компонента tessdata
(.unicharset для unicharset, .unicharambigs для символов unichar и т. д.). См. K * FileSuffix
переменная в ccutil / tessdatamanager.h.
Укажите опцию -u, чтобы распаковать все компоненты по указанному пути:
comb_tessdata -u tessdata / eng.traineddata /Главная/$ USER / темп / англ.
Это создаст /Главная/$ USER / temp / eng. * Файлы с отдельными компонентами tessdata из
tessdata / англ .traineddata.
ДОПОЛНИТЕЛЬНЫЕ УСЛУГИ, НЕ ВКЛЮЧЕННЫЕ В ПАКЕТ
-e .traineddata ФАЙЛОВ...: извлекает указанные компоненты из файла .traineddata.
-o .traineddata ФАЙЛОВ...: заменяет указанные компоненты файла .traineddata на
те, что указаны в командной строке.
-u .traineddata ПУТЬПРЕФИКС Распаковывает .traineddata с использованием предоставленного префикса.
Пещеры
Префикс относится к полному префиксу файла, включая точку (.)
КОМПОНЕНТЫ
Компоненты в файле Tesseract lang.traineddata версии Tesseract 3.02 вкратце
описано ниже; Для получения дополнительной информации о многих из этих файлов см.
https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract
язык.конфигурация
(Необязательно) Зависящие от языка переопределения переменных конфигурации по умолчанию.
язык.unicharset
(Обязательно) Список символов, которые распознает Tesseract, со свойствами. Видеть
Unicharset(5).
язык.unicharambigs
(Необязательно) Этот файл содержит информацию о парах распознанных символов, которые
часто путают. Например, rn и m.
язык.inttemp
(Обязательно) Шаблоны форм персонажей для каждого unichar. Произведено обучение(1).
lang.pffmtable
(Обязательно) Ожидаемое количество функций для каждого unichar. Произведено обучение(1)
от .tr файлы.
язык.нормпрото
(Обязательно) Прототипы нормализации символов, созданные обучение(1) из .tr
файлы.
lang.punc-dawg
(Необязательно) Значок, сделанный из знаков препинания вокруг слов. Часть "слова"
заменяется одним пробелом.
язык.слово-чувак
(Необязательно) Тест, сделанный из словарных слов языка.
lang.number-dawg
(Необязательно) Значок, сделанный из токенов, изначально содержащих цифры. Каждая цифра
заменяется пробелом.
lang.freq-dawg
(Необязательно) Помет, составленный из наиболее часто встречающихся слов, которые могли бы войти в
слово-чувак.
lang.fixed-length-dawgs
(Необязательно) Несколько гаек разной фиксированной длины - полезно для таких языков, как
Китайский.
lang.cube-unicharset
(Необязательно) Unicharset для куба, если куб был обучен на другом наборе символов.
lang.cube-word-dawg
(Необязательно) Слово dawg для альтернативной унифицированной кодировки куба. Не требуется, если Cube был обучен
с unicharset Тессеракта.
язык.формируемый
(Необязательно) Если присутствует, фигурка - это дополнительный слой между персонажами.
классификатор и распознаватель слов, который позволяет классификатору символов возвращать
коллекция идентификаторов unichar и шрифтов вместо одного unichar-id и шрифта.
lang.bigram-dawg
(Необязательно) Набор биграмм слов, в которых слова разделены пробелом, и каждый
цифра заменяется на ?.
lang.unambig-dawg
(Необязательно) ЗАДАЧА: Опишите.
lang.params-обучение-модель
(Необязательно) ЗАДАЧА: Опишите.
ИСТОРИЯ
comb_tessdata(1) впервые появился в версии 3.00 Tesseract.
Используйте comb_tessdata онлайн с помощью сервисов onworks.net