Dies ist der Befehl ocrodjvu, der im kostenlosen OnWorks-Hosting-Provider über eine unserer zahlreichen kostenlosen Online-Workstations wie Ubuntu Online, Fedora Online, Windows-Online-Emulator oder MAC OS-Online-Emulator ausgeführt werden kann
PROGRAMM:
NAME/FUNKTION
ocrodjvu - OCR für DjVu-Dateien
ZUSAMMENFASSUNG
ocrodjvu {-o | --save-gebündelt} Ausgabe-djvu-Datei [ganz ohne irgendetwas tun oder drücken zu müssen....] djvu-Datei
ocrodjvu {-i | --save-indirekt} index-djvu-Datei [ganz ohne irgendetwas tun oder drücken zu müssen....] djvu-Datei
ocrodjvu --save-script Skriptdatei [ganz ohne irgendetwas tun oder drücken zu müssen....] djvu-Datei
ocrodjvu --an Ort und Stelle [ganz ohne irgendetwas tun oder drücken zu müssen....] djvu-Datei
ocrodjvu --Probelauf [ganz ohne irgendetwas tun oder drücken zu müssen....] djvu-Datei
ocrodjvu {--Version | --help | -h | --list-engines | --list-Sprachen}
BESCHREIBUNG
ocrodjvu ist ein Wrapper für OCR-Systeme, mit dem Sie OCR an DjVu-Dateien durchführen können.
Die folgenden OCR-Engines werden unterstützt:
· OCRopus[1] (intern ruft ocrodjvu Okroskript's erkennen (oder Rec-tess) Befehl,
damit letztendlich Tesseract als OCR-Backend fungiert);
· Keilschrift für Linux[2].
· Okrad[3].
· GOCR[4].
· Eigenständige Tesseract[5].
OPTIONAL
OCR Sie Optionen
-e, --engine=Motor-ID
Verwenden Sie diese OCR-Engine.
Die Vorgabe ist „tesseract“. (Vor ocrodjvu 0.8 war die Standardeinstellung „ocropus“.)
--list-engines
Liste der verfügbaren OCR-Engines drucken.
Optionen verbinden Möglichkeiten für das Ausgangssignal:
-o, --save-bundled=Ausgabe-djvu-Datei
Speichern Sie OCR-Ergebnisse als gebündeltes mehrseitiges Dokument in Ausgabe-djvu-Datei.
-i, --save-indirect=index-djvu-Datei
OCR-Ergebnisse als indirektes mehrseitiges Dokument speichern. Verwenden index-djvu-Datei als Index
Dateiname; Legen Sie die Komponentendateien in das gleiche Verzeichnis. Das Verzeichnis muss vorhanden sein
und beschreibbar sein.
--save-script=Skriptdatei
Speichere ein DJVused Skript mit OCR-Ergebnissen in Skriptdatei.
--an Ort und Stelle
Speichern Sie die OCR-Ergebnisse an Ort und Stelle.
(Verwenden Sie diese Option, um die Kompatibilität mit ocrodjvu < 0.2 aufrechtzuerhalten.)
--Probelauf
Ändern Sie keine Dateien, werfen Sie OCR-Ergebnisse weg.
Es ist zwingend erforderlich, genau eine der oben genannten Optionen zu verwenden.
--ocr-nur
Wenn OCR-Ergebnisse in einem separaten Dokument gespeichert werden sollen (-o/--save-gebündelt or
-i/--save-indirekt), speichern Sie nur die für OCR ausgewählten Seiten.
Standardmäßig werden alle Seiten gespeichert, auch wenn die -p/--Seiten Option ist in Kraft.
--Klartext
Entfernen Sie vorhandenen versteckten Text, falls dieser auf den Seiten vorhanden ist, die nicht für OCR ausgewählt wurden.
(Verwenden Sie diese Option, um die Kompatibilität mit ocrodjvu < 0.2 aufrechtzuerhalten.)
--save-raw-ocr=Ausgabe Verzeichnis
Speichern Sie OCR-Rohergebnisse (normalerweise im hOCR-Format) in Ausgabe Verzeichnisdem „Vermischten Geschmack“. Seine
Verzeichnis muss vorhanden und beschreibbar sein.
--raw-ocr-filename-template=Vorlage
Gibt das Dateibenennungsschema für OCR-Rohergebnisse an.
Die Vorlagensprache verwendet die Python Schnur Formatierung Syntax[6]. Folgende
Felder stehen zur Verfügung:
Seite, Seite+N, Seite-Nr
Seitenzahl, optional um eine Zahl verschoben N
id
Seitenkennung
ID-ext
Seitenkennung ohne Dateierweiterung
Die Standardvorlage ist „{id-ext}“.
Text Segmentierung Optionen
-t Linien, --Einzelheiten Linien
Zeichnen Sie die Position jeder Zeile auf. Zeichnen Sie keine Orte bestimmter Wörter auf oder
Zeichen.
Dies ist die Standardeinstellung für OCRopus 0.2. Die Option ist bei Stand-alone wirkungslos
Tesseract 2.0.
-t Worte, --details=Wörter
Notieren Sie die Position jeder Zeile und jedes Wortes. Keine besonderen Orte aufzeichnen
Zeichen.
Dies ist die Standardeinstellung für die meisten OCR-Engines.
Diese Option ist bei OCRopus 0.2 und dem eigenständigen Tesseract 2.0 wirkungslos.
-t Zeichen, --details=Zeichen
Zeichnen Sie die Position jeder Zeile, jedes Wortes und jedes Zeichens auf.
Diese Option ist bei OCRopus 0.2 und dem eigenständigen Tesseract 2.0 wirkungslos.
--word-segmentation=einfach
Betrachten Sie jede nicht leere Folge von Nicht-Leerzeichen als einzelnes Wort.
Dies ist die Standardeinstellung, obwohl sie sprachlich nicht korrekt ist.
--word-segmentation=uax29
Verwenden Sie das Unicode Text Segmentierung[7] Algorithmus, um Zeilen in Worte zu brechen.
Diese Option bricht die Annahme einiger DjVu-Tools, dass Wörter durch Leerzeichen getrennt sind.
und wird daher nicht empfohlen.
Andere Optionen
-l, --Sprache=Sprach-ID
Erkennungssprache einstellen. Sprach-ID ist normalerweise ein aus drei Buchstaben bestehender ISO 639-2/T-Code.
Tesseract ≥ 3.02 ermöglicht die Angabe mehrerer Sprachen, die durch „+“-Zeichen getrennt sind.
Für OCRopus ist die Standardeinstellung „eng“ (Englisch), es sei denn, die tesssprache -Umgebung
Variable gesetzt ist. Bei anderen OCR-Engines ist die Standardeinstellung immer „eng“.
--list-Sprachen
Liste der verfügbaren Sprachen für die aktuell ausgewählte OCR-Engine drucken.
--render=Maske
Rendern Sie nur Masken von Seitenbildern.
Dies ist der Standardwert.
--render=Vordergrund
Rendern Sie nur Vordergrundebenen von Seitenbildern.
--render=alle
Rendern Sie alle Ebenen von Seitenbildern.
Diese Option ist für OCR-DjVu-Dateien mit ungültigem Vordergrund/Hintergrund erforderlich
Trennung.
-p, --seiten=SeitenReichweite
Gibt Seiten an, die verarbeitet werden sollen. SeitenReichweite ist eine durch Kommas getrennte Liste von Unterbereichen. Jeder
Unterbereich ist entweder eine einzelne Seite (z. B. 17) oder ein zusammenhängender Bereich von Seiten
(zB 37-42). Die Seiten sind ab 1 nummeriert.
Standardmäßig werden alle Seiten verarbeitet.
-j, --jobs=n
Starten Sie bis n OCR-Prozesse.
--Version
Versionsinformationen ausgeben und beenden.
-h, --help
Hilfe anzeigen und beenden.
Erweitert Optionen
-D, --debuggen
Löschen Sie keine Zwischendateien, um das Debuggen zu erleichtern.
-X Haupt=Wert
Mit dieser Option können Sie einige Details der Funktionsweise von ocrodjvu steuern.
--on-error=abbrechen
Stoppen Sie die Programmausführung, wenn eine Ausnahmesituation (z. B. fehlerhafte Ausgabe von der
OCR-Engine, interner ocrodjvu-Fehler usw.) auftritt.
Dies ist der Standardwert.
--on-error=fortsetzen
Versuchen Sie, sich von Ausnahmesituationen zu erholen.
Von dieser Option wird dringend abgeraten.
--html5
Verwenden HTML5 Parser[8], der robuster, aber langsamer als der Standardparser ist.
EXIT STATUS
Einer der folgenden Exit-Werte kann von ocrodjvu zurückgegeben werden:
0
Das Programm wurde erfolgreich beendet.
1
Ein schwerwiegender Fehler ist aufgetreten.
2
Das Programm wurde nach einem Fehler wiederhergestellt (--on-error=fortsetzen).
Die folgenden Umgebungsvariablen wirken sich auf ocrodjvu aus:
tesssprache
Erkennungssprache für Tesseract.
(Verwenden Sie diese Variable wird zugunsten des --Sprache Möglichkeit.)
TMPDIR
ocrodjvu macht intensiven Gebrauch von temporären Dateien. Es wird sie in einem Verzeichnis speichern
durch diese Variable angegeben. Der Standardwert ist /tmp.
Verwenden Sie ocrodjvu online mit den onworks.net-Diensten