Dies ist der Befehl pdf2txt, der beim kostenlosen Hosting-Anbieter OnWorks mit einer unserer zahlreichen kostenlosen Online-Workstations wie Ubuntu Online, Fedora Online, dem Windows-Online-Emulator oder dem MAC OS-Online-Emulator ausgeführt werden kann
PROGRAMM:
NAME/FUNKTION
pdf2txt – extrahiert Textinhalte von PDF-Dateien
ZUSAMMENFASSUNG
pdf2txt [ganz ohne irgendetwas tun oder drücken zu müssen....] Datei...
BESCHREIBUNG
pdf2txt Extrahiert Textinhalte aus einer PDF-Datei. Es extrahiert den gesamten Text, der sein soll
programmgesteuert gerendert, d. h. Text wird als ASCII- oder Unicode-Strings dargestellt. Es kann nicht
Erkennen Sie als Bilder gezeichneten Text, der eine optische Zeichenerkennung erfordern würde. Es auch
extrahiert die entsprechenden Speicherorte, Schriftartnamen, Schriftgrößen und Schreibrichtung
(horizontal oder vertikal) für jeden Textabschnitt. Sie müssen ein Passwort angeben
geschützte PDF-Dokumente, wenn der Zugriff eingeschränkt ist. Sie können keinen Text aus a extrahieren
PDF-Dokument, für das keine Extraktionsberechtigung besteht.
OPTIONAL
-o Datei
Gibt den Namen der Ausgabedatei an. Standardmäßig werden die extrahierten Inhalte gedruckt
Standardausgabe im Textformat.
-p Seitennr[,Seitennr,...]
Gibt die durch Kommas getrennte Liste der zu extrahierenden Seitenzahlen an. Seitenzahlen
fang bei eins an. Standardmäßig extrahiert es Text von allen Seiten.
-c Codec
Gibt den Ausgabecodec an.
-t tippe
Gibt das Ausgabeformat an. Die folgenden Formate werden derzeit unterstützt:
Text
Textformat. Dies ist die Standardeinstellung.
html
HTML-Format. Es wird nicht empfohlen.
xml
XML-Format. Es bietet die meisten Informationen.
Etikett
„Tagged PDF“-Format. Ein mit Tags versehenes PDF verfügt über eigene Inhalte, die mit HTML-ähnlichen Anmerkungen versehen sind
Stichworte. pdf2txt versucht, seine Inhaltsströme zu extrahieren, anstatt seinen Text abzuleiten
Standorte. Die hier verwendeten Tags sind im definiert PDF Referenz, Sechste Ausgabe[1]
(§10.7 „Tagged PDF“).
-D Schreibmodus
Legt den Schreibmodus von Textausgaben fest:
lr-tb
Von links nach rechts, von oben nach unten.
tb-rl
Von oben nach unten, von rechts nach links.
Auto
Schreibmodus automatisch bestimmen
-M Char-Marge, -L Zeilenrand, -W Wortrand
Dies sind die Parameter, die für die Layoutanalyse verwendet werden. In einer tatsächlichen PDF-Datei Text
Abhängig davon können die Portionen mitten im Lauf in mehrere Stücke aufgeteilt werden
die Autorensoftware. Daher müssen bei der Textextraktion Textblöcke zusammengefügt werden. Im
Abbildung unten, zwei Textblöcke, deren Abstand näher ist als der Char-Marge is
werden als kontinuierlich betrachtet und zu einer Gruppe zusammengefasst. Außerdem zwei Linien, deren Abstand ist
näher als die Zeilenrand ist als Textfeld gruppiert, bei dem es sich um einen rechteckigen Bereich handelt
enthält einen „Cluster“ von Textteilen. Darüber hinaus kann es erforderlich sein, Leerzeichen einzufügen
Geben Sie ggf. Zeichen (Leerzeichen) ein, wenn der Abstand zwischen zwei Wörtern größer als der ist
Wortrand, da ein Leerzeichen zwischen Wörtern möglicherweise nicht als Leerzeichen dargestellt wird, aber
wird durch die Positionierung jedes Wortes angezeigt.
Jeder Wert wird nicht als tatsächliche Länge angegeben, sondern als Anteil der Länge bis
die Größe jedes betreffenden Zeichens. Die Standardwerte sind Char-Marge = 1.0,
Zeilenrand = 0.3 und W = 0.2, Bzw.
-n
Layoutanalyse unterdrücken.
-A
Erzwingen Sie eine Layoutanalyse für alle Textzeichenfolgen, einschließlich des in Abbildungen enthaltenen Textes.
-V
Aktivieren Sie die Erkennung vertikaler Schrift.
-s Treppe
Gibt den Ausgabemaßstab an. Diese Option kann nur im HTML-Format verwendet werden.
-m n
Gibt die maximale Anzahl der zu extrahierenden Seiten an. Standardmäßig sind alle Seiten in einem
Dokument werden extrahiert.
-P Passwort
Stellt das Benutzerkennwort für den Zugriff auf PDF-Inhalte bereit.
-d
Erhöhen Sie den Debug-Level.
Beispiele:
Extrahieren Sie Text als HTML-Datei mit dem Dateinamen „output.html“:
$ pdf2txt -o Ausgabe.html Samples/naacl06-shinyama.pdf
Extrahieren Sie eine japanische HTML-Datei in vertikaler Schrift:
$ pdf2txt -c euc-jp -D tb-rl -o Output.html Samples/jo.pdf
Extrahieren Sie Text aus einer verschlüsselten PDF-Datei:
$ pdf2txt -P mein Passwort -o Ausgabe.txt Geheimnis.pdf
Verwenden Sie pdf2txt online über die Dienste von onworks.net