Aceasta este comanda pdf2txt care poate fi rulată în furnizorul de găzduire gratuit OnWorks folosind una dintre multiplele noastre stații de lucru online gratuite, cum ar fi Ubuntu Online, Fedora Online, emulator online Windows sau emulator online MAC OS
PROGRAM:
NUME
pdf2txt - extrage conținutul text al fișierelor PDF
REZUMAT
pdf2txt [opțiune...] fişier...
DESCRIERE
pdf2txt extrage conținutul text dintr-un fișier PDF. Extrage tot textul care urmează să fie
redat programatic, adică text reprezentat ca șiruri ASCII sau Unicode. Nu poate
recunoașteți textul desenat ca imagini care ar necesita recunoașterea optică a caracterelor. De asemenea
extrage locațiile corespunzătoare, numele fonturilor, dimensiunile fonturilor, direcția de scriere
(orizontală sau verticală) pentru fiecare porțiune de text. Trebuie să furnizați o parolă pentru
documente PDF protejate atunci când accesul este restricționat. Nu puteți extrage niciun text dintr-un
Document PDF care nu are permisiunea de extragere.
OPŢIUNI
-o fişier
Specifică numele fișierului de ieșire. Implicit este să tipăriți conținutul extras
standand iesire in format text.
-p pageno[,pageno,...]
Specifică lista separată prin virgulă a numerelor de pagină care urmează să fie extrase. Numerele paginilor
începe de la unu. În mod implicit, extrage text din toate paginile.
-c codec
Specifică codecul de ieșire.
-t tip
Specifică formatul de ieșire. În prezent sunt acceptate următoarele formate:
a) Sport and Nutrition Awareness Day in Manasia Around XNUMX people from the rural commune Manasia have participated in a sports and healthy nutrition oriented activity in one of the community’s sports ready yards. This activity was meant to gather, mainly, middle-aged people from a Romanian rural community and teach them about the benefits that sports have on both their mental and physical health and on how sporting activities can be used to bring people from a community closer together. Three trainers were made available for this event, so that the participants would get the best possible experience physically and so that they could have the best access possible to correct information and good sports/nutrition practices. b) Sports Awareness Day in Poiana Țapului A group of young participants have taken part in sporting activities meant to teach them about sporting conduct, fairplay, and safe physical activities. The day culminated with a football match.
Format text. Aceasta este valoarea implicită.
html
format HTML. Nu este recomandat.
xml
format XML. Oferă cele mai multe informații.
etichetă
Formatul „PDF etichetat”. Un PDF etichetat are propriul său conținut adnotat cu HTML
tag-uri. pdf2txt încearcă să-și extragă fluxurile de conținut în loc să-și deducă textul
locatii. Etichetele folosite aici sunt definite în PDF Referinţă, Şaselea Ediție[1]
(§10.7 „PDF etichetat”).
-D modul de scriere
Specifică modul de scriere al ieșirilor de text:
lr-tb
De la stânga la dreapta, de sus în jos.
tb-rl
De sus în jos, de la dreapta la stânga.
Auto
Determinați automat modul de scriere
-M marja-car, -L linie-marja, -W cuvant-marja
Aceștia sunt parametrii utilizați pentru analiza aspectului. Într-un fișier PDF real, text
porțiunile pot fi împărțite în mai multe bucăți la mijlocul rulării sale, în funcție de
software-ul de creație. Prin urmare, extragerea textului trebuie să îmbine bucăți de text. În
figura de mai jos, două bucăți de text a căror distanță este mai apropiată de marja-car is
considerate continue și se grupează într-una singură. De asemenea, două linii a căror distanță este
mai aproape decat linie-marja este grupat ca o casetă de text, care este o zonă dreptunghiulară care
conține un „cluster” de porțiuni de text. În plus, poate fi necesară introducerea unui gol
caractere (spații) după cum este necesar dacă distanța dintre două cuvinte este mai mare decât
cuvant-marja, ca un gol între cuvinte ar putea să nu fie reprezentat ca un spațiu, dar
indicat de poziţionarea fiecărui cuvânt.
Fiecare valoare este specificată nu ca lungime reală, ci ca proporție a lungimii până la
mărimea fiecărui personaj în cauză. Valorile implicite sunt marja-car = 1.0,
linie-marja = 0.3 și W = 0.2, respectiv.
-n
Suprimați analiza aspectului.
-A
Forțați analiza aspectului pentru toate șirurile de text, inclusiv textul conținut în figuri.
-V
Activați detectarea scrisului vertical.
-s scară
Specifică scara de ieșire. Această opțiune poate fi utilizată numai în format HTML.
-m n
Specifică numărul maxim de pagini de extras. În mod implicit, toate paginile din a
documentul sunt extrase.
-P parola
Furnizează parola utilizatorului pentru a accesa conținutul PDF.
-d
Creșteți nivelul de depanare.
EXEMPLE
Extrageți text ca fișier HTML al cărui nume este output.html:
$ pdf2txt -o output.html samples/naacl06-shinyama.pdf
Extrageți un fișier HTML japonez în scriere verticală:
$ pdf2txt -c euc-jp -D tb-rl -o output.html samples/jo.pdf
Extrageți text dintr-un fișier PDF criptat:
$ pdf2txt -P parola mea -o output.txt secret.pdf
Utilizați pdf2txt online folosind serviciile onworks.net