GoGPT Best VPN GoSearch

OnWorks favicon

pdf2txt - Online sa Cloud

Patakbuhin ang pdf2txt sa OnWorks na libreng hosting provider sa Ubuntu Online, Fedora Online, Windows online emulator o MAC OS online emulator

Ito ang command na pdf2txt na maaaring patakbuhin sa OnWorks na libreng hosting provider gamit ang isa sa aming maramihang libreng online na workstation gaya ng Ubuntu Online, Fedora Online, Windows online emulator o MAC OS online emulator

PROGRAMA:

NAME


pdf2txt - kinukuha ang mga nilalaman ng teksto ng mga PDF file

SINOPSIS


pdf2txt [opsyon...] file...

DESCRIPTION


pdf2txt kinukuha ang mga nilalaman ng teksto mula sa isang PDF file. Kinukuha nito ang lahat ng teksto na dapat
nai-render sa programmatically, ibig sabihin, ang teksto ay kinakatawan bilang ASCII o Unicode string. Hindi pwede
kilalanin ang text na iginuhit bilang mga imahe na mangangailangan ng optical character recognition. Ito rin
kinukuha ang kaukulang mga lokasyon, pangalan ng font, laki ng font, direksyon ng pagsulat
(pahalang o patayo) para sa bawat bahagi ng teksto. Kailangan mong magbigay ng password para sa
mga protektadong PDF na dokumento kapag pinaghihigpitan ang pag-access nito. Hindi ka makakapag-extract ng anumang text mula sa a
PDF na dokumento na walang pahintulot sa pagkuha.

Opsyon


-o file
Tinutukoy ang pangalan ng output file. Ang default ay i-print ang mga nakuhang nilalaman sa
standand output sa text format.

-p pageno[,pageno,...]
Tinutukoy ang listahan na pinaghihiwalay ng kuwit ng mga numero ng pahina na kukunin. Mga numero ng pahina
magsimula sa isa. Bilang default, kinukuha nito ang teksto mula sa lahat ng mga pahina.

-c Codec
Tinutukoy ang output codec.

-t uri
Tinutukoy ang format ng output. Ang mga sumusunod na format ay kasalukuyang sinusuportahan:

teksto
Format ng teksto. Ito ang default.

html
HTML format. Hindi ito inirerekomenda.

xml
XML na format. Nagbibigay ito ng pinakamaraming impormasyon.

mga tag
"Naka-tag na PDF" na format. Ang isang naka-tag na PDF ay may sarili nitong mga nilalaman na naka-annotate na tulad ng HTML
mga tag. pdf2txt sinusubukang kunin ang mga stream ng nilalaman nito sa halip na ipahiwatig ang teksto nito
mga lokasyon. Ang mga tag na ginamit dito ay tinukoy sa PDF Sanggunian, Pang-anim Edisyon[1]
(§10.7 “Naka-tag na PDF”).

-D writing-mode
Tinutukoy ang writing mode ng mga text output:

lr-tb
Kaliwa-pakanan, itaas-pa-baba.

tb-rl
Itaas-pababa, kanan-pakaliwa.

kotse
Awtomatikong tukuyin ang writing mode

-M char-margin, -L line-margin, -W word-margin
Ito ang mga parameter na ginagamit para sa pagsusuri ng layout. Sa isang aktwal na PDF file, text
ang mga bahagi ay maaaring hatiin sa ilang mga tipak sa gitna ng pagtakbo nito, depende sa
ang software sa pag-akda. Samakatuwid, kailangang mag-splice ng text chunks ang pagkuha ng text. Nasa
figure sa ibaba, dalawang text chunks na ang distansya ay mas malapit kaysa sa char-margin is
itinuturing na tuloy-tuloy at mapangkat sa isa. Gayundin, dalawang linya na ang distansya ay
mas malapit kaysa sa line-margin ay pinagsama-sama bilang isang text box, na isang hugis-parihaba na lugar na
naglalaman ng "kumpol" ng mga bahagi ng teksto. Higit pa rito, maaaring kailanganin na magpasok ng blangko
mga character (mga puwang) kung kinakailangan kung ang distansya sa pagitan ng dalawang salita ay mas malaki kaysa sa
word-margin, bilang isang blangko sa pagitan ng mga salita ay maaaring hindi kinakatawan bilang isang puwang, ngunit
ipinahihiwatig ng pagpoposisyon ng bawat salita.

Ang bawat halaga ay tinukoy hindi bilang isang aktwal na haba, ngunit bilang isang proporsyon ng haba sa
ang laki ng bawat karakter na pinag-uusapan. Ang mga default na halaga ay char-margin = 1.0,
line-margin = 0.3, at W = 0.2, Ayon sa pagkakabanggit.

-n
Pigilan ang pagsusuri ng layout.

-A
Pilitin ang pagsusuri ng layout para sa lahat ng mga string ng teksto, kabilang ang tekstong nasa mga figure.

-V
Paganahin ang pagtuklas ng patayong pagsulat.

-s sukatan
Tinutukoy ang sukat ng output. Ang opsyong ito ay magagamit lamang sa HTML na format.

-m n
Tinutukoy ang maximum na bilang ng mga page na kukunin. Bilang default, ang lahat ng mga pahina sa a
ang dokumento ay nakuha.

-P password
Nagbibigay ng password ng user para ma-access ang mga nilalamang PDF.

-d
Taasan ang antas ng pag-debug.

HALIMBAWA


I-extract ang text bilang HTML file na ang filename ay output.html:

$ pdf2txt -o output.html samples/naacl06-shinyama.pdf

I-extract ang isang Japanese HTML file sa patayong pagsulat:

$ pdf2txt -c euc-jp -D tb-rl -o output.html samples/jo.pdf

I-extract ang text mula sa isang naka-encrypt na PDF file:

$ pdf2txt -P mypassword -o output.txt secret.pdf

Gumamit ng pdf2txt online gamit ang mga serbisyo ng onworks.net


Mga Libreng Server at Workstation

Mag-download ng Windows at Linux apps

Linux command

Ad




×
anunsyo
❤️Mamili, mag-book, o bumili dito — walang gastos, tumutulong na panatilihing libre ang mga serbisyo.