Ito ang command na pstotext na maaaring patakbuhin sa OnWorks na libreng hosting provider gamit ang isa sa aming maramihang libreng online na workstation gaya ng Ubuntu Online, Fedora Online, Windows online emulator o MAC OS online emulator
PROGRAMA:
NAME
pstotext - i-extract ang ASCII text mula sa isang PostScript o PDF file
SINTAX
pstotext [opsyon|pathname]...
kung saan kasama sa opsyon ang:
-tapon
-landscape
-landscapeIba pa
-larawan
-
-output file
-gs utos
-debug
-bboxes
DESCRIPTION
pstotext nagbabasa ng isa o higit pang PostScript o PDF file, at nagsusulat sa karaniwang output a
representasyon ng plain text na ipapakita kung ang PostScript file ay
nakalimbag. Gaya ng inilalarawan sa seksyong MGA DETALYE sa ibaba, ang representasyong ito ay isa lamang
pagtatantya. Gayunpaman, madalas itong kapaki-pakinabang para sa pagkuha ng impormasyon (hal., pagtakbo
grep(1) o pagbuo ng full-text index) o para mabawi ang text mula sa isang PostScript file na kung saan
pinagmulan na nawala mo.
pstotext tumatawag sa Ghostscript, at nangangailangan ng bersyon ng Aladdin Ghostscript 3.51 o mas bago.
Dapat na invokable ang Ghostscript sa kasalukuyang path ng paghahanap bilang gs. Bilang kahalili, maaari mo
gamitin ang -gs na opsyon para tukuyin ang command (pathname at mga opsyon) para patakbuhin ang Ghostscript. Para sa
halimbawa, sa Windows maaari mong gamitin ang -gs "c:\gs\gswin32c.exe -Ic:\gs;c:\gs\fonts".
pstotext binabasa at pinoproseso ang command line nito mula kaliwa hanggang kanan, hindi pinapansin ang kaso ng
mga pagpipilian. Kapag nakatagpo ito ng pathname, bubuksan nito ang file at inaasahan na makahanap ng a
Trabaho sa PostScript o dokumentong PDF upang iproseso. Ang opsyon - ay nangangahulugang basahin at iproseso a
PostScript trabaho mula sa karaniwang input. Kung walang - o mga argumento ng pathname ay nakatagpo,
pstotext nagbabasa ng isang PostScript na trabaho mula sa karaniwang input. (Ang mga dokumentong PDF ay nangangailangan ng random na pag-access,
samakatuwid ay hindi mababasa mula sa karaniwang input.) Maaari mong gamitin ang -output na opsyon upang tukuyin ang isang
output file (tandaang i-invoke ito bago ang input file); kung hindi pstotext writes sa
karaniwang output.
Ang opsyon na -cork ay may kaugnayan lamang para sa mga PostScript file na ginawa ng mga dvips mula sa TeX o LaTeX
mga dokumento; sinasabi nito pstotext gamitin ang Cork encoding (kilala bilang T1 sa LaTeX) sa halip na
ang lumang TeX text encoding (kilala bilang OT1 sa LaTeX). Sa kasamaang palad, ang mga file na ginawa ng dvips
huwag tukuyin kung aling mga pag-encode ng font ang ginamit.
Ang mga opsyon -landscape at -landscapeOther ay dapat gamitin para sa mga dokumentong dapat
pinaikot 90 degrees clockwise o counterclockwise, ayon sa pagkakabanggit, upang maging nababasa.
Ang mga opsyon -debug at -bboxes ay kadalasang ginagamit para sa mga maintainer ng pstotext. -debug
nagpapakita ng Ghostscript output at mga mensahe ng error. -Bboxes outputs isang salita sa bawat linya na may
impormasyon sa hangganan ng kahon.
MGA DETALYE
pstotext ginagawa nito ang trabaho sa pamamagitan ng pagsasabi sa Ghostscript na mag-load ng isang PostScript library na sanhi nito
na sumulat sa karaniwang impormasyon ng output nito tungkol sa bawat string na nai-render ng isang PostScript na trabaho
o PDF na dokumento. Kasama sa impormasyong ito ang mga character ng string, at sapat na
karagdagang impormasyon upang tantiyahin ang nakatali na parihaba ng string. pstotext
post-proseso ang impormasyong ito at naglalabas ng pagkakasunod-sunod ng mga salita na nililimitahan ng espasyo,
newline, at formfeed.
pstotext naglalabas ng mga salita sa parehong pagkakasunud-sunod bilang ang mga ito ay nai-render ng dokumento. Ito
karaniwan, ngunit hindi palaging, ay sumusunod sa pagkakasunud-sunod na basahin ng isang tao ang mga salita sa isang pahina.
Sa loob ng pagkakasunud-sunod na ito, ang mga salita ay pinaghihiwalay ng alinman sa puwang o bagong linya depende sa kung
o hindi sila mahulog sa parehong linya. Ang bawat pahina ay tinatapos gamit ang isang formfeed. Kung gagamit ka
ang maling opsyon mula sa set {-portrait, -landscape, -landscapeOther}, pstotext is
malamang na palitan ang bagong linya para sa espasyo.
Ang isang PostScript job o PDF na dokumento ay madalas na nagre-render ng isang salita bilang ilang mga string upang makuha
tamang espasyo sa pagitan ng mga partikular na pares ng mga character. pstotext ginagawa ang lahat ng makakaya
tipunin ang mga string na ito pabalik sa mga salita, gamit ang isang simpleng heuristic: mga string na pinaghihiwalay ng a
distansyang mas mababa sa 0.3 beses ang minimum ng average na lapad ng character sa dalawa
ang mga string ay itinuturing na bahagi ng parehong salita. Tandaan na kadalasang sanhi ito
nangunguna at sumusunod na mga bantas na karakter na isasama sa isang salita.
Ang wika ng PostScript ay nagbibigay ng isang nababaluktot na pamamaraan ng pag-encode kung saan nakapasok ang mga code ng character
ang mga string ay pumipili ng mga partikular na character (mga simbolo), kaya ang isang PostScript na trabaho ay libre na gumamit ng anuman
code ng character. Sa kabilang kamay, pstotext palaging isinasalin sa ISO 8859-1 (Latin-1)
code ng character, na isang extension sa ASCII na sumasaklaw sa karamihan ng Western European
mga wika. Kapag ang isang character ay wala sa ISO 8859-1, pstotext gumagamit ng pagkakasunod-sunod ng
mga character, hal, "---" para sa em dash o "A\226" para sa Abreve. pstotext maaaring lokohin ng a
font na ang Encoding vector ay hindi sumusunod sa mga convention ng Adobe, ngunit naglalaman ito ng heuristics
na nagbibigay-daan dito na pangasiwaan ang malawak na iba't ibang mga font na hindi kumikilos.
(pstotext hindi na isinasalin ang gitling (\255) sa minus (\055).)
Gumamit ng pstotext online gamit ang mga serbisyo ng onworks.net