pdf2txt - ອອນລາຍໃນຄລາວ

ນີ້ແມ່ນຄໍາສັ່ງ pdf2txt ທີ່ສາມາດດໍາເນີນການໄດ້ໃນ OnWorks ຜູ້ໃຫ້ບໍລິການໂຮດຕິ້ງຟຣີໂດຍໃຊ້ຫນຶ່ງໃນຫຼາຍໆບ່ອນເຮັດວຽກອອນໄລນ໌ຂອງພວກເຮົາເຊັ່ນ Ubuntu Online, Fedora Online, Windows online emulator ຫຼື MAC OS online emulator

ໂຄງການ:

NAME


pdf2txt - ສະກັດເນື້ອໃນຂໍ້ຄວາມຂອງໄຟລ໌ PDF

ສະຫຼຸບສັງລວມ


pdf2txt [ທາງເລືອກ... ] ເອກະສານ...

ລາຍລະອຽດ


pdf2txt ສະກັດເນື້ອໃນຂໍ້ຄວາມຈາກໄຟລ໌ PDF. ມັນສະກັດຂໍ້ຄວາມທັງຫມົດທີ່ຈະເປັນ
rendered programmatically, ie ຂໍ້ຄວາມສະແດງເປັນ ASCII ຫຼື Unicode strings. ມັນບໍ່ສາມາດ
ຮັບຮູ້ຂໍ້ຄວາມທີ່ຖືກແຕ້ມເປັນຮູບພາບທີ່ຕ້ອງການການຮັບຮູ້ຕົວອັກສອນທາງ optical. ມັນຍັງ
ສະກັດສະຖານທີ່ທີ່ສອດຄ້ອງກັນ, ຊື່ຕົວອັກສອນ, ຂະຫນາດຕົວອັກສອນ, ທິດທາງການຂຽນ
(ແນວນອນ ຫຼືແນວຕັ້ງ) ສໍາລັບແຕ່ລະສ່ວນຂໍ້ຄວາມ. ທ່ານຈໍາເປັນຕ້ອງໃຫ້ລະຫັດຜ່ານສໍາລັບ
ປ້ອງກັນເອກະສານ PDF ເມື່ອການເຂົ້າເຖິງຂອງມັນຖືກຈຳກັດ. ທ່ານບໍ່ສາມາດສະກັດຂໍ້ຄວາມໃດໆຈາກ a
ເອກະສານ PDF ທີ່ບໍ່ໄດ້ຮັບອະນຸຍາດໃຫ້ສະກັດ.

OPTIONS


-o ເອກະສານ
ລະບຸຊື່ໄຟລ໌ຜົນຜະລິດ. ຄ່າເລີ່ມຕົ້ນແມ່ນການພິມເນື້ອໃນທີ່ສະກັດອອກມາ
standand output ໃນຮູບແບບຂໍ້ຄວາມ.

-p pageno[,pageno,...]
ລະບຸລາຍຊື່ທີ່ຂັ້ນດ້ວຍເຄື່ອງໝາຍຈຸດຂອງຕົວເລກໜ້າທີ່ຈະແຍກອອກ. ເລກໜ້າ
ເລີ່ມຕົ້ນທີ່ຫນຶ່ງ. ໂດຍຄ່າເລີ່ມຕົ້ນ, ມັນສະກັດຂໍ້ຄວາມຈາກທຸກຫນ້າ.

-c ຕົວແປງສັນຍານ
ລະບຸຕົວແປງສັນຍານຜົນຜະລິດ.

-t ປະເພດ
ລະບຸຮູບແບບຜົນຜະລິດ. ຮູບແບບຕໍ່ໄປນີ້ແມ່ນຮອງຮັບໃນປັດຈຸບັນ:

ຂໍ້ຄວາມ
ຮູບແບບຂໍ້ຄວາມ. ນີ້ແມ່ນຄ່າເລີ່ມຕົ້ນ.

html
ຮູບແບບ HTML. ມັນບໍ່ໄດ້ຖືກແນະນໍາ.

xml
ຮູບແບບ XML. ມັນສະຫນອງຂໍ້ມູນຫຼາຍທີ່ສຸດ.

ໂຄດ​ຄໍາ​ສັ່ງ
ຮູບແບບ "tagged PDF". PDF ທີ່ຖືກ tag ມີເນື້ອຫາຂອງຕົນເອງທີ່ມີຄໍາບັນຍາຍດ້ວຍ HTML
ແທັກ. pdf2txt ພະຍາຍາມສະກັດເນື້ອຫາຂອງມັນອອກແທນທີ່ຈະເປັນການຄາດເດົາຂໍ້ຄວາມຂອງມັນ
ສະຖານທີ່. ແທັກທີ່ໃຊ້ໃນນີ້ຖືກກຳນົດໄວ້ໃນ PDF ເອກະສານອ້າງອີງ, ຄັ້ງທີ VI ສະບັບ[1]
(§10.7 “Tagged PDF”).

-D ຮູບແບບການຂຽນ
ລະບຸຮູບແບບການຂຽນຂອງຂໍ້ຄວາມອອກ:

lr-tb
ຊ້າຍຫາຂວາ, ເທິງຫາລຸ່ມສຸດ.

tb-rl
ເທິງຫາລຸ່ມສຸດ, ຂວາຫາຊ້າຍ.

ອັດຕະໂນມັດ
ກໍານົດຮູບແບບການຂຽນອັດຕະໂນມັດ

-M ເສັ້ນຂອບ, -L ເສັ້ນຂອບ, -W ຂອບຄຳສັບ
ເຫຼົ່ານີ້ແມ່ນຕົວກໍານົດການທີ່ໃຊ້ສໍາລັບການວິເຄາະຮູບແບບ. ໃນໄຟລ໌ PDF ຕົວຈິງ, ຂໍ້ຄວາມ
ບາງສ່ວນອາດຈະຖືກແບ່ງອອກເປັນຫຼາຍຕ່ອນຢູ່ເຄິ່ງກາງຂອງການແລ່ນຂອງມັນ, ຂຶ້ນກັບ
ຊອບ​ແວ​ການ​ຂຽນ​. ດັ່ງນັ້ນ, ການສະກັດຂໍ້ຄວາມຈໍາເປັນຕ້ອງໄດ້ແຍກບົດເລື່ອງ. ໃນ
ຮູບຂ້າງລຸ່ມນີ້, ສອງ chunks ຂໍ້ຄວາມທີ່ມີໄລຍະຫ່າງແມ່ນໃກ້ຊິດກ່ວາ ເສັ້ນຂອບ is
ພິຈາລະນາຢ່າງຕໍ່ເນື່ອງແລະຖືກຈັດເປັນກຸ່ມຫນຶ່ງ. ນອກຈາກນີ້, ສອງສາຍທີ່ມີໄລຍະຫ່າງແມ່ນ
ໃກ້ກວ່າ ເສັ້ນຂອບ ຖືກຈັດກຸ່ມເປັນກ່ອງຂໍ້ຄວາມ, ເຊິ່ງເປັນພື້ນທີ່ສີ່ຫລ່ຽມທີ່
ປະກອບມີ "ກຸ່ມ" ຂອງສ່ວນຂໍ້ຄວາມ. ນອກຈາກນັ້ນ, ມັນອາດຈະຖືກກໍານົດໃຫ້ໃສ່ຊ່ອງຫວ່າງ
ຕົວອັກສອນ (ຍະຫວ່າງ) ຕາມຄວາມຈໍາເປັນຖ້າຫາກວ່າໄລຍະຫ່າງລະຫວ່າງສອງຄໍາແມ່ນໃຫຍ່ກວ່າ
ຂອບຄຳສັບ, ເປັນຊ່ອງຫວ່າງລະຫວ່າງຄໍາສັບອາດຈະບໍ່ເປັນຕົວແທນເປັນຊ່ອງ, ແຕ່
ຊີ້ບອກໂດຍການວາງຕໍາແຫນ່ງຂອງແຕ່ລະຄໍາ.

ແຕ່ລະຄ່າຖືກລະບຸບໍ່ແມ່ນຄວາມຍາວຕົວຈິງ, ແຕ່ເປັນອັດຕາສ່ວນຂອງຄວາມຍາວເຖິງ
ຂະຫນາດຂອງແຕ່ລະຕົວອັກສອນໃນຄໍາຖາມ. ຄ່າເລີ່ມຕົ້ນແມ່ນ ເສັ້ນຂອບ = 1.0,
ເສັ້ນຂອບ = 0.3, ແລະ W = 0.2, ຕາມລໍາດັບ.

-n
ສະກັດກັ້ນການວິເຄາະຮູບແບບ.

-A
ບັງຄັບການວິເຄາະໂຄງຮ່າງສໍາລັບທຸກຂໍ້ຄວາມ, ລວມທັງຂໍ້ຄວາມທີ່ມີຢູ່ໃນຕົວເລກ.

-V
ເປີດໃຊ້ການກວດສອບການຂຽນແນວຕັ້ງ.

-s ຂະຫນາດ
ລະບຸຂະຫນາດຜົນຜະລິດ. ຕົວເລືອກນີ້ສາມາດຖືກນໍາໃຊ້ໃນຮູບແບບ HTML ເທົ່ານັ້ນ.

-m n
ລະບຸຈໍານວນສູງສຸດຂອງຫນ້າທີ່ຈະສະກັດ. ໂດຍຄ່າເລີ່ມຕົ້ນ, ທຸກຫນ້າໃນ a
ເອກະສານຖືກສະກັດ.

-P ລະຫັດຜ່ານ
ໃຫ້ລະຫັດຜ່ານຜູ້ໃຊ້ເພື່ອເຂົ້າເຖິງເນື້ອຫາ PDF.

-d
ເພີ່ມລະດັບການດີບັກ.

ຕົວຢ່າງ


ສະກັດຂໍ້ຄວາມເປັນໄຟລ໌ HTML ທີ່ມີຊື່ໄຟລ໌ແມ່ນ output.html:

$ pdf2txt -o output.html ຕົວຢ່າງ/naacl06-shinyama.pdf

ສະກັດໄຟລ໌ HTML ພາສາຍີ່ປຸ່ນໃນການຂຽນແນວຕັ້ງ:

$ pdf2txt -c euc-jp -D tb-rl -o output.html samples/jo.pdf

ສະກັດຂໍ້ຄວາມຈາກໄຟລ໌ PDF ທີ່ເຂົ້າລະຫັດໄວ້:

$ pdf2txt -P mypassword -o output.txt secret.pdf

ໃຊ້ pdf2txt ອອນໄລນ໌ໂດຍໃຊ້ບໍລິການ onworks.net



ລ່າສຸດ Linux ແລະ Windows ໂຄງການອອນໄລນ໌