ນີ້ແມ່ນຄໍາສັ່ງ pdf2txt ທີ່ສາມາດດໍາເນີນການໄດ້ໃນ OnWorks ຜູ້ໃຫ້ບໍລິການໂຮດຕິ້ງຟຣີໂດຍໃຊ້ຫນຶ່ງໃນຫຼາຍໆບ່ອນເຮັດວຽກອອນໄລນ໌ຂອງພວກເຮົາເຊັ່ນ Ubuntu Online, Fedora Online, Windows online emulator ຫຼື MAC OS online emulator
ໂຄງການ:
NAME
pdf2txt - ສະກັດເນື້ອໃນຂໍ້ຄວາມຂອງໄຟລ໌ PDF
ສະຫຼຸບສັງລວມ
pdf2txt [ທາງເລືອກ... ] ເອກະສານ...
ລາຍລະອຽດ
pdf2txt ສະກັດເນື້ອໃນຂໍ້ຄວາມຈາກໄຟລ໌ PDF. ມັນສະກັດຂໍ້ຄວາມທັງຫມົດທີ່ຈະເປັນ
rendered programmatically, ie ຂໍ້ຄວາມສະແດງເປັນ ASCII ຫຼື Unicode strings. ມັນບໍ່ສາມາດ
ຮັບຮູ້ຂໍ້ຄວາມທີ່ຖືກແຕ້ມເປັນຮູບພາບທີ່ຕ້ອງການການຮັບຮູ້ຕົວອັກສອນທາງ optical. ມັນຍັງ
ສະກັດສະຖານທີ່ທີ່ສອດຄ້ອງກັນ, ຊື່ຕົວອັກສອນ, ຂະຫນາດຕົວອັກສອນ, ທິດທາງການຂຽນ
(ແນວນອນ ຫຼືແນວຕັ້ງ) ສໍາລັບແຕ່ລະສ່ວນຂໍ້ຄວາມ. ທ່ານຈໍາເປັນຕ້ອງໃຫ້ລະຫັດຜ່ານສໍາລັບ
ປ້ອງກັນເອກະສານ PDF ເມື່ອການເຂົ້າເຖິງຂອງມັນຖືກຈຳກັດ. ທ່ານບໍ່ສາມາດສະກັດຂໍ້ຄວາມໃດໆຈາກ a
ເອກະສານ PDF ທີ່ບໍ່ໄດ້ຮັບອະນຸຍາດໃຫ້ສະກັດ.
OPTIONS
-o ເອກະສານ
ລະບຸຊື່ໄຟລ໌ຜົນຜະລິດ. ຄ່າເລີ່ມຕົ້ນແມ່ນການພິມເນື້ອໃນທີ່ສະກັດອອກມາ
standand output ໃນຮູບແບບຂໍ້ຄວາມ.
-p pageno[,pageno,...]
ລະບຸລາຍຊື່ທີ່ຂັ້ນດ້ວຍເຄື່ອງໝາຍຈຸດຂອງຕົວເລກໜ້າທີ່ຈະແຍກອອກ. ເລກໜ້າ
ເລີ່ມຕົ້ນທີ່ຫນຶ່ງ. ໂດຍຄ່າເລີ່ມຕົ້ນ, ມັນສະກັດຂໍ້ຄວາມຈາກທຸກຫນ້າ.
-c ຕົວແປງສັນຍານ
ລະບຸຕົວແປງສັນຍານຜົນຜະລິດ.
-t ປະເພດ
ລະບຸຮູບແບບຜົນຜະລິດ. ຮູບແບບຕໍ່ໄປນີ້ແມ່ນຮອງຮັບໃນປັດຈຸບັນ:
ຂໍ້ຄວາມ
ຮູບແບບຂໍ້ຄວາມ. ນີ້ແມ່ນຄ່າເລີ່ມຕົ້ນ.
html
ຮູບແບບ HTML. ມັນບໍ່ໄດ້ຖືກແນະນໍາ.
xml
ຮູບແບບ XML. ມັນສະຫນອງຂໍ້ມູນຫຼາຍທີ່ສຸດ.
ໂຄດຄໍາສັ່ງ
ຮູບແບບ "tagged PDF". PDF ທີ່ຖືກ tag ມີເນື້ອຫາຂອງຕົນເອງທີ່ມີຄໍາບັນຍາຍດ້ວຍ HTML
ແທັກ. pdf2txt ພະຍາຍາມສະກັດເນື້ອຫາຂອງມັນອອກແທນທີ່ຈະເປັນການຄາດເດົາຂໍ້ຄວາມຂອງມັນ
ສະຖານທີ່. ແທັກທີ່ໃຊ້ໃນນີ້ຖືກກຳນົດໄວ້ໃນ PDF ເອກະສານອ້າງອີງ, ຄັ້ງທີ VI ສະບັບ[1]
(§10.7 “Tagged PDF”).
-D ຮູບແບບການຂຽນ
ລະບຸຮູບແບບການຂຽນຂອງຂໍ້ຄວາມອອກ:
lr-tb
ຊ້າຍຫາຂວາ, ເທິງຫາລຸ່ມສຸດ.
tb-rl
ເທິງຫາລຸ່ມສຸດ, ຂວາຫາຊ້າຍ.
ອັດຕະໂນມັດ
ກໍານົດຮູບແບບການຂຽນອັດຕະໂນມັດ
-M ເສັ້ນຂອບ, -L ເສັ້ນຂອບ, -W ຂອບຄຳສັບ
ເຫຼົ່ານີ້ແມ່ນຕົວກໍານົດການທີ່ໃຊ້ສໍາລັບການວິເຄາະຮູບແບບ. ໃນໄຟລ໌ PDF ຕົວຈິງ, ຂໍ້ຄວາມ
ບາງສ່ວນອາດຈະຖືກແບ່ງອອກເປັນຫຼາຍຕ່ອນຢູ່ເຄິ່ງກາງຂອງການແລ່ນຂອງມັນ, ຂຶ້ນກັບ
ຊອບແວການຂຽນ. ດັ່ງນັ້ນ, ການສະກັດຂໍ້ຄວາມຈໍາເປັນຕ້ອງໄດ້ແຍກບົດເລື່ອງ. ໃນ
ຮູບຂ້າງລຸ່ມນີ້, ສອງ chunks ຂໍ້ຄວາມທີ່ມີໄລຍະຫ່າງແມ່ນໃກ້ຊິດກ່ວາ ເສັ້ນຂອບ is
ພິຈາລະນາຢ່າງຕໍ່ເນື່ອງແລະຖືກຈັດເປັນກຸ່ມຫນຶ່ງ. ນອກຈາກນີ້, ສອງສາຍທີ່ມີໄລຍະຫ່າງແມ່ນ
ໃກ້ກວ່າ ເສັ້ນຂອບ ຖືກຈັດກຸ່ມເປັນກ່ອງຂໍ້ຄວາມ, ເຊິ່ງເປັນພື້ນທີ່ສີ່ຫລ່ຽມທີ່
ປະກອບມີ "ກຸ່ມ" ຂອງສ່ວນຂໍ້ຄວາມ. ນອກຈາກນັ້ນ, ມັນອາດຈະຖືກກໍານົດໃຫ້ໃສ່ຊ່ອງຫວ່າງ
ຕົວອັກສອນ (ຍະຫວ່າງ) ຕາມຄວາມຈໍາເປັນຖ້າຫາກວ່າໄລຍະຫ່າງລະຫວ່າງສອງຄໍາແມ່ນໃຫຍ່ກວ່າ
ຂອບຄຳສັບ, ເປັນຊ່ອງຫວ່າງລະຫວ່າງຄໍາສັບອາດຈະບໍ່ເປັນຕົວແທນເປັນຊ່ອງ, ແຕ່
ຊີ້ບອກໂດຍການວາງຕໍາແຫນ່ງຂອງແຕ່ລະຄໍາ.
ແຕ່ລະຄ່າຖືກລະບຸບໍ່ແມ່ນຄວາມຍາວຕົວຈິງ, ແຕ່ເປັນອັດຕາສ່ວນຂອງຄວາມຍາວເຖິງ
ຂະຫນາດຂອງແຕ່ລະຕົວອັກສອນໃນຄໍາຖາມ. ຄ່າເລີ່ມຕົ້ນແມ່ນ ເສັ້ນຂອບ = 1.0,
ເສັ້ນຂອບ = 0.3, ແລະ W = 0.2, ຕາມລໍາດັບ.
-n
ສະກັດກັ້ນການວິເຄາະຮູບແບບ.
-A
ບັງຄັບການວິເຄາະໂຄງຮ່າງສໍາລັບທຸກຂໍ້ຄວາມ, ລວມທັງຂໍ້ຄວາມທີ່ມີຢູ່ໃນຕົວເລກ.
-V
ເປີດໃຊ້ການກວດສອບການຂຽນແນວຕັ້ງ.
-s ຂະຫນາດ
ລະບຸຂະຫນາດຜົນຜະລິດ. ຕົວເລືອກນີ້ສາມາດຖືກນໍາໃຊ້ໃນຮູບແບບ HTML ເທົ່ານັ້ນ.
-m n
ລະບຸຈໍານວນສູງສຸດຂອງຫນ້າທີ່ຈະສະກັດ. ໂດຍຄ່າເລີ່ມຕົ້ນ, ທຸກຫນ້າໃນ a
ເອກະສານຖືກສະກັດ.
-P ລະຫັດຜ່ານ
ໃຫ້ລະຫັດຜ່ານຜູ້ໃຊ້ເພື່ອເຂົ້າເຖິງເນື້ອຫາ PDF.
-d
ເພີ່ມລະດັບການດີບັກ.
ຕົວຢ່າງ
ສະກັດຂໍ້ຄວາມເປັນໄຟລ໌ HTML ທີ່ມີຊື່ໄຟລ໌ແມ່ນ output.html:
$ pdf2txt -o output.html ຕົວຢ່າງ/naacl06-shinyama.pdf
ສະກັດໄຟລ໌ HTML ພາສາຍີ່ປຸ່ນໃນການຂຽນແນວຕັ້ງ:
$ pdf2txt -c euc-jp -D tb-rl -o output.html samples/jo.pdf
ສະກັດຂໍ້ຄວາມຈາກໄຟລ໌ PDF ທີ່ເຂົ້າລະຫັດໄວ້:
$ pdf2txt -P mypassword -o output.txt secret.pdf
ໃຊ້ pdf2txt ອອນໄລນ໌ໂດຍໃຊ້ບໍລິການ onworks.net