ນີ້ແມ່ນຄໍາສັ່ງ combine_tessdata ທີ່ສາມາດດໍາເນີນການໄດ້ໃນ OnWorks ຜູ້ໃຫ້ບໍລິການໂຮດຕິ້ງຟຣີໂດຍໃຊ້ຫນຶ່ງໃນຫຼາຍໆບ່ອນເຮັດວຽກອອນໄລນ໌ຂອງພວກເຮົາເຊັ່ນ Ubuntu Online, Fedora Online, Windows online emulator ຫຼື MAC OS online emulator
ໂຄງການ:
NAME
combine_tessdata - ລວມ/ສະກັດ/ຂຽນທັບຂໍ້ມູນ Tesseract
ສະຫຼຸບສັງລວມ
combine_testdata [ທາງເລືອກ] ເອກະສານ...
ລາຍລະອຽດ
combine_testdata(1) ເປັນໂຄງການຕົ້ນຕໍທີ່ຈະປະສົມ / ສະກັດ / overwrite ອົງປະກອບ tessdata
ໃນ [lang].traineddata ໄຟລ໌.
ເພື່ອສົມທົບອົງປະກອບ tessdata ສ່ວນບຸກຄົນທັງຫມົດ (unicharset, DAWGs, ການຈັດປະເພດ
ແມ່ແບບ, ຄວາມບໍ່ແນ່ນອນ, ການຕັ້ງຄ່າພາສາ) ຕັ້ງຢູ່, ເວົ້າ, / home /$USER/temp/eng.* ແລ່ນ:
combine_testdata / home /$USER/temp/eng.
ຜົນໄດ້ຮັບຈະເປັນໄຟລ໌ tessdata ປະສົມປະສານ / home /$USER/temp/eng.traineddata
ລະບຸທາງເລືອກ -e ຖ້າທ່ານຕ້ອງການສະກັດອົງປະກອບສ່ວນບຸກຄົນຈາກການລວມກັນ
ໄຟລ໌ຂໍ້ມູນການຝຶກອົບຮົມ. ຕົວຢ່າງ, ເພື່ອສະກັດໄຟລ໌ config ພາສາແລະ unicharset ຈາກ
tessdata/eng.traineddata ແລ່ນ:
combine_tessdata -e tessdata/eng.traineddata \
/ home /$USER/temp/eng.config / home /$USER/temp/eng.unicharset
ໄຟລ໌ config ທີ່ຕ້ອງການແລະ unicharset ຈະຖືກຂຽນໃສ່ / home /$USER/temp/eng.config
/ home /$USER/temp/eng.unicharset
ລະບຸທາງເລືອກ -o ເພື່ອຂຽນທັບອົງປະກອບສ່ວນບຸກຄົນຂອງໄຟລ໌ [lang].traineddata ທີ່ໃຫ້.
ຕົວຢ່າງ, ເພື່ອຂຽນທັບການຕັ້ງຄ່າພາສາແລະໄຟລ໌ທີ່ບໍ່ຊັດເຈນ unichar ໃນ
tessdata/eng.traineddata ໃຊ້:
combine_tessdata -o tessdata/eng.traineddata \
/ home /$USER/temp/eng.config / home /$USER/temp/eng.unicharambigs
ດັ່ງນັ້ນ, tessdata/eng.traineddata ຈະມີການຕັ້ງຄ່າພາສາໃໝ່ ແລະ unichar
ambigs, ບວກກັບ DAWG ຕົ້ນສະບັບທັງຫມົດ, ແມ່ແບບການຈັດປະເພດ, ແລະອື່ນໆ.
ຫມາຍເຫດ: ຊື່ໄຟລ໌ຂອງໄຟລ໌ທີ່ຈະສະກັດແລະຂຽນທັບຄວນຈະມີ
ຄໍາຕໍ່ທ້າຍໄຟລ໌ທີ່ເຫມາະສົມ (ສ່ວນຂະຫຍາຍ) ຊີ້ໃຫ້ເຫັນປະເພດຂອງອົງປະກອບ tessdata ຂອງເຂົາເຈົ້າ
(.unicharset ສໍາລັບ unicharset, .unicharambigs ສໍາລັບ unichar ambigs, ແລະອື່ນໆ). ເບິ່ງ k*FileSuffix
ຕົວແປໃນ ccutil/tessdatamanager.h.
ລະບຸທາງເລືອກ -u ເພື່ອ unpack ອົງປະກອບທັງຫມົດໄປຫາເສັ້ນທາງທີ່ລະບຸໄວ້:
combine_tessdata -u tessdata/eng.traineddata / home /$USER/temp/eng.
ນີ້ຈະສ້າງ / home /$USER/temp/eng.* ໄຟລ໌ທີ່ມີອົງປະກອບ tessdata ສ່ວນບຸກຄົນຈາກ
tessdata/eng.traineddata.
OPTIONS
-e .ຂໍ້ມູນການຝຶກອົບຮົມ ເອກະສານ...: ສະກັດອົງປະກອບທີ່ລະບຸໄວ້ຈາກໄຟລ໌ .traineddata
-o .ຂໍ້ມູນການຝຶກອົບຮົມ ເອກະສານ...: ຂຽນທັບອົງປະກອບທີ່ລະບຸຂອງໄຟລ໌ .traineddata ດ້ວຍ
ທີ່ສະຫນອງໃຫ້ຢູ່ໃນເສັ້ນຄໍາສັ່ງ.
-u .ຂໍ້ມູນການຝຶກອົບຮົມ PATHPREFIX Unpacks .traineddata ໂດຍໃຊ້ຄໍານໍາຫນ້າທີ່ສະຫນອງໃຫ້.
ຂໍ້ຄວນລະວັງ
Prefix ຫມາຍເຖິງຄໍານໍາຫນ້າຂອງໄຟລ໌ເຕັມ, ລວມທັງໄລຍະເວລາ (.)
ອົງປະກອບ
ອົງປະກອບໃນໄຟລ໌ Tesseract lang.traineddata ເປັນຂອງ Tesseract 3.02 ແມ່ນໄລຍະສັ້ນໆ.
ອະທິບາຍຂ້າງລຸ່ມນີ້; ສໍາລັບຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບຫຼາຍໆໄຟລ໌ເຫຼົ່ານີ້, ເບິ່ງ
https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract
lang.config
(ທາງເລືອກ) ການລົບລ້າງພາສາສະເພາະກັບຕົວແປການຕັ້ງຄ່າເລີ່ມຕົ້ນ.
ພາສາ.unicharset
(ຕ້ອງການ) ບັນຊີລາຍຊື່ຂອງສັນຍາລັກທີ່ Tesseract ຮັບຮູ້, ມີຄຸນສົມບັດ. ເບິ່ງ
unicharset(5).
lang.unicharambigs
(ທາງເລືອກ) ໄຟລ໌ນີ້ມີຂໍ້ມູນກ່ຽວກັບຄູ່ຂອງສັນຍາລັກທີ່ຮັບຮູ້ໄດ້
ມັກສັບສົນ. ຍົກຕົວຢ່າງ, rn ແລະ m.
lang.inttemp
(ຕ້ອງການ) ແມ່ແບບຮູບຮ່າງຂອງຕົວອັກສອນສໍາລັບແຕ່ລະ unichar. ຜະລິດໂດຍ mfraining(1).
lang.pffmtable
(ຕ້ອງການ) ຈໍານວນຄຸນສົມບັດທີ່ຄາດໄວ້ສໍາລັບແຕ່ລະ unichar. ຜະລິດໂດຍ mfraining(1)
ຈາກ tr ໄຟລ໌.
lang.normproto
(ຕ້ອງການ) prototypes normalization ລັກສະນະທີ່ສ້າງຂຶ້ນໂດຍ ການຝຶກອົບຮົມ(1) ຈາກ tr
ໄຟລ໌.
lang.punc-dawg
(ທາງເລືອກ) ໂຕເຄື່ອງທີ່ເຮັດມາຈາກຮູບແບບເຄື່ອງໝາຍວັກຕອນທີ່ພົບເຫັນຢູ່ອ້ອມຮອບຄຳສັບ. ສ່ວນ "ຄໍາ".
ຖືກແທນທີ່ດ້ວຍຊ່ອງດຽວ.
lang.word-dawg
(ທາງເລືອກ) ໂຕໜັງສືທີ່ສ້າງຂຶ້ນຈາກວັດຈະນານຸກົມຈາກພາສາ.
lang.number-dawg
(ທາງເລືອກ) ໂຕເຫລັກທີ່ສ້າງຂຶ້ນຈາກໂຕເຄັນແຕ່ເດີມມີຕົວເລກ. ແຕ່ລະຕົວເລກແມ່ນ
ແທນທີ່ດ້ວຍຕົວອັກສອນຊ່ອງ.
lang.freq-dawg
(ທາງເລືອກ) ດອກກຸຫຼາບທີ່ສ້າງຂຶ້ນຈາກຄຳສັບທີ່ພົບເລື້ອຍທີ່ສຸດ
ຄໍາ-dawg.
lang.fixed-length-dawgs
(ທາງເລືອກ) ຫຼາຍໆອັນຂອງຄວາມຍາວຄົງທີ່ທີ່ແຕກຕ່າງກັນ — ເປັນປະໂຫຍດສໍາລັບພາສາເຊັ່ນ
ຈີນ.
lang.cube-unicharset
(ທາງເລືອກ) unicharset ສໍາລັບ cube, ຖ້າ cube ໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບຊຸດສັນຍາລັກທີ່ແຕກຕ່າງກັນ.
lang.cube-word-dawg
(ທາງເລືອກ) ຄໍາສັບ dawg ສໍາລັບ unicharset ຈັບສະຫຼັບຂອງ cube. ບໍ່ຈໍາເປັນຖ້າ Cube ໄດ້ຮັບການຝຶກອົບຮົມ
ກັບ unicharset Tesseract.
lang.shapetable
(ທາງເລືອກ) ເມື່ອມີ, ຕາຕະລາງຮູບຮ່າງເປັນຊັ້ນພິເສດລະຫວ່າງຕົວລະຄອນ
classifier ແລະຕົວຮັບຮູ້ຄໍາທີ່ອະນຸຍາດໃຫ້ຕົວຈັດປະເພດຕົວອັກສອນກັບຄືນ a
ການເກັບກໍາ unichar ids ແລະຕົວອັກສອນແທນທີ່ຈະເປັນ unichar-id ແລະຕົວອັກສອນດຽວ.
lang.bigram-dawg
(ທາງເລືອກ) A dawg ຂອງ bigrams ຄໍາທີ່ຄໍາສັບຕ່າງໆໄດ້ຖືກແຍກອອກໂດຍຊ່ອງແລະແຕ່ລະ
ຕົວເລກຖືກແທນທີ່ດ້ວຍ a ?.
lang.unambig-dawg
(ທາງເລືອກ) TODO: ອະທິບາຍ.
lang.params-training-model
(ທາງເລືອກ) TODO: ອະທິບາຍ.
ປະຫວັດຄວາມເປັນ
combine_testdata(1) ປາກົດຕົວຄັ້ງທໍາອິດໃນຮຸ່ນ 3.00 ຂອງ Tesseract
ໃຊ້ combine_tessdata ອອນໄລນ໌ໂດຍໃຊ້ບໍລິການ onworks.net