ນີ້ແມ່ນແອັບ Windows ທີ່ມີຊື່ວ່າ crawler4j ເຊິ່ງລຸ້ນຫຼ້າສຸດສາມາດດາວໂຫຼດໄດ້ເປັນ 4.4.0.zip. ມັນສາມາດດໍາເນີນການອອນໄລນ໌ຢູ່ໃນຜູ້ໃຫ້ບໍລິການໂຮດຕິ້ງຟຣີ OnWorks ສໍາລັບສະຖານີເຮັດວຽກ.
ດາວນ໌ໂຫລດແລະດໍາເນີນການອອນໄລນ໌ app ນີ້ມີຊື່ crawler4j ກັບ OnWorks ໄດ້ຟຣີ.
ປະຕິບັດຕາມຄໍາແນະນໍາເຫຼົ່ານີ້ເພື່ອດໍາເນີນການ app ນີ້:
- 1. ດາວໂຫຼດຄໍາຮ້ອງສະຫມັກນີ້ໃນ PC ຂອງທ່ານ.
- 2. ໃສ່ໃນຕົວຈັດການໄຟລ໌ຂອງພວກເຮົາ https://www.onworks.net/myfiles.php?username=XXXXX ດ້ວຍຊື່ຜູ້ໃຊ້ທີ່ທ່ານຕ້ອງການ.
- 3. ອັບໂຫລດແອັບພລິເຄຊັນນີ້ຢູ່ໃນຕົວຈັດການໄຟລ໌ດັ່ງກ່າວ.
- 4. ເລີ່ມ emulator ອອນ ໄລ ນ ໌ OS OnWorks ຈາກ ເວັບ ໄຊ ທ ໌ ນີ້, ແຕ່ ດີກ ວ່າ Windows ອອນ ໄລ ນ ໌ emulator.
- 5. ຈາກ OnWorks Windows OS ທີ່ເຈົ້າຫາກໍ່ເລີ່ມຕົ້ນ, ໄປທີ່ຕົວຈັດການໄຟລ໌ຂອງພວກເຮົາ https://www.onworks.net/myfiles.php?username=XXXXX ດ້ວຍຊື່ຜູ້ໃຊ້ທີ່ທ່ານຕ້ອງການ.
- 6. ດາວນ໌ໂຫລດຄໍາຮ້ອງສະຫມັກແລະຕິດຕັ້ງມັນ.
- 7. ດາວໂຫລດ Wine ຈາກບ່ອນເກັບມ້ຽນຊອບແວການແຈກຢາຍ Linux ຂອງທ່ານ. ເມື່ອຕິດຕັ້ງແລ້ວ, ທ່ານສາມາດຄລິກສອງຄັ້ງ app ເພື່ອດໍາເນີນການໃຫ້ເຂົາເຈົ້າກັບ Wine. ນອກນັ້ນທ່ານຍັງສາມາດລອງ PlayOnLinux, ການໂຕ້ຕອບທີ່ແປກປະຫຼາດໃນໄລຍະ Wine ທີ່ຈະຊ່ວຍໃຫ້ທ່ານຕິດຕັ້ງໂປລແກລມ Windows ແລະເກມທີ່ນິຍົມ.
ເຫຼົ້າແວງເປັນວິທີການແລ່ນຊອບແວ Windows ໃນ Linux, ແຕ່ບໍ່ມີ Windows ທີ່ຕ້ອງການ. ເຫຼົ້າແວງແມ່ນຊັ້ນຄວາມເຂົ້າກັນໄດ້ຂອງ Windows ແຫຼ່ງເປີດທີ່ສາມາດເອີ້ນໃຊ້ໂຄງການ Windows ໂດຍກົງໃນ desktop Linux ໃດກໍໄດ້. ໂດຍພື້ນຖານແລ້ວ, Wine ກໍາລັງພະຍາຍາມປະຕິບັດໃຫມ່ຢ່າງພຽງພໍຂອງ Windows ຕັ້ງແຕ່ເລີ່ມຕົ້ນເພື່ອໃຫ້ມັນສາມາດດໍາເນີນການຄໍາຮ້ອງສະຫມັກ Windows ທັງຫມົດໄດ້ໂດຍບໍ່ຕ້ອງໃຊ້ Windows.
ພາບຫນ້າຈໍ:
ຕົວກວາດເວັບ4j
DESCRIPTION:
crawler4j ແມ່ນຕົວກວາດເວັບແຫຼ່ງເປີດສໍາລັບ Java ເຊິ່ງສະຫນອງການໂຕ້ຕອບງ່າຍດາຍສໍາລັບການລວບລວມຂໍ້ມູນເວັບ. ການນໍາໃຊ້ມັນ, ທ່ານສາມາດຕັ້ງຄ່າຕົວກວາດເວັບຫຼາຍກະທູ້ໃນສອງສາມນາທີ. ທ່ານຈໍາເປັນຕ້ອງສ້າງຫ້ອງຮຽນຕົວກວາດເວັບທີ່ຂະຫຍາຍ WebCrawler. ຫ້ອງຮຽນນີ້ຕັດສິນໃຈວ່າ URL ໃດຄວນຖືກລວບລວມແລະຈັດການກັບຫນ້າທີ່ດາວໂຫລດ. ຟັງຊັນ shouldVisit ຕັດສິນໃຈວ່າ URL ທີ່ໃຫ້ນັ້ນຄວນຈະຖືກກວາດເຂົ້າຫຼືບໍ່. ໃນຕົວຢ່າງຂ້າງເທິງນີ້, ຕົວຢ່າງນີ້ບໍ່ອະນຸຍາດໃຫ້ມີໄຟລ໌ .css, .js ແລະມີເດຍ ແລະອະນຸຍາດໃຫ້ພຽງແຕ່ຫນ້າພາຍໃນໂດເມນ ics ເທົ່ານັ້ນ. ຟັງຊັນການຢ້ຽມຢາມແມ່ນເອີ້ນວ່າຫຼັງຈາກເນື້ອໃນຂອງ URL ຖືກດາວໂຫຼດສໍາເລັດ. ທ່ານສາມາດໄດ້ຮັບ url, ຂໍ້ຄວາມ, ລິ້ງຄ໌, html ແລະ id ເປັນເອກະລັກຂອງຫນ້າທີ່ດາວໂຫລດ. ທ່ານກໍ່ຄວນປະຕິບັດຊັ້ນຄວບຄຸມທີ່ກໍານົດແກ່ນຂອງການລວບລວມຂໍ້ມູນ, ໂຟນເດີທີ່ຂໍ້ມູນການລວບລວມຂໍ້ມູນລະດັບປານກາງຄວນຖືກເກັບໄວ້ແລະຈໍານວນຂອງກະທູ້ທີ່ກົງກັນ.
ຄຸນລັກສະນະ
- ທ່ານກໍ່ຄວນປະຕິບັດຫ້ອງຮຽນຄວບຄຸມທີ່ລະບຸແກ່ນຂອງການລວບລວມຂໍ້ມູນ, ໂຟນເດີທີ່ຂໍ້ມູນການລວບລວມຂໍ້ມູນລະດັບປານກາງຄວນຖືກເກັບໄວ້ແລະຈໍານວນຂອງກະທູ້ພ້ອມກັນ:
- ໂດຍຄ່າເລີ່ມຕົ້ນບໍ່ມີຂອບເຂດຈໍາກັດກ່ຽວກັບຄວາມເລິກຂອງການລວບລວມຂໍ້ມູນ
- ທ່ານສາມາດເປີດໃຊ້ SSL
- ເປີດໃຊ້ການລວບລວມຂໍ້ມູນຖານສອງ
- crawler4j ຖືກອອກແບບຢ່າງມີປະສິດທິພາບແລະມີຄວາມສາມາດໃນການລວບລວມໂດເມນໄວຫຼາຍ
- User-agent string ແມ່ນໃຊ້ເພື່ອສະແດງຕົວກວາດເວັບຂອງທ່ານໃຫ້ກັບເຊີບເວີ
ພາສາການຂຽນໂປຣແກຣມ
Java
ປະເພດ
ນີ້ແມ່ນແອັບພລິເຄຊັນທີ່ຍັງສາມາດເອົາມາຈາກ https://sourceforge.net/projects/crawler4j.mirror/. ມັນໄດ້ຖືກຈັດຢູ່ໃນ OnWorks ເພື່ອໃຫ້ດໍາເນີນການອອນໄລນ໌ໃນວິທີທີ່ງ່າຍທີ່ສຸດຈາກຫນຶ່ງໃນລະບົບປະຕິບັດງານຟຣີຂອງພວກເຮົາ.