ນີ້ແມ່ນແອັບ Linux ທີ່ມີຊື່ວ່າ Headless Chrome Crawler ເຊິ່ງລຸ້ນຫຼ້າສຸດສາມາດດາວໂຫຼດໄດ້ເປັນ 1.8.0.zip. ມັນສາມາດດໍາເນີນການອອນໄລນ໌ຢູ່ໃນ OnWorks ຜູ້ໃຫ້ບໍລິການໂຮດຕິ້ງຟຣີສໍາລັບບ່ອນເຮັດວຽກ.
ດາວນ໌ໂຫລດແລະດໍາເນີນການອອນໄລນ໌ app ນີ້ມີຊື່ວ່າ Headless Chrome Crawler ກັບ OnWorks ໄດ້ຟຣີ.
ປະຕິບັດຕາມຄໍາແນະນໍາເຫຼົ່ານີ້ເພື່ອດໍາເນີນການ app ນີ້:
- 1. ດາວໂຫຼດຄໍາຮ້ອງສະຫມັກນີ້ໃນ PC ຂອງທ່ານ.
- 2. ໃສ່ໃນຕົວຈັດການໄຟລ໌ຂອງພວກເຮົາ https://www.onworks.net/myfiles.php?username=XXXXX ດ້ວຍຊື່ຜູ້ໃຊ້ທີ່ທ່ານຕ້ອງການ.
- 3. ອັບໂຫລດແອັບພລິເຄຊັນນີ້ຢູ່ໃນຕົວຈັດການໄຟລ໌ດັ່ງກ່າວ.
- 4. ເລີ່ມ OnWorks Linux ອອນລາຍ ຫຼື Windows online emulator ຫຼື MACOS online emulator ຈາກເວັບໄຊທ໌ນີ້.
- 5. ຈາກ OnWorks Linux OS ທີ່ເຈົ້າຫາກໍ່ເລີ່ມຕົ້ນ, ໄປທີ່ຕົວຈັດການໄຟລ໌ຂອງພວກເຮົາ https://www.onworks.net/myfiles.php?username=XXXXX ດ້ວຍຊື່ຜູ້ໃຊ້ທີ່ທ່ານຕ້ອງການ.
- 6. ດາວນ໌ໂຫລດຄໍາຮ້ອງສະຫມັກ, ຕິດຕັ້ງມັນແລະດໍາເນີນການ.
ໜ້າ ຈໍ
Ad
ຕົວກວາດເວັບ Chrome ບໍ່ມີຫົວ
ລາຍລະອຽດ
ຕົວກວາດເວັບໂດຍອີງໃສ່ການຮ້ອງຂໍງ່າຍດາຍກັບໄຟລ໌ HTML ໂດຍທົ່ວໄປແມ່ນໄວ. ຢ່າງໃດກໍຕາມ, ບາງຄັ້ງມັນສິ້ນສຸດລົງເຖິງການຈັບເອົາຮ່າງກາຍທີ່ຫວ່າງເປົ່າ, ໂດຍສະເພາະໃນເວລາທີ່ເວັບໄຊທ໌ໄດ້ຖືກສ້າງຂຶ້ນໃນກອບຫນ້າທີ່ທັນສະໄຫມເຊັ່ນ AngularJS, React ແລະ Vue.js. ຂັບເຄື່ອນໂດຍ Headless Chrome, ຕົວກວາດເວັບໃຫ້ APIs ງ່າຍໆເພື່ອລວບລວມຂໍ້ມູນເວັບໄຊທ໌ແບບເຄື່ອນໄຫວ. ສະຫນັບສະຫນູນທັງສອງການຄົ້ນຫາຄວາມເລິກຄັ້ງທໍາອິດແລະວິທີການຊອກຫາຄວາມກວ້າງຂວາງທໍາອິດ. ບັນທຶກພາບໜ້າຈໍສຳລັບຫຼັກຖານການລວບລວມຂໍ້ມູນ, ເຮັດຕາມແບບອຸປະກອນ ແລະຕົວແທນຜູ້ໃຊ້, ແຖວບູລິມະສິດສຳລັບປະສິດທິພາບການລວບລວມຂໍ້ມູນ, ເຊື່ອຟັງ robots.txt ແລະອື່ນໆອີກ. ຕົວກວາດເວັບແບບຄົງທີ່ແມ່ນອີງໃສ່ການຮ້ອງຂໍທີ່ງ່າຍດາຍຕໍ່ໄຟລ໌ HTML. ໂດຍທົ່ວໄປແລ້ວພວກມັນໄວ, ແຕ່ລົ້ມເຫລວໃນການຂູດເນື້ອຫາໃນເວລາທີ່ HTML ປ່ຽນແປງແບບເຄື່ອນໄຫວໃນຕົວທ່ອງເວັບ. ຕົວກວາດເວັບແບບໄດນາມິກໂດຍອີງໃສ່ PhantomJS ແລະ Selenium ເຮັດວຽກຢ່າງມະຫັດສະຈັນໃນແອັບພລິເຄຊັນແບບເຄື່ອນໄຫວດັ່ງກ່າວ. ຢ່າງໃດກໍຕາມ, ຜູ້ຮັກສາຂອງ PhantomJS ໄດ້ເລື່ອນລົງແລະແນະນໍາໃຫ້ປ່ຽນເປັນ Headless Chrome, ເຊິ່ງໄວແລະມີຄວາມຫມັ້ນຄົງ. ຕົວກວາດເວັບນີ້ແມ່ນແບບເຄື່ອນໄຫວ ແລະອີງໃສ່ Headless Chrome.
ຄຸນລັກສະນະ
- ການລວບລວມຂໍ້ມູນທີ່ແຈກຢາຍ
- ຕັ້ງຄ່າຄວາມສອດຄ່ອງ, ຊັກຊ້າ ແລະລອງໃໝ່ອີກ
- ການເກັບຮັກສາ cache ທີ່ສາມາດສຽບໄດ້ເຊັ່ນ Redis
- ສະຫນັບສະຫນູນ CSV ແລະ JSON Lines ສໍາລັບຜົນໄດ້ຮັບການສົ່ງອອກ
- ຢຸດຊົ່ວຄາວຕາມການຮ້ອງຂໍສູງສຸດ ແລະສືບຕໍ່ໄດ້ທຸກເວລາ
- ໃສ່ jQuery ອັດຕະໂນມັດສໍາລັບການຂູດ
ພາສາການຂຽນໂປຣແກຣມ
JavaScript
ນີ້ແມ່ນແອັບພລິເຄຊັນທີ່ຍັງສາມາດເອົາມາຈາກ https://sourceforge.net/projects/headless-chrome-crawler.mirror/. ມັນໄດ້ຖືກຈັດຢູ່ໃນ OnWorks ເພື່ອໃຫ້ດໍາເນີນການອອນໄລນ໌ໃນວິທີທີ່ງ່າຍທີ່ສຸດຈາກຫນຶ່ງໃນລະບົບປະຕິບັດງານຟຣີຂອງພວກເຮົາ.