Ini ialah apl Linux bernama crawler4j yang keluaran terbarunya boleh dimuat turun sebagai 4.4.0.zip. Ia boleh dijalankan dalam talian dalam penyedia pengehosan percuma OnWorks untuk stesen kerja.
Muat turun dan jalankan dalam talian apl bernama crawler4j ini dengan OnWorks secara percuma.
Ikut arahan ini untuk menjalankan apl ini:
- 1. Memuat turun aplikasi ini dalam PC anda.
- 2. Masukkan dalam pengurus fail kami https://www.onworks.net/myfiles.php?username=XXXXX dengan nama pengguna yang anda mahukan.
- 3. Muat naik aplikasi ini dalam pengurus filem tersebut.
- 4. Mulakan OnWorks Linux dalam talian atau emulator dalam talian Windows atau emulator dalam talian MACOS dari tapak web ini.
- 5. Daripada OS Linux OnWorks yang baru anda mulakan, pergi ke pengurus fail kami https://www.onworks.net/myfiles.php?username=XXXX dengan nama pengguna yang anda mahukan.
- 6. Muat turun aplikasi, pasang dan jalankan.
SKRIN
Ad
crawler4j
DESCRIPTION
crawler4j ialah perangkak web sumber terbuka untuk Java yang menyediakan antara muka mudah untuk merangkak Web. Menggunakannya, anda boleh menyediakan perangkak web berbilang benang dalam beberapa minit. Anda perlu mencipta kelas perangkak yang memanjangkan WebCrawler. Kelas ini menentukan URL yang harus dirangkak dan mengendalikan halaman yang dimuat turun. Fungsi shouldVisit memutuskan sama ada URL yang diberikan harus dirangkak atau tidak. Dalam contoh di atas, contoh ini tidak membenarkan fail .css, .js dan media dan hanya membenarkan halaman dalam domain ics. fungsi lawatan dipanggil selepas kandungan URL berjaya dimuat turun. Anda boleh mendapatkan url, teks, pautan, html dan id unik halaman yang dimuat turun dengan mudah. Anda juga harus melaksanakan kelas pengawal yang menentukan benih rangkak, folder tempat data rangkak perantaraan harus disimpan dan bilangan utas serentak.
Ciri-ciri
- Anda juga harus melaksanakan kelas pengawal yang menentukan benih rangkak, folder tempat data rangkak perantaraan harus disimpan dan bilangan utas serentak:
- Secara lalai tiada had pada kedalaman merangkak
- Anda boleh mendayakan SSL
- Dayakan merangkak kandungan binari
- crawler4j direka dengan sangat cekap dan mempunyai keupayaan untuk merangkak domain dengan sangat pantas
- Rentetan ejen pengguna digunakan untuk mewakili perangkak anda kepada pelayan web
Bahasa Pengaturcaraan
Java
Kategori
Ini adalah aplikasi yang juga boleh diambil dari https://sourceforge.net/projects/crawler4j.mirror/. Ia telah dihoskan dalam OnWorks untuk dijalankan dalam talian dengan cara yang paling mudah daripada salah satu Sistem Operasi percuma kami.