Este é o aplicativo Linux chamado crawler4j cuja versão mais recente pode ser baixada como 4.4.0.zip. Ele pode ser executado online no provedor de hospedagem gratuito OnWorks para estações de trabalho.
Baixe e execute online este aplicativo chamado crawler4j com OnWorks gratuitamente.
Siga estas instruções para executar este aplicativo:
- 1. Baixe este aplicativo em seu PC.
- 2. Entre em nosso gerenciador de arquivos https://www.onworks.net/myfiles.php?username=XXXXX com o nome de usuário que você deseja.
- 3. Carregue este aplicativo em tal gerenciador de arquivos.
- 4. Inicie o emulador OnWorks Linux online ou Windows online ou emulador MACOS online a partir deste site.
- 5. No sistema operacional OnWorks Linux que você acabou de iniciar, acesse nosso gerenciador de arquivos https://www.onworks.net/myfiles.php?username=XXXXX com o nome de usuário que deseja.
- 6. Baixe o aplicativo, instale-o e execute-o.
SCREENSHOTS
Ad
crawler4j
DESCRIÇÃO
crawler4j é um rastreador da Web de código aberto para Java que fornece uma interface simples para rastrear a Web. Usando-o, você pode configurar um rastreador da web multi-thread em poucos minutos. Você precisa criar uma classe de rastreador que estenda o WebCrawler. Essa classe decide quais URLs devem ser rastreados e lida com a página baixada. A função shouldVisit decide se o URL fornecido deve ser rastreado ou não. No exemplo acima, este exemplo não permite .css, .js e arquivos de mídia e permite apenas páginas dentro do domínio ics. A função visit é chamada depois que o conteúdo de uma URL é baixado com sucesso. Você pode obter facilmente o URL, texto, links, html e id exclusivo da página baixada. Você também deve implementar uma classe de controlador que especifique as sementes do rastreamento, a pasta na qual os dados de rastreamento intermediários devem ser armazenados e o número de threads simultâneos.
Recursos
- Você também deve implementar uma classe de controlador que especifique as sementes do rastreamento, a pasta na qual os dados de rastreamento intermediários devem ser armazenados e o número de threads simultâneos:
- Por padrão, não há limite na profundidade do rastreamento
- Você pode habilitar o SSL
- Ativar rastreamento de conteúdo binário
- crawler4j é projetado de forma muito eficiente e tem a capacidade de rastrear domínios muito rapidamente
- A string user-agent é usada para representar seu rastreador para servidores da web
Linguagem de Programação
Java
Categorias
Este é um aplicativo que também pode ser obtido em https://sourceforge.net/projects/crawler4j.mirror/. Ele foi hospedado no OnWorks para ser executado on-line da maneira mais fácil a partir de um de nossos sistemas operacionais gratuitos.