GoGPT Best VPN GoSearch

favicon do OnWorks

download crawler4j para Linux

Baixe o aplicativo Linux crawler4j grátis para rodar online no Ubuntu online, Fedora online ou Debian online

Este é o aplicativo Linux chamado crawler4j cuja versão mais recente pode ser baixada como 4.4.0.zip. Ele pode ser executado online no provedor de hospedagem gratuito OnWorks para estações de trabalho.

Baixe e execute online este aplicativo chamado crawler4j com OnWorks gratuitamente.

Siga estas instruções para executar este aplicativo:

- 1. Baixe este aplicativo em seu PC.

- 2. Entre em nosso gerenciador de arquivos https://www.onworks.net/myfiles.php?username=XXXXX com o nome de usuário que você deseja.

- 3. Carregue este aplicativo em tal gerenciador de arquivos.

- 4. Inicie o emulador OnWorks Linux online ou Windows online ou emulador MACOS online a partir deste site.

- 5. No sistema operacional OnWorks Linux que você acabou de iniciar, acesse nosso gerenciador de arquivos https://www.onworks.net/myfiles.php?username=XXXXX com o nome de usuário que deseja.

- 6. Baixe o aplicativo, instale-o e execute-o.

SCREENSHOTS

Ad


crawler4j


DESCRIÇÃO

crawler4j é um rastreador da Web de código aberto para Java que fornece uma interface simples para rastrear a Web. Usando-o, você pode configurar um rastreador da web multi-thread em poucos minutos. Você precisa criar uma classe de rastreador que estenda o WebCrawler. Essa classe decide quais URLs devem ser rastreados e lida com a página baixada. A função shouldVisit decide se o URL fornecido deve ser rastreado ou não. No exemplo acima, este exemplo não permite .css, .js e arquivos de mídia e permite apenas páginas dentro do domínio ics. A função visit é chamada depois que o conteúdo de uma URL é baixado com sucesso. Você pode obter facilmente o URL, texto, links, html e id exclusivo da página baixada. Você também deve implementar uma classe de controlador que especifique as sementes do rastreamento, a pasta na qual os dados de rastreamento intermediários devem ser armazenados e o número de threads simultâneos.



Recursos

  • Você também deve implementar uma classe de controlador que especifique as sementes do rastreamento, a pasta na qual os dados de rastreamento intermediários devem ser armazenados e o número de threads simultâneos:
  • Por padrão, não há limite na profundidade do rastreamento
  • Você pode habilitar o SSL
  • Ativar rastreamento de conteúdo binário
  • crawler4j é projetado de forma muito eficiente e tem a capacidade de rastrear domínios muito rapidamente
  • A string user-agent é usada para representar seu rastreador para servidores da web


Linguagem de Programação

Java


Categorias

Serviços web

Este é um aplicativo que também pode ser obtido em https://sourceforge.net/projects/crawler4j.mirror/. Ele foi hospedado no OnWorks para ser executado on-line da maneira mais fácil a partir de um de nossos sistemas operacionais gratuitos.


Servidores e estações de trabalho gratuitos

Baixar aplicativos Windows e Linux

Comandos Linux

Ad




×
Anúncios
❤ ️Compre, reserve ou compre aqui — sem custos, ajuda a manter os serviços gratuitos.