linkchecker - Online na nuvem

Este é o verificador de link de comando que pode ser executado no provedor de hospedagem gratuita OnWorks usando uma de nossas várias estações de trabalho online gratuitas, como Ubuntu Online, Fedora Online, emulador Windows online ou emulador MAC OS online

PROGRAMA:

NOME


linkchecker - cliente de linha de comando para verificar documentos HTML e sites em busca de links quebrados

SINOPSE


verificador de links [opções] [arquivo-ou-url] ...

DESCRIÇÃO


Recursos do LinkChecker

· Verificação recursiva e multithread,

· Saída em texto colorido ou normal, HTML, SQL, CSV, XML ou um gráfico de mapa de site em
formatos diferentes,

· Suporte para HTTP / 1.1, HTTPS, FTP, mailto :, news :, nntp :, Telnet e arquivo local
links,

· Restrição de verificação de link com filtros de URL,

· Suporte de proxy,

· Autorização de nome de usuário / senha para HTTP, FTP e Telnet,

· Suporte para protocolo de exclusão de robots.txt,

· Suporte para Cookies

· Suporte para HTML5

· Verificação de sintaxe HTML e CSS

· Verificação de antivírus

· Uma linha de comando, GUI e interface da web

EXEMPLOS


O uso mais comum verifica o domínio determinado recursivamente:
verificador de links http://www.example.com/
Esteja ciente de que isso verifica todo o site, que pode ter milhares de URLs. Use o -r
opção para restringir a profundidade de recursão.
Não verifique URLs com /segredo em seu nome. Todos os outros links são verificados como de costume:
verificador de links --ignore-url = / secret meusite.exemplo.com
Verificando um arquivo HTML local no Unix:
verificador de links ../bla.html
Verificando um arquivo HTML local no Windows:
verificador de links c: \ temp \ test.html
Você pode pular o http:// parte do url se o domínio começar com www.:
verificador de links www.example.com
Você pode pular o ftp:// parte do url se o domínio começar com FTP.:
verificador de links -r0 ftp.exemplo.com
Gere um gráfico de mapa do site e converta-o com o utilitário graphviz dot:
verificador de links -ponto -v www.example.com | ponto -Tps > mapa do site.ps

OPÇÕES


Geral opções
-fNOME DO ARQUIVO, --config =NOME DO ARQUIVO
Uso NOME DO ARQUIVO como arquivo de configuração. Como padrão, o LinkChecker usa
~ / .linkchecker / linkcheckerrc.

-h, --Socorro
Ajude-me! Imprima informações de uso para este programa.

--stdin
Leia a lista de URLs separados por espaços em branco para verificar no stdin.

-tNÚMERO, --threads =NÚMERO
Não gere mais do que o número determinado de threads. O número padrão de tópicos é
100. Para desativar o threading, especifique um número não positivo.

-V, --versão
Versão para impressão e saída.

--list-plugins
Imprima os plug-ins de verificação disponíveis e saia.

saída opções
-DSTRING, --debug =STRING
Imprime a saída de depuração para o logger fornecido. Loggers disponíveis são cmdline,
a verificação, esconderijo, gui, dns e todos os. Especificando todos os é um alias para especificar todos
loggers disponíveis. A opção pode ser fornecida várias vezes para depurar com mais de
um logger. Para resultados precisos, o threading será desabilitado durante as execuções de depuração.

-FTIPO[/CODIFICAÇÃO][/NOME DO ARQUIVO], --file-output =TIPO[/CODIFICAÇÃO][/NOME DO ARQUIVO]
Saída para um arquivo linkchecker-out.TIPO, $ HOME / .linkchecker / lista negra for lista negra
saída, ou NOME DO ARQUIVO se especificado. o CODIFICAÇÃO especifica a codificação de saída, o
o padrão é o de sua localidade. As codificações válidas estão listadas em
http://docs.python.org/library/codecs.html# codificações padrão.
O NOME DO ARQUIVO e CODIFICAÇÃO partes de Nenhum tipo de saída será ignorado, caso contrário, se
o arquivo já existe, ele será sobrescrito. Você pode especificar esta opção mais
que uma vez. Os tipos de saída de arquivo válidos são texto, html, sql, csv, Gml, ponto, xml,
Mapa do Site, Nenhum or lista negra. O padrão é nenhuma saída de arquivo. Os vários tipos de saída
estão documentados abaixo. Observe que você pode suprimir todas as saídas do console com a opção
-o Nenhum.

--sem status
Não imprima mensagens de status de verificação.

--sem avisos
Não registre avisos. O padrão é registrar avisos.

-oTIPO[/CODIFICAÇÃO], --output =TIPO[/CODIFICAÇÃO]
Especifique o tipo de saída como texto, html, sql, csv, Gml, ponto, xml, Mapa do Site, Nenhum or
lista negra. O tipo padrão é texto. Os vários tipos de saída estão documentados a seguir.
O CODIFICAÇÃO especifica a codificação de saída, o padrão é o da sua localidade.
As codificações válidas estão listadas em http://docs.python.org/library/codecs.html#padrão-
codificações.

-q, --quieto
Operação silenciosa, um apelido para -o Nenhum. Isso só é útil com -F.

-v, --verbose
Registrar todos os URLs verificados. O padrão é registrar apenas erros e avisos.

-WREGEX, --warning-regex =REGEX
Defina uma expressão regular que imprima um aviso se corresponder a qualquer conteúdo do
link verificado. Isso se aplica apenas a páginas válidas, para que possamos obter seu conteúdo.
Use para verificar se há páginas que contêm algum tipo de erro, por exemplo "Esta página
moveu "ou" Erro de aplicativo Oracle ".
Observe que vários valores podem ser combinados na expressão regular, por exemplo
"(Esta página foi movida | Erro de aplicativo Oracle)".
Veja a seção REGULAR EXPRESSÕES para mais informações.

Checagem opções
--cookiefile =NOME DO ARQUIVO
Leia um arquivo com os dados iniciais do cookie. O formato dos dados do cookie é explicado abaixo.

--check-externo
Verifique os URLs externos.

--ignore-url =REGEX
Os URLs correspondentes à expressão regular fornecida serão ignorados e não verificados.
Esta opção pode ser fornecida várias vezes.
Veja a seção REGULAR EXPRESSÕES para mais informações.

-NSTRING, --nntp-server =STRING
Especifique um servidor NNTP para notícia: links. O padrão é a variável de ambiente
NNTP_SERVER. Se nenhum host for fornecido, apenas a sintaxe do link será verificada.

--no-follow-url =REGEX
Verifique, mas não recurse em URLs que correspondam à expressão regular fornecida.
Esta opção pode ser fornecida várias vezes.
Veja a seção REGULAR EXPRESSÕES para mais informações.

-p, --senha
Leia uma senha do console e use-a para autorização HTTP e FTP. Para FTP
a senha padrão é anônimo@. Para HTTP, não há senha padrão. Veja também
-u.

-rNÚMERO, --recursion-level =NÚMERO
Verifique recursivamente todos os links até determinada profundidade. Uma profundidade negativa irá permitir
recursão infinita. A profundidade padrão é infinita.

--timeout =NÚMERO
Defina o tempo limite para tentativas de conexão em segundos. O tempo limite padrão é 60
segundos.

-uSTRING, --user =STRING
Experimente o nome de usuário fornecido para autorização de HTTP e FTP. Para FTP o padrão
nome de usuário é anônimo. Para HTTP, não há nome de usuário padrão. Veja também -p.

--user-agent =STRING
Especifique a string User-Agent para enviar ao servidor HTTP, por exemplo
"Mozilla / 4.0". O padrão é "LinkChecker / XY", onde XY é a versão atual do
Verificador de links.

CONFIGURAÇÃO ARQUIVOS


Os arquivos de configuração podem especificar todas as opções acima. Eles também podem especificar algumas opções que
não pode ser definido na linha de comando. Ver linkcheckerrc(5) para mais informações.

SAÍDA TIPOS


Observe que, por padrão, apenas erros e avisos são registrados. Você deve usar o --verbose
opção para obter a lista completa de URLs, especialmente ao gerar um formato de gráfico de mapa de site.

texto Logger de texto padrão, registrando URLs em palavras-chave: forma de argumento.

html URLs de log em palavras-chave: forma de argumento, formatado como HTML. Adicionalmente possui links
para as páginas referenciadas. URLs inválidos têm links de verificação de sintaxe HTML e CSS
anexado.

csv Resultado da verificação de log no formato CSV com um URL por linha.

Gml Registre as relações pai-filho entre URLs vinculados como um gráfico de mapa do site GML.

ponto Registre as relações pai-filho entre URLs vinculados como um gráfico de mapa do site DOT.

gxml Resultado da verificação de log como um gráfico de mapa do site GraphXML.

xml Resultado da verificação de log como XML legível por máquina.

Mapa do Site
Resultado da verificação de log como um mapa do site XML cujo protocolo está documentado em
http://www.sitemaps.org/protocol.html.

sql Resultado da verificação de log como script SQL com comandos INSERT. Um exemplo de script para criar
a tabela SQL inicial é incluída como create.sql.

lista negra
Adequado para tarefas cron. Registra o resultado da verificação em um arquivo ~ / .linkchecker / lista negra
que contém apenas entradas com URLs inválidos e o número de vezes que eles
falhou.

Nenhum Não registra nada. Adequado para depurar ou verificar o código de saída.

REGULAR EXPRESSÕES


LinkChecker aceita expressões regulares Python. Ver http://docs.python.org/
howto / regex.html para uma introdução.

Uma adição é que um ponto de exclamação à esquerda nega a expressão regular.

BOLINHO ARQUIVOS


Um arquivo de cookie contém dados de cabeçalho HTTP padrão (RFC 2616) com o seguinte
nomes:

Proprietário (requerido)
Define o domínio para o qual os cookies são válidos.

Caminho (Opcional)
Fornece o caminho para o qual os cookies têm valor; caminho padrão é /.

Definir cookie (requerido)
Defina o nome / valor do cookie. Pode ser administrado mais de uma vez.

Várias entradas são separadas por uma linha em branco. O exemplo abaixo irá enviar dois cookies
para todos os URLs começando com http://example.com/hello/ e um para todos os URLs começando com
https://example.org/:

Anfitrião: example.com
Caminho: / hello
Set-cookie: ID = "smee"
Set-cookie: spam = "ovo"

Anfitrião: exemplo.org
Set-cookie: baggage = "elitista"; comentário = "holograma"

PROXY SUPPORT


Para usar um proxy no Unix ou Windows, defina $ http_proxy, $ https_proxy ou $ ftp_proxy
variáveis ​​de ambiente para o URL do proxy. O URL deve estar no formato
http://[usuário:passar@]hospedeiro[:porta] LinkChecker também detecta configurações de proxy manuais de
Internet Explorer em sistemas Windows e gconf ou KDE em sistemas Linux. Em um uso Mac
a configuração da Internet para selecionar um proxy. Você também pode definir uma lista de domínios separados por vírgulas em
as variáveis ​​de ambiente $ no_proxy para ignorar quaisquer configurações de proxy para esses domínios.
A configuração de um proxy HTTP no Unix, por exemplo, é assim:

export http_proxy = "http://proxy.example.com: 8080 "

A autenticação de proxy também é compatível:

export http_proxy = "http://user1:minhapass@proxy.example.org: 8081 "

Configurando um proxy no prompt de comando do Windows:

definir http_proxy =http://proxy.example.com: 8080

REALIZADA VERIFICAÇÕES


Todos os URLs devem passar por um teste preliminar de sintaxe. Pequenos erros de citação irão emitir um
aviso, todos os outros problemas de sintaxe inválida são erros. Depois que a verificação de sintaxe é aprovada, o
O URL está na fila para verificação de conexão. Todos os tipos de verificação de conexão são descritos abaixo.

Links HTTP (http:, https:)
Depois de conectar-se a um determinado servidor HTTP, o caminho ou consulta fornecidos são solicitados. Tudo
redirecionamentos são seguidos, e se usuário / senha for fornecido, será usado como
autorização quando necessário. Todos os códigos de status HTTP finais diferentes de 2xx são
erros. O conteúdo da página HTML é verificado quanto à recursividade.

Ficheiros locais (arquivo:)
Um arquivo regular legível que pode ser aberto é válido. Um diretório legível também é
válido. Todos os outros arquivos, por exemplo, arquivos de dispositivo, arquivos ilegíveis ou inexistentes
são erros. HTML ou outro conteúdo de arquivo analisável é verificado para recursão.

Links de correio (mailto:)
Um link mailto: eventualmente resulta em uma lista de endereços de e-mail. Se um endereço
falhar, toda a lista falhará. Para cada endereço de correio, verificamos o seguinte
coisas:
1) Verifique a sintaxe do endereço, tanto da parte antes como depois
o sinal.
2) Procure os registros MX DNS. Se não encontramos nenhum registro MX,
imprimir um erro.
3) Verifique se um dos hosts de e-mail aceita uma conexão SMTP.
Verifique os hosts com prioridade mais alta primeiro.
Se nenhum host aceita SMTP, imprimimos um aviso.
4) Tente verificar o endereço com o comando VRFY. Se tivermos
uma resposta, imprima o endereço verificado como uma informação.

Links de FTP (FTP:)

Para links de FTP, fazemos:

1) conectar ao host especificado
2) tente fazer o login com o usuário e senha fornecidos. O padrão
usuário é `` anônimo``, a senha padrão é `` anônimo @ ``.
3) tente mudar para o diretório fornecido
4) liste o arquivo com o comando NLST

Links Telnet (`` telnet: ``)

Tentamos conectar e se o usuário / senha forem fornecidos, faça o login no
determinado servidor telnet.

Links NNTP (`` news: ``, `` snews: ``, `` nntp``)

Tentamos conectar ao servidor NNTP fornecido. Se um grupo de notícias ou
artigo for especificado, tente solicitá-lo do servidor.

Links não suportados (`` javascript: ``, etc.)

Um link não suportado imprimirá apenas um aviso. Nenhuma verificação adicional
será feito.

A lista completa de links reconhecidos, mas não suportados pode ser encontrada
no linkcheck / checker / unknownurl.py arquivo fonte.
O mais proeminente deles deve ser links JavaScript.

PLUGINS


Existem dois tipos de plug-ins: plug-ins de conexão e de conteúdo. Plugins de conexão são executados
após uma conexão bem-sucedida com o host URL. Os plug-ins de conteúdo são executados se o tipo de URL
tem conteúdo (mailto: URLs não têm conteúdo, por exemplo) e se a verificação não é proibida
(ou seja, por HTTP robots.txt). Ver verificador de links --list-plugins para obter uma lista de plug-ins e seus
documentação. Todos os plug-ins são ativados por meio do linkcheckerrc(5) arquivo de configuração.

RECURSÃO


Antes de descer recursivamente em um URL, ele deve cumprir várias condições. Eles são
verificado nesta ordem:

1. Um URL deve ser válido.

2. Um URL deve ser analisável. Isso atualmente inclui arquivos HTML,
O Opera adiciona arquivos e diretórios aos favoritos. Se um tipo de arquivo não pode
ser determinado (por exemplo, não tem um arquivo HTML comum
extensão, e o conteúdo não se parece com HTML), presume-se
para ser não analisável.

3. O conteúdo do URL deve ser recuperável. Geralmente é o caso
exceto por exemplo mailto: ou tipos de URL desconhecidos.

4. O nível máximo de recursão não deve ser excedido. Está configurado
com o --nível de recursão opção e é ilimitado por padrão.

5. Não deve corresponder à lista de URLs ignorados. Isso é controlado com
da --ignore-url opção.

6. O protocolo de exclusão de robôs deve permitir que os links na URL sejam
seguido recursivamente. Isso é verificado procurando por um
Diretiva "nofollow" nos dados do cabeçalho HTML.

Observe que a recursão do diretório lê todos os arquivos desse diretório, não apenas um subconjunto
como index.htm *.

NOTAS


URLs na linha de comando começando com FTP. são tratados como ftp: // ftp., URLs começando com
www. são tratados como http://www.. Você também pode fornecer arquivos locais como argumentos.

Se você tiver seu sistema configurado para estabelecer automaticamente uma conexão com a internet
(por exemplo, com diald), ele se conectará ao verificar links que não apontam para seu host local.
Use o --ignore-url opção para evitar isso.

Links Javascript não são suportados.

Se sua plataforma não suporta threading, o LinkChecker o desativa automaticamente.

Você pode fornecer vários pares de usuário / senha em um arquivo de configuração.

Ao verificar notícia: links que o host NNTP fornecido não precisa ser o mesmo que o host de
o usuário navegando em suas páginas.

MEIO AMBIENTE


NNTP_SERVER - especifica o servidor NNTP padrão
proxy HTTP - especifica o servidor proxy HTTP padrão
ftp_proxy - especifica o servidor proxy FTP padrão
sem_proxy - lista separada por vírgulas de domínios que não devem ser contatados por meio de um servidor proxy
LC_MESSAGES, GRANDE, IDIOMA - especificar o idioma de saída

RETORNO VALOR


O valor de retorno é 2 quando

· Ocorreu um erro de programa.

O valor de retorno é 1 quando

· Links inválidos foram encontrados ou

· Avisos de link foram encontrados e os avisos estão habilitados

Caso contrário, o valor de retorno é zero.

LIMITAÇÕES


LinkChecker consome memória para cada URL na fila para verificar. Com milhares de URLs enfileirados
a quantidade de memória consumida pode se tornar muito grande. Isso pode desacelerar o programa ou
até mesmo todo o sistema.

Use o linkchecker online usando os serviços onworks.net



Programas online mais recentes para Linux e Windows