linkchecker - En ligne dans le Cloud

Il s'agit du linkchecker de commande qui peut être exécuté dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos nombreux postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS.

PROGRAMME:

Nom


linkchecker - client en ligne de commande pour vérifier les documents HTML et les sites Web à la recherche de liens rompus

SYNOPSIS


vérificateur de liens [Options] [fichier-ou-url] ...

DESCRIPTION


Fonctionnalités de LinkChecker

· vérification récursive et multithread,

· sortie en texte coloré ou normal, HTML, SQL, CSV, XML ou un graphique de plan de site dans
différents formats,

· prise en charge de HTTP/1.1, HTTPS, FTP, mailto:, news:, nntp:, Telnet et fichiers locaux
liens,

· restriction de la vérification des liens avec les filtres d'URL,

· prise en charge du proxy,

· autorisation par nom d'utilisateur/mot de passe pour HTTP, FTP et Telnet,

· prise en charge du protocole d'exclusion robots.txt,

· prise en charge des cookies

· prise en charge de HTML5

· Vérification de la syntaxe HTML et CSS

· Vérification antivirus

· une ligne de commande, une interface graphique et une interface Web

EXEMPLES


L'utilisation la plus courante vérifie le domaine donné de manière récursive :
vérificateur de liens http://www.example.com/
Attention, cette vérification porte sur l'ensemble du site, qui peut contenir des milliers d'URL. Utilisez le -r
option pour restreindre la profondeur de récursivité.
Ne vérifiez pas les URL avec /secrète dans son nom. Tous les autres liens sont vérifiés comme d'habitude :
vérificateur de liens --ignore-url=/secret monsite.exemple.com
Vérification d'un fichier HTML local sous Unix :
vérificateur de liens ../bla.html
Vérification d'un fichier HTML local sous Windows :
vérificateur de liens c:\temp\test.html
Vous pouvez ignorer le http:// partie url si le domaine commence par www.:
vérificateur de liens www.example.com
Vous pouvez ignorer le ftp:// partie url si le domaine commence par ftp.:
vérificateur de liens -r0 ftp.exemple.com
Générez un graphique de plan de site et convertissez-le avec l'utilitaire graphviz dot :
vérificateur de liens -odot -v www.example.com | point -Tps > plan du site.ps

OPTIONS


Général Options
-fNOM DE FICHIER, --config=NOM DE FICHIER
Utilisez le NOM DE FICHIER comme fichier de configuration. Par défaut, LinkChecker utilise
~/.linkchecker/linkcheckerrc.

-h, --Aidez-moi
Aidez-moi ! Imprimez les informations d'utilisation de ce programme.

--stdin
Lisez la liste des URL séparées par des espaces blancs à vérifier à partir de stdin.

-tNUMÉRO, --threads=NUMÉRO
Ne pas générer plus de threads que le nombre indiqué. Le nombre de threads par défaut est
100. Pour désactiver le threading, spécifiez un nombre non positif.

-V, --version
Version imprimable et sortie.

--list-plugins
Imprimez les plugins de vérification disponibles et quittez.

Sortie Options
-DSTRING, --debug=STRING
Afficher la sortie de débogage pour l'enregistreur donné. Les enregistreurs disponibles sont : cmdline,
vérification, cachette, gui, dns et tous. En précisant tous est un alias pour spécifier tous
loggers disponibles. L'option peut être donnée plusieurs fois pour déboguer avec plus de
Un enregistreur. Pour des résultats précis, le threading sera désactivé lors des exécutions de débogage.

-FTYPE[/CODAGE][/NOM DE FICHIER], --file-output=TYPE[/CODAGE][/NOM DE FICHIER]
Sortie dans un fichier vérificateur de liens.TYPE, $HOME/.linkchecker/liste noire pour liste noire
sortie, ou NOM DE FICHIER si spécifié. Le CODAGE spécifie l'encodage de sortie, le
La valeur par défaut est celle de votre langue. Les encodages valides sont listés à l'adresse
http://docs.python.org/library/codecs.html#encodages-standard.
Le NOM DE FICHIER et CODAGE les parties de la aucun le type de sortie sera ignoré, sinon
Le fichier existe déjà ; il sera écrasé. Vous pouvez spécifier cette option plus en détail.
plus d'une fois. Les types de sortie de fichier valides sont texte, html, sql, csv, Gml, point, xml,
plan du site, aucun or liste noirePar défaut, aucun fichier n'est généré. Les différents types de sortie
sont documentées ci-dessous. Notez que vous pouvez supprimer toutes les sorties de la console avec l'option
-o aucun.

--pas de statut
N'imprimez pas les messages d'état des chèques.

--pas d'avertissements
Ne pas enregistrer les avertissements. Les avertissements sont enregistrés par défaut.

-oTYPE[/CODAGE], --sortie=TYPE[/CODAGE]
Spécifiez le type de sortie comme texte, html, sql, csv, Gml, point, xml, plan du site, aucun or
liste noire. Le type par défaut est texteLes différents types de sortie sont documentés ci-dessous.
Le CODAGE spécifie l'encodage de sortie, la valeur par défaut est celle de vos paramètres régionaux.
Les codages valides sont répertoriés à http://docs.python.org/library/codecs.html#standard-
encodages.

-q, --silencieux
Fonctionnement silencieux, un alias pour -o aucun. Ceci n'est utile qu'avec -F.

-v, --verbeux
Enregistrer toutes les URL vérifiées. Par défaut, seules les erreurs et les avertissements sont enregistrés.

-WREGEX, --avertissement-regex=REGEX
Définissez une expression régulière qui imprime un avertissement si elle correspond à un contenu de l'
Lien vérifié. Ceci s'applique uniquement aux pages valides, afin que nous puissions obtenir leur contenu.
Utilisez ceci pour vérifier les pages qui contiennent une forme d'erreur, par exemple « Cette page
a été déplacé" ou "Erreur d'application Oracle".
Notez que plusieurs valeurs peuvent être combinées dans l'expression régulière, par exemple
"(Cette page a été déplacée | Erreur d'application Oracle)".
Voir section ORDINAIRE EXPRESSIONS pour plus d'informations.

Vérification Options
--cookiefile=NOM DE FICHIER
Lire un fichier contenant les données initiales du cookie. Le format des données du cookie est expliqué ci-dessous.

--vérifier-externe
Vérifiez les URL externes.

--ignore-url=REGEX
Les URL correspondant à l'expression régulière donnée seront ignorées et non vérifiées.
Cette option peut être donnée plusieurs fois.
Voir section ORDINAIRE EXPRESSIONS pour plus d'informations.

-NSTRING, --nntp-server=STRING
Spécifiez un serveur NNTP pour nouvelles: liens. La valeur par défaut est la variable d'environnement
SERVEUR_NNTP. Si aucun hôte n'est donné, seule la syntaxe du lien est vérifiée.

--no-follow-url=REGEX
Vérifiez mais ne récurez pas dans les URL correspondant à l'expression régulière donnée.
Cette option peut être donnée plusieurs fois.
Voir section ORDINAIRE EXPRESSIONS pour plus d'informations.

-p, --le mot de passe
Lire un mot de passe depuis la console et l'utiliser pour les autorisations HTTP et FTP. Pour FTP
le mot de passe par défaut est anonyme@Pour HTTP, il n'existe pas de mot de passe par défaut. Voir aussi
-u.

-rNUMÉRO, --recursivité-niveau=NUMÉRO
Vérifie récursivement tous les liens jusqu'à une profondeur donnée. Une profondeur négative activera
Récursivité infinie. La profondeur par défaut est infinie.

--timeout=NUMÉRO
Définissez le délai d'expiration des tentatives de connexion en secondes. Le délai par défaut est de 60 secondes.
secondes.

-uSTRING, --utilisateur=STRING
Essayez le nom d'utilisateur fourni pour les autorisations HTTP et FTP. Pour FTP, le nom d'utilisateur par défaut
le nom d'utilisateur est anonymePour HTTP, il n'y a pas de nom d'utilisateur par défaut. Voir aussi -p.

--user-agent=STRING
Spécifiez la chaîne User-Agent à envoyer au serveur HTTP, par exemple
« Mozilla/4.0 ». La valeur par défaut est « LinkChecker/XY », où XY correspond à la version actuelle de
Vérificateur de liens.

CONFIGURATION DES DOSSIERS


Les fichiers de configuration peuvent spécifier toutes les options ci-dessus. Ils peuvent également spécifier certaines options qui
ne peut pas être défini sur la ligne de commande. Voir vérificateur de liensrc(5) pour plus d'informations.

SORTIE TYPES


Notez que par défaut, seules les erreurs et les avertissements sont enregistrés. Vous devez utiliser l'option --verbeux
option permettant d'obtenir la liste complète des URL, notamment lors de la sortie d'un format graphique de plan de site.

texte Enregistreur de texte standard, enregistrement des URL dans le mode mot-clé : argument.

html URL du journal en mode argument, formatées en HTML. Contient également des liens.
vers les pages référencées. Les URL invalides contiennent des liens de vérification de syntaxe HTML et CSS.
ajouté

csv Résultat de la vérification du journal au format CSV avec une URL par ligne.

Gml Enregistrez les relations parent-enfant entre les URL liées sous forme de graphique de plan de site GML.

point Enregistrez les relations parent-enfant entre les URL liées sous forme de graphique de plan de site DOT.

gxml Enregistrez le résultat de la vérification sous forme de graphique de plan de site GraphXML.

xml Enregistrez le résultat de la vérification sous forme de XML lisible par machine.

plan du site
Résultat de la vérification du journal sous forme de plan de site XML dont le protocole est documenté à
http://www.sitemaps.org/protocol.html.

sql Enregistrer le résultat de la vérification sous forme de script SQL avec des commandes INSERT. Exemple de script à créer.
la table SQL initiale est incluse sous le nom create.sql.

liste noire
Adapté aux tâches cron. Enregistre le résultat de la vérification dans un fichier. ~/.linkchecker/liste noire
qui contient uniquement les entrées avec des URL non valides et le nombre de fois qu'elles ont
échoué.

aucun N'enregistre rien. Convient au débogage ou à la vérification du code de sortie.

ORDINAIRE EXPRESSIONS


LinkChecker accepte les expressions régulières Python. Voir http://docs.python.org/
comment/regex.html pour une introduction.

Un ajout est qu'un point d'exclamation initial annule l'expression régulière.

COOKIE DES DOSSIERS


Un fichier cookie contient des données d'en-tête HTTP standard (RFC 2616) avec les éléments possibles suivants
des noms:

Hôte (Obligatoire)
Définit le domaine pour lequel les cookies sont valides.

Chemin (Optionnel)
Donne le chemin pour lequel les cookies sont utilisés ; le chemin par défaut est /.

Set-cookie (Obligatoire)
Définir le nom/la valeur du cookie. Peut être spécifié plusieurs fois.

Les entrées multiples sont séparées par une ligne vide. L'exemple ci-dessous envoie deux cookies.
à toutes les URL commençant par http://example.com/hello/ et une pour toutes les URL commençant par
https://example.org/:

Hébergeur : example.com
Chemin : /hello
Set-cookie : ID="smee"
Set-cookie : spam="egg"

Hébergeur : example.org
Set-cookie : baggage="elitist"; comment="hologram"

PROCURATION SUPPORT


Pour utiliser un proxy sous Unix ou Windows, définissez $http_proxy, $https_proxy ou $ftp_proxy
variables d'environnement à l'URL du proxy. L'URL doit être de la forme
http://[utilisateur:pass@]hôte[:port]. LinkChecker détecte également les paramètres proxy manuels de
Internet Explorer sous Windows, et gconf ou KDE sous Linux. Sur Mac, utilisez
la configuration Internet pour sélectionner un proxy. Vous pouvez également définir une liste de domaines séparés par des virgules dans
les variables d'environnement $no_proxy pour ignorer tous les paramètres proxy pour ces domaines.
La configuration d’un proxy HTTP sur Unix par exemple ressemble à ceci :

exporter http_proxy="http://proxy.example.com:8080"

L'authentification proxy est également prise en charge :

exporter http_proxy="http://user1:mypass@proxy.example.org:8081"

Définition d’un proxy sur l’invite de commande Windows :

définir http_proxy=http://proxy.example.com: 8080

EFFECTUÉ Chèques


Toutes les URL doivent passer un test de syntaxe préliminaire. Des erreurs de citation mineures entraîneront une
Attention, tous les autres problèmes de syntaxe invalides sont des erreurs. Une fois la vérification de syntaxe réussie, le
L'URL est mise en file d'attente pour vérification de connexion. Tous les types de vérification de connexion sont décrits ci-dessous.

Liens HTTP (http:, https:)
Après la connexion au serveur HTTP indiqué, le chemin ou la requête indiqué est demandé. Tous
les redirections sont suivies, et si l'utilisateur/mot de passe est donné, il sera utilisé comme
autorisation si nécessaire. Tous les codes d'état HTTP finaux autres que 2xx sont
erreurs. Le contenu de la page HTML est vérifié pour la récursivité.

Fichiers locaux (fichier:)
Un fichier normal, lisible et ouvrable est valide. Un répertoire lisible est également valide.
valide. Tous les autres fichiers, par exemple les fichiers de périphérique, les fichiers illisibles ou inexistants
sont des erreurs. Le contenu des fichiers HTML ou autres fichiers analysables est vérifié pour la récursivité.

Liens de messagerie (mailto:)
Un lien mailto: renvoie finalement vers une liste d'adresses e-mail. Si une adresse
Si l'adresse e-mail échoue, la liste entière échouera. Pour chaque adresse e-mail, nous vérifions les éléments suivants :
des choses:
1) Vérifiez la syntaxe de l'adresse, à la fois de la partie avant et après
le signe @.
2) Recherchez les enregistrements DNS MX. Si nous n'en trouvons aucun,
imprimer une erreur.
3) Vérifiez si l’un des hôtes de messagerie accepte une connexion SMTP.
Vérifiez d’abord les hôtes avec une priorité plus élevée.
Si aucun hôte n'accepte SMTP, nous imprimons un avertissement.
4) Essayez de vérifier l'adresse avec la commande VRFY. Si nous obtenons
une réponse, imprimez l'adresse vérifiée en tant qu'information.

Liens FTP (ftp :)

Pour les liens FTP nous faisons :

1) se connecter à l'hôte spécifié
2) Essayez de vous connecter avec l'utilisateur et le mot de passe fournis. La valeur par défaut
l'utilisateur est « anonyme », le mot de passe par défaut est « anonymous@ ».
3) essayez de changer de répertoire
4) répertoriez le fichier avec la commande NLST

Liens Telnet (``telnet:``)

Nous essayons de nous connecter et si l'utilisateur/mot de passe est donné, connectez-vous au
serveur telnet donné.

Liens NNTP (``news:``, ``snews:``, ``nntp``)

Nous essayons de nous connecter au serveur NNTP indiqué. Si un groupe de discussion ou
l'article est spécifié, essayez de le demander au serveur.

Liens non pris en charge (``javascript:``, etc.)

Un lien non pris en charge affichera uniquement un avertissement. Aucune vérification supplémentaire n'est requise.
sera faite.

La liste complète des liens reconnus, mais non pris en charge, peut être trouvée
dans le linkcheck/checker/unknownurl.py fichier source.
Les plus importants d’entre eux devraient être les liens JavaScript.

PLUGINS


Il existe deux types de plugins : les plugins de connexion et les plugins de contenu. Les plugins de connexion sont exécutés.
après une connexion réussie à l'hôte de l'URL. Les plugins de contenu sont exécutés si le type d'URL
a du contenu (les URL mailto: n'ont pas de contenu par exemple) et si la vérification n'est pas interdite
(c'est-à-dire par HTTP robots.txt). Voir vérificateur de liens --list-plugins pour une liste de plugins et leurs
documentation. Tous les plugins sont activés via le vérificateur de liensrc(5) fichier de configuration.

RECURSION


Avant de descendre récursivement dans une URL, il faut remplir plusieurs conditions. Elles sont
vérifié dans cet ordre :

1. Une URL doit être valide.

2. Une URL doit être analysable. Cela inclut actuellement les fichiers HTML.
Opera marque les fichiers et les répertoires par signet. Si un type de fichier ne peut pas
être déterminé (par exemple, il n'a pas de fichier HTML commun
extension, et le contenu ne ressemble pas à du HTML), on suppose
être non analysable.

3. Le contenu de l'URL doit être récupérable. C'est généralement le cas.
sauf par exemple mailto: ou les types d'URL inconnus.

4. Le niveau de récursivité maximal ne doit pas être dépassé. Il est configuré.
grâce à la fonction --niveau de récursivité option et est illimité par défaut.

5. Elle ne doit pas correspondre à la liste d'URL ignorées. Ceci est contrôlé par
le --ignore-url option.

6. Le protocole d'exclusion des robots doit permettre aux liens dans l'URL d'être
suivi récursivement. Ceci est vérifié en recherchant un
Directive « nofollow » dans les données d'en-tête HTML.

Notez que la récursivité du répertoire lit tous les fichiers de ce répertoire, pas seulement un sous-ensemble
comme index.htm*.

NOTES


URL sur la ligne de commande commençant par ftp. sont traités comme ftp://ftp., URL commençant par
www. sont traités comme http://www.. Vous pouvez également fournir des fichiers locaux comme arguments.

Si votre système est configuré pour établir automatiquement une connexion à Internet
(par exemple avec diald), il se connectera lors de la vérification des liens ne pointant pas vers votre hôte local.
Utilisez l'option --ignore-url option pour empêcher cela.

Les liens Javascript ne sont pas pris en charge.

Si votre plateforme ne prend pas en charge le threading, LinkChecker le désactive automatiquement.

Vous pouvez fournir plusieurs paires utilisateur/mot de passe dans un fichier de configuration.

Lors de la vérification nouvelles: les liens de l'hôte NNTP donné n'ont pas besoin d'être identiques à l'hôte de
l'utilisateur qui navigue sur vos pages.

ENVIRONNEMENT


SERVEUR_NNTP - spécifie le serveur NNTP par défaut
http proxy - spécifie le serveur proxy HTTP par défaut
proxy_ftp - spécifie le serveur proxy FTP par défaut
no_proxy - liste séparée par des virgules de domaines à ne pas contacter via un serveur proxy
LC_MESSAGES, LANGUE, LANGUAGE - spécifier la langue de sortie

RETOUR VALEURE


La valeur de retour est 2 lorsque

· une erreur de programme s'est produite.

La valeur de retour est 1 lorsque

· des liens non valides ont été trouvés ou

· des avertissements de lien ont été trouvés et les avertissements sont activés

Sinon, la valeur de retour est zéro.

LIMITATIONS


LinkChecker consomme de la mémoire pour chaque URL en file d'attente à vérifier. Avec des milliers d'URL en file d'attente,
la quantité de mémoire consommée peut devenir assez importante. Cela peut ralentir le programme ou
même l'ensemble du système.

Utilisez Linkchecker en ligne avec les services onworks.net



Derniers programmes en ligne Linux et Windows