Il s'agit de la commande htdig qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS
PROGRAMME:
Nom
htdig - récupérer des documents HTML pour le moteur de recherche ht://Dig
SYNOPSIS
htdig [choix]
DESCRIPTION
Htdig récupère les documents HTML à l'aide du protocole HTTP et rassemble des informations à partir de ces derniers
documents qui peuvent être utilisés plus tard pour rechercher ces documents. Ce programme peut être référé
en tant que robot de recherche.
OPTIONS
- Obtenez la liste des URL pour commencer l'indexation à partir de l'entrée standard. Cela remplacera le
paramètre par défaut start_url spécifié dans le fichier de configuration et le fichier fourni à
le -m option.
-a Utilisez des fichiers de travail alternatifs. Dit à htdig d'ajouter .travail aux fichiers de base de données, provoquant un
deuxième copie de la base de données à construire. Cela permet d'utiliser les fichiers originaux
par htsearch pendant l'exécution d'indexation.
-c fichier de configuration
Utiliser le spécifié fichier de configuration au lieu de la valeur par défaut.
-h maxhop
Restreindre la fouille aux documents qui sont au plus maxhop liens loin du départ
document. Cela ne fonctionne que si l'option -i est également donnée.
-i Initiale. N'utilisez pas d'anciennes bases de données. Les anciennes bases de données seront effacées avant l'exécution
le programme.
-m nom de fichier
Course minimale. Indexer uniquement les URL données dans le fichier nom de fichier, en ignorant tous les autres.
Les URL du fichier doivent être formatées à raison d'une URL par ligne.
-s Imprimez des statistiques sur la fouille une fois terminée.
-t Créez une version ASCII de la base de données de documents. Cette base de données est facile à analyser
avec d'autres programmes afin que des informations puissent en être extraites à d'autres fins
que de chercher. On pourrait recueillir des statistiques intéressantes à partir de cette base de données.
Nom de domaine Valeur
votre URL
Titre
un état
(0 normal, 1 non trouvé, 2 non indexé, 3 obsolète)
m Heure de la dernière modification signalée par le serveur
s Taille du document en octets
H Extrait du document
h Méta Description
l Heure de la dernière récupération
L Nombre de liens dans le document ou de sortant Gauche
b Nombre de liens vers le document, également appelé
nouveau liens ou backlinks
c Nombre de sauts de ce document
g Signature de ce document
(utilisé pour détecter les doublons)
e Adresse e-mail à utiliser pour une notification de htnotifier
n Date d'envoi de cette notification
S Objet du message de notification
d Le texte des liens entrants pointant vers ce document
(ex. description )
A Ancres dans le document (c'est-à-dire
-u Identifiant Mot de passe
Indique à htdig d'envoyer le nom d'utilisateur et le mot de passe fournis avec chaque requête HTTP. Les
les informations d'identification seront encodées à l'aide du de base Méthode d'authentification. Là HAS à
être un deux-points (:) entre le nom d'utilisateur et le mot de passe.
-v Mode verbeux. Cela augmente la verbosité du programme. Utiliser plus de 2 est
probablement seulement utile à des fins de débogage. Le mode détaillé par défaut (en utilisant uniquement
one -v) donne un bon rapport d'avancement en creusant. Veuillez consulter la rubrique
ci-dessous sur le format exact du rapport d'avancement.
Format OF THE PROGRESS RAPPORT DONNÉ IN VERBEUX MODE
Une ligne est affichée pour chaque URL, avec 3 chiffres avant l'URL et quelques symboles après
l'URL. Le premier nombre est le nombre de documents analysés jusqu'à présent, le second est
le DocID de ce document, et le troisième est le nombre de sauts du document (nombre
de sauts de l'un des documents start_url). Signification des symboles imprimés
après l'url :
"*" est imprimé pour un lien déjà visité
"+" est imprimé pour un nouveau lien juste mis en file d'attente
"-" est généré pour un lien rejeté pour un certain nombre de raisons. Pour savoir ce
ces raisons sont, vous devez exécuter htdig avec au moins 3 -v options, c'est-à-dire -vvv.
S'il n'y a pas de symboles "*", "+" ou "-" après l'URL, cela ne signifie pas que le document a été
pas analysé ou était vide, mais seulement qu'aucun lien vers d'autres documents n'y a été trouvé.
Avec une sortie plus détaillée, ces symboles seront intercalés dans plusieurs lignes de
sortie de débogage.
DES DOSSIERS
/etc/htdig/htdig.conf
Le fichier de configuration par défaut.
Utilisez htdig en ligne en utilisant les services onworks.net