Il s'agit de la commande AutoSearchp qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS
PROGRAMME:
Nom
AutoSearch -- une application de suivi de recherche sur le Web
SYNOPSIS
Recherche automatique [--stats] [--verbose] -n "Nom de la requête" -s "chaîne de requête" --engine engine [--mail
[email protected]] [--options "opt=val"]... [--filter "filter"] [--host hôte] [--port port]
[--userid bbunny --password c4rr0t5] [--ignore_channels KABC,KCBS,KNBC] qid
Recherche automatique --VERSION Recherche automatique --help Recherche automatique --man
DESCRIPTION
Recherche automatique effectue une recherche sur le Web et place les résultats dans qid/index.html.
Recherches ultérieures (c'est-à-dire le deuxième formulaire ci-dessus) Recherche automatique déterminer ce qui change (si
any) s'est produite aux résultats envoyés depuis la dernière exécution. Ces changements progressifs sont
enregistrée dans qid/AAAAMMJJ.html.
Recherche automatique est susceptible d'être exécuté en tant que cron travail car tous les paramètres d'entrée sont enregistrés
dans les pages Internet. Recherche automatique peut agir comme un agent de requête automatisé pour une recherche particulière.
Les fichiers de sortie sont conçus pour être un ensemble de pages Web pour afficher facilement l'ensemble de résultats
avec un navigateur Internet.
Mise en situation :
Recherche automatique -n 'Réplication LSAM'
-s '"réplication lsam"'
-e Alta Vista
requête_réplication
Cette requête (qui doit être sur une seule ligne) crée un répertoire replication_query et
le remplit avec la sortie fascinante de la requête AltaVista sur la "réplication lsam", avec
pages intitulées ``Réplication LSAM''. (Notez les guillemets : les guillemets simples dans '"lsam
replication"' sont pour le shell, les guillemets doubles sont pour AltaVista pour rechercher le
phrase plutôt que les mots séparés.)
Un exemple plus compliqué :
Recherche automatique -n 'Liens externes vers LSAM'
-s '(lien:www.isi.edu/lsam ou lien:www.isi.edu/~lsam) -url:isi.edu'
-e AltaVista ::AdvancedWeb
-o fraîcheur=chaud
Cette requête effectue une recherche AltaVista avancée et spécifie la "coolness" (hypothétique)
option au moteur de recherche.
OPTIONS
"qid"
Le question identifiant spécifie le répertoire dans lequel tous les fichiers qui se rapportent à ce
les résultats de la requête et de la recherche seront en direct. Il peut s'agir d'un chemin absolu ou d'un chemin relatif
de cwd. Si le répertoire n'existe pas, il sera créé et une nouvelle recherche
commencé.
"--Statistiques"
Afficher les statistiques de recherche : la chaîne de requête, le nombre de résultats, le nombre de résultats filtrés,
chaîne de filtrage, nombre d'appels suspendus (supprimés), taille de l'ensemble précédent, ensemble actuel
taille, etc
"-v" ou "--verbose"
Verbose : affiche des messages et des avertissements supplémentaires.
"-n" ou "--qn" ou "--queryname"
Spécifiez le nom de la requête. Le nom de la requête est utilisé comme en-tête dans les pages Web,
par conséquent, il devrait s'agir d'une version « jolie » de la chaîne de requête.
"-s" ou "--qs" ou "--querystring"
Spécifiez la chaîne de requête. La chaîne de requête est la chaîne de caractères qui sera
soumis au moteur de recherche. Vous pouvez inclure des caractères spéciaux pour grouper ou pour
qualifier la recherche.
"-e" ou "--engine"
Spécifiez le moteur de recherche. La chaîne de requête sera soumise à l'utilisateur spécifié
moteur de recherche.
Dans de nombreux cas, il existe des versions spécialisées des moteurs de recherche. Par exemple,
AltaVista ::Web avancé et AltaVista::Actualités permettre des recherches plus puissantes et Usenet.
Voir AltaVista ou la page de manuel de votre moteur de recherche pour plus de détails sur les
variations.
"--listnewurls"
En plus de toute la maintenance normale des fichiers, imprimez toutes les nouvelles URL sur STDOUT, une par
ligne.
"-o" ou "--options"
Spécifiez les options de requête. Les options de requête seront soumises à la recherche de l'utilisateur
moteur avec la chaîne de requête. Cette fonctionnalité permet de modifier la chaîne de requête
pour un moteur de recherche ou une option spécifique. Plusieurs options de requête peuvent être spécifiées.
Exemple : "-o what=news" oblige AltaVista à rechercher Usenet. Bien que cela fonctionne, le
le mécanisme préféré dans ce cas serait "-e AltaVista::News" ou "-e
AltaVista::AdvancedNews". Les options sont destinées à un usage interne ou expert.
"-f" ou "--uf" ou "--urlfilter"
Cette option spécifie une expression régulière qui sera comparée aux URL de
tous les résultats ; s'ils correspondent à l'expression régulière insensible à la casse, ils seront
retiré de l'ensemble de hits.
Exemple : "-f '.*\.isi\.edu'" évite toutes les pages Web d'ISI.
"--nettoyage je"
Supprimez toutes les traces de résultats de requête d'il y a plus d'un jour. Si --cleanup est donné,
toutes les autres options que le qid seront ignorées.
"--ligne de commande"
Reconstruire la ligne de commande complète (AutoSearch et tous ses arguments) qui a été utilisée
pour créer les résultats de la requête. La ligne de commande sera affichée sur STDERR. Si --cmdline est
donné, toutes les autres options que le qid seront ignorées.
"--mail user@address" ou "-m user@address"
Une fois la recherche terminée, envoyez un e-mail à cet utilisateur, répertoriant les NOUVEAUX résultats. L'e-mail est
Format HTML. Nécessite l'Email::Send et les modules associés. Si vous envoyez un e-mail via
un serveur SMTP, vous devez définir la variable d'environnement SMTPSERVER sur le nom ou l'IP de votre serveur
adresse. Si votre serveur SMTP requiert un mot de passe, vous devez définir des variables d'environnement
SMTPUSERNAME et SMTPPASSWORD. Si vous envoyez un e-mail via sendmail, vous devez définir
variable d'environnement SENDMAIL si l'exécutable sendmail n'est pas dans le chemin.
"--emailfrom user@address"
Si votre serveur de messagerie sortant rejette les e-mails de certains utilisateurs, vous pouvez utiliser cette
argument pour définir l'en-tête From:.
"--userid bbunny"
Si le moteur de recherche requiert un login/mot de passe (par exemple Ebay::Completed), utilisez-le.
"--mot de passe Carr0t5"
Si le moteur de recherche requiert un login/mot de passe (par exemple Ebay::Mature), utilisez-le.
DESCRIPTION
Recherche automatique soumet une requête à un moteur de recherche, produit des pages HTML qui reflètent l'ensemble des
« hits » (résultats de recherche filtrés) renvoyés par le moteur de recherche et suit ces résultats
heures supplémentaires. L'URL et le titre sont affichés dans le qid/index.html, l'URL, le titre et
description sont affichées dans les fichiers 'hebdomadaires'.
Pour organiser ces résultats, chaque résultat de recherche est placé dans un répertoire d'informations de requête
(qid). Le répertoire devient le « descripteur » des résultats de la recherche, un moyen facile de suivre un ensemble de
résultats. Ainsi, un qid de "/usr/local/htdocs/lsam/autosearch/load_balancing" peut localiser
les résultats sur votre serveur web à "http://www.isi.edu/lsam/autosearch/load_balancing".
Dans le répertoire qid, vous trouverez des fichiers relatifs à cette requête. Le fichier principal est
index.html, qui reflète les derniers résultats de recherche. Chaque coup non filtré pour chaque
la recherche est stockée dans index.html. Lorsqu'un résultat n'est plus trouvé par le moteur de recherche, il
retiré de index.html. Lorsque de nouveaux résultats pour une recherche sont renvoyés par le moteur de recherche
ils sont placés dans index.html.
En bas de index.html, il y a une rubrique "Résultats de la recherche hebdomadaire", qui est mise à jour
chaque fois que la recherche est soumise (voir "RECHERCHE AUTOMATISEE"). La liste des courses de recherche est
stockées dans l'ordre chronologique inverse. Les exécutions qui ne fournissent aucune nouvelle information sont
Identifié avec
Aucun résultat unique trouvé pour la recherche sur
Les exécutions qui contiennent des modifications sont identifiées par
Résultats de recherche Web pour la recherche sur
qui sera liée à une page détaillant les changements de cette exécution.
Les résultats détaillés de la recherche sont notés dans des fichiers hebdomadaires. Ces fichiers sont nommés AAAAMMJJ.html
et sont stockés dans le répertoire qid. Les fichiers hebdomadaires comprennent L'URL, le titre et le
description (si disponible). Le titre est un lien vers la page Web d'origine.
AUTOMATISÉ RECHERCHE
Sur les systèmes de type UNIX, cron(1) peut être utilisé pour établir des recherches périodiques et les pages Web
sera maintenu par Recherche automatique. Pour établir la première recherche, utilisez le premier exemple
sous SYNOPSIS. Vous devez spécifier le qid, le nom de la requête et la chaîne de requête. Si l'un des
des éléments sont manquants, vous serez invité de manière interactive à indiquer les éléments manquants.
Une fois la première recherche terminée, vous pouvez relancer la recherche avec le deuxième formulaire sous
SYNOPSIS.
Une entrée cron comme :
0 3 * * 1 /nfs/u1/wls/AutoSearch.pl /www/div7/lsam/autosearch/caching
peut être utilisé pour lancer la recherche chaque lundi à 3h00 du matin. Le nom de la requête et la chaîne de requête
peut être répété; mais ils ne seront pas utilisés. Cela signifie qu'avec une ligne cron comme :
0 3 * * 1 /nfs/u1/wls/AutoSearch.pl /www/div7/lsam/autosearch/caching -n cache -s cache
une toute nouvelle série de recherche peut être générée par
rm -r /www/div7/lsam/autosearch/caching
Cependant, la seule raison de commencer une nouvelle série de recherche serait de jeter l'ancien
dossiers hebdomadaires.
Nous vous déconseillons d'effectuer des recherches plus d'une fois par jour, mais si c'est le cas, les fichiers par exécution
sera mis à jour sur place. Toutes les modifications sont ajoutées à la page avec un commentaire indiquant "Récemment
Ajouté : » ; et les suppressions sont indiquées par « Récemment suspendu : ».
EN CHANGEANT THE REGARDEZ OF THE PAGES
Le format de base de ces deux pages est simple et personnalisable. Une exigence est que
la structure de base reste inchangée. Les commentaires HTML sont utilisés pour identifier les sections du
document. Presque tout peut être modifié à l'exception des chaînes qui identifient le
la section commence et se termine.
Balises remarquables et leur signification :
.*
Le texte contenu dans cette balise est placé en haut de la sortie
page. Si le texte contient Recherche automatique WEB Recherche, puis le nom de la requête
le remplacera. Si le texte ne contient pas cette chaîne magique et qu'il est
la toute première recherche, l'utilisateur sera invité à saisir un nom de requête.
Le texte contenu entre les accolades est la chaîne de requête. C'est ainsi
Recherche automatique maintient la chaîne de requête. Vous pouvez éditer cette chaîne pour changer
la chaîne de requête ; mais seulement dans qid/index.html. Le texte demander utilisateur is
spécial et forcera Recherche automatique pour demander la chaîne de recherche à partir du
utilisateur.
Le texte contenu entre les accolades est le moteur de recherche. Autres moteurs
pris en charge sont HotBot et Lycos. Vous pouvez éditer cette chaîne pour changer le
moteur utilisé; mais seulement dans qid/index.html. Le texte demander utilisateur est spécial et
forcera Recherche automatique à pour demander la chaîne de recherche à l'utilisateur.
Le texte contenu entre les accolades spécifie une option de requête. Plusieurs
Les occurrences de cette commande sont autorisées à spécifier plusieurs options.
Le texte contenu entre les accolades est le filtre URL. C'est ainsi
Recherche automatique maintient le filtre. Encore une fois, vous pouvez modifier cette chaîne pour changer
la chaîne de requête ; mais seulement dans qid/index.html. Le texte demander utilisateur is
spécial et forcera Recherche automatique demander à l'utilisateur (STDIN) la requête
chaîne de caractères. Lors de la mise en place de la première recherche, vous devez éditer premier_index.html,
pas qid/index.html. Le filtre d'URL est un standard perl5 régulier
expression. Les URL qui ne correspondent pas seront conservées.
.*
Le texte contenu dans cette balise est placé en bas de la sortie
page. C'est un bon endroit pour mettre la navigation, les informations sur le propriétaire de la page,
et ainsi de suite
Le reste des balises tombe dans un triplet de ~En-tête, ~ Modèle et ~, où ~ est
Résumé, Hebdomadaire, Ajouté et Suspendu. Les sous-sections apparaissent dans l'ordre indiqué. À
produire une section Recherche automatique produit l'en-tête, le modèle, la section, n exemplaires de
les données formatées, et une section /. Les balises et leur fonction sont :
~En-tête La balise d'en-tête identifie l'en-tête d'une section du fichier de sortie.
Le SummaryHeading est pour la partie récapitulative, etc. La section peut être
vide (par exemple, Suspendu) et donc aucun titre n'est sorti.
~Modèle La balise modèle identifie la façon dont chaque élément doit être formaté. Texte simple
remplacement est utilisé pour changer le modèle dans le texte de sortie réel.
Le texte à remplacer est noté en MAJUSCULES.
~ Cette balise est utilisée pour localiser la section (Résumé, Hebdomadaire, etc.). Cette
La section représente les n éléments de données réels.
Vous pouvez modifier ces valeurs dans le qid/index.html page d'une recherche existante. Le fichier
premier_index.html (dans le répertoire ci-dessus qid) sera utilisé comme modèle par défaut pour les nouveaux
requêtes.
Des exemples de ces fichiers peuvent être consultés dans les pages sous
"http://www.isi.edu/lsam/tools/autosearch/", ou dans la sortie générée par un nouveau
Recherche automatique.
Utilisez AutoSearchp en ligne à l'aide des services onworks.net