GoGPT Best VPN GoSearch

Icône de favori OnWorks

getData - En ligne dans le Cloud

Exécutez getData dans le fournisseur d'hébergement gratuit OnWorks sur Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS

Il s'agit de la commande getData qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS

PROGRAMME:

Nom


getData - récupère les bases de données sur Internet

SYNOPSIS


getData [ --mirrordir ]

getData --liste

DESCRIPTION


La bioinformatique a le problème intrinsèque d'apporter les données biologiques à l'utilisateur final.
Les astronomes ont le même problème et les physiciens des particules, eh bien, ils sont venus
avec (d'abord) le web et (deuxièmement) les grilles de calcul pour résoudre leurs problèmes.
Debian aide avec les programmes mais ne fournira pas des ensembles de données aussi énormes qui sont même
fréquemment mis à jour - même pas sur volatile.debian.org. La plupart des chercheurs en bioinformatique
pas besoin d'un trop grand nombre de ces bases de données. Et plus encore, nous continuerons volontiers à utiliser le public
services à distance.

Pour ceux qui ont besoin régulièrement d'un ensemble de bases de données, ce script doit être un début pour
automatiser la charge de télécharger les données et mettre à jour les index et autres. Le monde a
vu une telle magie auparavant avec l'outil Lion Biosciences Prisma
(http://bib.oxfordjournals.org/cgi/reprint/3/4/389.pdf) mais que diriez-vous de quelque chose de plus simple
(pour commencer) qui se rapproche au moins de ce que nous désirons et qui est gratuit. Le but doit être de
répondre aux besoins de toutes (la plupart) des communautés, pas seulement du monde de la bioinformatique. Les
la semence a donc été faite avec des bases de données issues de l'astronomie.

Veuillez contacter la communauté Debian-Med si vous considérez que ce programme est presque prêt
à vos besoins et expliquez ce qui doit encore être ajouté. Bases de données publiques que vous avez gérées
à intégrer à ce système sont également très chaleureusement accueillis en tant que commentaires.

OPTIONS


--Aidez-moi
cette aide

--homme
Présentez une description plus détaillée sous la forme d'une page de manuel.

--verbeux
Dites un ou deux mots de plus que nécessaire.

--miroir
Spécifie le répertoire de destination. Les données seront mises en miroir dans le dossier
$mirrordir/$dbname/. Veuillez noter que ce mirrordir n'est stocké nulle part. Les
répertoire peut par conséquent être déplacé vers des emplacements arbitraires à tout moment, si les utilisateurs
des données ne sont informés que de ce déplacement.

--liste
Répertorie toutes les bases de données dont l'installation peut être demandée.


Seules les bases de données dont le téléchargement est explicitement demandé seront
téléchargé. De telles bases de données peuvent nécessiter une bande passante considérable, veuillez donc vous assurer que vous
sachez que vous faites ce qu'il faut.

--Publier
Effectuez uniquement le décompactage/indexation, mais ne récupérez/mettez pas à jour les bases de données. Cette
est considérée comme utile lors de l'ajout d'un nouveau système de gestion de base de données au
système, par exemple après l'installation d'EMBOSS.

--la source
Effectuez uniquement le décompactage/indexation, mais ne récupérez/mettez pas à jour les bases de données. Cette
option peut être bénéfique lorsque l'administrateur du site est au courant des analyses en cours qui
ne doit pas être perturbé par le processus d'indexation mais le téléchargement depuis le net peut
déjà commencé.

--confd
Permet de spécifier un répertoire dans lequel plusieurs fichiers peuvent être stockés qui
sera lu par getData lors de son invocation. Ceux-ci peuvent ajouter des valeurs au
variable %toBeMirrored qui spécifie les bases de données et leurs scripts de téléchargement.

--config
Préparation du fichier de configuration qui serait requis pour un système particulier
qui traite de la base de données. La configuration est imprimée sur stdout et est attendue
à copier manuellement dans le fichier ou le dossier approprié. On pourrait imaginer ce processus pour
être automatisé, bien que cela ne soit pas encore mis en œuvre. Actuellement disponible est le support pour
deux systèmes :

emboss Ceci spécifie la suite d'outils EMBOSS pour la bioinformatique (www.emboss.org)
qui est également disponible sous forme de paquet Debian. La configuration de l'Uniprot
les bases de données permettront la récupération de séquence avec l'outil seqret.

dre - Environnement d'exécution de grille ARC
Les environnements d'exécution (RE) sont un concept du middleware de grille ARC dont
on peut en apprendre davantage sur http://www.nordugrid.org. Un script est nécessaire pour
indiquer la présence d'un environnement d'exécution. Ici, le nom du script
est important, ce qui n'est pas définissable par getData car il n'écrit que dans
sortie standard.

Malheureusement, la configuration ne s'est pas encore avérée modularisée. Tout a besoin
se produire dans le script getData lui-même.

--supprimer
Cette commande supprime les dossiers qui stockent les données. En principe, cela pourrait être effectué
manuellement, bien que certaines bases de données puissent avoir des exigences particulières avant ou après la suppression,
qui peut être spécifié individuellement pour chaque base de données.

CARACTÉRISTIQUES OF BASES DE DONNÉES


Les bases de données à télécharger et leur post-traitement sont spécifiées à deux emplacements différents.
L'un est le script getData lui-même, l'autre les fichiers stockés dans /etc/getData.d. Soit
définira les éléments d'un hachage considérablement volumineux. La clé est l'identifiant qui est aussi
indiqué par la directive 'getData --list'. La valeur est une référence à un autre hachage, qui
attribue des valeurs à toutes les propriétés qu'une base de données a pour son téléchargement et post-
En traitement:

nom - un nom joliment imprimé lisible par l'homme ou une courte description qui indique clairement au
monde de quoi parle cette base de données.
Un mauvais exemple est la simple affectation de "DE405", que peu de gens comprennent. Un meilleur
exemple est « Pfam-A : familles et domaines de protéines à curation manuelle, seule la graine est
présenté.". On pourrait soutenir que l'on devrait avoir ce champ renommé en "description".

source - commandes shell pour effectuer le téléchargement initial et les mises à jour ultérieures
Généralement, l'outil wget est utilisé pour le téléchargement. Le petit script ainsi présenté est
exécuté sous le répertoire mirrordir. Un exemple simple est "wget ​​--mirror
ftp://ssd.jpl.nasa.gov/pub/eph/export/unix/unxp2[01]*.405". Avec augmentation
maîtrise de l'utilisation de wget, on est tenté de remplacer "--mirror" par "--recursive
--no-host-directories --no-directories --level 1 --no-parent".

post-téléchargement - commandes shell à exécuter après le téléchargement des données.
Un exemple simple (et inutile lorsqu'il est utilisé avec les bons indicateurs pour wget) est le simple
mise en place d'un lien symbolique :

"post-download" => "ln -s ssd.jpl.nasa.gov/pub/eph/export/unix/unxp*.405 ."

Des efforts supplémentaires ont été déployés dans TrEMBL pour la fusion des versions avec les
les mises à jour et l'indexation pour EMBOSS :

"d=non compressé; if [ ! -d \$d ]; then mkdir \$d; fi; "
."rm -rf \$d/trembl.dat; "
."(trouver ftp.ebi.ac.uk -name '*.dat.gz' | xargs -r zcat ) > \$d/trembl.dat; "
."[ -x /usr/bin/dbxflat ] "
. "&& cd \$d && "
. "dbxflat -dbresource embl -dbname trembllocal -idformat swiss -filenames=trembl.dat -fields id,acc -auto",

Les points sont des chaînes de connexion en Perl. Cela aide à la lisibilité du code. Lorsque
en écrivant ces scripts, veuillez noter que les nouvelles lignes ne séparent pas l'individu
commandes ici. Les points-virgules sont requis.

recommande - suggère une série de packages à présenter pour l'utilisation de la base de données ou
la performance de l'indexation.
Ces informations ne sont pas utilisées pour le moment, également pour rendre ce script plus utile pour
autres distributions Linux que Debian.

getWgetOptions - commande privée pour obtenir les options wget
Ceci est utilisé au moment du téléchargement par les makefiles, n'est pas destiné à être utilisé de manière interactive,
et peut être retiré à tout moment.

EXEMPLES


Ce qui suit listera les identifiants et les descriptions des 4 premières bases de données qui
zone disponible via getData sur votre système.

./getData --mirrordir=/local/databases/mirrored --list | tête 4

Pour installer une base de données particulière, ne donnez son nom qu'en argument. Si l'installation
est effectuée dans un autre répertoire que celui par défaut, alors le --mirrordir doit à nouveau être
défini.

./getData suisse.dat

Pour supprimer à nouveau la base de données, donnez un indice au script avec l'indicateur --remove

./getData --remove suisse.dat

Pour n'effectuer que l'indexation et contourner le téléchargement (attention, c'est dangereux
puisque les fichiers d'index sembleront plus récents que la base de données), ne

./getData --post swiss.dat

Une exception spéciale à ces scripts supplémentaires est le drapeau --config dans la mesure où il prend une liste de
arguments supplémentaires. Chacun doit désigner un système particulier que cette base de données peut être de
intérêt pour. Il existe aujourd'hui deux systèmes pris en charge :

TOUT


Nous avons maintenant besoin d'un mécanisme avec lequel les paquets peuvent spécifier des crochets qui seront appelés sur un
mise à jour d'une base de données. Mais nous ne pouvons pas supposer que chaque indexation qui peut être effectuée
en raison de l'installation de certains packages est également souhaitée par l'utilisateur. Comment configurer
cela reste à décider.

Utilisez getData en ligne à l'aide des services onworks.net


Serveurs et postes de travail gratuits

Télécharger des applications Windows et Linux

Commandes Linux

Ad




×
Publicité
❤ ️Achetez, réservez ou achetez ici — gratuitement, contribue à maintenir la gratuité des services.