Amazon Best VPN GoSearch

OnWorks-Favicon

getData – Online in der Cloud

Führen Sie getData im kostenlosen Hosting-Anbieter OnWorks über Ubuntu Online, Fedora Online, den Windows-Online-Emulator oder den MAC OS-Online-Emulator aus

Dies ist der Befehl getData, der beim kostenlosen Hosting-Anbieter OnWorks mit einer unserer zahlreichen kostenlosen Online-Workstations wie Ubuntu Online, Fedora Online, dem Windows-Online-Emulator oder dem MAC OS-Online-Emulator ausgeführt werden kann

PROGRAMM:

NAME/FUNKTION


getData – ruft Datenbanken aus dem Internet ab

ZUSAMMENFASSUNG


getData [ --mirrordir ]

getData --list

BESCHREIBUNG


Die Bioinformatik hat das intrinsische Problem, die biologischen Daten dem Endbenutzer zugänglich zu machen.
Astronomen haben das gleiche Problem und Teilchenphysiker sind auf dieses Problem gestoßen
mit (erstens) dem Web und (zweitens) den Rechengittern, um ihre Probleme anzugehen.
Debian hilft bei den Programmen, stellt aber keine so großen Datenmengen zur Verfügung, die gleichmäßig sind
häufig aktualisiert – nicht einmal in volatile.debian.org. Die meisten Bioinformatikforscher werden es tun
Ich brauche nicht zu viele solcher Datenbanken. Und umso mehr werde ich die Öffentlichkeit gerne weiterhin nutzen
Dienstleistungen aus der Ferne.

Für diejenigen, die regelmäßig eine Reihe von Datenbanken benötigen, ist dieses Skript ein Einstieg
Automatisieren Sie den Aufwand für das Herunterladen der Daten und das Aktualisieren von Indizes usw. Die Welt hat
Ich habe solche Magie schon einmal mit dem Prisma-Werkzeug von Lion Biosciences gesehen
(http://bib.oxfordjournals.org/cgi/reprint/3/4/389.pdf), aber wie wäre es mit etwas Einfacherem
(zunächst einmal), das zumindest annähernd unseren Wünschen entspricht und kostenlos ist. Das Ziel muss sein
auf die Bedürfnisse aller (meisten) Gemeinschaften eingehen, nicht nur der Welt der Bioinformatik. Der
Die Grundlage hierfür bildeten Datenbanken aus der Astronomie.

Bitte wenden Sie sich an die Debian-Med-Community, wenn Sie der Meinung sind, dass dieses Programm fast fertig ist
für Ihre Bedürfnisse und erklären Sie, was noch hinzugefügt werden muss. Öffentliche Datenbanken, die Sie verwaltet haben
Anregungen zur Integration in dieses System sind ebenfalls sehr herzlich als Feedback willkommen.

OPTIONAL


--help
diese Hilfe

--Mann
Präsentieren Sie eine detailliertere Beschreibung in Form einer Manpage.

- ausführlich
Sagen Sie ein oder zwei Wörter mehr als erforderlich.

--mirrordir
Gibt das Zielverzeichnis an. Die Daten werden in den Ordner gespiegelt
$mirrordir/$dbname/. Bitte beachten Sie, dass dieses Spiegelverzeichnis nirgendwo gespeichert ist. Der
Das Verzeichnis kann somit jederzeit an beliebige Orte verschoben werden, wenn die Benutzer
der Daten werden nur über die Verschiebung informiert.

--aufführen
Listet alle Datenbanken auf, deren Installation angefordert werden kann.


Es werden nur die Datenbanken heruntergeladen, deren Download ausdrücklich angefordert wurde
heruntergeladen. Solche Datenbanken erfordern möglicherweise eine beträchtliche Bandbreite. Stellen Sie daher bitte sicher, dass dies der Fall ist
weiß, dass du das Richtige tust.

--Post
Führen Sie nur das Entpacken/Indizieren durch, aber rufen Sie die Datenbanken nicht ab/aktualisieren Sie sie nicht. Das
Die Option wird als nützlich erachtet, wenn ein neues Datenbankverwaltungssystem zum hinzugefügt wird
System, z. B. nach der Installation von EMBOSS.

--Quelle
Führen Sie nur das Entpacken/Indizieren durch, aber rufen Sie die Datenbanken nicht ab/aktualisieren Sie sie nicht. Das
Diese Option kann von Vorteil sein, wenn der Site-Administrator über aktuelle Analysen informiert ist
sollte durch den Indizierungsvorgang nicht gestört werden, das Herunterladen aus dem Netz jedoch schon
bereits begonnen werden.

--confd
Ermöglicht die Angabe eines Verzeichnisses, in dem mehrere Dateien gespeichert werden können
wird von getData bei seinem Aufruf gelesen. Diese können dem Globalen Werte hinzufügen
Variable %toBeMirrored, die die Datenbanken und ihre Download-Skripte angibt.

--config
Vorbereitung der Konfigurationsdatei, die für ein bestimmtes System erforderlich wäre
das befasst sich mit der Datenbank. Die Konfiguration wird auf stdout gedruckt und erwartet
manuell in die richtige Datei oder den richtigen Ordner kopiert werden. Man könnte sich diesen Vorgang vorstellen
automatisiert werden, dies ist jedoch noch nicht implementiert. Derzeit verfügbar ist Unterstützung für
zwei Systeme:

emboss Dies spezifiziert die EMBOSS-Toolsuite für die Bioinformatik (www.emboss.org)
das auch als Debian-Paket verfügbar ist. Die Konfiguration für den Uniprot
Datenbanken ermöglichen den Sequenzabruf mit dem Seqret-Tool.

dre – ARC Grid-Laufzeitumgebung
Laufzeitumgebungen (REs) sind ein Konzept der ARC-Grid-Middleware
Mehr erfahren Sie hier http://www.nordugrid.org. Dazu ist ein Skript erforderlich
weisen auf das Vorhandensein einer Laufzeitumgebung hin. Hier der Name des Skripts
ist wichtig, was allerdings nicht durch getData definierbar ist, da es nur schreibt
stdout.

Leider konnte bisher keine Modularisierung der Konfiguration festgestellt werden. Es braucht alles
Dies geschieht innerhalb des getData-Skripts selbst.

--entfernen
Dieser Befehl entfernt Ordner, in denen die Daten gespeichert sind. Im Prinzip könnte dies durchgeführt werden
manuell, obwohl für einige Datenbanken möglicherweise besondere Anforderungen vor oder nach der Entfernung gelten,
die für jede Datenbank individuell angegeben werden können.

SPEZIFIKATION OF DATENBANKEN


Datenbanken zum Download und deren Nachbearbeitung sind an zwei unterschiedlichen Stellen angegeben.
Das eine ist das getData-Skript selbst, das andere sind Dateien, die in /etc/getData.d gespeichert sind. Entweder
definiert Elemente eines beträchtlich großen Hashs. Der Schlüssel ist die Kennung, die es auch gibt
wird durch die Direktive „getData --list“ angezeigt. Der Wert ist ein Verweis auf einen anderen Hash, der
weist allen Eigenschaften Werte zu, die eine Datenbank zum Herunterladen und Posten hat.
Verarbeitung:

Name – ein für Menschen lesbarer, hübsch gedruckter Name oder eine kurze Beschreibung, die den Benutzer verdeutlicht
Welt, worum es in dieser Datenbank geht.
Ein schlechtes Beispiel ist die bloße Zuordnung von „DE405“, die nur wenige Menschen verstehen. Ein besseres
Beispiel ist „Pfam-A: Manuell kuratierte Proteinfamilien und Domänen, nur der Samen ist vorhanden.“
präsentiert.“. Man könnte argumentieren, dass man dieses Feld in „Beschreibung“ umbenennen sollte.

Quelle – Shell-Befehle zum Durchführen des ersten Downloads und nachfolgender Aktualisierungen
Üblicherweise wird zum Download das Wget-Tool verwendet. Das so präsentierte kleine Skript ist
unterhalb des Mirrordir-Verzeichnisses ausgeführt. Ein einfaches Beispiel ist „wget --mirror
ftp://ssd.jpl.nasa.gov/pub/eph/export/unix/unxp2[01]*.405". Mit steigender Tendenz
Wenn man wget gut beherrscht, ist man versucht, „--mirror“ durch „--recursive“ zu ersetzen
--no-host-directories --no-directories --level 1 --no-parent".

Post-Download – Shell-Befehle, die ausgeführt werden sollen, nachdem die Daten heruntergeladen wurden.
Ein einfaches (und unnötiges, wenn die richtigen Flags zum wget verwendet werden) Beispiel ist das bloße
Setzen eines symbolischen Links:

"post-download" => "ln -s ssd.jpl.nasa.gov/pub/eph/export/unix/unxp*.405 ."

In TrEMBL wurden einige weitere Anstrengungen unternommen, um Veröffentlichungen mit Folgeversionen zusammenzuführen
Updates und die Indizierung für EMBOSS:

"d=unkomprimiert; if [ ! -d \$d ]; then mkdir \$d; fi; "
."rm -rf \$d/trembl.dat; "
."(find ftp.ebi.ac.uk -name '*.dat.gz' | xargs -r zcat ) > \$d/trembl.dat; "
."[ -x /usr/bin/dbxflat ] "
. "&& cd \$d && "
. "dbxflat -dbresource embl -dbname trembllocal -idformat swiss -filenames=trembl.dat -fields id,acc -auto",

Die Punkte sind Verbindungszeichenfolgen in Perl. Dies trägt zur Lesbarkeit des Codes bei. Wann
Beim Schreiben dieser Skripte beachten Sie bitte, dass die einzelnen Zeilen durch Zeilenumbrüche nicht getrennt werden
Befehle hier. Semikolon ist erforderlich.

empfiehlt – schlägt eine Reihe von Paketen vor, die für die Verwendung der Datenbank vorhanden sein sollen oder
die Leistung der Indizierung.
Diese Informationen werden derzeit nicht verwendet, auch um dieses Skript nützlicher zu machen
andere Linux-Distributionen als Debian.

getWgetOptions – privater Befehl zum Abrufen von Wget-Optionen
Dies wird zum Zeitpunkt des Downloads von Makefiles verwendet und ist nicht für die interaktive Verwendung gedacht.
und kann jederzeit entfernt werden.

Beispiele:


Im Folgenden werden die Kennungen und Beschreibungen der ersten vier Datenbanken aufgeführt
Bereich über getData auf Ihrem System verfügbar.

./getData --mirrordir=/local/databases/mirrored --list | Kopf 4

Um eine bestimmte Datenbank zu installieren, geben Sie nur deren Namen als Argument an. Wenn die Installation
Wird in einem anderen Verzeichnis als dem Standardverzeichnis ausgeführt, muss --mirrordir erneut ausgeführt werden
gesetzt.

./getData swiss.dat

Um die Datenbank wieder zu entfernen, geben Sie dem Skript mit dem Flag --remove einen Hinweis

./getData --remove swiss.dat

Um nur die Indizierung durchzuführen und den Download zu umgehen (Achtung, das ist gefährlich).
da die Indexdateien neuer aussehen als die Datenbank), tun Sie dies

./getData --post swiss.dat

Eine besondere Ausnahme von diesen zusätzlichen Skripten ist das Flag --config, da es eine Liste von akzeptiert
zusätzliche Argumente. Jedes soll ein bestimmtes System bezeichnen, zu dem diese Datenbank gehören kann
Interesse für. Derzeit werden zwei Systeme unterstützt:

ALLES


Wir benötigen nun einen Mechanismus, mit dem Pakete Hooks angeben können, die aufgerufen werden sollen
Aktualisierung einer Datenbank. Wir können jedoch nicht davon ausgehen, dass jede Indizierung durchgeführt werden kann
weil die Installation einiger Pakete auch vom Benutzer gewünscht wird. So konfigurieren Sie
Dies muss noch entschieden werden.

Nutzen Sie getData online über die Dienste von onworks.net


Kostenlose Server & Workstations

Laden Sie Windows- und Linux-Apps herunter

Linux-Befehle

Ad




×
Werbung
❤ ️Hier einkaufen, buchen oder kaufen – kostenlos, damit die Dienste kostenlos bleiben.