EngelsFransSpaans

Ad


OnWorks-favicon

getData - Online in de cloud

Voer getData uit in de gratis hostingprovider van OnWorks via Ubuntu Online, Fedora Online, Windows online emulator of MAC OS online emulator

Dit is de opdracht getData die kan worden uitgevoerd in de gratis hostingprovider van OnWorks met behulp van een van onze meerdere gratis online werkstations zoals Ubuntu Online, Fedora Online, Windows online emulator of MAC OS online emulator

PROGRAMMA:

NAAM


getData - haalt databases op van internet

KORTE INHOUD


getData [ --mirrordir ]

getData --lijst

PRODUCTBESCHRIJVING


Bio-informatica heeft het intrinsieke probleem om de biologische data bij de eindgebruiker te brengen.
Astronomen hebben hetzelfde probleem en deeltjesfysici, nou ja, ze zijn op de proppen gekomen
met (eerst) het web en (ten tweede) de rekenrasters om hun problemen aan te pakken.
Debian helpt met de programma's, maar zal niet zulke enorme datasets leveren die gelijk zijn
regelmatig bijgewerkt - zelfs niet op volatile.debian.org. De meeste bio-informatica-onderzoekers zullen dat wel doen
niet al te veel van dergelijke databases nodig. En nog meer zal graag doorgaan met het gebruik van openbaar
diensten op afstand.

Voor degenen die regelmatig een set databases nodig hebben, is dit script een begin
automatiseer de last om de gegevens te downloaden en indexen en dergelijke bij te werken. De wereld heeft
heb zulke magie eerder gezien met de Lion Biosciences Prisma-tool
(http://bib.oxfordjournals.org/cgi/reprint/3/4/389.pdf) maar wat dacht je van iets eenvoudigers
(om te beginnen) dat in ieder geval in de buurt komt van wat we verlangen en gratis is. Het doel moet zijn
komen tegemoet aan de behoeften van alle (de meeste) gemeenschappen, niet alleen van de bio-informaticawereld. De
zaad werd dus gemaakt met databases uit de astronomie.

Neem contact op met de Debian-Med-gemeenschap als u denkt dat dit programma bijna klaar is
voor uw behoeften en leg uit wat er nog moet worden toegevoegd. Openbare databases die u beheerde
om te integreren met dit systeem zijn ook zeer welkom als feedback.

OPTIES


--help
deze hulp

--Mens
Presenteer een meer gedetailleerde beschrijving in de vorm van een man-pagina.

--uitgebreid
Zeg een of twee woorden meer dan nodig is.

--spiegeldir
Specificeert de doelmap. De gegevens worden naar de map gespiegeld
$mirrordir/$dbnaam/. Houd er rekening mee dat deze mirrordir nergens wordt opgeslagen. De
directory kan bijgevolg op elk moment naar willekeurige locaties worden verplaatst, als de gebruikers
van de gegevens wordt alleen geïnformeerd over die verhuizing.

--lijst
Geeft een lijst van alle databases die kunnen worden aangevraagd om geïnstalleerd te worden.


Alleen die databases waarvan expliciet wordt gevraagd om te downloaden, zullen dat zijn
gedownload. Dergelijke databases kunnen een aanzienlijke bandbreedte vereisen, dus zorg ervoor dat u
weet dat je het juiste doet.

--na
Voer alleen het uitpakken/indexeren uit, maar haal de databases niet op/update deze niet. Dit
optie wordt als nuttig beschouwd bij het toevoegen van een nieuw databasebeheersysteem aan het
systeem, bijvoorbeeld na installatie van EMBOSS.

--bron
Voer alleen het uitpakken/indexeren uit, maar haal de databases niet op/update deze niet. Dit
optie kan nuttig zijn als de sitebeheerder op de hoogte is van de huidige analyses die
zou niet gestoord moeten worden door het indexeringsproces, maar het downloaden van het net kan dat wel
al begonnen zijn.

--conf
Maakt de specificatie mogelijk van een directory waarin meerdere bestanden kunnen worden opgeslagen
zal worden gelezen door getData bij het aanroepen. Deze kunnen waarden toevoegen aan het globale
variabele %toBeMirrored die de databases en hun downloadscripts specificeert.

--config
Voorbereiding van het configuratiebestand dat nodig zou zijn voor een bepaald systeem
die zich bezighoudt met de database. De configuratie wordt afgedrukt naar stdout en wordt verwacht
om handmatig naar het juiste bestand of de juiste map te worden gekopieerd. Men zou zich dit proces kunnen voorstellen
worden geautomatiseerd, hoewel dit nog niet is geïmplementeerd. Momenteel is er ondersteuning voor
twee systemen:

emboss Dit specificeert de EMBOSS-suite van tools voor bio-informatica (www.emboss.org)
dat ook beschikbaar is als een Debian-pakket. De configuratie voor de Uniprot
databases zullen het ophalen van sequenties mogelijk maken met de seqret-tool.

dre - ARC Grid Runtime-omgeving
Runtime-omgevingen (RE's) zijn een concept van de ARC-grid-middleware waarvan
er kan meer op geleerd worden http://www.nordugrid.org. Hiervoor is een script nodig
geven de aanwezigheid van een runtime-omgeving aan. Hier de naam van het script
is belangrijk, wat echter niet kan worden gedefinieerd door getData, aangezien het alleen schrijft naar
stevig.

Helaas bleek de configuratie nog niet gemodulariseerd te zijn. Het heeft allemaal nodig
gebeuren binnen het getData-script zelf.

--verwijderen
Met deze opdracht worden mappen verwijderd waarin de gegevens zijn opgeslagen. In principe zou dit kunnen worden uitgevoerd
handmatig, hoewel sommige databases speciale vereisten kunnen hebben voor of na verwijdering,
die voor elke database afzonderlijk kan worden gespecificeerd.

SPECIFICATIE OF DATABANKEN


Databases om te downloaden en hun nabewerking worden gespecificeerd op twee verschillende locaties.
De ene is het getData-script zelf, de andere zijn bestanden die zijn opgeslagen in /etc/getData.d. Of
zal elementen van een aanzienlijk grote hash definiëren. De sleutel is de identifier die dat ook is
getoond door de 'getData --list' richtlijn. De waarde is een verwijzing naar een andere hash, welke
wijst waarden toe aan alle eigenschappen die een database heeft voor het downloaden en post-
verwerken:

naam - een voor mensen leesbare mooie gedrukte naam of korte beschrijving die duidelijk maakt voor de
wereld waar deze database over gaat.
Een slecht voorbeeld is de loutere toewijzing van "DE405", die maar weinig mensen begrijpen. Een betere
voorbeeld is "Pfam-A: handmatig samengestelde eiwitfamilies en -domeinen, alleen het zaad is
gepresenteerd.". Men zou kunnen stellen dat men dat veld zou moeten hernoemen naar "description".

source - shell-opdrachten om de eerste download en daaropvolgende updates uit te voeren
Gewoonlijk wordt de wget-tool gebruikt om te downloaden. Het zo gepresenteerde kleine script is
uitgevoerd onder de mirrordir-directory. Een eenvoudig voorbeeld is "wget ​​--mirror
ftp://ssd.jpl.nasa.gov/pub/eph/export/unix/unxp2[01]*.405". Met oplopend
vaardigheid in het gebruik van wget, komt men in de verleiding om "--mirror" te vervangen door "--recursive
--no-host-directories --no-directories --level 1 --no-parent".

post-download - shell-commando's die moeten worden uitgevoerd nadat de gegevens zijn gedownload.
Een eenvoudig (en onnodig wanneer de juiste vlaggen worden gebruikt om te wget) voorbeeld is louter
instelling van een symbolische link:

"post-download" => "ln -s ssd.jpl.nasa.gov/pub/eph/export/unix/unxp*.405 ."

Er is wat meer moeite gestoken in TrEMBL voor het samenvoegen van releases met latere releases
updates en de indexering voor EMBOSS:

"d=ongecomprimeerd; als [ ! -d \$d ]; dan mkdir \$d; fi; "
."rm -rf \$d/trembl.dat; "
."(vind ftp.ebi.ac.uk -name '*.dat.gz' | xargs -r zcat ) > \$d/trembl.dat; "
."[ -x /usr/bin/dbxflat ] "
. "&& cd\$d && "
. "dbxflat -dbresource embl -dbname trembllocal -idformat swiss -filenames=trembl.dat -fields id,acc -auto",

De punten zijn verbindende strings in Perl. Dit komt de leesbaarheid van de code ten goede. Wanneer
Houd er bij het schrijven van deze scripts rekening mee dat de nieuwe regels het individu niet scheiden
commando's hier. Puntkomma's zijn vereist.

beveelt aan - suggereert een reeks pakketten die aanwezig moeten zijn voor het gebruik van de database of
de prestaties van de indexering.
Deze informatie wordt momenteel niet gebruikt, ook om dit script bruikbaarder te maken
andere Linux-distributies dan Debian.

getWgetOptions - privéopdracht om wget-opties te krijgen
Dit wordt gebruikt tijdens het downloaden door makefiles, is niet bedoeld om interactief te gebruiken,
en kan op elk moment worden verwijderd.

Voorbeelden


Hieronder staan ​​de identifiers en de beschrijvingen van de eerste 4 databases die
gebied beschikbaar via getData op uw systeem.

./getData --mirrordir=/local/databases/mirrored --list | hoofd 4

Om een ​​bepaalde database te installeren, geeft u alleen de naam ervan op als argument. Als de installatie
wordt uitgevoerd in een andere directory dan de standaard, dan moet de --mirrordir opnieuw worden uitgevoerd
in te stellen.

./getData swiss.dat

Om de database weer te verwijderen, geeft u het script een hint met de vlag --remove

./getData --verwijder swiss.dat

Om alleen de indexering uit te voeren en de download te omzeilen (let op, dit is gevaarlijk
aangezien de indexbestanden er nieuwer uit zullen zien dan de database is), doen

./getData --post swiss.dat

Een speciale uitzondering op deze extra scripts is de vlag --config omdat er een lijst van nodig is
extra argumenten. Elk geeft een bepaald systeem aan waarvan deze database kan zijn
interesse voor. Er worden momenteel twee systemen ondersteund:

ALLES


We hebben nu een mechanisme nodig waarmee pakketten hooks kunnen specificeren die zullen worden aangeroepen
bijwerken van een database. Maar we kunnen er niet vanuit gaan dat elke indexering kan worden uitgevoerd
omdat de installatie van een pakket ook gewenst is door de gebruiker. Hoe te configureren
dit moet goed worden overgelaten om te beslissen.

Gebruik getData online met behulp van onworks.net-services


Gratis servers en werkstations

Windows- en Linux-apps downloaden

Linux-commando's

Ad