EngelsFransSpaans

Ad


OnWorks-favicon

hmmsim - Online in de cloud

Voer hmmsim uit in de gratis hostingprovider van OnWorks via Ubuntu Online, Fedora Online, Windows online emulator of MAC OS online emulator

Dit is het commando hmmsim dat kan worden uitgevoerd in de gratis hostingprovider van OnWorks met behulp van een van onze meerdere gratis online werkstations zoals Ubuntu Online, Fedora Online, Windows online emulator of MAC OS online emulator

PROGRAMMA:

NAAM


hmmsim - verzamel scoreverdelingen op willekeurige reeksen

KORTE INHOUD


hmm sim [Opties]

PRODUCTBESCHRIJVING


De hmm sim programma genereert willekeurige reeksen, scoort deze met de model(len) erin ,
en voert verschillende soorten histogrammen, plots en passende verdelingen uit voor het resultaat
scores.

hmm sim is geen mainstream onderdeel van het HMMER-pakket. De meeste gebruikers zouden daar geen reden voor hebben
gebruik het. Het wordt gebruikt voor het ontwikkelen en testen van de statistische methoden die worden gebruikt om P-waarden te bepalen
en E-waarden in HMMER3. Het werd bijvoorbeeld gebruikt om de meeste resultaten in 2008 te genereren
artikel over de lokale uitlijningsstatistieken van H3 (PLoS Comp Bio 4:e1000069, 2008;
http://www.ploscompbiol.org/doi/pcbi.1000069).

Omdat het een onderzoekstestbed is, mag je niet verwachten dat het net zo robuust is als andere
programma's in het pakket. Opties kunnen bijvoorbeeld op vreemde manieren met elkaar omgaan; dat hebben we niet gedaan
getest, noch geprobeerd om op alle verschillende mogelijke combinaties te anticiperen.

De belangrijkste taak is om een ​​Gumbel-verdeling met maximale waarschijnlijkheid te matchen met Viterbi-scores of een
maximale waarschijnlijkheid exponentiële staart naar hoog scorende Forward-scores, en om deze te testen
Aangepaste distributies gehoorzamen aan het vermoeden dat lambda ~ log_2 voor zowel de Viterbi Gumbel
en de voorwaartse exponentiële staart.

De uitvoer is een tabel met getallen, één rij voor elk model. Vier verschillende parametrische passingen
aan de score worden gegevens getest: (1) maximale waarschijnlijkheid past bij zowel locatie (mu/tau) als
hellingsparameters (lambda); (2) uitgaande van lambda=log_2, past de maximale waarschijnlijkheid bij de
alleen locatieparameter; (3) hetzelfde, maar uitgaande van een flankgecorrigeerde lambda, waarbij gebruik wordt gemaakt van stroom
procedures in H3 [Eddy, 2008]; en (4) het gebruik van beide parameters die worden bepaald door de stroom van H3
procedures. De standaard eenvoudige, snelle en vuile statistiek voor goodness-of-fit is 'E@10',
de berekende E-waarde van de 10e gerangschikte tophit, waarvan we verwachten dat deze ongeveer 10 zal zijn.

In detail zijn de kolommen van de uitvoer:

naam Naam van het model.

staart Fractie van de hoogste scores die werd gebruikt om in de verdeling te passen. Voor Viterbi, MSV en
Hybride scores, dit is standaard 1.0 (een Gumbel-verdeling is op alle
gegevens). Voor voorwaartse scores is dit standaard 0.02 (er wordt een exponentiële staart op toegepast).
de hoogste 2%-scores).

mu/tau Locatieparameter voor de maximale waarschijnlijkheid dat deze past bij de gegevens.

lambda Hellingsparameter voor de maximale waarschijnlijkheid dat deze past bij de gegevens.

E@10 De E-waarde berekend voor de 10e hoogste score ('E@10') met behulp van de ML mu/tau
en lambda. Per definitie wordt verwacht dat dit ongeveer 10 zal zijn, als de E-waarde geschat zou worden
nauwkeurig.

mufix Locatieparameter, voor een maximale waarschijnlijkheidsfit met een bekende (vaste) helling
parameter lambda van log_2 (0.693).

E@10fix
De E-waarde berekend voor de 10e gerangschikte score met behulp van mufix en de verwachte
lambda = log_2 = 0.693.

mufix2 Locatieparameter, voor een maximale waarschijnlijkheidspassing met gecorrigeerd randeffect
lambda.

E@10fix2
De E-waarde berekend voor de 10e gerangschikte score met behulp van mufix2 en het edge-effect-
gecorrigeerde lambda.

pmu Locatieparameter zoals bepaald door de schattingsprocedures van H3.

plambda
Hellingsparameter zoals bepaald door de schattingsprocedures van H3.

pE@10 De E-waarde berekend voor de 10e gerangschikte score met behulp van pmu, plambda.

Aan het einde van deze tabel wordt nog een regel afgedrukt, beginnend met # en een samenvatting van de
totale CPU-tijd die door de simulaties wordt gebruikt.

Sommige van de optionele uitvoerbestanden hebben de xmgrace xy-indeling. xmgrace is krachtig en vrij
beschikbare software voor het plotten van grafieken.

DIVERSE OPTIES


-h Helpen; print een korte herinnering aan het gebruik van de opdrachtregel en alle beschikbare opties.

-a Verzamel verwachte Viterbi-uitlijningslengtestatistieken van elke gesimuleerde reeks.
Dit werkt alleen met Viterbi-scores (de standaard; zie --vit). Twee extra
Voor elk model worden in de uitvoertabel velden afgedrukt: de gemiddelde lengte van Viterbi
uitlijningen en de standaarddeviatie.

-v (Uitgebreid). Druk ook de scores af, één score per regel.

-L Stel de lengte van de willekeurig bemonsterde (niet-homologe) reeksen in op . De
standaard is 100.

-N Stel het aantal willekeurig bemonsterde reeksen in op . De standaardwaarde is 1000.

--mpi Uitvoeren in parallelle MPI-modus, onder mpirun. Het wordt geparallelliseerd op het niveau van verzending
één profiel tegelijk naar een MPI-werkproces, dus parallellisatie helpt alleen als
je hebt meer dan één profiel in de , en je wilt minstens zo hebben
veel profielen als MPI-werkprocessen. (Alleen beschikbaar als optionele MPI-ondersteuning was
ingeschakeld tijdens het compileren.)

OPTIES CONTROLEREN OUTPUT


-o Sla de hoofduitvoertabel op in een bestand in plaats van het naar stdout te sturen.

--een bestand
Bij het verzamelen van Viterbi-uitlijningsstatistieken (de -a optie), voor elke bemonsterde
volgorde, voer twee velden per regel uit naar een bestand : de lengte van het optimale
uitlijning en de Viterbi-bitscore. Vereist dat de -a optie wordt ook gebruikt.

--ebestand
Voer een rangschikking versus E-waardegrafiek in XMGRACE xy-indeling uit naar een bestand . De x-as is de
rang van deze reeks, van de hoogste score naar de laagste; de y-as is de E-waarde
berekend voor deze reeks. E-waarden worden berekend met behulp van de standaardprocedures van H3
(dat wil zeggen de pmu, plambda-parameters in de uitvoertabel). Je verwacht een moeilijke wedstrijd
tussen rang en E-waarde als de E-waarden nauwkeurig worden geschat.

--fbestand
Voer een "filter power" -bestand uit naar : voor elk model een regel met drie velden:
modelnaam, aantal sequenties dat de P-waardedrempel overschrijdt, en fractie daarvan
sequenties die de P-waardedrempel overschrijden. Zien --pdorsen voor het instellen van de P-waarde
drempel, die standaard 0.02 is (de standaard MSV-filterdrempel in H3). De P-
waarden zijn zoals bepaald door de standaardprocedures van H3 (de pmu,plambda-parameters in
de uitvoertabel). Als alles goed is, verwacht je een filtervermogen dat gelijk is aan de
voorspelde P-waarde-instelling van de drempel.

--pbestand
Voer cumulatieve overlevingsplots (P(S>x)) uit naar bestand in XMGRACE xy-formaat. Daar
zijn drie grafieken: (1) de waargenomen scoreverdeling; (2) de maximale waarschijnlijkheid
ingerichte distributie; (3) een maximale waarschijnlijkheid die past bij de locatieparameter
(mu/tau) terwijl
ervan uitgaande dat lambda=log_2.

--xbestand
Voer de bitscores uit als een binaire array van floats met dubbele precisie (8 bytes per
score) om te archiveren . Programma's zoals Easel's esl-histplot kan dergelijke binaire bestanden lezen.
Dit is handig bij het genereren van extreem grote steekproeven.

OPTIES CONTROLEREN MODEL CONFIGURATIE (MODUS)


H3 gebruikt alleen lokale uitlijning met meerdere treffers ( --fs modus), en dit is waar wij geloven dat de
statistische aanpassingen. Unihit lokale uitlijningsscores (Smith/Waterman; --zw mode) gehoorzamen ook onze
statistische vermoedens. Glokale uitlijningsstatistieken (multihit of unihit) zijn dat wel
nog steeds niet voldoende begrepen, noch adequaat aangepast.

--fs Verzamel lokale uitlijningsscores met meerdere treffers. Dit is de standaardinstelling. uitlijning als
'fragmentzoekmodus'.

--zw Verzamel unihit lokale uitlijningsscores. De H3 J-status is uitgeschakeld. uitlijning als
'Smith/Waterman-zoekmodus'.

--ls Verzamel multihit-glokale uitlijningsscores. Bij glokale (mondiale/lokale) afstemming kan de
het hele model moet uitgelijnd zijn met een deelreeks van het doel. De lokale in-/uitgang H3
transitiekansen zijn uitgeschakeld. 'ls' komt uit HMMER2's historisch
terminologie voor lokale afstemming met meerdere treffers als 'lokale zoekmodus'.

--S Verzamel unihit glokale uitlijningsscores. Zowel de H3 J-status als de lokale in-/uitgang
transitiekansen zijn uitgeschakeld. 's' komt uit HMMER2's historisch
terminologie voor unihit glokale uitlijning.

OPTIES CONTROLEREN SCOREN ALGORITME


--vit Verzamel Viterbi-scores voor maximale waarschijnlijkheidsafstemming. Dit is de standaardinstelling.

--vooruit Verzamel waarschijnlijkheidsscores voor voorwaartse log-odds, opgeteld over het uitlijningsensemble.

--hyb Verzamel 'Hybride' partituren, zoals beschreven in artikelen van Yu en Hwa (bijvoorbeeld
Bio-informatica 18:864, 2002). Deze omvatten het berekenen van een Forward-matrix en het nemen ervan
de maximale celwaarde. Het getal zelf is statistisch gezien enigszins ongemotiveerd,
maar er wordt verwacht dat de verdeling een braaf extreme-waardeverdeling zal zijn
(Gumbel).

--msv Verzamel MSV-scores (multiple ungapped segment Viterbi) met behulp van de hoofdscore van H3
versnellingsheuristiek.

--snel Gebruik voor elk van de bovenstaande opties de geoptimaliseerde productie-implementatie van H3 (met behulp van
SIMD-vectorisatie). De standaard is om de implementaties een klein offer te geven
hoeveelheid numerieke precisie. Dit kan verwarrende ruis introduceren
statistische simulaties en aanpassingen, dus als je je zorgen maakt over exactheid
details, is het beter om die geluidsbron buiten beschouwing te laten.

OPTIES CONTROLEREN GEPLAATST TAIL MASSA'S VOOR FORWARD


In sommige experimenten was het nuttig om Voorwaartse scores aan een reeks verschillende staarten te koppelen
massa’s, in plaats van slechts één. Deze opties bieden een mechanisme voor het aanbrengen van een gelijkmatig
verspreid bereik van verschillende staartmassa's. Voor elke verschillende staartmassa wordt een lijn gegenereerd
in de uitvoer.

--tmin
Stel de ondergrens van de staartmassaverdeling in. (De standaardwaarde is 0.02 voor de
standaard enkele staartmassa.)

--t max
Stel de bovengrens voor de staartmassaverdeling in. (De standaardwaarde is 0.02 voor de
standaard enkele staartmassa.)

--tpunten
Stel het aantal te bemonsteren staartmassa's in, te beginnen vanaf --tmin en eindigend op --t max.
(De standaardwaarde is 1, voor de standaardmassa van een enkele staart 0.02.)

--lineair
Proef een reeks staartmassa's met uniforme lineaire afstand. De standaard is om te gebruiken
uniforme logaritmische afstand.

OPTIES CONTROLEREN H3 PARAMETER SCHATTING METHODEN


H3 gebruikt drie korte willekeurige reekssimulaties om de locatieparameters te schatten
de verwachte scoreverdelingen voor MSV-scores, Viterbi-scores en Forward-scores. Deze
Met opties kunnen deze simulaties worden gewijzigd.

--Eml
Stelt de reekslengte in simulatie in die de locatieparameter mu schat
MSV E-waarden. Standaard is 200.

--EmN
Stelt het aantal sequenties in simulatie in dat de locatieparameter mu schat
voor MSV E-waarden. Standaard is 200.

--EvL
Stelt de reekslengte in simulatie in die de locatieparameter mu schat
Viterbi E-waarden. Standaard is 200.

--EvN
Stelt het aantal sequenties in simulatie in dat de locatieparameter mu schat
voor Viterbi E-waarden. Standaard is 200.

--EfL
Stelt de reekslengte in simulatie in die de locatieparameter tau schat
voor Forward E-waarden. Standaard is 100.

--EfN
Stelt het aantal reeksen in simulatie in dat de locatieparameter schat
tau voor Forward E-waarden. Standaard is 200.

--Eft
Stelt de massafractie van de staart in zodat deze past in de simulatie die de locatie schat
parameter tau voor Forward evalues. Standaard is 0.04.

DEBUGEN OPTIES


--kraam
Voor het debuggen van de MPI master/worker-versie: pauzeer na het starten om de
ontwikkelaar om foutopsporingsprogramma's te koppelen aan de lopende master- en werkprocessen. Versturen
SIGCONT-signaal om de pauze op te heffen. (Onder gdb: (GDB) signaal VOLGENDE) (Alleen
beschikbaar als optionele MPI-ondersteuning was ingeschakeld tijdens het compileren.)

--zaad
Stel het willekeurige nummer in op . De standaardwaarde is 0, wat het willekeurige getal oplevert
generator gebruik een willekeurig zaad, zodat verschillende runs van hmm sim zal bijna
zeker een andere statistische steekproef genereren. Voor het debuggen is het handig om
reproduceerbare resultaten afdwingen, door een willekeurig getalzaad vast te stellen.

Experimenteel OPTIES


Deze opties werden gebruikt in een kleine verscheidenheid aan verschillende verkennende experimenten.

--bgplat
Stel de achtergrondresiduverdeling in op een uniforme verdeling, beide voor
doeleinden van het nulmodel dat wordt gebruikt bij het berekenen van scores en voor het genereren van de
willekeurige reeksen. De standaardinstelling is het gebruik van een standaard aminozuurachtergrondfrequentie
distributie.

--bgcomp
Stel de achtergrondresiduverdeling in op de gemiddelde samenstelling van het profiel.
Dit werd gebruikt bij het onderzoeken van enkele effecten van vooringenomen compositie.

--x-geen-lengtemodel
Schakel het H3-doelreekslengtemodel uit. Stel de zelfovergangen in voor N,C,J
en in plaats daarvan het nulmodel naar 350/351; dit emuleert HMMER2. Geen goed idee hoor
algemeen. Dit werd gebruikt om een ​​van de belangrijkste verschillen tussen H2 en H3 aan te tonen.

--nu
Stel de nu-parameter in voor het MSV-algoritme: het verwachte aantal niet-toegepaste lokale
uitlijningen per doelsequentie. De standaardwaarde is 2.0, wat overeenkomt met een E->J
transitiekans van 0.5. Hiermee werd getest of er sprake is van wisselende nu
significant effect op het resultaat (dat lijkt redelijkerwijs niet het geval te zijn). Alleen deze optie
werkt als --msv is geselecteerd (het heeft alleen invloed op MSV), en het zal niet werken --snel
(omdat de geoptimaliseerde implementaties zo zijn geprogrammeerd dat ze nu=2.0 aannemen).

--pdorsen
Stel de filter-P-waardedrempel in die moet worden gebruikt bij het genereren van filterkrachtbestanden
--fbestand. De standaardwaarde is 0.02 (wat geschikt zou zijn voor het testen van MSV-scores,
aangezien dit de standaard MSV-filterdrempel is in de versnellingspijplijn van H3.)
Andere geschikte keuzes (het matchen van de standaardwaarden in de versnellingspijplijn) zouden zijn
0.001 voor Viterbi en 1e-5 voor Voorwaarts.

Gebruik hmmsim online met behulp van onworks.net-services


Gratis servers en werkstations

Windows- en Linux-apps downloaden

Linux-commando's

Ad