Dit is de opdracht hmmbuild die kan worden uitgevoerd in de gratis hostingprovider OnWorks met behulp van een van onze verschillende gratis online werkstations, zoals Ubuntu Online, Fedora Online, Windows online emulator of MAC OS online emulator
PROGRAMMA:
NAAM
hmmbuild - construeer profiel-HMM(s) uit meerdere sequentie-uitlijningen
KORTE INHOUD
hmm bouwen [Opties]
PRODUCTBESCHRIJVING
Voor elke uitlijning van meerdere reeksen in maak een profiel HMM en sla het op in een nieuw
filet .
kan '-' (streepje) zijn, wat betekent dat deze invoer wordt gelezen van stdin in plaats van een bestand.
Om '-' te gebruiken, moet u ook het formaat van het uitlijningsbestand specificeren met --informeren , zoals in
--informeren Stockholm (vanwege een huidige beperking in onze implementatie, MSA-bestand
formaten kunnen niet automatisch worden gedetecteerd in een niet-terugspoelbare invoerstroom.)
is misschien niet '-' (standaard), omdat het verzenden van het HMM-bestand naar stdout zou
conflicteren met de andere tekstuitvoer van het programma.
OPTIES
-h Helpen; print een korte herinnering aan het gebruik van de opdrachtregel en alle beschikbare opties.
-n Geef het nieuwe profiel een naam Standaard wordt de naam van de uitlijning gebruikt (indien van toepassing)
is aanwezig in de msabestand, of, indien dat niet lukt, de naam van de hmmbestand. Indien msabestand
bevat meer dan één uitlijning, -n werkt niet, en elke uitlijning moet een
naam geannoteerd in de msabestand (zoals in Stockholm #=GF ID annotatie).
-o Leid de samenvattingsuitvoer naar het bestand , in plaats van om stdout.
-O Nadat elk model is geconstrueerd, slaat u de geannoteerde, mogelijk gewijzigde broncode opnieuw op
uitlijningen op een bestand in Stockholm-formaat. De uitlijningen zijn voorzien van een
referentie-annotatieregel die aangeeft welke kolommen als consensus zijn toegewezen, en
Sequenties worden geannoteerd met de relatieve sequentiegewichten die zijn toegewezen. Sommige
restanten van de uitlijning kunnen zijn verschoven om tegemoet te komen aan de beperkingen van de
Plan7-profielarchitectuur, die overgangen tussen invoegen en verwijderen niet toestaat
staten.
OPTIES VOOR SPECIFICEREN: HET ALFABET
Het alfabettype (amino, DNA of RNA) wordt standaard automatisch gedetecteerd door te kijken naar de
samenstelling van de msabestand. Autodetectie is normaal gesproken redelijk betrouwbaar, maar af en toe
alfabettype kan dubbelzinnig zijn en automatische detectie kan mislukken (bijvoorbeeld op klein speelgoed
uitlijningen van slechts een paar residuen). Om dit te voorkomen, of om de robuustheid van automatisering te vergroten
analysepijplijnen, kunt u het alfabettype specificeren van msabestand met deze opties.
--amino
Geef op dat alle reeksen in msabestand zijn eiwitten.
--DNA Geef op dat alle reeksen in msabestand zijn DNA's.
--na Geef op dat alle reeksen in msabestand zijn RNA's.
OPTIES CONTROLEREN PROFIEL CONSTRUCTIE
Deze opties bepalen hoe consensuskolommen worden gedefinieerd in een uitlijning.
--snel Definieer consensuskolommen als kolommen met een breuk >= symfrac van residuen als
tegen hiaten. (Zie hieronder voor de --symfrac optie.) Dit is de standaardinstelling.
--hand Definieer consensuskolommen in het volgende profiel met behulp van verwijzingsaantekeningen naar de veelvoud
uitlijning. Hierdoor kunt u elke gewenste consensuskolom definiëren.
--symfrac
Definieer de residufractiedrempel die nodig is om een consensuskolom te definiëren wanneer
met de --snel keuze. De standaardwaarde is 0.5. De symboolfractie in elke kolom is
berekend na rekening te hebben gehouden met de relatieve reeksweging en de kloof te negeren
tekens die overeenkomen met uiteinden van reeksfragmenten (in tegenstelling tot interne
toevoegingen/verwijderingen). Als u dit instelt op 0.0, betekent dit dat elke uitlijningskolom dat zal doen
worden toegewezen als consensus, wat in sommige gevallen nuttig kan zijn. Zet hem op 1.0
betekent dat alleen kolommen met 0 hiaten (interne invoegingen/verwijderingen) zullen zijn
toegewezen als consensus.
--fragmentatie
We willen terminale hiaten alleen als deleties tellen als de uitgelijnde volgorde bekend is
om volledig te zijn, niet als het een fragment is (bijvoorbeeld omdat slechts een deel ervan
werd gesequenced). HMMER gebruikt een eenvoudige regel om fragmenten af te leiden: als het bereik van een
volgorde in de uitlijning (het aantal uitlijningskolommen tussen de eerste en
laatste posities van de reeks) is kleiner dan of gelijk aan een fractie keer de
uitlijningslengte in kolommen, dan wordt de sequentie als een fragment behandeld. De
standaard is 0.5. Instelling --fragmentatie0 zal geen (niet-lege) reeks definiëren als een
fragment; je zou dit kunnen willen doen als je weet dat je een zorgvuldig samengestelde
uitlijning van volledige sequenties. Instelling --fragmentatie1 zal alles definiëren
sequenties als fragmenten; u kunt dit doen als u weet dat uw uitlijning correct is
volledig samengesteld uit fragmenten, zoals vertaalde korte lezingen in metagenomische
gegevens over hagelgeweren.
OPTIES CONTROLEREN FAMILIELID GEWICHTEN
HMMER gebruikt een ad hoc algoritme voor het wegen van reeksen om nauw verwante reeksen te verminderen
en zwaardere verre verwanten. Dit heeft tot gevolg dat modellen minder bevooroordeeld worden door
ongelijke fylogenetische representatie. Twee identieke sequenties zouden bijvoorbeeld kenmerkend zijn
elk krijgt de helft van het gewicht dat één reeks zou krijgen. Deze opties bepalen welke
algoritme wordt gebruikt.
--wpb Gebruik het Henikoff positiegebaseerde sequentiewegingsschema [Henikoff en Henikoff,
J Mol. Biol. 243:574, 1994]. Dit is de standaardinstelling.
--wgsc Gebruik het Gerstein/Sonnhammer/Chothia-wegingsalgoritme [Gerstein et al, J. Mol.
Biol. 235:1067, 1994].
--wblosum
Gebruik hetzelfde clusterschema dat werd gebruikt om gegevens te wegen bij het berekenen van BLOSUM
vervangingsmatrices [Henikoff en Henikoff, Proc. Natl. Acad. Sc. 89:10915, 1992].
Sequenties zijn geclusterd met een enkele koppeling bij een identiteitsdrempel (standaard 0.62; zie
--breed) en binnen elk cluster van c-reeksen krijgt elke reeks een relatief gewicht
1/c.
--geen
Geen relatieve gewichten. Aan alle reeksen wordt een uniform gewicht toegekend.
--breed
Stelt de identiteitsdrempel in die wordt gebruikt door single-linkage clustering bij gebruik --wblosum.
Ongeldig met elk ander wegingsschema. Standaard is 0.62.
OPTIES CONTROLEREN EFFECTIEF VOLGORDE NUMMER
Nadat relatieve gewichten zijn bepaald, worden ze genormaliseerd om op te tellen tot een totaal effectief
volgnummer, eff_nseq. Dit aantal kan het daadwerkelijke aantal sequenties in de
uitlijning, maar het is bijna altijd kleiner dan dat. De standaard entropieweging
methode (--ent) vermindert het effectieve volgnummer om de informatie-inhoud te verminderen
(relatieve entropie, of gemiddelde verwachte score op echte homologen) per consensuspositie. De
doel relatieve entropie wordt bestuurd door een functie met twee parameters, waarbij de twee
parameters zijn instelbaar met --er en --esigma.
--eens Pas het effectieve volgnummer aan om een specifieke relatieve entropie per te bereiken
positie (zie --er). Dit is de standaardinstelling.
--eclus
Stel het effectieve volgnummer in op het aantal enkelvoudige koppelingsclusters bij a
specifieke identiteitsdrempel (zie --eid). Deze optie wordt niet aanbevolen; het is voor
experimenten evalueren hoeveel beter --eens hij precies is.
--een
Schakel effectieve volgnummerbepaling uit en gebruik gewoon het daadwerkelijke aantal
opeenvolgingen. Een reden waarom u dit zou willen doen, is om te proberen het relatieve te maximaliseren
entropie/positie van uw model, wat handig kan zijn voor korte modellen.
--set
Stel expliciet het effectieve volgnummer voor alle modellen in op .
--er
Stel het minimale relatieve entropie-/positiedoel in op . Vereist --eens. Standaard
hangt af van het sequentiealfabet. Voor eiwitsequenties is dit 0.59 bits/positie;
voor nucleotide-sequenties is dit 0.45 bits/positie.
--esigma
Stelt de minimale relatieve entropie in die wordt bijgedragen door een volledige modeluitlijning, over
zijn hele lengte. Dit heeft tot gevolg dat korte modellen een hogere relatieve waarde hebben
entropie per positie dan --er alleen zou geven. De standaardwaarde is 45.0 bits.
--eid
Stelt de fractionele paarsgewijze identiteitsafsnijding in die wordt gebruikt door enkelvoudige koppelingsclustering met
the --eclus optie. De standaardwaarde is 0.62.
OPTIES CONTROLEREN PRIOREN
Standaard worden gewogen tellingen omgezet naar gemiddelde posterieure waarschijnlijkheidsparameter
schattingen met behulp van Dirichlet-priors uit het mengsel. Standaard Dirichlet-priorparameters uit het mengsel voor
eiwitmodellen en voor nucleïnezuur (RNA en DNA) zijn modellen ingebouwd. De volgende
Met opties kunt u de standaardpriors overschrijven.
--pnone
Gebruik geen priors. Waarschijnlijkheidsparameters zijn gewoon de waargenomen parameters
frequenties, na relatieve sequentieweging.
--plaats
Gebruik een Laplace +1 prior in plaats van de standaard mix Dirichlet prior.
OPTIES CONTROLEREN E-WAARDE KALIBRATIE
De locatieparameters voor de verwachte scoreverdelingen voor MSV-filterscores,
Voor Viterbi-filterscores en Forward-scores zijn drie korte simulaties van willekeurige sequenties nodig.
--Eml
Stelt de reekslengte in simulatie in die de locatieparameter mu schat
MSV filter E-waarden. Standaard is 200.
--EmN
Stelt het aantal sequenties in simulatie in dat de locatieparameter mu schat
voor MSV filter E-waarden. Standaard is 200.
--EvL
Stelt de reekslengte in simulatie in die de locatieparameter mu schat
Viterbi filter E-waarden. Standaard is 200.
--EvN
Stelt het aantal sequenties in simulatie in dat de locatieparameter mu schat
voor Viterbi filter E-waarden. Standaard is 200.
--EfL
Stelt de reekslengte in simulatie in die de locatieparameter tau schat
voor Forward E-waarden. Standaard is 100.
--EfN
Stelt het aantal reeksen in simulatie in dat de locatieparameter schat
tau voor Forward E-waarden. Standaard is 200.
--Eft
Stelt de massafractie van de staart in zodat deze past in de simulatie die de locatie schat
parameter tau voor Forward evalues. Standaard is 0.04.
ANDERE OPTIES
--processor
Stel het aantal parallelle worker-threads in op . HMMER stelt dit standaard in op
het aantal CPU-kernen dat het in uw machine detecteert - dat wil zeggen, het probeert te maximaliseren
het gebruik van uw beschikbare processorkernen. Instelling hoger dan het aantal
beschikbare kernen is van weinig of geen waarde, maar misschien wilt u het ergens op instellen
minder. U kunt dit aantal ook regelen door een omgevingsvariabele in te stellen,
HMMER_NCPU.
Deze optie is alleen beschikbaar als HMMER is gecompileerd met ondersteuning voor POSIX-threads.
Dit is de standaardinstelling, maar het kan zijn uitgeschakeld voor uw site of machine
een of andere reden.
--informeren
Verklaar dat de invoer msabestand is in formaat . Momenteel de geaccepteerde multiple
bestandsindelingen voor uitlijningsreeksen zijn Stockholm, Aligned FASTA, Clustal, NCBI
PSI-BLAST, PHYLIP, Selex en UCSC SAM A2M. Standaard is het automatisch detecteren van het formaat van
het bestand.
--zaad
Zaai de generator voor willekeurige getallen met , een geheel getal >= 0. Als is niet nul, geen
stochastische simulaties zullen reproduceerbaar zijn; hetzelfde commando zal hetzelfde geven
resultaten. Als 0 is, wordt de generator van willekeurige getallen willekeurig geplaatst, en
stochastische simulaties variëren van run tot run van hetzelfde commando. De standaard
zaad is 42.
--w_bèta
Raamlengte staartmassa. De bovengrens, W, op de lengte waarop nhmmer verwacht
om een exemplaar van het model te vinden, is zo ingesteld dat de fractie van alle reeksen
gegenereerd door het model met lengte >= W is minder dan . De standaardwaarde is 1e-7.
--w_lengte
Overschrijf de bovengrens van de lengte van de modelinstantie, W, die anders wordt bestuurd door
--w_bèta. Het moet groter zijn dan de lengte van het model. De waarde van W wordt diep gebruikt
in de acceleratiepijplijn, en bescheiden veranderingen zullen naar verwachting geen invloed hebben op de resultaten
(hoewel grotere waarden van W (wat tot een langere looptijd leidt).
--mpi Draai als een parallel MPI-programma. Elke uitlijning wordt toegewezen aan een MPI-werkknooppunt.
constructie. (Daarom mag de maximale parallelisatie het aantal niet overschrijden
uitlijningen in de invoer msabestand.) Dit is handig bij het bouwen van een groot profiel
bibliotheken. Deze optie is alleen beschikbaar als de optionele MPI-functionaliteit is ingeschakeld bij
compilatietijd.
--kraam
Voor het debuggen van MPI-parallelisatie: stop de uitvoering van het programma onmiddellijk na
start en wacht tot een debugger zich aan het lopende proces koppelt en de
arresteren.
--maxinsertlen
Beperk de parameterisatie van de invoeglengte zodanig dat de verwachte invoeglengte bij
elke positie van het model is niet meer dan .
Gebruik hmmbuild online met behulp van onworks.net-services