EngelsFransSpaans

Ad


OnWorks-favicon

cmalign - Online in de cloud

Voer cmalign uit in de gratis hostingprovider van OnWorks via Ubuntu Online, Fedora Online, Windows online emulator of MAC OS online emulator

Dit is de opdracht cmalign die kan worden uitgevoerd in de gratis hostingprovider van OnWorks met behulp van een van onze meerdere gratis online werkstations zoals Ubuntu Online, Fedora Online, Windows online emulator of MAC OS online emulator

PROGRAMMA:

NAAM


cmalign - lijn reeksen uit met een covariantiemodel

KORTE INHOUD


cmuitlijnen
[Opties]

PRODUCTBESCHRIJVING


cmuitlijnen lijnt de RNA-sequenties uit naar het covariantiemodel (CM) in .
De nieuwe uitlijning wordt uitgevoerd naar stdout in Stockholm-formaat, maar kan worden omgeleid naar een bestand
met de -o optie.

Een van beide or (maar niet beide) kan '-' (streepje) zijn, wat betekent dat je dit moet lezen
invoer van stdin in plaats van een bestand.

Het sequentiebestand moet het FASTA- of Genbank-formaat hebben.

cmuitlijnen gebruikt een HMM-bandtechniek om de uitlijning standaard te versnellen, zoals beschreven
hieronder voor de --geband keuze. HMM-bandvorming kan worden uitgeschakeld met de --niet-gestreept optie.

Standaard cmuitlijnen berekent de uitlijning met de maximaal verwachte nauwkeurigheid
consistent met beperkingen (banden) afgeleid van een HMM, met behulp van een gestreepte versie van de
Durbin/Holmes algoritme voor optimale nauwkeurigheid. Dit gedrag kan worden gewijzigd met de --cyk or
--steekproef opties.

cmuitlijnen besteedt speciale zorg aan het correct uitlijnen van afgeknotte sequenties, waarbij sommige nucleotiden voorkomen
vanaf het begin (5') en/of einde (3') van de feitelijke biologische sequentie met de volledige lengte
niet aanwezig in de invoerreeks (zie DL Kolbe en SR Eddy, Bioinformatics, 25:1236-1243,
2009). Dit gedrag is standaard ingeschakeld, maar kan worden uitgeschakeld met --notrunc. In vorige
versies van cmuitlijnen de --sub optie was vereist om afgekapt materiaal op de juiste manier te verwerken
sequenties. De --sub optie is nog steeds beschikbaar in deze versie, maar de nieuwe standaardmethode
voor het verwerken van afgeknotte sequenties zou in bijna even goed of beter moeten zijn dan de submethode
alle gevallen.

De --mapali optie maakt het mogelijk om de vaste trainingsuitlijning op te nemen die wordt gebruikt om de
CM uit bestand binnen de uitvoeruitlijning van cm uitlijnen.

Het is mogelijk om twee of meer uitlijningen die door dezelfde CM zijn gemaakt, samen te voegen met behulp van de Easel
mini-app esl-alimerge (opgenomen in de Ezel/miniapps/ submap van Infernal). Vorig
versies van cmuitlijnen bevatte opties om uitlijningen samen te voegen, maar deze werden verouderd
ontwikkeling esl-alimerge, wat aanzienlijk geheugenefficiënter is.

Standaard cmuitlijnen zal de uitlijning naar stdout uitvoeren. De uitlijning kan worden omgeleid
naar een uitvoerbestand met de -o optie. Met -O, informatie over elke uitgelijnde
volgorde, inclusief de grenzen van de partituur en de modeluitlijning, worden afgedrukt naar stdout (meer
hierover hieronder).

De uitvoeruitlijning is standaard in Stockholm-indeling. Dit kan worden gewijzigd in Pfam,
uitgelijnd FASTA (AFA), A2M, Clustal of Phylip-formaat met behulp van de --uitformatteren keuze,
WAAR is de naam van het gewenste formaat. In een speciaal geval, als de uitvoeruitlijning
groot is (meer dan 10,000 sequenties of meer dan 10,000,000 totale nucleotiden) dan de
het uitvoerformaat is het Pfam-formaat, waarbij elke reeks op een enkele regel verschijnt
redenen van geheugenefficiëntie. Voor uitlijningen die groter zijn dan dit, gebruikt u --ik verliet zal dwingen
interleaved Stockholm-formaat, maar de gebruiker moet zich ervan bewust zijn dat dit veel kan vergen
geheugen. --ik verliet werkt alleen voor uitlijningen tot 100,000 reeksen of 100,000,000
totale nucleotiden.

Als het uitvoeruitlijningsformaat Stockholm of Pfam is, zal de uitvoeruitlijning dat zijn
geannoteerd met posterieure waarschijnlijkheden die het betrouwbaarheidsniveau van elke uitgelijnde schatting schatten
nucleotide. Deze annotatie verschijnt als regels die beginnen met "#=GR PP", één per
reeks, elk onmiddellijk onder de overeenkomstige uitgelijnde reeks " ".
Tekens in PP-regels hebben 12 mogelijke waarden: "0-9", "*" of ".". Als ".": de positie
komt overeen met een gat in de reeks. Een waarde van "0" geeft een posterieure waarschijnlijkheid aan van
tussen 0.0 en 0.05, "1" geeft aan tussen 0.05 en 0.15, "2" geeft aan tussen 0.15 en
0.25 enzovoort tot "9", wat tussen 0.85 en 0.95 aangeeft. Een waarde van "*" geeft a aan
posterieure waarschijnlijkheid tussen 0.95 en 1.0. Hogere posterieure kansen komen overeen
tot een groter vertrouwen dat het uitgelijnde nucleotide thuishoort waar het voorkomt in de
uitlijning. Met --niet-gestreept, bij de berekening van de posterieure kansen wordt met alles rekening gehouden
mogelijke uitlijningen van de doelsequentie met de CM. Zonder --niet-gestreept (dwz in gebreke
modus), houdt de berekening alleen rekening met mogelijke uitlijningen binnen de HMM-banden. Verder,
de posterieure kansen zijn afhankelijk van de afknottingsmodus van de uitlijning. Voor
Als de sequentie-uitlijning bijvoorbeeld 5' wordt afgekapt, geeft een PP-waarde van "9" aan dat er tussen ligt
0.85 en 0.95 van alle 5'-afgeknotte uitlijningen omvatten het gegeven nucleotide op de gegeven
positie. De posterieure annotatie kan worden uitgeschakeld met de --geen probleem optie. Indien --klein
is ingeschakeld, moet posterieure annotatie ook worden uitgeschakeld met --geen probleem.

De tabellarische uitvoer die naar stdout wordt afgedrukt als de -o optie wordt gebruikt, bevat één regel
per reeks en twaalf velden per regel: "idx": de index van de reeks in de invoer
bestand, "seq name": de reeksnaam; "lengte": de lengte van de reeks; "cm vanaf" en
"cm tot": de modelbegin- en eindposities van het alignement; "trunc": "no" als de reeks
wordt niet afgekapt, "5'" als het begin van de reeks wordt afgekapt 5', "3'" als het einde van
de reeks wordt afgekapt, en "5'&3'" als zowel het begin als het einde worden afgekapt;
"bit sc": de bitscore van de uitlijning, "avg pp" de gemiddelde posterieure waarschijnlijkheid van
alle uitgelijnde nucleotiden in de uitlijning; "band calc", "alignment" en "total": de tijd
in seconden die nodig zijn voor het berekenen van HMM-banden, het berekenen van de uitlijning en het voltooien
verwerking van respectievelijk de reeks; "mem (Mb)": de grootte in Mb van alle dynamische bestanden
programmeermatrices die nodig zijn voor het uitlijnen van de reeks. Deze tabelgegevens kunnen worden opgeslagen
naar bestand met de --sbestand optie.

OPTIES


-h Hulp; druk een korte herinnering af over het gebruik van de opdrachtregel en de beschikbare opties.

-o Sla de uitlijning in Stockholm-formaat op in een bestand . De standaardinstelling is om het te schrijven
naar standaarduitvoer.

-g Configureer het model voor globale uitlijning van het querymodel met het doel
opeenvolgingen. Standaard is het model geconfigureerd voor lokale uitlijning. Lokaal
uitlijningen kunnen grote invoegingen en verwijderingen bevatten die "lokale uiteinden" worden genoemd in de
structuur anders worden bestraft dan normale indels. Deze zijn geannoteerd als
"~"-kolommen in de RF-lijn van de uitgangsuitlijning. De -g optie kan worden gebruikt om
deze lokale doeleinden niet toestaan. De -g optie is vereist als de --sub optie is ook
gebruikt.

OPTIES VOOR CONTROLEREN HET UITLIJNING ALGORITME


--optacc
Lijn reeksen uit met behulp van het Durbin/Holmes-algoritme voor optimale nauwkeurigheid. Dit is de
standaard. De optimale uitlijningsnauwkeurigheid wordt beperkt door HMM-banden
versnelling, tenzij de --niet-gestreept optie is ingeschakeld. De optimale nauwkeurigheid
algoritme bepaalt de uitlijning die de posterieure kansen maximaliseert
de uitgelijnde nucleotiden daarin. De posterieure waarschijnlijkheden worden bepaald met behulp van
(mogelijk HMM-bandige) varianten van de Inside- en Outside-algoritmen.

--cyk Gebruik de Durbin/Holmes-uitlijning met optimale nauwkeurigheid niet om de sequenties uit te lijnen,
gebruik in plaats daarvan het CYK-algoritme dat de optimale score bepaalt (maximum
waarschijnlijkheid) uitlijning van de sequentie met het model, gegeven de HMM-banden (tenzij
--niet-gestreept is ook ingeschakeld).

--steekproef
Proef een uitlijning uit de posterieure verdeling van uitlijningen. Het achterste
distributie wordt bepaald met behulp van een HMM-banded (tenzij --niet-geband) variant van de
Binnen algoritme.

--zaad
Zaai de generator voor willekeurige getallen met , een geheel getal >= 0. Deze optie kan alleen
te gebruiken in combinatie met --steekproef. If is niet nul, stochastische bemonstering van
uitlijningen zullen reproduceerbaar zijn; hetzelfde commando geeft dezelfde resultaten. Als
0 is, wordt de generator voor willekeurige getallen willekeurig en stochastisch geplaatst
bemonsteringen kunnen variëren van uitvoering tot uitvoering van dezelfde opdracht. Het standaardzaad is 181.

--nietrunc
Schakel algoritmen voor afgekapte uitlijning uit. Alle reeksen in het invoerbestand zijn
wordt verondersteld de volledige lengte te hebben, tenzij --sub wordt ook gebruikt, in welk geval het programma dat kan
verwerken nog steeds afgeknotte reeksen, maar zullen daarvoor een alternatieve strategie gebruiken
uitlijning.

--sub Schakel de procedure voor het bouwen en uitlijnen van submodellen in. Voor elke reeks wordt een
HMM wordt eerst gebruikt om de consensuskolommen voor het begin en einde van het model te voorspellen, en een nieuwe
sub CM is zo geconstrueerd dat alleen consensuskolommen van begin tot eind worden gemodelleerd. De
sequentie wordt vervolgens uitgelijnd met deze sub-CM. Subuitlijning is een oudere methode dan de
standaard één voor het uitlijnen van reeksen die mogelijk zijn afgekapt. Standaard, cmuitlijnen
gebruikt speciale DP-algoritmen om afgeknotte reeksen te verwerken, wat meer zou moeten zijn
in de meeste gevallen nauwkeuriger dan de submethode. --sub is nog steeds als optie inbegrepen
voornamelijk voor het testen van deze standaardafhandeling van ingekorte reeksen. Deze "sub-CM"
procedure is niet hetzelfde als de "sub CM's" beschreven door Weinberg en Ruzzo.

OPTIES VOOR CONTROLEREN SPEED EN GEHEUGEN VEREISTEN


--geband
Deze optie is standaard ingeschakeld. Versnel de uitlijning door gebieden weg te snoeien
van de CM DP-matrix die door een HMM als verwaarloosbaar worden beschouwd. Ten eerste is elke reeks
gescoord met een CM-plan 9 HMM afgeleid van de CM met behulp van de Voorwaartse en Achterwaartse HMM
algoritmen om de posterieure kansen te berekenen dat elk nucleotide op één lijn ligt
staat van de HMM. Deze posterieure waarschijnlijkheden worden gebruikt om beperkingen af ​​te leiden
(banden) op de CM DP-matrix. Tenslotte wordt de doelsequentie uitgelijnd met de CM
met behulp van de gestreepte DP-matrix, waarbij cellen buiten de banden worden genegeerd.
Meestal ligt het grootste deel van de volledige DP-matrix buiten de banden (vaak meer dan 95%),
deze techniek sneller maken omdat er minder DP-berekeningen nodig zijn, en meer
geheugenefficiënt omdat alleen cellen binnen de banden hoeven te worden toegewezen.

Belangrijk is dat HMM-banding de garantie opoffert om het optimale te bepalen
nauwkeurige of optimale uitlijning, die gemist zal worden als deze buiten de banden ligt.
De tau-parameter is de hoeveelheid waarschijnlijkheidsmassa die als verwaarloosbaar wordt beschouwd tijdens
HMM-bandberekening; lagere tau-waarden leveren grotere versnellingen op, maar ook een grotere
kans om de optimale uitlijning te missen. De standaardtau is 1E-7, bepaald
empirisch gezien als een goede afweging tussen gevoeligheid en snelheid, hoewel deze waarde dat wel kan
worden gewijzigd met de --tau keuze. Het versnellingsniveau neemt toe met
zowel de lengte als het behoudsniveau van de primaire sequentie van de familie. Bijvoorbeeld,
met de standaard tau van 1E-7, tRNA-modellen (lage conservering van de primaire sequentie met
lengte van ongeveer 75 nucleotiden) vertonen een versnelling van ongeveer 10x, en SSU bacterieel rRNA
modellen (hoge conservering van de primaire sequentie met een lengte van ongeveer 1500 nucleotiden)
toon ongeveer 700X. HMM-bandvorming kan worden uitgeschakeld met de --niet-gestreept optie.

--tau
Stel de staartverlieswaarschijnlijkheid die wordt gebruikt tijdens de HMM-bandberekening in op . Dit is de
hoeveelheid waarschijnlijkheidsmassa binnen de HMM posterieure waarschijnlijkheden
als verwaarloosbaar beschouwd. De standaardwaarde is 1E-7. Over het algemeen zullen hogere waarden dat wel doen
resulteren in een grotere acceleratie, maar vergroten de kans dat u het optimale mist
uitlijning vanwege de HMM-banden.

--mxmaat
Stel de maximaal toegestane totale DP-matrixgrootte in op megabytes. Standaard dit
grootte is 1028 Mb. Dit zou groot genoeg moeten zijn voor de overgrote meerderheid van de uitlijningen,
maar als dat niet zo is cmuitlijnen zal proberen de HMM-banden iteratief aan te spannen
gebruikt om de uitlijning te beperken door de tau-parameter te verhogen en de tau-parameter opnieuw te berekenen
banden totdat de totale benodigde matrixgrootte eronder komt megabytes of het maximum
toegestane tau-waarde (standaard 0.05, maar veranderlijk met --maxtau) is bereikt. Bij
Bij elke iteratie van het aanspannen van de band wordt tau vermenigvuldigd met een 2.0. De band wordt strakker
strategie kan worden uitgeschakeld met de --vaste tau keuze. Als de maximale tau is
bereikt en de vereiste matrixgrootte nog steeds groter is of als HMM-bandvorming dat niet is
wordt gebruikt en de vereiste matrixgrootte overschrijdt harte cmuitlijnen zal verlaten
voortijdig en rapporteer een foutmelding dat de matrix het maximum heeft overschreden
toegestane maat. In dit geval is de --mxmaat kan worden gebruikt om de maximale grootte te verhogen of
waarmee de maximale tau kan worden verhoogd --maxtau. Vaak zal de grens overschreden worden
wanneer de --niet-gestreept optie wordt gebruikt zonder de --klein optie, maar kan nog steeds voorkomen
wanneer --niet-gestreept het is niet gebruikt. Merk op dat als cmuitlijnen wordt ingereden meervoudig
threads op een multicore-machine, dan kan elke thread een toegewezen matrix van maximaal hebben
maat Mb op elk gewenst moment.

--vaste tau
Schakel de HMM-bandaanhaalstrategie uit die wordt beschreven in de uitleg van de
--mxmaat optie hierboven.

--maxtau
Stel de maximaal toegestane waarde voor tau in tijdens het aanspannen van de band, beschreven in de
uitleg van --mxmaat boven, naar . Standaard is deze waarde 0.05.

--niet-gestreept
Schakelt HMM-banding uit. De geretourneerde uitlijning is gegarandeerd globaal
optimaal nauwkeurige (standaard) of de globaal optimaal scorende (indien --cyk
is ingeschakeld). De --klein optie wordt aanbevolen in combinatie met deze optie,
omdat standaarduitlijning zonder HMM-banding veel geheugen vereist (zie
--klein ).

--klein
Gebruik het verdeel en heers CYK-uitlijningsalgoritme, beschreven in SR Eddy, BMC
Bio-informatica 3:18, 2002. De --niet-gestreept optie moet worden gebruikt in combinatie met
deze opties. Het wordt ook altijd aanbevolen --niet-gestreept wordt daar gebruik van gemaakt --klein is
ook gebruikt omdat standaard CM-uitlijning zonder HMM-banding veel vergt
geheugen, vooral voor grote RNA's. --klein maakt CM-uitlijning binnen de praktijk mogelijk
geheugenlimieten, waardoor het geheugen dat nodig is voor de uitlijning van LSU-rRNA, de grootste, wordt verminderd
bekende RNA's, van 150 Gb tot minder dan 300 Mb. Deze optie kan alleen worden gebruikt in
combinatie met --niet-gestreept, --notrunc, en --cyk.

OPTIONELE OUTPUT FILES


--sbestand
Dump de uitlijningsscore per reeks en de timinginformatie naar een bestand . Het formaat van
dit bestand wordt hierboven beschreven (het zijn dezelfde gegevens in hetzelfde formaat als het tabelbestand
stdout-uitvoer wanneer de -o optie wordt gebruikt).

--tbestand
Dump tabelvormige reekstracebacks voor elke afzonderlijke reeks naar een bestand .
Vooral handig voor het debuggen.

--ibestand
Dump per reeks en voeg informatie in een bestand in . Het formaat van het bestand is
beschreven door commentaarregels met "#" als voorvoegsel bovenaan het bestand . De
invoeginformatie is geldig, zelfs als de --matchonly optie wordt gebruikt.

--elfile
Dump per reeks EL-status (lokaal einde) en voeg informatie in het bestand in . Het formaat
van het bestand wordt beschreven door commentaarregels met "#" als voorvoegsel bovenaan het bestand
filet . De EL-invoeginformatie is geldig, zelfs als de --matchonly Optie is
gebruikt.

ANDERE OPTIES


--mapali
Leest de uitlijning uit het bestand gebruikt om het model te bouwen, lijnt het uit als één geheel
bezwaar maken tegen de CM; bijvoorbeeld de uitlijning wordt vast gehouden. Hierdoor kunt u dat doen
lijn reeksen uit met een model cmuitlijnen en bekijk ze in de context van een bestaand
vertrouwde meervoudige uitlijning. moet het uitlijningsbestand zijn waarmee de CM is gebouwd
van. Het programma verifieert dat de controlesom van het bestand overeenkomt met die van het bestand
gebruikt om de CM te construeren. Een soortgelijke optie als deze werd genoemd --met al in
eerdere versies van cm uitlijnen.

--mapstr
Moet gebruikt worden in combinatie met --mapali . Structurele informatie verspreiden
voor eventuele pseudoknots die bestaan ​​in aan de uitvoeruitlijning. Een soortgelijke optie als
deze werd genoemd --metstr in eerdere versies van cm uitlijnen.

--informeren
Beweer dat de invoer is in formaat . Voer het Babelfish-formaat niet uit
automatische detectie. Dit verhoogt de betrouwbaarheid van het programma enigszins, omdat de
Babelfish kan fouten maken; bijzonder aanbevolen voor onbeheerde, hoog-
doorvoerruns van Infernal. Acceptabele formaten zijn: FASTA, GENBANK en DDBJ.
is niet hoofdlettergevoelig.

--uitformatteren
Geef het uitvoeruitlijningsformaat op als . Acceptabele formaten zijn: Pfam, AFA,
A2M, Clustal en Phylip. AFA is snel uitgelijnd. Alleen afstemming tussen Pfam en Stockholm
formaten omvatten annotatie van de consensusstructuur en posterieure waarschijnlijkheid
annotatie van uitgelijnde residuen.

--dna-uit
Voer de uitlijningen uit als DNA-sequentie-uitlijningen, in plaats van RNA-uitlijningen.

--geen probleem
Annoteer de uitvoeruitlijning niet met posterieure waarschijnlijkheden.

--matchonly
Neem alleen overeenkomende kolommen op in de uitvoeruitlijning, neem geen invoegingen op
ten opzichte van het consensusmodel. Deze optie kan handig zijn bij het maken van zeer grote bestanden
uitlijningen die veel geheugen en schijfruimte vereisen, waarvan het grootste deel noodzakelijk is
alleen om invoegkolommen te behandelen die gaten in de meeste reeksen vormen.

--ik verliet
Voer de uitlijning uit in interleaved Stockholm-formaat met een vaste breedte die mogelijk is
handiger voor onderzoek. Dit was het standaarduitlijningsformaat van
eerdere versies van cm uitlijnen. Merk op dat cmuitlijnen vereist meer geheugen wanneer dit
optie wordt gebruikt. Om deze reden, --ik verliet werkt alleen voor uitlijningen tot
100,000 sequenties of een totaal van 100,000,000 uitgelijnde nucleotiden.

--regressie
Bewaar een extra kopie van de uitvoeruitlijning zonder auteursinformatie in het bestand
.

--uitgebreid
Voer aanvullende informatie uit in de tabellarische scoresuitvoer (uitvoer naar stdout if -o
wordt gebruikt, of om if --sbestand is gebruikt). Deze zijn vooral nuttig voor het testen en
debuggen.

--processor
Specificeer dat parallelle CPU-werkers worden gebruikt. Als is ingesteld op "0", dan wordt de
het programma wordt in seriële modus uitgevoerd, zonder gebruik te maken van threads. Je kunt ook controleren
dit aantal door een omgevingsvariabele in te stellen, INFERNAL_NCPU. Deze optie zal
alleen beschikbaar zijn als de machine waarop Infernal is gebouwd, kan worden gebruikt
POSIX-inrijgen (zie het gedeelte Installatie van de gebruikershandleiding voor meer informatie).
informatie).

--mpi Uitvoeren als een parallel MPI-programma. Deze optie is alleen beschikbaar als Infernal dat heeft
is geconfigureerd en gebouwd met de vlag "--enable-mpi" (zie Installatie
sectie van de gebruikershandleiding voor meer informatie).

Gebruik cmalign online met behulp van onworks.net-services


Gratis servers en werkstations

Windows- en Linux-apps downloaden

  • 1
    Alt-F
    Alt-F
    Alt-F biedt een gratis en open source
    alternatieve firmware voor de DLINK
    DNS-320/320L/321/323/325/327L and
    DNR-322L. Alt-F heeft Samba en NFS;
    ondersteunt ext2/3/4...
    Alt-F downloaden
  • 2
    ons
    ons
    Usm is een verenigd slackwarepakket
    manager die automatisch afhandelt
    afhankelijkheid resolutie. Het verenigt
    verschillende pakketrepository's, waaronder
    slackware, slacky, p...
    usm downloaden
  • 3
    Chart.js
    Chart.js
    Chart.js is een Javascript-bibliotheek die
    stelt ontwerpers en ontwikkelaars in staat om te tekenen
    allerlei grafieken met behulp van de HTML5
    canvas-element. Chart js biedt een geweldige
    reeks ...
    Chart.js downloaden
  • 4
    iReport-Designer voor JasperReports
    iReport-Designer voor JasperReports
    OPMERKING: iReport/Jaspersoft Studio-ondersteuning
    Aankondiging: vanaf versie 5.5.0,
    Jaspersoft Studio zal de officiële zijn
    ontwerpclient voor JasperReports. ik rapporteer
    zullen...
    Download iReport-Designer voor JasperReports
  • 5
    PostInstallerF
    PostInstallerF
    PostInstallerF zal alle
    software die Fedora Linux en anderen
    omvat niet standaard, na
    Fedora voor het eerst draaien. Zijn
    makkelijk voor...
    PostInstallerF downloaden
  • 6
    spoor
    spoor
    Het strace-project is verplaatst naar
    https://strace.io. strace is a
    diagnostisch, foutopsporing en instructie
    gebruikersruimte tracer voor Linux. Het is gebruikt
    bewaken van een...
    Strace downloaden
  • Meer "

Linux-commando's

Ad