EnglischFranzösischSpanisch

Ad


OnWorks-Favicon

blasr – Online in der Cloud

Führen Sie blasr im kostenlosen Hosting-Anbieter OnWorks über Ubuntu Online, Fedora Online, den Windows-Online-Emulator oder den MAC OS-Online-Emulator aus

Dies ist der Befehl blasr, der beim kostenlosen Hosting-Anbieter OnWorks mit einer unserer zahlreichen kostenlosen Online-Workstations wie Ubuntu Online, Fedora Online, dem Windows-Online-Emulator oder dem MAC OS-Online-Emulator ausgeführt werden kann

PROGRAMM:

NAME/FUNKTION


blasr – Ordnen Sie SMRT-Sequenzen einem Referenzgenom zu.

ZUSAMMENFASSUNG


Blasr liest.bam Genom.fasta -bam -aus aus.bam

Blasr liest.fasta Genom.fasta

Blasr liest.fasta Genom.fasta -Sa genom.fasta.sa

Blasr lautet.bax.h5 Genom.fasta [-Sa genom.fasta.sa]

Blasr lautet.bax.h5 Genom.fasta -Sa genom.fasta.sa -maxScore -100 -minMatch 15 ...

Blasr lautet.bax.h5 Genom.fasta -Sa genom.fasta.sa -nproc 24 -aus Ausrichtung.out ...

BESCHREIBUNG


Blasr ist ein Read-Mapping-Programm, das Reads durch Clustering Positionen in einem Genom zuordnet
kurze exakte Übereinstimmungen zwischen dem gelesenen Wert und dem Genom und Bewertung von Clustern mittels Alignment.
Die Übereinstimmungen werden generiert, indem alle Suffixe eines Lesevorgangs anhand des Genoms mithilfe von a durchsucht werden
Suffix-Array. Zur Bewertung von Übereinstimmungsclustern werden globale Verkettungsmethoden verwendet.

Die einzigen erforderlichen Eingaben für blasr sind eine Datei mit Lesevorgängen und ein Referenzgenom. Es ist
Es ist äußerst nützlich, Filterinformationen gelesen zu haben, und die Mapping-Laufzeit kann sich verkürzen
im Wesentlichen, wenn es sich um einen vorberechneten Suffix-Array-Index für die Referenzsequenz handelt
spezifiziert.

Obwohl Lesevorgänge im FASTA-Format eingegeben werden können, werden als Eingabe PacBio-BAM-Dateien empfohlen
denn diese enthalten qualitative Wertinformationen, die im Alignment verwendet und erzeugt werden
Variantenerkennung mit höherer Qualität. Obwohl Ausrichtungen in verschiedenen Formaten ausgegeben werden können,
Das empfohlene Ausgabeformat ist PacBio BAM. Unterstützung für bax.h5- und plx.h5-Dateien wird verfügbar sein
DEPARCATED. Es werden Regionstabellen für h5-Dateien unterstützt DEPARCATED.

Wenn der Suffix-Array-Index eines Genoms nicht angegeben ist, wird das Suffix-Array vorher erstellt
Ausrichtung herstellen. Dies kann übermäßig langsam sein, wenn das Genom groß ist (z. B. beim Menschen).
Es ist am besten, das Suffix-Array eines Genoms mit dem Programm vorab zu berechnen Sawriter(1) und
Geben Sie dann das Suffix-Array in der Befehlszeile mit an -Sa genom.fa.sa.

Die optionalen Parameter sind grob in drei Kategorien unterteilt: Kontrolle über die Verankerung,
Ausrichtungsbewertung und Ausgabe.

Die standardmäßigen Verankerungsparameter sind optimal für kleine Genome und Proben mit bis zu 5 %
Abweichung vom Referenzgenom. Der Hauptparameter für Geschwindigkeit und Empfindlichkeit
lernen muss die -minMatch Parameter. Für die Ausrichtung des menschlichen Genoms gilt ein Wert von 11 oder höher
empfohlen. Es können mehrere Methoden verwendet werden, um die Ausrichtung zu beschleunigen, allerdings auf Kosten von
möglicherweise abnehmende Empfindlichkeit.

Regionen, die sich zu sehr wiederholen, können beim Mapping ignoriert werden, indem die Anzahl begrenzt wird
positioniert eine gelesene Karte mit dem -maxAnchorsPerPosition Möglichkeit. Werte zwischen 500 und
1000 sind im menschlichen Genom wirksam.

Für kleine Genome wie Bakteriengenome oder BACs reichen die Standardparameter aus
für maximale Empfindlichkeit und gute Geschwindigkeit.

OPTIONAL


zufuhr Mappen

Liest

liest.bam
Eine PacBio-BAM-Datei mit Lesevorgängen. Dies ist die bevorzugte Eingabe für Blasr
weil reichhaltiger Qualitätswert (Einfügung, Löschung und Ersetzung).
Qualitätswerte) Informationen gepflegt werden. Das Plus an Qualität
Informationen verbessern die Variantenerkennung und Mapping-Geschwindigkeit.

liest.fasta
Eine Multi-Fasta-Datei mit Lesevorgängen, obwohl jede Fasta-Datei eine gültige Eingabe ist

lautet.bax.h5|liest.plx.h5
das alte DEPARCATED Ausgabeformat von SMRT-Lesevorgängen.

input.fofn
Datei mit Dateinamen

-Sa SuffixArrayFile
Verwenden Sie das Suffix-Array „sa“, um Übereinstimmungen zwischen den Lesevorgängen und dem zu erkennen
Referenz. Das Suffix-Array wurde von vorbereitet Sawriter(1) Programm.

-ctab Tab
Eine Tabelle mit Tupelzahlen, die zur Schätzung der Übereinstimmungssignifikanz verwendet wird. Dies liegt an der
Programm 'printTupleCountTable'. Während es schnell im laufenden Betrieb generiert werden kann,
wenn es viele Aufrufe von gibt Blasrist es sinnvoll, die CTAB vorab zu berechnen.

-regionTabelle Tabelle (DEPARCATED)
Lesen Sie eine Lesebereichstabelle im HDF-Format ein, um Teile von Lesevorgängen zu maskieren.
Dies kann eine einzelne Tabelle sein, wenn nur eine Eingabedatei vorhanden ist, oder ein FOFN. Wann
Wenn eine Regionstabelle angegeben ist, kann jede Regionstabelle innerhalb von reads.plx.h5 oder
reads.bax.h5-Dateien werden ignoriert.
(VERALTET) Optionen für Modifizieren liest.

Es gibt Zusatzinformationen zu Teilzeichenfolgen von Lesevorgängen, die in a gespeichert werden
'Regionstabelle' für jede gelesene Datei. Da HDF verwendet wird, kann die Regionstabelle sein
Teil der .bax.h5- oder .plx.h5-Datei oder eine separate Datei. Eine zusammenhängende Lektüre
Teilzeichenfolge aus der Vorlage ist ein Unterlesevorgang, und jeder Lesevorgang kann mehrere enthalten
Unterlesungen. Die Grenzen der Subreads können aus der Regionstabelle abgeleitet werden
entweder direkt oder durch Definition von Adaptergrenzen. Typischerweise Regionstabellen
enthalten auch Informationen zur Lage der Regionen mit hoher und niedriger Qualität
liest. Lesevorgänge, die durch falsche Lesevorgänge aus leeren ZMWs erzeugt werden, haben eine hohe Startqualität
Koordinate entspricht dem Ende hoher Qualität, was zu keinem brauchbaren Lesevorgang führt.

-useccs
Richten Sie die zirkuläre Konsensussequenz (ccs) aus und melden Sie dann die Ausrichtungen der
ccs liest untergeordnet in das Fenster, dem das ccs zugeordnet wurde. Nur Ausrichtungen von
Die Subreads werden gemeldet.

-useccsall
Ähnlich -useccs, außer dass alle Subreads ausgerichtet sind und nicht nur die
Subreads, die zum Aufrufen des CCS verwendet werden. Dazu gehören Lesevorgänge, die nur einen Teil abdecken
der Vorlage.

-useccsdenovo
Richten Sie den Zirkelkonsens aus und melden Sie nur die Ausrichtung des CCS
Sequenz.

-noSplitSubreads (falsch)
Teilen Sie Subreads nicht an Adaptern auf. Dies ist normalerweise nur dann nützlich, wenn die
Genom in einer entrollten Version einer bekannten Vorlage und enthält Vorlagen-
adapter-reverse_template-Sequenz.

-ignoreRegions (falsch)
Ignorieren Sie alle Informationen in der Regionstabelle.

-ignoreHQRegions (falsch)
Ignorieren Sie alle HQ-Regionen in der Regionstabelle.
Ausrichtungen Zu Profil melden

-bestn n (10)
Oben melden n Ausrichtungen.

-hitPolicy (alle)
Geben Sie eine Richtlinie an, um mehrere Treffer aus [all, allbest, random,
randombest, ganz links]

alle Melden Sie alle Ausrichtungen.

alles bestens
Melden Sie alle Ausrichtungen mit der gleichen Höchstpunktzahl.

zufällig Melden Sie eine zufällige Ausrichtung.

randombest
Melden Sie eine zufällige Ausrichtung aus mehreren gleich hohen Werten
Ausrichtungen.

ganz links
Melden Sie eine Ausrichtung, die den besten Ausrichtungswert hat und die
kleinste Zuordnungskoordinate in einer Referenz.

-placeRepeatsRandomly (falsch)
VERALTET! Wenn wahr, äquivalent zu -hitPolicy randombest.

-randomSeed (0)
Seed für Zufallszahlengenerator. Standardmäßig (0) wird die aktuelle Zeit als Startwert verwendet.

-noSortRefinedAlignments (falsch)
Sobald Kandidatenausrichtungen generiert und über spärliche Dynamik bewertet werden
Bei der Programmierung werden sie mithilfe der lokalen Ausrichtung neu bewertet, die dies berücksichtigt
unterschiedliche Fehlerprofile. Die Umsortierung basierend auf der lokalen Ausrichtung kann sich ändern
Die Reihenfolge, in der die Treffer zurückgegeben werden.

-allowAdjacentIndels
Wenn angegeben, sind benachbarte Einfügungen oder Löschungen zulässig. Ansonsten,
Aufeinanderfolgende Einfügungen und Löschungen werden in einem Vorgang zusammengeführt. Benutzen
Qualitätswerte zur Führung der paarweisen Ausrichtung können die höhere vorschreiben
Die Wahrscheinlichkeitsausrichtung enthält benachbarte Einfügungen oder Löschungen. Aktuell
Tools wie GATK erlauben dies nicht und werden daher nicht gemeldet
default.
Output Formate machen Mappen

-aus (Terminal)
Ausgabe schreiben nach .

-Sam Ausgabe im SAM-Format schreiben.

-m t Wenn SAM nicht gedruckt wird, ändern Sie die Ausgabe der Ausrichtung.

Wann t ist:

0 Druckt eine explosionsartige Ausgabe mit |'s verbindenden übereinstimmenden Nukleotiden.

1 Drucken Sie nur eine Zusammenfassung: Punktzahl und Pos.

2 Drucken Sie im Compare.xml-Format.

3 Drucken Sie im vulgären Format (DEPARCATED).

4 Drucken Sie eine längere tabellarische Version der Ausrichtung.

5 Drucken Sie in einem maschinenlesbaren Format, das von gelesen werden kann
vergleichenSequences.py.

-Header
Drucken Sie eine Kopfzeile als erste Zeile der Ausgabedatei, die den Inhalt beschreibt
jeder Spalte.

-titleTable Tab (NULL)
Erstellen Sie eine Tabelle mit Referenzsequenztiteln. Die Referenzsequenzen sind
Aufgezählt nach Zeile, 0,1,... Der Referenzindex wird ausgerichtet gedruckt
Ergebnisse anstelle des vollständigen Referenznamens. Dies macht die Ausgabe prägnant,
insbesondere wenn in Referenznamen sehr ausführliche Titel vorkommen.

-nicht ausgerichtet Datei
Ausgabelesevorgänge, die nicht ausgerichtet sind Datei

-Ausschnitt [keine|hart|Unterlesen|weich] (keiner)

Verwenden Sie kein/Hard/Subread/Soft-Clipping, NUR für die SAM/BAM-Ausgabe.

-printSAMQV (falsch)
Druckqualitätswerte auf SAM-Ausgabe.

-cigarUseSeqMatch (falsch)
CIGAR-Zeichenfolgen in der SAM/BAM-Ausgabe verwenden „=“ und „X“, um die Sequenzübereinstimmung darzustellen
und Nichtübereinstimmung anstelle von „M“.
Optionen für Verankerung Ausrichtung Regionen.

Dies hat den größten Einfluss auf Geschwindigkeit und Empfindlichkeit.

-minMatch m (12)
Mindestsaatlänge. Ein höherer Wert für minMatch beschleunigt die Ausrichtung, verringert sie jedoch
Empfindlichkeit.

-maxMatch l (inf)
Stoppen Sie die Zuordnung eines Lesevorgangs zum Genom, wenn die LCP-Länge erreicht ist l. Dies ist
nützlich, wenn die Abfrage Teil der Referenz ist, zum Beispiel wenn
Erstellen paarweiser Ausrichtungen für die De-novo-Montage.

-maxLCPLength l (inf)
Das Gleiche wie -maxMatch.

-maxAnchorsPerPosition m (10000)
Fügen Sie keine Anker von einer Position hinzu, wenn diese mit mehr als übereinstimmt m Standorte in
das Ziel.

-advanceExactMatches E (0)
Ein weiterer Trick, um die Ausrichtung mit Match zu beschleunigen: E weniger Anker.
Anstatt überhaupt Anker zwischen dem Genom und dem Genom zu finden
Position im Read, wenn ein Anker an Position i in einem Read von gefunden wird
Länge L, die nächste Position in einem Lesevorgang zum Finden eines Ankers ist bei i+LE. Verwenden
Dies geschieht beim Ausrichten bereits zusammengesetzter Contigs.

-nKandidaten n (10)
Bleiben Sie dran n Kandidaten für die beste Ausrichtung. Ein großer Wert von n wird
langsames Mapping, da die langsameren dynamischen Programmierschritte angewendet werden
mehr Cluster von Ankern, was bei Lesevorgängen ein geschwindigkeitsbegrenzender Schritt sein kann
sehr lang.

-einträchtig (falsch)
Ordnen Sie alle Subreads eines ZMW (Loch) dem Ort zu, an dem sich der längste Full-Pass-Subread befindet
die zmw ausgerichtet auf. Dies erfordert die Verwendung der Regionstabelle und der HQ-Regionen.
Diese Option funktioniert nur, wenn Lesevorgänge im Basis- oder Pulse-h5-Format erfolgen.

-concordantTemplate (mediansubread)
Wählen Sie einen Full-Pass-Subread eines zmw als Vorlage für die konkordante Zuordnung aus.
longestsubread – verwenden Sie den längsten Volldurchlauf-Subread. mediansubread – verwenden Sie den
Volldurchlauf-Subread mit mittlerer Länge, typischer Subread – verwenden Sie den zweitlängsten Volldurchlauf
Pass-Subread, wenn die Länge des längsten vollständigen Pass-Subreads ein Ausreißer ist

-fastMaxInterval (falsch)
Schnelle Suche nach maximal ansteigenden Intervallen als Ausrichtungskandidaten. Die Suche
ist nicht so umfassend wie die Standardeinstellung, aber viel schneller.

-aggressiveIntervalCut (falsch)
Filtern Sie nicht vielversprechende Ausrichtungskandidaten einvernehmlich heraus, sofern vorhanden
mindestens einen vielversprechenden Kandidaten. Wenn diese Option aktiviert ist, Blasr is
ignoriert wahrscheinlich kurze Ausrichtungen von ALU-Elementen.

-fastSDP (falsch)
Verwenden Sie einen schnellen heuristischen Algorithmus, um die spärliche dynamische Programmierung zu beschleunigen.
Optionen für Verfeinerung Treffer

-sdpTupleSize K (11)
Verwenden Sie Längenübereinstimmungen K um dynamische Programmierausrichtungen zu beschleunigen. Das
Steuert die Genauigkeit der Zuweisung von Lücken in paarweisen Ausrichtungen nach einer Zuordnung
wurde gefunden, anstatt die Empfindlichkeit selbst abzubilden.

-scoreMatrix Ergebnis Matrix Schnur
Geben Sie eine alternative Bewertungsmatrix für die Bewertung von Fasta-Lesevorgängen an. Die Matrix ist
im Format

ACGTN
Ein ABCD
C fghij
G klmno
T pqrst
N uvwxy

Die Werte a...y sollten als durch Anführungszeichen und Leerzeichen getrennte Zeichenfolge eingegeben werden: „abc
... y". Lowerf-Werte sind besser, daher sollten die Übereinstimmungen geringer sein als die Nichtübereinstimmungen
zB a,g,m,s = -5 (Übereinstimmung), Nichtübereinstimmung = 6.

-affineOpen Wert (10)
Legen Sie die Strafe für das Öffnen einer affinen Ausrichtung fest.

-affineExtend a (0)
Affine (Erweiterungs-)Lückenstrafe ändern. Ein niedrigerer Wert ermöglicht mehr Lücken.
Optionen für Überlappung/Dynamik Programmierung Ausrichtungen machen paarweise überlappen für de neu
Versammlung.

-useQuality (falsch)
Verwenden Sie Ersetzungs-/Einfügungs-/Lösch-/Zusammenführungsqualitätswerte, um Lücken zu bewerten
Fehlanpassungsstrafen bei paarweisen Ausrichtungen. Denn das Einfügen und
Da die Löschungsraten viel höher sind als die Substitutionsraten, werden viele davon betroffen sein
Ausrichtungen bevorzugen eine Einfügung/Löschung gegenüber einer Substitution.nNaiver Konsens
Aufrufende Methoden übersehen dann häufig Substitutionspolymorphismen. Diese Option
sollte verwendet werden, wenn ein Konsens mit der Quiver-Methode aufgerufen wird. Außerdem,
Wenn keine Qualitätswerte zum Bewerten von Ausrichtungen verwendet werden, wird es einen niedrigeren Wert geben
Konsensgenauigkeit in Homolymerregionen.

-affineAlign (falsch)
Verfeinern Sie die Ausrichtung mithilfe der affinen geführten Ausrichtung.
Optionen für Filterung liest machen Ausrichtungen

-minReadLength l (50)
Überspringen Sie Lesevorgänge mit einer Gesamtlänge von weniger als l. Subreads können kürzer sein.

-minUnterleselänge l (0)
Richten Sie keine Subreads mit einer Länge von weniger als aus l.

-minRawSubreadScore m (0)
Richten Sie keine Subreads aus, deren Qualitätsbewertung in der Regionstabelle kleiner ist als m
(Qualitätswerte sollten im Bereich [0, 1000] liegen).

-maxScore m (-200)
Maximal auszugebende Punktzahl (hoch ist schlecht, negativ ist gut).

-minAlnLength
(0) Melden Sie Ausrichtungen nur, wenn ihre Länge größer als minAlnLength ist.

-minPctSimilarity (0) Ausrichtungen nur melden, wenn ihre prozentuale Ähnlichkeit gleich ist
größer als minPctSimilarity.

-minPctAccuracy
(0) Ausrichtungen nur melden, wenn ihre prozentuale Genauigkeit größer ist als
minGenauigkeit.
Optionen für Parallel Ausrichtung

-nproc N (1)
Mit ausrichten N Prozesse. Alle großen Datenstrukturen wie das Suffix-Array
und die Tupelzähltabelle werden gemeinsam genutzt.

-Start S (0)
Index des ersten Lesevorgangs, der mit der Ausrichtung beginnt. Dies ist nützlich, wenn mehrere vorhanden sind
Instanzen werden mit denselben Daten ausgeführt, beispielsweise wenn sie sich auf einem Multi-Rack befinden
Cluster.

-schreiten S (1)
Richten Sie jeweils einen Lesevorgang aus S liest.
Optionen für Unterabtastung liest.

-Unterstichprobe (0)
Anteil der Lesevorgänge zur zufälligen Teilstichprobe (ausgedrückt als Dezimalzahl) und
ausrichten.

-holeNumbers LISTE
Wenn angegeben, werden nur Lesevorgänge ausgerichtet, deren ZMW-Lochnummern in enthalten sind LISTE. LISTE
ist eine durch Kommas getrennte Zeichenfolge von Bereichen, z. B. „1,2,3,10-13“. Diese Option
Funktioniert nur, wenn Lesevorgänge im Format „bam“, „bax.h5“ oder „plx.h5“ vorliegen.

-h Hilfeinformationen drucken.

ZITAT


Um BLASR zu zitieren, verwenden Sie bitte: Chaisson MJ und Tesler G., Mapping single Molecule
Sequenzierung von Lesevorgängen mithilfe von Basic Local Alignment with Successive Refinement (BLASR): Theorie
und Anwendung, BMC Bioinformatics 2012, 13:238.

Nutzen Sie blasr online über die Dienste von onworks.net


Kostenlose Server & Workstations

Laden Sie Windows- und Linux-Apps herunter

Linux-Befehle

Ad