Dies ist der Befehls-Daligner, der beim kostenlosen Hosting-Anbieter OnWorks mit einer unserer zahlreichen kostenlosen Online-Workstations wie Ubuntu Online, Fedora Online, dem Windows-Online-Emulator oder dem MAC OS-Online-Emulator ausgeführt werden kann
PROGRAMM:
NAME/FUNKTION
Daligner – Long-Read-Aligner
ZUSAMMENFASSUNG
daligner [-vbAI][-kint(14)] [-wint(6)] [-hint(35)] [-tint] [-Mint] [-edoppelt (.70)]
[-lint(1000)] [-sint(100)] [-Hint] [-mverfolgen sind ]+ Betreff:db|dam target:db|dam ...
BESCHREIBUNG
Vergleichen Sie die zugeschnittenen Sequenzen Fach Block gegen diejenigen in der Liste von Ziel Blöcke
Suche nach lokalen Ausrichtungen mit mindestens -l Basenpaare (Standard 1000) oder mehr,
die eine durchschnittliche Korrelationsrate von haben -e (Standard 70 %). Die gefundenen lokalen Ausrichtungen
wird in einer spärlichen Codierung ausgegeben, bei der jeweils ein Verfolgungspunkt auf der Ausrichtung aufgezeichnet wird
-s Basenpaare des a-read (Standard 100bp). Lesevorgänge werden in beiden Ausrichtungen und verglichen
Lokale Ausrichtungen, die die Kriterien erfüllen, werden in eine von mehreren beschriebenen erstellten Dateien ausgegeben
unten. Das -v Mit dieser Option wird ein ausführlicher Berichtsmodus aktiviert, der Statistiken zu den einzelnen Berichten liefert
Hauptschritt der Berechnung.
Die Optionen -k, -h und -w Steuern Sie die anfängliche Filtersuche nach möglichen Übereinstimmungen
zwischen den Lesungen. Konkret sucht unser Suchcode nach einem Paar diagonaler Breitenbänder
2^w (Standard 2^6 = 64), die eine Sammlung exakt passender k-mers enthalten (Standard 14)
zwischen den beiden Lesevorgängen, so dass die Gesamtzahl der von den k-mer-Treffern abgedeckten Basen h ist
(Standard 35). k darf in der aktuellen Implementierung nicht größer als 32 sein. Wenn die -b zu erhalten
gesetzt ist, dann die daligner geht davon aus, dass die Daten eine starke kompositorische Tendenz aufweisen (z. B. >65 % AT).
Rich) und passt die k-mer-Größen je nach Bedarf dynamisch an, was etwas mehr Zeit kostet
kompositorischer Bias, so dass die verwendeten Mere eine effektive Spezifität von 4^k haben.
Wenn eine oder mehrere Intervallspuren mit angegeben sind -m Option, dann liest sich von
Der DB oder die DBs, für die die Maske gilt, werden mit der Vereinigung der Intervalle weich maskiert
Von allen anwendbaren Intervallspuren sind das alle K-Mer, die Basen in einer von ihnen enthalten
Die maskierten Intervalle werden beim Seeding einer Übereinstimmung ignoriert. Ein Intervalltrack
ist ein Track, wie zum Beispiel der von DBdust erstellte „Dust“-Track, der eine Reihe von Intervallen codiert
entweder über die ungetrimmte oder getrimmte DB.
Ausnahmslos sind einige k-mere deutlich überrepräsentiert (z. B. Homopolymerläufe).
Diese K-Mer erzeugen eine übermäßige Anzahl übereinstimmender K-Mer-Paare und bleiben unadressiert
Dies führt dazu, dass Daligner den verfügbaren physischen Speicher überläuft. Eine Möglichkeit, damit umzugehen, besteht darin, Folgendes zu tun:
explizit festlegen -t Parameter, der die Verwendung von häufiger auftretenden k-mer unterdrückt
als t mal im Betreff- oder Zielblock. Es gibt jedoch einen besseren Weg, damit umzugehen
Die Situation besteht darin, das Programm automatisch einen Wert auswählen zu lassen t das einer Gegebenheit entspricht
Vom angegebenen Speichernutzungslimit (in GB). -M Parameter. Standardmäßig daligner wird benutzen
die Größe des physischen Speichers als Auswahl -M. Wenn Sie weniger verbrauchen möchten, sagen wir nur 8 GB
auf einem 24-GB-HPC-Clusterknoten, weil Sie 3 ausführen möchten daligner Jobs auf dem Knoten also
angeben -M8. Angabe -M0 bedeutet im Grunde, dass Sie es nicht wollen daligner sich selbst
Passen Sie die K-Mer-Unterdrückung an eine bestimmte Speichermenge an.
Für jedes Subjekt und jedes Zielblockpaar, beispielsweise X und Y, meldet das Programm die Ausrichtungen wo
Der a-Wert liegt in X und der b-Wert liegt in Y und umgekehrt. Wenn jedoch die -A Option ist
set („A“ für „asymmetrisch“) überlappt sich dann einfach dort, wo sich der a-Read in X und der b-Read befinden
in Y werden gemeldet, und wenn X = Y, dann werden nur die Überlappungen gemeldet, bei denen die
Der a-read-Index ist kleiner als der b-read-Index. In beiden Fällen, wenn die -I Option ist gesetzt („I“
für „Identität“) dann, wenn X = Y, Überlappungen zwischen verschiedenen Teilen desselben Lesewillens
ebenfalls gefunden und gemeldet werden.
Jede gefundene Ausrichtung wird aufgezeichnet als – a[ab,ae] x bo[bb,be] – wobei a und b die sind
Indizes (in der getrimmten Datenbank) der überlappenden Lesevorgänge. o gibt an, ob der B-Lesevorgang erfolgt
vom gleichen oder entgegengesetzten Strang, und [ab,ae] und [bb,be] sind die Intervalle von a und bo,
bzw. das richten sich aus. Das Programm legt diese Ausrichtungsdatensätze in Dateien ab, deren Namen
hat die Form XY[C|N]#.las, wobei C angibt, dass die b-Lesevorgänge komplementär sind und N
gibt an, dass dies nicht der Fall ist (beide Vergleiche werden durchgeführt) und # ist der Thread, der erkannt hat
und schrieb die Sammlung der in der Datei enthaltenen Ausrichtungen aus. Das ist die Datei
XYO#.las enthält die von Thread # erzeugten Ausrichtungen, für die der A-Read von X und stammt
Der B-Read erfolgt von Y und in der Ausrichtung O. Der Befehl daligner -A X Y erzeugt 2*NTHREAD
Thread-Dateien XY?.las und daligner X Y erzeugt 4*NTHREAD-Dateien XY?.las und YX?.las
(es sei denn X=Y in diesem Fall werden nur NTHREAD-Dateien, XX?.las, erzeugt).
Standardmäßig daligner vergleicht alle Überlappungen zwischen Lesevorgängen in der Datenbank, die größer sind
als der bei der Teilung der DB(s) festgelegte Mindestgrenzwert, typischerweise 1 oder 2 Kbp. Jedoch,
Die HGAP-Assembly-Pipeline möchte nur große Lesevorgänge korrigieren, beispielsweise 8 KBit/s oder mehr, und so weiter
benötigt nur die Überlappungen, bei denen der A-Read einer der großen Reads ist. Durch Einstellen der -H
Parameter, um N zu sagen, man ändert daligner sodass nur Überschneidungen gemeldet werden, bei denen der a-read vorliegt
ist über N Basenpaare lang.
Während die Standardparametereinstellungen für rohe Pacbio-Daten gut sind, daligner kann verwendet werden
zum effizienten Finden von Ausrichtungen in korrigierten Lesevorgängen oder anderen weniger verrauschten Lesevorgängen. Für
Zum Beispiel zum Zuordnen von Anwendungen zu .dams führen wir aus
daligner -k20 -h60 -e.85
und bei korrigierten Lesevorgängen führen wir normalerweise aus
daligner -k25 -w5 -h60 -e.95 -s500
und bei diesen Einstellungen ist es sehr schnell.
Nutzen Sie Daligner online über die Dienste von onworks.net