Dies ist die Befehlsqualle, die im kostenlosen OnWorks-Hosting-Provider mit einer unserer zahlreichen kostenlosen Online-Workstations wie Ubuntu Online, Fedora Online, Windows-Online-Emulator oder MAC OS-Online-Emulator ausgeführt werden kann
PROGRAMM:
NAME/FUNKTION
Jellyfish ist eine Software zum Zählen von k-meren in DNA-Sequenzen.
ZUSAMMENFASSUNG
Quallen zählen [-oPräfix] [-mLänge] [-tThemen] [-shashgröße] [--beide Stränge] Fasta
[Fasta ... ]
Quallen verschmelzen hasch1 hasch2 ...
Quallenhalde Hash-
Quallen-Statistiken Hash-
Quallen-Historie [-hHighs] [-lniedrig] [-iZuwachs] Hash-
Quallen-Abfrage Hash-
Quallen zitieren
Plus gleichwertige Version für Quake-Modus: qhisto, qdump und qmerge.
BESCHREIBUNG
Jellyfish ist ein k-mer-Zähler, der auf einer Multithread-Hash-Tabellenimplementierung basiert.
ZÄHLEN UND ZUSAMMENFÜGEN
Um k-mers zu zählen, verwenden Sie einen Befehl wie:
Quallenanzahl -m 22 -o Ausgabe -c 3 -s 10000000 -t 32 Eingabe.fasta
Dies zählt die 22-mers in input.fasta mit 32 Threads. Das Zählerfeld im
Hash verwendet nur 3 Bits und der Hash hat mindestens 10 Millionen Einträge.
Die Ausgabedateien heißen output_0, output_1 usw. (das Präfix wird mit dem
-o Schalter). Wenn der Hash groß genug ist (hat durch die -s Schalter) passend für alle
k-mers, gibt es nur eine Ausgabedatei namens output_0. Wenn das Hasch vorher voll war
alle Mers wurden gelesen, der Hash wird auf die Festplatte gedumpt, auf Null gesetzt und Mers eingelesen
nimmt wieder auf. Auf den Festplatten befinden sich mehrere Zwischendateien mit dem Namen output_0,
Ausgang_1 usw.
Um korrekte Ergebnisse aus den anderen Unterbefehlen (wie histo, stats usw.) zu erhalten,
mehrere Ausgabedateien, falls vorhanden, müssen mit dem Befehl merge zu einer zusammengeführt werden. Zum
Beispiel mit folgendem Befehl:
Quallen-Zusammenführung -o Ausgabe.jf Ausgabe\_*
Sollten Sie viele Zwischenausgabedateien (sagen wir Hunderte) erhalten, ist die Größe der Hash-Tabelle
es ist zu klein. Quallen mit einer größeren Größe wiederholen (Option -s) ist wahrscheinlich schneller als
Zusammenführen aller Zwischendateien.
ORIENTIERUNG
Wenn die Ausrichtung der Sequenzen in der eingegebenen Fasta-Datei nicht bekannt ist, z. B. in
Sequenzieren von Lesevorgängen mit --beide Stränge (-C) macht am meisten Sinn.
Für jedes k-mer m ist seine kanonische Darstellung m selbst oder sein umgekehrtes Komplement,
je nachdem, was lexikographisch zuerst eintritt. Mit der Option -C, nur das kanonische
Darstellung der Mers werden im Hash gespeichert und der Zählwert ist die Anzahl von
Vorkommen sowohl des Mers als auch seines Reverse-Komplements.
AUSWAHL HASH GRÖßE
Um die beste Leistung zu erzielen, sollte eine Mindestanzahl von Zwischendateien geschrieben werden
auf die Festplatte. Also der Parameter -s sollte so gewählt werden, dass möglichst viele k-mers passen (idealerweise
alle von ihnen), während sie noch in die Erinnerung passen.
Wir betrachten Beispiele: Zählen von Meren in Sequenzierungs-Reads und in einem fertigen Genom.
Nehmen wir zunächst an, wir zählen k-mere in kurzen Sequenzierungslesevorgängen: Es gibt n Lesevorgänge und es gibt
ein Durchschnitt von 1 Fehler pro Lesevorgang, wobei jeder Fehler k eindeutige Mers erzeugt. Wenn das Genom
Größe ist G, die Größe des Hashs (Option -s), um alle k-meren gleichzeitig anzupassen, wird geschätzt zu: $(G
+ k*n)/0.8$. Die Division durch 0.8 kompensiert die maximale Nutzung von ca. $80%$
der Hash-Tabelle.
Auf der anderen Seite wird beim Zählen von k-meren in einer zusammengesetzten Sequenz der Länge G die Einstellung -s
zu G ist angemessen.
Der Einfachheit halber versteht Jellyfish ISO-Suffixe für die Größe des Hashs.
Daher steht „-s 10M“ für 10 Millionen Einträge, während „-s 50G“ für 50 Milliarden Einträge steht.
Der tatsächliche Speicherverbrauch der Hash-Tabelle kann wie folgt berechnet werden. Die tatsächliche Größe von
der Hash wird auf die nächste Potenz von 2 aufgerundet: s=2^l. Der Parameter r ist so, dass
der maximale Reprobe-Wert (-p) plus eins ist kleiner als 2^r. Dann der Speicherverbrauch pro Eintrag
im Hash ist (in Bits, nicht Bytes) 2k-l+r+1. Der Gesamtspeicherverbrauch der Hashtabelle in
Byte ist: 2^l*(2k-l+r+1)/8.
AUSWAHL ZÄHLEN FELD GRÖßE
Um Platz zu sparen, unterstützt die Hash-Tabelle Zähler mit variabler Länge, dh ein k-mer tritt auf
nur wenige Male wird ein kleiner Zähler verwendet, ein oft vorkommendes k-mer wird mehrfach verwendet
Einträge im Hash.
Wichtig: Die Größe des Auswertefeldes ändert NICHT das Ergebnis, sie beeinflusst nur die
Menge des verwendeten Speichers. Insbesondere gibt es keinen Maximalwert im Hash. Auch wenn die
Zählfeld verwendet 5 Bits, ein K-Mer, das 2 Millionen Mal vorkommt, hat einen Wert von
2 Millionen (dh es ist nicht auf 2^5 begrenzt).
Die -c Geben Sie die Länge (in Bits) des Zählfelds an. Der Kompromiss ist wie folgt: a
Ein niedriger Wert spart Platz pro Eintrag im Hash, kann jedoch möglicherweise die Anzahl der erhöhen
Einträge verwendet, daher möglicherweise einen größeren Hash erforderlich.
Verwenden Sie in der Praxis einen Wert für -c so dass die meisten von euch k-mers nur 1 Eintrag benötigen. Zum
Um beispielsweise k-mere in einem Genom zu zählen, in dem der größte Teil der Sequenz einzigartig ist, verwenden Sie -c1 or
-c2. Verwenden Sie zum Sequenzieren von Lesevorgängen einen Wert für -c groß genug, um bis zum Doppelten zu zählen
Abdeckung. Wenn die Abdeckung beispielsweise 10X beträgt, wählen Sie eine Zählerlänge von 5 (-c5) als $2^5
> 20$.
UNTERBEFEHLE UND OPTIONAL
ANZAHL
Verwendung: Quallenanzahl [Optionen] Datei:Pfad+
Zähle k-mer oder qmer in fasta- oder fastq-Dateien
Optionen (Standardwert in (), *erforderlich):
-m, --mer-len=uint32
*Länge von Mer
-s, --Größe=uint64
*Hash-Größe
-t, --fäden=uint32
Anzahl der Fäden (1)
-o, --Ausgabe=String
Ausgabepräfix (mer_counts)
-c, --counter-len= Länge
in Bit Länge des Zählfeldes (7)
--out-counter-len= Länge
in Byte Länge des Zählerfeldes im Ausgang (4)
-C,--beide Stränge
Zähle beide Stränge, kanonische Darstellung (falsch)
-p, --reprobes=uint32
Maximale Anzahl von Reprobes (62)
-r,--roh
Rohdatenbank schreiben (falsch)
-q,--Beben
Quake-Kompatibilitätsmodus (falsch)
--Qualitätsstart=uint32
ASCII-Start für Qualitätswerte (64)
--min-Qualität=uint32
Mindestqualität. Eine Basis mit geringerer Qualität wird zu einem N (0)
-L, --geringere Anzahl=uint64
k-mer nicht mit count < Lower-count ausgeben
-U, --upper-count=uint64
k-mer nicht mit count > upper-count ausgeben
--Matrix=Matrix
Datei Hash-Funktion Binärmatrix
--zeitliche Koordinierung=Zeitpunkt
Datei Timing-Informationen drucken
--Statistiken=Statistiken
Datei Statistik drucken
--Verwendungszweck
Anwendungsbereich
-h,--help
Diese Nachricht
--volle-Hilfe
Ausführliche Hilfe
-V,--Version
Version
STATISTIKEN
Verwendung: Quallenstatistik [Optionen] db:path
Statistiken
Zeigen Sie einige Statistiken über die k-mers im Hash an:
Eindeutig: Anzahl der k-mere, die nur einmal vorkommen. Deutlich: Anzahl der k-meren, nicht zählend
Vielzahl. Gesamt: Anzahl der k-mere, einschließlich der Multiplizität. Max_count: Maximale Anzahl
des Auftretens eines k-mers.
Optionen (Standardwert in (), *erforderlich):
-L, --geringere Anzahl=uint64
Berücksichtigen Sie nicht k-mer mit count < Lower-count
-U, --upper-count=uint64
Betrachten Sie k-mer nicht mit count > upper-count
-v,- ausführlich
Ausführlich (falsch)
-o, --Ausgabe=String
Ausgabedatei
--Verwendungszweck
Anwendungsbereich
-h,--help
Diese Nachricht
--volle-Hilfe
Ausführliche Hilfe
-V,--Version
Version
HISTO
Verwendung: Quallen histo [Optionen] db:path
Erstellen Sie ein Histogramm von k-mer-Vorkommen
Erstellen Sie ein Histogramm mit der Anzahl von k-meren mit einer bestimmten Anzahl. Im Eimer 'ich' bin
zählte die k-meren zusammen, die eine Zählung 'c' aufweisen, die 'low+i*inc <= c < low+(i+1)*inc' erfüllt.
Buckets in der Ausgabe werden durch den unteren Endpunkt (low+i*inc) gekennzeichnet.
Der letzte Bucket in der Ausgabe verhält sich wie ein Catchall: Er zählt alle k-mers mit einem count
größer oder gleich dem unteren Endpunkt dieses Buckets.
Optionen (Standardwert in (), *erforderlich):
-l, --niedrig=uint64
Niedriger Zählwert des Histogramms (1)
-h, --hoch=uint64
Hoher Zählwert des Histogramms (10000)
-i, --Zuwachs=uint64
Erhöhungswert für Eimer (1)
-t, --fäden=uint32
Anzahl der Fäden (1)
-f,--voll
Vollständige Geschichte. Überspringe nicht den Zähler 0. (falsch)
-o, --Ausgabe=String
Ausgabedatei
-v,- ausführlich
Ausgabeinformationen (falsch)
--Verwendungszweck
Anwendungsbereich
--help
Diese Nachricht
--volle-Hilfe
Ausführliche Hilfe
-V,--Version
Version
DUMP
Verwendung: Quallen-Dump [Optionen] db:path
Dump k-mer zählt
Standardmäßig wird ein Dump in einem Fasta-Format erstellt, bei dem der Header die Anzahl und die Sequenz die
Sequenz des k-mers. Das Spaltenformat ist eine 2-spaltige Ausgabe: k-mer count.
Optionen (Standardwert in (), *erforderlich):
-c,--Säule
Spaltenformat (falsch)
-t,--Tab
Tab-Trennzeichen (falsch)
-L, --geringere Anzahl=uint64
k-mer nicht mit count < Lower-count ausgeben
-U, --upper-count=uint64
k-mer nicht mit count > upper-count ausgeben
-o, --Ausgabe=String
Ausgabedatei
--Verwendungszweck
Anwendungsbereich
-h,--help
Diese Nachricht
-V,--Version
Version
MERGE
Verwendung: Quallen zusammenführen [Optionen] input:string+
Quallendatenbanken zusammenführen
Optionen (Standardwert in (), *erforderlich):
-s, --Puffergröße=Puffer
length Länge in Byte des Eingangspuffers (10000000)
-o, --Ausgabe=String
Ausgabedatei (mer_counts_merged.jf)
--out-counter-len=uint32
Länge (in Bytes) des Zählfeldes in der Ausgabe (4)
--out-buffer-size=uint64
Größe des Ausgabepuffers pro Thread (10000000)
-v,- ausführlich
Seien Sie ausführlich (falsch)
--Verwendungszweck
Anwendungsbereich
-h,--help
Diese Nachricht
-V,--Version
Version
QUERY
Verwendung: Quallenabfrage [Optionen] db:path
Abfrage aus einer komprimierten Datenbank
Fragt einen Hash ab. Es liest k-mers von der Standardeingabe und schreibt die Zählungen auf den Standard
Ausgabe.
Optionen (Standardwert in (), *erforderlich):
-C,--beide Stränge
Beide Stränge (falsch)
-c,--cary-bit
Wertfeld als Cary-Bit-Information (false)
-i, --Eingang=Datei
Eingabedatei
-o, --Ausgabe=Datei
Ausgabedatei
--Verwendungszweck
Anwendungsbereich
-h,--help
Diese Nachricht
-V,--Version
Version
QHISTO
Verwendung: Qualle qhisto [Optionen] db:string
Erstellen Sie ein Histogramm von k-mer-Vorkommen
Optionen (Standardwert in (), *erforderlich):
-l, --niedrig=doppelt
Niedriger Zählwert des Histogramms (0.0)
-h, --hoch=doppelt
Hoher Zählwert des Histogramms (10000.0)
-i, --Zuwachs=doppelt
Erhöhungswert für Eimer (1.0)
-f,--voll
Vollständige Geschichte. Überspringe nicht den Zähler 0. (falsch)
--Verwendungszweck
Anwendungsbereich
--help
Diese Nachricht
-V,--Version
Version
QDUMP
Verwendung: Qualle qdump [Optionen] db:path
Dump k-mer aus einer qmer-Datenbank
Standardmäßig wird ein Dump in einem Fasta-Format erstellt, bei dem der Header die Anzahl und die Sequenz die
Sequenz des k-mers. Das Spaltenformat ist eine 2-spaltige Ausgabe: k-mer count.
Optionen (Standardwert in (), *erforderlich):
-c,--Säule
Spaltenformat (falsch)
-t,--Tab
Tab-Trennzeichen (falsch)
-L, --geringere Anzahl=doppelt
k-mer nicht mit count < Lower-count ausgeben
-U, --upper-count=doppelt
k-mer nicht mit count > upper-count ausgeben
-v,- ausführlich
Seien Sie ausführlich (falsch)
-o, --Ausgabe=String
Ausgabedatei
--Verwendungszweck
Anwendungsbereich
-h,--help
Diese Nachricht
-V,--Version
Version
QMERGE
Verwendung: Quallen-Merge [Optionen] db:string+
Bebendatenbanken zusammenführen
Optionen (Standardwert in (), *erforderlich):
-s, --Größe=uint64
*Größe der zusammengeführten Hashtabelle
-m, --mer-len=uint32
*Mer Länge
-o, --Ausgabe=String
Ausgabedatei (merged.jf)
-p, --reprobes=uint32
Maximale Anzahl von Reprobes (62)
--Verwendungszweck
Anwendungsbereich
-h,--help
Diese Nachricht
--volle-Hilfe
Ausführliche Hilfe
-V,--Version
Version
CITE
Verwendung: Quallenzitate [Optionen]
Wie zitiert man Jellyfish's Paper
Zitat von Papier
Optionen (Standardwert in (), *erforderlich):
-b,--bibtex
Bibtex-Format (falsch)
-o, --Ausgabe=String
Ausgabedatei
--Verwendungszweck
Anwendungsbereich
-h,--help
Diese Nachricht
-V,--Version
Version
VERSION
Version: 1.1.4 vom 2010
Verwenden Sie Quallen online mit den onworks.net-Diensten
