GoGPT Best VPN GoSearch

OnWorks-Favicon

Quallen - Online in der Cloud

Führen Sie Quallen im kostenlosen OnWorks-Hosting-Provider über Ubuntu Online, Fedora Online, Windows-Online-Emulator oder MAC OS-Online-Emulator aus

Dies ist die Befehlsqualle, die im kostenlosen OnWorks-Hosting-Provider mit einer unserer zahlreichen kostenlosen Online-Workstations wie Ubuntu Online, Fedora Online, Windows-Online-Emulator oder MAC OS-Online-Emulator ausgeführt werden kann

PROGRAMM:

NAME/FUNKTION


Jellyfish ist eine Software zum Zählen von k-meren in DNA-Sequenzen.

ZUSAMMENFASSUNG


Quallen zählen [-oPräfix] [-mLänge] [-tThemen] [-shashgröße] [--beide Stränge] Fasta
[Fasta ... ]
Quallen verschmelzen hasch1 hasch2 ...
Quallenhalde Hash-
Quallen-Statistiken Hash-
Quallen-Historie [-hHighs] [-lniedrig] [-iZuwachs] Hash-
Quallen-Abfrage Hash-
Quallen zitieren

Plus gleichwertige Version für Quake-Modus: qhisto, qdump und qmerge.

BESCHREIBUNG


Jellyfish ist ein k-mer-Zähler, der auf einer Multithread-Hash-Tabellenimplementierung basiert.

ZÄHLEN UND ZUSAMMENFÜGEN
Um k-mers zu zählen, verwenden Sie einen Befehl wie:

Quallenanzahl -m 22 -o Ausgabe -c 3 -s 10000000 -t 32 Eingabe.fasta

Dies zählt die 22-mers in input.fasta mit 32 Threads. Das Zählerfeld im
Hash verwendet nur 3 Bits und der Hash hat mindestens 10 Millionen Einträge.

Die Ausgabedateien heißen output_0, output_1 usw. (das Präfix wird mit dem
-o Schalter). Wenn der Hash groß genug ist (hat durch die -s Schalter) passend für alle
k-mers, gibt es nur eine Ausgabedatei namens output_0. Wenn das Hasch vorher voll war
alle Mers wurden gelesen, der Hash wird auf die Festplatte gedumpt, auf Null gesetzt und Mers eingelesen
nimmt wieder auf. Auf den Festplatten befinden sich mehrere Zwischendateien mit dem Namen output_0,
Ausgang_1 usw.

Um korrekte Ergebnisse aus den anderen Unterbefehlen (wie histo, stats usw.) zu erhalten,
mehrere Ausgabedateien, falls vorhanden, müssen mit dem Befehl merge zu einer zusammengeführt werden. Zum
Beispiel mit folgendem Befehl:

Quallen-Zusammenführung -o Ausgabe.jf Ausgabe\_*

Sollten Sie viele Zwischenausgabedateien (sagen wir Hunderte) erhalten, ist die Größe der Hash-Tabelle
es ist zu klein. Quallen mit einer größeren Größe wiederholen (Option -s) ist wahrscheinlich schneller als
Zusammenführen aller Zwischendateien.

ORIENTIERUNG
Wenn die Ausrichtung der Sequenzen in der eingegebenen Fasta-Datei nicht bekannt ist, z. B. in
Sequenzieren von Lesevorgängen mit --beide Stränge (-C) macht am meisten Sinn.

Für jedes k-mer m ist seine kanonische Darstellung m selbst oder sein umgekehrtes Komplement,
je nachdem, was lexikographisch zuerst eintritt. Mit der Option -C, nur das kanonische
Darstellung der Mers werden im Hash gespeichert und der Zählwert ist die Anzahl von
Vorkommen sowohl des Mers als auch seines Reverse-Komplements.

AUSWAHL HASH GRÖßE
Um die beste Leistung zu erzielen, sollte eine Mindestanzahl von Zwischendateien geschrieben werden
auf die Festplatte. Also der Parameter -s sollte so gewählt werden, dass möglichst viele k-mers passen (idealerweise
alle von ihnen), während sie noch in die Erinnerung passen.

Wir betrachten Beispiele: Zählen von Meren in Sequenzierungs-Reads und in einem fertigen Genom.

Nehmen wir zunächst an, wir zählen k-mere in kurzen Sequenzierungslesevorgängen: Es gibt n Lesevorgänge und es gibt
ein Durchschnitt von 1 Fehler pro Lesevorgang, wobei jeder Fehler k eindeutige Mers erzeugt. Wenn das Genom
Größe ist G, die Größe des Hashs (Option -s), um alle k-meren gleichzeitig anzupassen, wird geschätzt zu: $(G
+ k*n)/0.8$. Die Division durch 0.8 kompensiert die maximale Nutzung von ca. $80%$
der Hash-Tabelle.

Auf der anderen Seite wird beim Zählen von k-meren in einer zusammengesetzten Sequenz der Länge G die Einstellung -s
zu G ist angemessen.

Der Einfachheit halber versteht Jellyfish ISO-Suffixe für die Größe des Hashs.
Daher steht „-s 10M“ für 10 Millionen Einträge, während „-s 50G“ für 50 Milliarden Einträge steht.

Der tatsächliche Speicherverbrauch der Hash-Tabelle kann wie folgt berechnet werden. Die tatsächliche Größe von
der Hash wird auf die nächste Potenz von 2 aufgerundet: s=2^l. Der Parameter r ist so, dass
der maximale Reprobe-Wert (-p) plus eins ist kleiner als 2^r. Dann der Speicherverbrauch pro Eintrag
im Hash ist (in Bits, nicht Bytes) 2k-l+r+1. Der Gesamtspeicherverbrauch der Hashtabelle in
Byte ist: 2^l*(2k-l+r+1)/8.

AUSWAHL ZÄHLEN FELD GRÖßE
Um Platz zu sparen, unterstützt die Hash-Tabelle Zähler mit variabler Länge, dh ein k-mer tritt auf
nur wenige Male wird ein kleiner Zähler verwendet, ein oft vorkommendes k-mer wird mehrfach verwendet
Einträge im Hash.

Wichtig: Die Größe des Auswertefeldes ändert NICHT das Ergebnis, sie beeinflusst nur die
Menge des verwendeten Speichers. Insbesondere gibt es keinen Maximalwert im Hash. Auch wenn die
Zählfeld verwendet 5 Bits, ein K-Mer, das 2 Millionen Mal vorkommt, hat einen Wert von
2 Millionen (dh es ist nicht auf 2^5 begrenzt).

Die -c Geben Sie die Länge (in Bits) des Zählfelds an. Der Kompromiss ist wie folgt: a
Ein niedriger Wert spart Platz pro Eintrag im Hash, kann jedoch möglicherweise die Anzahl der erhöhen
Einträge verwendet, daher möglicherweise einen größeren Hash erforderlich.

Verwenden Sie in der Praxis einen Wert für -c so dass die meisten von euch k-mers nur 1 Eintrag benötigen. Zum
Um beispielsweise k-mere in einem Genom zu zählen, in dem der größte Teil der Sequenz einzigartig ist, verwenden Sie -c1 or
-c2. Verwenden Sie zum Sequenzieren von Lesevorgängen einen Wert für -c groß genug, um bis zum Doppelten zu zählen
Abdeckung. Wenn die Abdeckung beispielsweise 10X beträgt, wählen Sie eine Zählerlänge von 5 (-c5) als $2^5
> 20$.

UNTERBEFEHLE UND OPTIONAL


ANZAHL
Verwendung: Quallenanzahl [Optionen] Datei:Pfad+

Zähle k-mer oder qmer in fasta- oder fastq-Dateien

Optionen (Standardwert in (), *erforderlich):

-m, --mer-len=uint32
*Länge von Mer

-s, --Größe=uint64
*Hash-Größe

-t, --fäden=uint32
Anzahl der Fäden (1)

-o, --Ausgabe=String
Ausgabepräfix (mer_counts)

-c, --counter-len= Länge
in Bit Länge des Zählfeldes (7)

--out-counter-len= Länge
in Byte Länge des Zählerfeldes im Ausgang (4)

-C,--beide Stränge
Zähle beide Stränge, kanonische Darstellung (falsch)

-p, --reprobes=uint32
Maximale Anzahl von Reprobes (62)

-r,--roh
Rohdatenbank schreiben (falsch)

-q,--Beben
Quake-Kompatibilitätsmodus (falsch)

--Qualitätsstart=uint32
ASCII-Start für Qualitätswerte (64)

--min-Qualität=uint32
Mindestqualität. Eine Basis mit geringerer Qualität wird zu einem N (0)

-L, --geringere Anzahl=uint64
k-mer nicht mit count < Lower-count ausgeben

-U, --upper-count=uint64
k-mer nicht mit count > upper-count ausgeben

--Matrix=Matrix
Datei Hash-Funktion Binärmatrix

--zeitliche Koordinierung=Zeitpunkt
Datei Timing-Informationen drucken

--Statistiken=Statistiken
Datei Statistik drucken

--Verwendungszweck
Anwendungsbereich

-h,--help
Diese Nachricht

--volle-Hilfe
Ausführliche Hilfe

-V,--Version
Version

STATISTIKEN
Verwendung: Quallenstatistik [Optionen] db:path

Statistiken

Zeigen Sie einige Statistiken über die k-mers im Hash an:

Eindeutig: Anzahl der k-mere, die nur einmal vorkommen. Deutlich: Anzahl der k-meren, nicht zählend
Vielzahl. Gesamt: Anzahl der k-mere, einschließlich der Multiplizität. Max_count: Maximale Anzahl
des Auftretens eines k-mers.

Optionen (Standardwert in (), *erforderlich):

-L, --geringere Anzahl=uint64
Berücksichtigen Sie nicht k-mer mit count < Lower-count

-U, --upper-count=uint64
Betrachten Sie k-mer nicht mit count > upper-count

-v,- ausführlich
Ausführlich (falsch)

-o, --Ausgabe=String
Ausgabedatei

--Verwendungszweck
Anwendungsbereich

-h,--help
Diese Nachricht

--volle-Hilfe
Ausführliche Hilfe

-V,--Version
Version

HISTO
Verwendung: Quallen histo [Optionen] db:path

Erstellen Sie ein Histogramm von k-mer-Vorkommen

Erstellen Sie ein Histogramm mit der Anzahl von k-meren mit einer bestimmten Anzahl. Im Eimer 'ich' bin
zählte die k-meren zusammen, die eine Zählung 'c' aufweisen, die 'low+i*inc <= c < low+(i+1)*inc' erfüllt.
Buckets in der Ausgabe werden durch den unteren Endpunkt (low+i*inc) gekennzeichnet.

Der letzte Bucket in der Ausgabe verhält sich wie ein Catchall: Er zählt alle k-mers mit einem count
größer oder gleich dem unteren Endpunkt dieses Buckets.

Optionen (Standardwert in (), *erforderlich):

-l, --niedrig=uint64
Niedriger Zählwert des Histogramms (1)

-h, --hoch=uint64
Hoher Zählwert des Histogramms (10000)

-i, --Zuwachs=uint64
Erhöhungswert für Eimer (1)

-t, --fäden=uint32
Anzahl der Fäden (1)

-f,--voll
Vollständige Geschichte. Überspringe nicht den Zähler 0. (falsch)

-o, --Ausgabe=String
Ausgabedatei

-v,- ausführlich
Ausgabeinformationen (falsch)

--Verwendungszweck
Anwendungsbereich

--help
Diese Nachricht

--volle-Hilfe
Ausführliche Hilfe

-V,--Version
Version

DUMP
Verwendung: Quallen-Dump [Optionen] db:path

Dump k-mer zählt

Standardmäßig wird ein Dump in einem Fasta-Format erstellt, bei dem der Header die Anzahl und die Sequenz die
Sequenz des k-mers. Das Spaltenformat ist eine 2-spaltige Ausgabe: k-mer count.

Optionen (Standardwert in (), *erforderlich):

-c,--Säule
Spaltenformat (falsch)

-t,--Tab
Tab-Trennzeichen (falsch)

-L, --geringere Anzahl=uint64
k-mer nicht mit count < Lower-count ausgeben

-U, --upper-count=uint64
k-mer nicht mit count > upper-count ausgeben

-o, --Ausgabe=String
Ausgabedatei

--Verwendungszweck
Anwendungsbereich

-h,--help
Diese Nachricht

-V,--Version
Version

MERGE
Verwendung: Quallen zusammenführen [Optionen] input:string+

Quallendatenbanken zusammenführen

Optionen (Standardwert in (), *erforderlich):

-s, --Puffergröße=Puffer
length Länge in Byte des Eingangspuffers (10000000)

-o, --Ausgabe=String
Ausgabedatei (mer_counts_merged.jf)

--out-counter-len=uint32
Länge (in Bytes) des Zählfeldes in der Ausgabe (4)

--out-buffer-size=uint64
Größe des Ausgabepuffers pro Thread (10000000)

-v,- ausführlich
Seien Sie ausführlich (falsch)

--Verwendungszweck
Anwendungsbereich

-h,--help
Diese Nachricht

-V,--Version
Version

QUERY
Verwendung: Quallenabfrage [Optionen] db:path

Abfrage aus einer komprimierten Datenbank

Fragt einen Hash ab. Es liest k-mers von der Standardeingabe und schreibt die Zählungen auf den Standard
Ausgabe.

Optionen (Standardwert in (), *erforderlich):

-C,--beide Stränge
Beide Stränge (falsch)

-c,--cary-bit
Wertfeld als Cary-Bit-Information (false)

-i, --Eingang=Datei
Eingabedatei

-o, --Ausgabe=Datei
Ausgabedatei

--Verwendungszweck
Anwendungsbereich

-h,--help
Diese Nachricht

-V,--Version
Version

QHISTO
Verwendung: Qualle qhisto [Optionen] db:string

Erstellen Sie ein Histogramm von k-mer-Vorkommen

Optionen (Standardwert in (), *erforderlich):

-l, --niedrig=doppelt
Niedriger Zählwert des Histogramms (0.0)

-h, --hoch=doppelt
Hoher Zählwert des Histogramms (10000.0)

-i, --Zuwachs=doppelt
Erhöhungswert für Eimer (1.0)

-f,--voll
Vollständige Geschichte. Überspringe nicht den Zähler 0. (falsch)

--Verwendungszweck
Anwendungsbereich

--help
Diese Nachricht

-V,--Version
Version

QDUMP
Verwendung: Qualle qdump [Optionen] db:path

Dump k-mer aus einer qmer-Datenbank

Standardmäßig wird ein Dump in einem Fasta-Format erstellt, bei dem der Header die Anzahl und die Sequenz die
Sequenz des k-mers. Das Spaltenformat ist eine 2-spaltige Ausgabe: k-mer count.

Optionen (Standardwert in (), *erforderlich):

-c,--Säule
Spaltenformat (falsch)

-t,--Tab
Tab-Trennzeichen (falsch)

-L, --geringere Anzahl=doppelt
k-mer nicht mit count < Lower-count ausgeben

-U, --upper-count=doppelt
k-mer nicht mit count > upper-count ausgeben

-v,- ausführlich
Seien Sie ausführlich (falsch)

-o, --Ausgabe=String
Ausgabedatei

--Verwendungszweck
Anwendungsbereich

-h,--help
Diese Nachricht

-V,--Version
Version

QMERGE
Verwendung: Quallen-Merge [Optionen] db:string+

Bebendatenbanken zusammenführen

Optionen (Standardwert in (), *erforderlich):

-s, --Größe=uint64
*Größe der zusammengeführten Hashtabelle

-m, --mer-len=uint32
*Mer Länge

-o, --Ausgabe=String
Ausgabedatei (merged.jf)

-p, --reprobes=uint32
Maximale Anzahl von Reprobes (62)

--Verwendungszweck
Anwendungsbereich

-h,--help
Diese Nachricht

--volle-Hilfe
Ausführliche Hilfe

-V,--Version
Version

CITE
Verwendung: Quallenzitate [Optionen]

Wie zitiert man Jellyfish's Paper

Zitat von Papier

Optionen (Standardwert in (), *erforderlich):

-b,--bibtex
Bibtex-Format (falsch)

-o, --Ausgabe=String
Ausgabedatei

--Verwendungszweck
Anwendungsbereich

-h,--help
Diese Nachricht

-V,--Version
Version

VERSION


Version: 1.1.4 vom 2010

Verwenden Sie Quallen online mit den onworks.net-Diensten


Kostenlose Server & Workstations

Laden Sie Windows- und Linux-Apps herunter

Linux-Befehle

Ad




×
Werbung
❤ ️Hier einkaufen, buchen oder kaufen – kostenlos, damit die Dienste kostenlos bleiben.