GoGPT Best VPN GoSearch

OnWorks-Favicon

schwarm - Online in der Cloud

Führen Sie Schwarm im kostenlosen OnWorks-Hosting-Anbieter über Ubuntu Online, Fedora Online, Windows-Online-Emulator oder MAC OS-Online-Emulator aus

Dies ist der Befehlsschwarm, der im kostenlosen OnWorks-Hosting-Provider mit einer unserer zahlreichen kostenlosen Online-Workstations wie Ubuntu Online, Fedora Online, Windows-Online-Emulator oder MAC OS-Online-Emulator ausgeführt werden kann

PROGRAMM:

NAME/FUNKTION


Schwarm – finde Cluster von nahezu identischen Nukleotid-Amplikons

ZUSAMMENFASSUNG


Schwarm [ Optionen ] Dateinamen

BESCHREIBUNG


Umwelt- oder klinische molekulare Studien erzeugen große Mengen an Amplikons (z. B. 16S
oder 18S SSU-rRNA-Sequenzen), die zu einer molekularen operationalen Taxonomie zusammengefasst werden müssen
Einheiten (OTU). Gängige Clustering-Methoden basieren auf gierigen, von der Eingabereihenfolge abhängigen
Algorithmen mit willkürlicher Auswahl der globalen Clustergröße und Clusterschwerpunkte. Zu
dieses Problem anzugehen, haben wir entwickelt Schwarm, eine schnelle und robuste Methode, die rekursiv gruppiert
Amplikons mit d oder weniger Unterschiede. Schwarm produziert natürliche und stabile Cluster zentriert
auf lokalen Häufigkeitspeaks, frei von einer durch die Schwerpunktselektion induzierten Abhängigkeit von der Eingabereihenfolge.

Exaktes Clustering ist bei großen Datensätzen unpraktisch, wenn ein naiver All-vers-All-Ansatz verwendet wird
(genauer gesagt eine 2-Kombination ohne Wiederholungen), da sie unrealistische Zahlen von impliziert
Paarweise Vergleiche. Schwarm basiert auf einer maximalen Anzahl von Unterschieden d zwischen zwei
Amplicons und konzentriert sich nur auf sehr enge lokale Beziehungen. Zum d = 1 (Standardwert),
swarm verwendet einen Algorithmus mit linearer Komplexität, der einen exakten String-Matching durch
Hash-Werte vergleichen. Zum d = 2 oder größer, Schwarm verwendet einen quadratischen Algorithmus
Komplexität, die paarweise Zeichenfolgenvergleiche durchführt. Ein effizienter k-mer-basierte Filterung
und eine geschickte Verwendung von Vergleichsergebnissen, die während des Clustering-Prozesses erhalten wurden, ermöglicht es,
vermeiden Sie die meisten Amplikon-Vergleiche, die bei einem naiven Ansatz erforderlich sind. Um das zu beschleunigen
verbleibende Amplikon-Vergleiche, Schwarm realisiert ein extrem schnelles Needleman-Wunsch
Algorithmus, der die Streaming SIMD Extensions (SSE2) moderner x86-64-CPUs nutzt. Wenn
SSE2-Anweisungen sind nicht verfügbar, Schwarm Beendet mit einer Fehlermeldung.

Schwarm liest den benannten Eingang Dateinamen, eine Fasta-Datei von Nukleotid-Amplikons. Das Amplikon
Bezeichner ist definiert als die Zeichenfolge zwischen dem ">"-Symbol und dem ersten Leerzeichen
oder das Ende der Zeile, je nachdem, was zuerst eintritt. Wie Schwarm gibt Listen von Amplikon aus
Bezeichner, Amplikon-Bezeichner müssen eindeutig sein, um Mehrdeutigkeiten zu vermeiden; Schwarm verlässt mit einem
Fehlermeldung, wenn Bezeichner nicht eindeutig sind. Amplikon-Identifikatoren müssen mit einem "_" enden
gefolgt von einer positiven ganzen Zahl, die die Kopienzahl des Amplikons darstellt (oder die Häufigkeit
Anmerkung; Benutzer von usearch/vsearch können die Option -z verwenden, um dieses Verhalten zu ändern).
Abundance-Annotationen spielen eine entscheidende Rolle im Clustering-Prozess, und der Schwarm verlässt mit
eine Fehlermeldung, wenn diese Informationen nicht verfügbar sind. Die Amplikonsequenz ist definiert als
eine Zeichenfolge von [acgt]- oder [acgu]-Symbolen (Groß-/Kleinschreibung wird nicht beachtet), beginnend nach dem Ende des
Kennungszeile und endet vor der nächsten Kennungszeile oder dem Dateiende; Schwarm Ausgänge
mit einer Fehlermeldung, wenn ein anderes Symbol vorhanden ist.

Allgemein Optionen
-b, --Grenze positiv ganze Zahl
Wenn Sie die Option --anspruchsvoll (-f) verwenden, definieren Sie die Mindestmasse einer großen OTU
als die mit dieser Option angegebene Nummer. Der Standardwert ist 3, was bedeutet, dass any
OTU mit Masse 3 oder mehr gilt als "groß". Standardmäßig ist eine OTU "klein", wenn
es hat eine Masse von 2 oder weniger, was bedeutet, dass es entweder aus einem Amplikon von besteht
Häufigkeit 2 oder zwei Amplikons der Häufigkeit 1. Jeder positive Wert größer als 1
angegeben werden kann. Die Verwendung höherer Grenzwerte beschleunigt den zweiten Durchgang, aber
reduzieren auch die taxonomische Auflösung von Schwarm Ergebnisse angezeigt

-c, --Decke positiv ganze Zahl
Wenn Sie die Option --anspruchsvoll (-f) verwenden, definieren Sie Schwarm's maximaler Speicherbedarf
(in Megabyte). Schwarm passt den --bloom-bits (-y) Wert des Bloom-Filters an
um in die angegebene Speicherkapazität zu passen. Diese Option ist nicht aktiv bis
default.

-d, --Unterschiede Null or positiv ganze Zahl
maximal zulässige Differenzen zwischen zwei Amplikons, d. h. zwei
Amplikons werden gruppiert, wenn sie haben ganze Zahl (oder weniger) Unterschiede. Das ist
Schwarm's wichtigster Parameter. Die Anzahl der Differenzen wird berechnet als
Anzahl der Fehlpaarungen (Substitutionen, Insertionen oder Deletionen) zwischen den beiden
Amplikons, sobald das optimale paarweise globale Alignment gefunden wurde (siehe
"Erweiterte Optionen für die paarweise Ausrichtung", um diesen Schritt zu beeinflussen). Irgendein ganze Zahl
zwischen 0 und 256 können verwendet werden, aber hoch d Werte verringern die taxonomische
Auflösung von Schwarm Ergebnisse. Häufig verwendet d Werte sind 1, 2 oder 3, selten höher.
Beim Benutzen d = 0, Schwarm gibt Ergebnisse aus, die einem strikten . entsprechen
Dereplikation des Datensatzes, dh Zusammenführen identischer Amplikons. Warnung, Schwarm
erfordert immer noch Fasta-Einträge, um Häufigkeitswerte darzustellen. Standardanzahl von
Unterschiede ist 1.

-f, --anspruchsvoll
bei der Arbeit mit d = 1, führe einen zweiten Clustering-Durchlauf durch, um die Anzahl von zu reduzieren
kleine OTUs (empfohlene Option). Während des Clustering-Prozesses mit d = 1, ein
Zwischen-Amplikon kann aus rein stochastischen Gründen fehlen und unterbrechen
den Aggregationsprozess. Diese Option erstellt virtuelle Amplikons, die es ermöglichen,
kleine OTUs auf größere aufpfropfen. Standardmäßig ist eine OTU "klein", wenn sie eine Masse hat
von 2 oder weniger (siehe die Option --boundary, um diesen Wert zu erhöhen). Um die Dinge zu beschleunigen
up, Schwarm verwendet einen Bloom-Filter, um Zwischenergebnisse zu speichern. Achtung, diese Sekunde
Durchlauf kann 2 bis 3 Mal langsamer sein als der erste Durchlauf und erfordert viel mehr
Erinnerung. Siehe die Optionen --bloom-bits (-y) oder --ceiling (-c), um den Speicher zu steuern
Footprint des Bloom-Filters. Achtung, die anspruchsvolle Option ändert das Clustering
Ergebnisse. Die Ausgabedateien, die von den Optionen --log (-l), --output-file (-o),
--mothur (-r), --uclust-file und --seeds (-w) werden aktualisiert, um diese widerzuspiegeln
Modifikationen; die Datei --statistics-file (-s) wird teilweise aktualisiert (Spalten 6
und 7 werden nicht aktualisiert); die Ausgabedatei --internal-structure (-i) wird nicht aktualisiert.

-h, --help
diese Hilfe anzeigen und beenden.

-n, --no-otu-breaking
Deaktivieren Sie die integrierte OTU-Verfeinerung (nicht empfohlen). Amplikon-Fülle
Werte werden verwendet, um Übergänge zwischen kontaktbehafteten OTUs zu identifizieren und zu trennen
sie, was zu höher aufgelösten Clustering-Ergebnissen führt. Diese Option verhindert das
Trennung und ermöglicht in der Praxis die Herstellung einer Verbindung zwischen den Amplikons A
und B, auch wenn die Häufigkeit von B höher ist als die Häufigkeit von A.

-t, --fäden positiv ganze Zahl
Anzahl der zu verwendenden Rechen-Threads. Die Anzahl der Threads sollte geringer sein oder
gleich der Anzahl der verfügbaren CPU-Kerne. Die Standardanzahl von Threads ist 1.

-v, --Version
Versionsinformationen ausgeben und beenden.

-y, --bloom-bits positiv ganze Zahl
Wenn Sie die Option --anspruchsvoll (-f) verwenden, legen Sie die Größe (in Bit) jedes Eintrags fest
im Bloom-Filter. Diese Option ermöglicht es, die Effizienz (dh die Geschwindigkeit) auszugleichen.
und der Speicherbedarf des Bloom-Filters. Große Werte machen den Bloom
Filter effizienter, benötigt aber mehr Speicher. Jeder Wert zwischen 4 und 20
kann verwendet werden. Der Standardwert ist 16. Siehe die Option --ceiling (-c) für eine
alternative Möglichkeit, den Speicherbedarf zu steuern.

Eingabe / Ausgabe- Optionen
-a, --append-abundanz positiv ganze Zahl
Legen Sie den Häufigkeitswert fest, der verwendet wird, wenn einige oder alle Amplikons in der Eingabedatei fehlen
Fülle Werte. Achtung, die Verwendung wird nicht empfohlen Schwarm auf Datensätzen, in denen
Die Häufigkeitswerte sind alle identisch. Wir bieten diese Option aus Höflichkeit an
fortgeschrittene Benutzer, bitte verwenden Sie es vorsichtig. Schwarm bricht mit einer Fehlermeldung ab, wenn
Häufigkeitswerte fehlen und diese Option nicht verwendet wird.

-i, --Interne Struktur Dateinamen
Ausgabe aller Paare nahezu identischer Amplikons an Dateinamen mit fünf Spalten
tabulatorgetrenntes Format:

1. Amplikon-A-Label.

2. Amplikon-B-Etikett.

3. Anzahl der Unterschiede zwischen Amplikon A und B (positiv ganze Zahl).

4. OTU-Nummer (positiv ganze Zahl). OTUs sind in der Reihenfolge nummeriert
Abgrenzung, beginnend mit 1. Alle Amplikonpaare, die zum gehören
dieselbe OTU erhält dieselbe Nummer.

5. Anzahl der Schritte vom OTU-Seed zum Amplikon B (positiv ganze Zahl).

-l, --Protokoll Dateinamen
alle Nachrichten ausgeben an Dateinamen statt Standard Fehler, mit Ausnahme von
Fehlermeldungen natürlich. Diese Option ist in Situationen nützlich, in denen das Schreiben an
Standard Fehler problematisch ist (zB bei bestimmten Job-Schedulern).

-o, --Ausgabedatei Dateinamen
Clustering-Ergebnisse ausgeben an Dateinamen. Die Ergebnisse bestehen aus einer Liste von OTUs, einer OTU
pro Zeile. Eine OTU ist eine durch Leerzeichen getrennte Liste von Amplikon-Kennungen. Standard
ist das Schreiben auf die Standardausgabe.

-r, --Mutter
Ausgabe-Clustering-Ergebnisse in einem Format, das mit Mothur kompatibel ist. Diese Option
modifiziert Schwarm's Standardausgabeformat.

-s, --Statistik-Datei Dateinamen
Ausgabestatistik zu Dateinamen. Die Datei ist eine tabulatorgetrennte Tabelle mit einer OTU pro
Zeile und sieben Spalten mit Informationen:

1. Anzahl eindeutiger Amplikons in der OTU,

2. Gesamtkopienzahl der Amplikons in der OTU,

3. Kennung des Initial-Seeds,

4. Nummer der ursprünglichen Seed-Kopie,

5. Anzahl Amplikons mit Kopienzahl 1 in der OTU,

6. maximale Anzahl von Iterationen, bevor die OTU ihren natürlichen Wert erreicht hat
Grenzen),

7. theoretischer maximaler Radius der OTU (dh Anzahl der kumulierten
Unterschiede zwischen dem Seed und dem am weitesten entfernten Amplikon in der OTU).
Der tatsächliche maximale Radius der OTU ist oft viel kleiner.

-u, --uclust-Datei Dateinamen
Ausgabe-Clustering führt zu einem uclust-ähnlichen Dateiformat in die angegebene Datei. Dass
Option ändert sich nicht Schwarm's Standardausgabeformat.

-w, --Saat Dateinamen
OTU-Vertreter an . ausgeben Dateinamen im Fasta-Format. Der Überflusswert von
jeder Vertreter ist die Summe der Häufigkeiten aller Amplikons in der OTU.

-z, --usearch-Überfluss
Akzeptieren Sie Amplikon-Häufigkeitswerte im Stil von usearch/vsearch
(>Etikett;Größe=ganze Zahl[;]). Diese Option beeinflusst den Annotationsstil der Fülle
in Ausgabedateien verwendet.

Paarweise Ausrichtung advanced Optionen
bei der Verwendung von d > 1 XNUMX, XNUMX, XNUMX, XNUMX, Schwarm erkennt erweiterte Befehlszeilenoptionen, die das paarweise ändern
Parameter für die globale Ausrichtungsbewertung:

-m, --match-belohnung positiv ganze Zahl
Legen Sie die Belohnung für ein Nukleotid-Match fest. Standard ist 5.

-p, --Mismatch-Penalty positiv ganze Zahl
die Strafe für eine Nukleotid-Fehlpaarung festlegen. Standard ist 4.

-g, --Gap-Opening-Strafe positiv ganze Zahl
setze die Lückenöffnungsstrafe. Standard ist 12.

-e, --gap-extension-penalty positiv ganze Zahl
die Lückenerweiterungsstrafe festlegen. Standard ist 4.

As Schwarm konzentriert sich auf enge Beziehungen (dh d = 2 oder 3), Clustering-Ergebnisse sind
widerstandsfähig gegen paarweise Änderungen der Ausrichtungsmodellparameter. Modellparameter ändern
hat einen stärkeren Einfluss beim Clustering mit einem höheren d Wert.

Beispiele:


Clustern Sie den Datensatz meinedatei.fasta in OTUs mit der feinstmöglichen Auflösung (1
Unterschied, integriertes Brechen, anspruchsvolle Option) mit 4 Berechnungsthreads. OTUs sind
in die Datei geschrieben meinedatei.swarms, und OTU-Vertreter werden angeschrieben
myfile.representatives.fasta.

Schwarm -t 4 -f -w myfile.representatives.fasta < meinedatei.fasta > meinedatei.swarms

AUTOREN


Konzept von Frédéric Mahé, Umsetzung von Torbjørn Rognes.

ZITAT


Mahé F, Rognes T, Quince C, de Vargas C, Dunthorn M. (2014) Schwarm: robust und schnell
Clustering-Methode für Amplikon-basierte Studien. PeerJ 2:e593
<http://dx.doi.org/10.7717/peerj.593>

Mahé F, Rognes T, Quince C, de Vargas C, Dunthorn M. (2015) Swarm v2: hochskalierbar und
hochauflösendes Amplikon-Clustering. PeerJ 3:e1420http://dx.doi.org/10.7717/peerj.1420>

REPORTING Fehler


Senden Sie Vorschläge und Fehlerberichte an , Sende ein
Anfrage anziehen , oder verfassen Sie ein freundliches oder griesgrämiges
E-Mail an Frédéric Mahé[E-Mail geschützt] > und Torbjørn Rognes[E-Mail geschützt] >.

VERFÜGBARKEIT


Die Software ist erhältlich bei

URHEBERRECHT


Copyright (C) 2012, 2013, 2014, 2015 Frédéric Mahé & Torbjørn Rognes

Dieses Programm ist freie Software: Sie können es unter den Bedingungen von . weitergeben und/oder ändern
die GNU Affero General Public License, wie von der Free Software Foundation veröffentlicht, entweder
Version 3 der Lizenz oder eine spätere Version.

Dieses Programm wird in der Hoffnung verteilt, dass es nützlich ist, jedoch OHNE JEGLICHE GEWÄHRLEISTUNG;
auch ohne die stillschweigende Garantie der MARKTFÄHIGKEIT oder EIGNUNG FÜR EINEN BESTIMMTEN ZWECK.
Weitere Informationen finden Sie in der GNU Affero General Public License.

Zusammen mit diesem sollten Sie eine Kopie der GNU Affero General Public License erhalten haben
Programm. Wenn nicht, siehehttp://www.gnu.org/licenses/>.

Verwenden Sie den Schwarm online mit den onworks.net-Diensten


Kostenlose Server & Workstations

Laden Sie Windows- und Linux-Apps herunter

Linux-Befehle

Ad




×
Werbung
❤ ️Hier einkaufen, buchen oder kaufen – kostenlos, damit die Dienste kostenlos bleiben.