Dies ist der Befehl sim4db, der beim kostenlosen Hosting-Anbieter OnWorks mit einer unserer zahlreichen kostenlosen Online-Workstations wie Ubuntu Online, Fedora Online, dem Windows-Online-Emulator oder dem MAC OS-Online-Emulator ausgeführt werden kann
PROGRAMM:
NAME/FUNKTION
sim4db – Batch-Spliced-Alignment von cDNA-Sequenzen an ein Zielgenom
ZUSAMMENFASSUNG
Ein einfacher Befehlszeilenaufruf:
sim4db -genomic g.fasta -cdna c.fasta -scr script -output o.sim4db
wo:
- „c.fasta“ und „g.fasta“ sind die Multi-Fasta-cDNA- und Genomsequenzdateien
- „script“ ist eine Skriptdatei, die die einzelnen zu berechnenden Ausrichtungen angibt
- Die Ausgabe im sim4db-Format wird an die Datei „o.sim4db“ gesendet („-“ für Standardausgabe).
Ein komplexerer Aufruf:
sim4db -genomic g.fasta -cdna c.fasta -output o.sim4db [Optionen]
BESCHREIBUNG
sim4db Führt ein schnelles Batch-Alignment großer cDNA-Sequenzsätze (EST, mRNA) zu einem Satz durch
eukaryontische Genomregionen. Zur Bestimmung werden die Algorithmen sim4 und sim4cc verwendet
Alignments, beinhaltet aber einen schnellen Mechanismus zur Sequenzindizierung und zum Abruf, implementiert
im Schwesterpaket Blattf(1), um große Mengen an Sequenzen schnell zu verarbeiten.
Während sim4db Erstellt Ausrichtungen auf die gleiche Weise wie sim4 oder sim4cc, verfügt jedoch über zusätzliche
Funktionen, die es für die Verwendung mit Annotationspipelines für das gesamte Genom geeigneter machen. Ein Skript
Die Datei kann verwendet werden, um Paarungen zwischen cDNAs und ihren entsprechenden Genomregionen zu gruppieren.
als ein Durchlauf und unter Verwendung desselben Parametersatzes ausgerichtet werden. Sim4db auch optional
meldet mehr als ein Alignment für dieselbe cDNA innerhalb einer Genomregion, sofern sie vorhanden sind
erfüllen benutzerdefinierte Kriterien wie Mindestlänge, prozentuale Sequenzidentität oder
Abdeckung. Diese Funktion ist wichtig, um alle Alignments einer Genfamilie gleichzeitig zu finden
Ort. Schließlich wird die Ausgabe entweder als benutzerdefinierte sim4db-Alignments oder als GFF3-Gen präsentiert
Funktionen.
OPTIONAL
Wichtigste Optionen:
-cdna verwendet diese cDNA-Sequenzen (Multi-Fasta-Datei)
-Genomische Nutzung dieser Genomsequenzen (Multi-Fasta-Datei)
-script verwendet diese Skriptdatei
- Paarweise sequenzielle Ausrichtung von Sequenzpaaren
Wenn keine der Optionen „-script“ und „-pairwise“ vorhanden ist
angegeben ist, tritt sim4db alle gegen alle an
Alignments zwischen Paaren von cDNA und genomischen Sequenzen.
-output schreibt die Ausgabe in diese Datei
-gff3-Berichtsausgabe im GFF3-Format
-interspecies verwenden sim4cc für die Ausrichtung zwischen den Arten (Standard sim4)
Filteroptionen:
-mincoverage findet iterativ alle Exon-Modelle mit dem angegebenen
minimale PROZENTABDECKUNG
-minidentity findet iterativ alle Exon-Modelle mit dem angegebenen
minimaler PROZENT EXON-IDENTITÄT
-minlength iterativ alle Exon-Modelle mit dem angegebenen finden
minimale ABSOLUTE ABDECKUNG (Anzahl der übereinstimmenden bp)
(Standardeinstellung 0)
-immer melden, immer melden Exon-Modelle, auch wenn sie
liegen unterhalb der Qualitätsschwellen
Nur wenn keine Mincoverage oder Miniidentität oder Minlänge angegeben ist
das beste Exon-Modell wird zurückgegeben. Dies ist die STANDARD-Operation.
Sie möchten wahrscheinlich ALLE DREI Mincoverage angeben,
Miniidentität und Minlänge! Gehen Sie nicht von den Standardwerten aus
sind, was Sie wollen!
Sie möchten auf jeden Fall mindestens eine der folgenden Optionen angeben: Mincoverage,
Miniidentität und Minlänge mit AlwaysReport! Wenn nicht,
Mincoverage wird auf 90 und Miniidentity auf 95 gesetzt – zur Reduzierung
die Anzahl der falschen Übereinstimmungen, wenn eine gute Übereinstimmung gefunden wird.
Zusatzoptionen:
-nodeflines schließt die Defline nicht in die sim4db-Ausgabe ein
-alignments druckt Ausrichtungen
-Polytails maskieren NICHT Poly-A- und Poly-T-Schwänze
-Cut marginale Exons abschneiden, wenn A/T % > x (Poly-AT-Schwänze)
-noncanonical erzwingt keine kanonischen Spleißstellen
-splicemodel verwendet das folgende Spleißmodell: 0 – Original-Sim4;
1 – GeneSplicer; 2 - Glimmer; Optionen 1 und 2 sind
nur mit '-interspecies' verfügbar.
Der Standardwert für sim4 ist 0 und für sim4cc 1.
-forcestrand Erzwingt, dass die Strangvorhersage immer lautet
entweder „vorwärts“ oder „rückwärts“
Ausführungsmöglichkeiten:
-threads Verwenden Sie n Threads.
-touch Diese Datei erstellen, wenn die Ausführung des Programms abgeschlossen ist
Debugging-Optionen:
-v druckt den Status während der Ausführung auf stderr
-V gibt Skriptzeilen (stderr) aus, während sie verarbeitet werden
Entwickleroptionen:
-Z legt das Abstandssaatmuster fest
-H stellt den Relink-Gewichtungsfaktor ein (H=1000 empfohlen für mRNAs)
-K legt den ersten MSP-Schwellenwert fest
-C legt den zweiten MSP-Schwellenwert fest
-Ma legt die Grenze für die Anzahl der zulässigen MSPs fest
-Mp gleich, als Prozentsatz der Basen in der cDNA
HINWEIS: Bei Verwendung müssen sowohl -Ma als auch -Mp angegeben werden!
Nutzen Sie sim4db online über die Dienste von onworks.net