Dies ist das Befehlsblatt, das im kostenlosen Hosting-Anbieter OnWorks mit einer unserer zahlreichen kostenlosen Online-Workstations wie Ubuntu Online, Fedora Online, Windows Online-Emulator oder MAC OS Online-Emulator ausgeführt werden kann
PROGRAMM:
NAME/FUNKTION
leaff - Dienstprogramme und Anwendungen für Sequenzbibliotheken
ZUSAMMENFASSUNG
Blattf [-f Fasta-Datei] [Optionen]
BESCHREIBUNG
LEAFF (Let's Extract Anything From Fasta) ist ein Hilfsprogramm für die Arbeit mit Multi-
fasta-Dateien. Neben dem wahlfreien Zugriff auf die Basisebene enthält es mehrere
Analysefunktionen.
OPTIONAL
QUELLDATEIEN
-f Datei: Sequenz in „Datei“ verwenden (-F ist aus historischen Gründen auch zulässig)
-A-Datei: Aktionen aus „Datei“ lesen
QUELLDATEIPRÜFUNG
-d: druckt die Anzahl der Sequenzen im Fasta
-i Name: Druckt einen Index, der die Quelle mit „Name“ beschriftet.
AUSGABEOPTIONEN
-6 <#>: alle 60 Buchstaben eine neue Zeile einfügen
(wenn das nächste Argument eine Zahl ist, werden alle
n Buchstaben, zB -6 80. Zeilenumbrüche deaktivieren mit -6 0,
oder verwenden Sie einfach nicht -6!)
-e beg end: Druckt nur die Basen von Position „beg“ bis Position „end“.
(raumbasiert, relativ zur FORWARD-Sequenz!) Wenn
beg == end, dann wird die gesamte Sequenz gedruckt. Es ist ein
Fehler beim Angeben von „beg > end“ oder „beg > len“ oder „end > len“.
-ends n Gibt n Basen von jedem Ende der Sequenz aus. Ein Eingang
Sequenz erzeugt zwei Ausgabesequenzen, mit '_5' oder '_3'
an die ID angehängt. Wenn 2n >= Länge der Sequenz,
Die Sequenz selbst wird gedruckt, es werden keine Enden extrahiert (sie
Überlappung).
-C: Ergänzen Sie die Sequenzen
-H: Druckt die Defline NICHT
-h: Das nächste Wort wird als Defline verwendet ("-H -H" setzt auf das
ursprüngliche Definition
-R: die Sequenzen umkehren
-u: alle Basen groß schreiben
SEQUENZAUSWAHL
-G nsl: drucke n zufällig generierte Sequenzen, 0 < s <= Länge <= l
-L sl: Alle Sequenzen drucken, sodass s <= Länge < l
-N lh: Alle Sequenzen drucken, sodass l <= % N Zusammensetzung < h
(HINWEIS 0.0 <= l < h < 100.0)
(BEACHTEN SIE, dass Sie keine Sequenzen mit 100% N drucken können
Dies ist ein nützlicher Fehler.)
-q Datei: Druckt Sequenzen aus der Seqid-Liste in „Datei“.
-r num: druckt 'num' zufällig ausgewählte Sequenzen
-s seqid: Druckt die einzelne Sequenz „seqid“.
-S fl: druckt alle Sequenzen von der ID „f“ bis „l“ (einschließlich)
-W: alle Sequenzen drucken (die ganze Datei ausgeben)
LÄNGERE HILFE
-Hilfeanalyse
-Hilfebeispiele
ANALYSEFUNKTIONEN
--findduplicates a.fasta
Meldet Sequenzen, die mehr als einmal vorhanden sind. Ausgabe
ist eine Liste von Definitionszeilenpaaren, die durch eine neue Zeile getrennt sind.
--mapduplicates a.fasta b.fasta
Erstellt eine Karte von IIDs aus a.fasta und b.fasta, die
identische Sequenzen. Format ist "IIDa <-> IIDb"
--md5 a.fasta:
Drucken Sie nicht die Sequenz, sondern die MD5-Prüfsumme
(der gesamten Sequenz), gefolgt von der gesamten Defline.
--partition prefix [ n[gmk]bp | n ] a.fasta
--partitionmap [ n[gmk]bp | n ] a.fasta
Teilen Sie die Sequenzen in etwa gleich große Stücke auf.
Größe nbp, nkbp, nmbp oder ngbp; oder in n ungefähr gleich große
Partitionen. Sequenzen, die größer als die Partitionsgröße sind
in einer eigenen Partition. --partitionmap schreibt eine
Beschreibung der Partition auf stdout; --partiton erstellt
eine Fasta-Datei „prefix-###.fasta“ für jede Partition.
Beispiel: -F some.fasta --partition parts 130mbp
-F some.fasta --partition parts 16
--segment Präfix n a.fasta
Teilt die Sequenzen in n Dateien auf, Präfix-###.fasta.
Sequenzen werden nicht neu geordnet; die ersten n Sequenzen sind in
die erste Datei, das nächste n in der zweiten Datei usw.
--gccontent a.fasta
Meldet den GC-Gehalt über ein gleitendes Fenster von
3, 5, 11, 51, 101, 201, 501, 1001, 2001 bp.
--testindex a.fasta
Testen Sie den Index von 'file'. Wenn der Index aktuell ist, leaff
erfolgreich beendet, andernfalls beendet leaff mit Code 1. Wenn ein
Indexdatei bereitgestellt wird, wird diese getestet, andernfalls
Es wird der Standardname der Indexdatei verwendet.
--dumpblocks a.fasta
Erzeugt eine Liste der Blöcke mit N und Nicht-N. Ausgabe
Das Format ist „base seq# beg end len“. „N 84 483 485 2“ bedeutet
dass ein Block von 2 Ns an der raumbasierten Position 483 beginnt
in der Sequenzordnungszahl 84. Ein '.' ist das Ende der Sequenz
Marker.
--errors LNCP a.fasta
Für jede Sequenz in der Eingabedatei generieren Sie neue
Sequenzen einschließlich simulierter Sequenzierungsfehler.
L - Länge der neuen Sequenz. Wenn Null, die Länge
der Originalsequenz wird verwendet.
N - Anzahl der zu generierenden Teilsequenzen. Wenn L=0, alle
Teilsequenzen werden gleich sein, und Sie sollten verwenden
C stattdessen.
C - Anzahl der zu erstellenden Kopien. Jede der N
Teilsequenzen haben C Kopien, jede mit unterschiedlichen
Fehler.
P – Wahrscheinlichkeit eines Fehlers.
HINWEIS: Um ESTs aus Genen zu simulieren, verwenden Sie L=500, N=10, C=10
-- C=10 Sequenzerläufe mit N=10 EST-Sequenzen durchführen
mit einer Länge von jeweils 500 bp.
Um mRNA aus Genen zu simulieren, verwenden Sie L=0, N=10, C=10
Um das Lesen von Genomen zu simulieren, verwenden Sie L=800, N=10, C=1
-- natürlich sollte N= erhöht werden, um die
angemessene Deckungstiefe
--stats a.fasta
Gibt Größenstatistiken aus: Zahl, N50, Summe, größte.
--seqstore out.seqStore
Konvertiert die Eingabedatei (-f) in eine seqStore-Datei (zum Beispiel
zur Verwendung mit dem Celera-Assembler oder sim4db).
ANMERKUNG
Bitte beachten Sie, dass die Optionen von der Reihenfolge abhängig sind. Sequenzen werden gedruckt, wenn eine Sequenz
Die Option SELECTION wird in der Befehlszeile angezeigt. OUTPUT OPTIONS werden nicht zurückgesetzt, wenn eine Sequenz
gedruckt ist.
SEQUENZEN werden beginnend bei NULL nummeriert, nicht bei eins!
Beispiele:
1. Drucken Sie die ersten 10 Basen der vierten Sequenz in der Datei „Gene“:
leaff -f Gene -e 0 10 -s 3
2. Drucken Sie die ersten 10 Basen der vierten und fünften Sequenz:
leaff -f Gene -e 0 10 -s 3 -s 4
3. Drucken Sie die vierte und fünfte Sequenz rückwärts komplementär aus, und die sechste
Sequenz vorwärts. Der zweite Satz von -R -C schaltet das umgekehrte Komplement aus:
leaff -f Gene -R -C -s 3 -s 4 -R -C -s 5
4. Konvertieren Sie die Datei „genes“ in einen seqStore „genes.seqStore“.
leaff -f genes --seqstore genes.seqStore
Verwenden Sie leaff online mit den Diensten von onworks.net