GoGPT Best VPN GoSearch

OnWorks-Favicon

sim4 - Online in der Cloud

Führen Sie sim4 im kostenlosen Hosting-Anbieter OnWorks über Ubuntu Online, Fedora Online, den Windows-Online-Emulator oder den MAC OS-Online-Emulator aus

Dies ist der Befehl sim4, der im kostenlosen OnWorks-Hosting-Provider mit einer unserer zahlreichen kostenlosen Online-Workstations wie Ubuntu Online, Fedora Online, Windows-Online-Emulator oder MAC OS-Online-Emulator ausgeführt werden kann

PROGRAMM:

NAME/FUNKTION


sim4 - eine exprimierte DNA-Sequenz mit einer genomischen Sequenz ausrichten

ZUSAMMENFASSUNG


sim4 Folgedatei1 Folgedatei2 {[WXKCRDAPNB]=Wert}

BESCHREIBUNG


sim4 ist ein auf Ähnlichkeit basierendes Werkzeug zum Alignment einer exprimierten DNA-Sequenz (EST, cDNA, mRNA)
mit einer genomischen Sequenz für das Gen. Es erkennt auch Endübereinstimmungen, wenn die beiden Eingaben
Sequenzen überlappen sich an einem Ende (dh der Anfang einer Sequenz überlappt das Ende des
Sonstiges). Wenn Folgedatei2 ist eine Datenbank von Sequenzen, die Sequenz in Folgedatei1 wird ausgerichtet
mit jeder der Sequenzen in Folgedatei2.

sim4 verwendet eine blast-basierte Technik, um zuerst die grundlegenden Matching-Blöcke zu bestimmen
die "Exon-Kerne" darstellen. In dieser ersten Phase erkennt es alle möglichen genauen Übereinstimmungen
von W-meren (dh DNA-Wörtern der Größe W) zwischen den beiden Sequenzen und erweitert sie auf
maximale Scoring lückenlose Segmente. In der zweiten Stufe werden die Exon-Kerne erweitert in
die angrenzenden, noch nicht übereinstimmenden Fragmente unter Verwendung von Greedy-Alignment-Algorithmen und Heuristiken
werden verwendet, um Konfigurationen zu bevorzugen, die den Spleißstellen-Erkennungssignalen (GT-
AG, CT-AC). Bei Bedarf wiederholt sich der Vorgang mit weniger strengen Parametern auf der
unübertroffene Fragmente.

Standardmäßig sim4 durchsucht beide Stränge und meldet die beste Übereinstimmung, gemessen an der Zahl
von übereinstimmenden Nukleotiden, die im Alignment gefunden wurden. Die R-Befehlszeilenoption kann verwendet werden, um
Beschränken Sie die Suche auf nur eine Orientierung (Strang).

Derzeit werden fünf Hauptachsenanzeigeoptionen unterstützt, die von der Option A gesteuert werden.
Standardmäßig (A=0) sind nur die Endpunkte, die Gesamtähnlichkeit und die Orientierung der Introns
sind gemeldet. Ein Pfeilzeichen (`->' oder `<-') zeigt die Ausrichtung des Introns an (`+' oder
`-'-Strang), wenn die Signale, die das Intron flankieren, drei oder mehr Positionsübereinstimmungen mit aufweisen
entweder das GT-AG- oder das CT-AC-Spleißerkennungssignal. Wenn die gleiche Anzahl von Übereinstimmungen
für beide Orientierungen gefunden wird, wird das Intron als mehrdeutig angegeben und dargestellt durch
`--'. Das Zeichen `==' kennzeichnet die Abwesenheit eines cDNA-Fragments, das bei beginnt, beim Alignment
diese Stellung. Alternative Formate (Lav-Block-Format, Text, 'Exons-Datei' vom Typ PipMaker oder
bestimmte Kombinationen dieser Optionen) können durch Angabe eines anderen Wertes angefordert werden
Für ein.

Wenn die Option P mit einem Wert ungleich Null angegeben wird, sim4 entfernt jedes 3'-Ende Poly-A
Schwänze, die es in der Ausrichtung erkennt.

Gelegentlich, sim4 kann ein internes Exon verpassen, wenn es von sehr großen Introns umgeben ist,
typischerweise länger als 100 KB. Wenn dies vermutet wird, kann die Option H zum Zurücksetzen verwendet werden
das Gewicht der Exons, um die Intronlückenstrafe zu kompensieren.

Mehrdeutigkeitscodes sind standardmäßig in Sequenzdaten zulässig, aber sim4 behandelt sie nicht-
unterschiedlich. Falls gewünscht, kann die Befehlsoption B die Menge der akzeptablen
Zeichen nur für A,C,G,T,N und X.

sim4 vergleicht die Längen der Eingabesequenzen, um zwischen der cDNA ('kurz') zu unterscheiden
und die genomischen (,langen') Komponenten im Vergleich. Wann Folgedatei2 enthält eine Sammlung
von Sequenzen wird der erste Eintrag in der Datei verwendet, um die Art dieser zu bestimmen und
alle nachfolgenden Vergleiche.

In der folgenden Beschreibung bezeichnet der Begriff MSP a Maxial Segement PLuft, d. h. ein Paar
sehr ähnliche Fragmente in den beiden Sequenzen, erhalten während des blast-like-Verfahrens von
Erweiterung eines W-Mer-Treffers durch Streichhölzer und vielleicht ein paar Mismatches.

OPTIONAL


Die Algorithmusparameter (in den ersten beiden Abschnitten unten enthalten) wurden bereits
abgestimmt und erfordern normalerweise keine Anpassung durch den Benutzer.

Parameter innerhalb des sprengähnlichen Verfahrens:

W Legt die Wortgröße für Explosionstreffer in der ersten Stufe des Algorithmus fest. Der Standard
Der Wert ist 12, kann aber für eine strengere Suche erhöht oder auf verringert werden
schwächere Übereinstimmungen finden.

X Steuert die Grenzen für das Beenden von Worterweiterungen in der Explosions-ähnlichen Phase des
Algorithmus. Der Standardwert ist 12.

K Legt den Schwellenwert für die MSP-Scores bei der Bestimmung der grundlegenden `Exon-Kerne' fest,
während der ersten Stufe des Algorithmus. (Wenn diese Option nicht angegeben ist, wird die
Schwellenwert wird aus den Längen der Sequenzen berechnet, unter Verwendung von statistischen
Kriterien.) Zum Beispiel ein guter Wert für genomische Sequenzen im Bereich von wenigen
hundert Kb ist 16. Um falsche Übereinstimmungen zu vermeiden, kann jedoch ein größerer Wert erforderlich sein
für längere Sequenzen.

C Legt den Schwellenwert für die MSP-Scores beim Alignment der noch nicht übereinstimmenden Fragmente fest,
während der zweiten Stufe des Algorithmus. Standardmäßig ist die kleinere der Konstanten
12 und ein statistikbasierter Schwellenwert wird gewählt.

Zusätzliche Algorithmusparameter:

D Legt die Grenze für den "diagonalen" Abstand innerhalb aufeinanderfolgender MSPs in einem Exon fest. Die
Standardwert ist 10.

Kontextparameter:

R Gibt die Suchrichtung an. Wenn R=0, ist nur der "+" (direkte) Strang
gesucht. Wenn R = 1 ist, werden nur die "-" (Umkehrkomplement)-Übereinstimmungen gesucht. Standardmäßig
(R=2), sim4 durchsucht beide Stränge und meldet die beste Übereinstimmung, gemessen am
Anzahl übereinstimmender Paare im Alignment.

A Gibt das Format der Ausgabe an: nur Exon-Endpunkte (A=0), Exon-Endpunkte und
Grenzen der kodierenden Region (CDS) in der genomischen Sequenz, wenn angegeben für
die Eingabe-mRNA (A=5), Alignment-Text (A=1), Alignment im Lav-Block-Format (A=2), oder
sowohl Exon-Endpunkte als auch Ausrichtungstext (A=3 oder A=4). Wenn ein umgekehrtes Komplement übereinstimmt
gefunden wird, gibt A=0,1,2,3,5 seine Position im "+" Strang des längeren
Sequenz und dem "-" Strang der kürzeren Sequenz. A=4 gibt seine Position in . an
der "+" Strang der ersten Sequenz (seqfile1) und der "-" Strang der zweiten
Sequenz (seqfile2), unabhängig davon, welche Sequenz länger ist. Die Option A=5 kann sein
Wird mit der S-Befehlszeilenoption verwendet, um die Endpunkte des CDS im
mRNA und erzeugt eine Ausgabe im `Exons-Datei'-Format, das von PipMaker benötigt wird.

P Gibt an, ob das Programm das Fragment des Alignments melden soll
enthält den Poly-A-Schwanz (falls gefunden). Standardmäßig (P=0) wird die Ausrichtung angezeigt
wie berechnet, aber die Angabe eines Werts ungleich Null fordert sim4 auf, das Poly-A zu entfernen
Schwänze. Wenn diese Funktion aktiviert ist, erzeugen alle Anzeigeoptionen zusätzliche lav
Ausrichtungs-Header.

H Setzt das Gewicht der MSPs zurück, um sehr große Introns zu kompensieren. Der Standardwert ist
H=500, aber einige Introns, die größer als 100 Kb sind, können höhere Werte erfordern, typischerweise
zwischen 1000 und 2500. Diese Option sollte mit Vorsicht verwendet werden, im Allgemeinen in Fällen
wobei ein nicht übereinstimmender interner Teil der cDNA ein fehlendes Exon innerhalb von a . verschleiern kann
sehr großes Intron. Es wird nicht für ESTs empfohlen, da sie störende erzeugen können
Exons.

N Fordert eine zusätzliche Suche nach kleinen marginalen Exons (N=1) unter Führung des Spleiß-
Standorterkennungssignale. Diese Option kann verwendet werden, wenn eine Übereinstimmung mit hoher Genauigkeit
erwartet. Der Standardwert ist N=0 und gibt keine zusätzliche Suche an.

B Steuert den in den Eingabesequenzen zulässigen Zeichensatz. Standardmäßig (B=1),
Mehrdeutigkeitszeichen (ABCDGHKMNRSTVWXY) sind erlaubt. Durch Angabe von B=0 wird die Menge von
zulässige Zeichen sind nur auf A,C,G,T,N und X beschränkt.

S Ermöglicht dem Benutzer, die Endpunkte des CDS in der Eingabe-mRNA anzugeben, mit dem
Syntax: S=n1..n2. Diese Option ist nur mit dem Flag A=5 verfügbar, was
Ausgabe in dem von PipMaker benötigten Format. Alternativ könnten die CDS-Koordinaten
erscheinen in einem Konstrukt CDS=n1..n2 im FastA-Header der mRNA-Sequenz. Wenn das
zweite Datei ist eine mRNA-Datenbank, die Befehlszeilenspezifikation für das CDS wird
gelten nur für die erste Sequenz in der Datei.

Beispiele:


sim4 est genomisch

sim4 genomische estdb

sim4 est genomisch A=1 P=1

sim4 est1 est2 R=1

sim4 mRNA genomisch A=5 S=123..1020

sim4 Maus_cDNA human_genomisch K=15 C=11 A=3 W=10

AUTOREN


sim4 wurde von Liliana Florea geschrieben[E-Mail geschützt] > und Scott Schwartz.

Diese Handbuchseite wurde von Nelson A. de Oliveira geschrieben[E-Mail geschützt] >, basierend auf dem
Online-Dokumentation unter http://globin.cse.psu.edu/html/docs/sim4.html, für das Debian
Projekt (kann aber von anderen verwendet werden).

Mi, 03. August 2005 18:40:58 -0300 SIM4(1)

Verwenden Sie sim4 online mit den onworks.net-Diensten


Kostenlose Server & Workstations

Laden Sie Windows- und Linux-Apps herunter

Linux-Befehle

Ad




×
Werbung
❤ ️Hier einkaufen, buchen oder kaufen – kostenlos, damit die Dienste kostenlos bleiben.