Theseus - Online in der Cloud

Dies ist der Befehl Theseus, der im kostenlosen OnWorks-Hosting-Provider über eine unserer zahlreichen kostenlosen Online-Workstations wie Ubuntu Online, Fedora Online, Windows-Online-Emulator oder MAC OS-Online-Emulator ausgeführt werden kann

PROGRAMM:

NAME/FUNKTION


Theseus - Maximale Wahrscheinlichkeit, mehrere gleichzeitige Überlagerungen mit statistischen
Analyse

ZUSAMMENFASSUNG


Theseus [Optionen] pdbfile1 [pdbfile2 ...]

und

Theseus_align [Optionen] -f pdbfile1 [pdbfile2 ...]

BESCHREIBUNG


Theseus überlagert eine Reihe von makromolekularen Strukturen gleichzeitig mit der Methode von
Maximum Likelihood (ML) anstelle des herkömmlichen Kleinste-Quadrate-Kriteriums. Theseus
nimmt an, dass die Strukturen gemäß einer Matrix-Gauß-Verteilung verteilt sind
und dass die Eigenwerte der atomaren Kovarianzmatrix hierarchisch verteilt sind
nach einer inversen Gammaverteilung. Dieses ML-Überlagerungsmodell produziert viel
genauere Ergebnisse durch wesentliches Heruntergewichten variabler Bereiche der Strukturen und
durch Korrigieren von Korrelationen zwischen Atomen.

Theseus arbeitet in zwei Hauptmodi: (1) ein Modus zum Überlagern von Strukturen mit identischen
Sequenzen und (2) einen Modus für Strukturen mit unterschiedlichen Sequenzen, aber ähnlichen Strukturen:

(1) Ein Modus zur Überlagerung von Makromolekülen mit identischen Sequenzen und Zahlen
von Resten, zum Beispiel mehrere Modelle in einer NMR-Familie oder mehrere Strukturen
aus verschiedenen Kristallformen desselben Proteins.

In diesem Modus Theseus liest jedes Modell in jeder Datei auf der Befehlszeile und
überlagern sie.

Ejemplo:

Theseus 1s40.pdb

Im obigen Beispiel ist 1s40.pdb ist eine pdb-Datei mit 10 NMR-Modellen.

(2) Ein ``Alignment''-Modus zum Überlagern von Strukturen mit unterschiedlichen Sequenzen,
zum Beispiel multiple Strukturen des Cytochrom-c-Proteins von verschiedenen Spezies
oder mehrfach mutierte Strukturen von Hühnereiweiß-Lysozym.

In diesem Modus muss der Benutzer eine Sequenz-Alignment-Datei der Strukturen bereitstellen
überlagert (siehe Option -A und ``DATEIFORMATE'' unten). Außerdem ist es
kann erforderlich sein, um eine Mapdatei bereitzustellen, die mitteilt Theseus welche PDB-Strukturdateien
welchen Sequenzen im Alignment entsprechen (siehe Option -M und ``DATEIFORMATE''
unter). Das Mapfile ist unnötig, wenn die Sequenznamen und die entsprechende pdb
Dateinamen sind identisch. Wenn in diesem Modus mehrere Strukturmodelle in
eine PDB-Datei, Theseus liest nur das erste Modell in jeder Datei auf der Befehlszeile. In
andere Worte, Theseus behandelt die Dateien auf der Kommandozeile, als ob es nur eine gäbe
Struktur pro Datei.

Beispiel 1:

Theseus -A cytc.aln -M cytc.filemap d1cih__.pdb d1csu__.pdb d1kyow_.pdb

Im obigen Beispiel sind d1cih__.pdb, d1csu__.pdb und d1kyow_.pdb pdb-Dateien von
Cytochrom-c-Domänen aus der SCOP-Datenbank.

Beispiel 2:

Theseus_align -f d1cih__.pdb d1csu__.pdb d1kyow_.pdb

In diesem Beispiel Theseus_align script ist aufgerufen, die harte Arbeit für Sie zu erledigen.
Es berechnet ein Sequenz-Alignment und überlagert dann basierend auf diesem Alignment.
Das Skript Theseus_align nimmt die gleichen Optionen wie die Theseus Programm. Beachten Sie das
Die ersten Zeilen dieses Skripts müssen für Ihr System angepasst werden, da es an . aufruft
externes Mehrfachsequenz-Alignment-Programm, um das Alignment durchzuführen. Siehe die
Beispiele / Verzeichnis für weitere Details, einschließlich Beispieldateien.

OPTIONAL


Algorithmisch Optionen, defaults in {Klammern}:
--Bernstein
Führen Sie eine spezielle Verarbeitung für AMBER8-formatierte PDB-Dateien durch

Die meisten Benutzer werden diese lange Option niemals verwenden müssen, es sei denn, Sie verarbeiten MD
Spuren von AMBER. AMBER fügt die Atomnamen in die falsche Spalte in der PDB-Datei ein.

-a [Auswahl]
Atome, die in die Überlagerung aufgenommen werden sollen. Diese Option benötigt zwei Arten von Argumenten,
entweder (1) eine Zahl, die eine vorausgewählte Menge von Atomtypen angibt, oder (2) ein explizites
PDB-ähnliche, durch Doppelpunkte getrennte Liste der einzuschließenden Atome.

Für die vorausgewählten Teilmengen des Atomtyps sind die folgenden ganzzahligen Optionen verfügbar:

· 0, Alpha-Kohlenstoff für Proteine, C1´-Atome für Nukleinsäuren
· 1, Rückgrat
· 2, alle
· 3, Alpha- und Beta-Kohlenstoff
· 4, alle Schweratome (keine Wasserstoffe)

Beachten Sie, dass nur die .A0 Option ist verfügbar, wenn Strukturen mit
verschiedene Sequenzen.

Um einen expliziten Satz von Atomtypen benutzerdefiniert auszuwählen, müssen die Atomtypen angegeben werden
genau wie im PDB-Dateifeld angegeben, einschließlich Leerzeichen, und die Atomtypen müssen
in Anführungszeichen eingeschlossen. Mehrere Atomtypen müssen durch einen Doppelpunkt getrennt werden.
Zum Beispiel,

-a ` N : CA : C : O '

würde die Atomtypen im Peptidrückgrat spezifizieren.

-f Nur das erste Modell einer PDB-Datei mit mehreren Modellen lesen

-h Hilfe/Nutzung

-i [nnn]
Maximale Iterationen, {200}

-p [Präzision]
Angeforderte relative Genauigkeit für Konvergenz, {1e-7}

-r [Wurzel Name]
Root-Name, der bei der Benennung der Ausgabedateien verwendet wird, {theseus}

-s [nn:...]
Restauswahl (z. B. -s15-45:50-55), {all}

-S [nn:...]
Auszuschließende Rückstände (z. B. -S15-45:50-55) {keine}

Die beiden vorherigen Optionen haben das gleiche Format. Rest- (oder Ausrichtungsspalten-) Bereiche
werden durch Anfang und Ende durch einen Strich getrennt angezeigt. Mehrere Bereiche, in jedem
beliebiger Reihenfolge, werden durch einen Doppelpunkt getrennt. Ketten können auch durch Geben ausgewählt werden
die Ketten-ID, die dem Restbereich unmittelbar vorangeht. Zum Beispiel, -sA1-20:A40-71
enthält nur die Reste 1 bis 20 und 40 bis 70 in Kette A. Ketten können nicht
angegeben werden, wenn Strukturen mit unterschiedlichen Sequenzen überlagert werden.

-v ML-Varianzgewichtung verwenden (keine Korrelationen) {default}

Eingabe / Ausgabe- Optionen:
-A [Reihenfolge Ausrichtung Datei]
Sequenzausrichtungsdatei zur Verwendung als Leitfaden (CLUSTAL- oder A2M-Format)

Zur Verwendung beim Überlagern von Strukturen mit unterschiedlichen Sequenzen. Siehe ``DATEIFORMATE''
unten mit.

-E Expertenoptionen drucken

-F FASTA-Dateien der Sequenzen in PDB-Dateien drucken und beenden

Eine nützliche Option beim Überlagern von Strukturen mit unterschiedlichen Sequenzen. Die Dateien
Ausgabe mit dieser Option kann mit einem Mehrfachsequenz-Alignment-Programm ausgerichtet werden
wie CLUSTAL oder MUSCLE, und die resultierende Ausgabe-Alignment-Datei verwendet als Theseus
Eingabe mit dem -A .

-h Hilfe/Nutzung

-I Berechnen Sie einfach Statistiken für die Eingabedatei; nicht überlagern

-M [Kartendatei]
Datei, die PDB-Dateien Sequenzen im Alignment zuordnet.

Eine einfache, zweispaltig formatierte Datei; siehe ``DATEIFORMATE'' unten. Wird mit Modus 2 verwendet.

-n Schreiben Sie keine transformierte pdb-Datei

-o [Referenz Struktur]
Referenzdatei zum Überlagern, alle Drehungen sind relativ zum ersten Modell in
Diese Datei

Zum Beispiel wird 'theseus -o cytc1.pdb cytc1.pdb cytc2.pdb cytc3.pdb' überlagert
die Strukturen und drehen Sie die gesamte endgültige Überlagerung, so dass die Struktur von
cytc1.pdb hat dieselbe Ausrichtung wie die Struktur in der ursprünglichen cytc1.pdb-PDB
Datei.

-V Version

Principal Komponenten Analyse:
-C Kovarianzmatrix für PCA verwenden (Korrelationsmatrix ist Standard)

-P [nnn]
Anzahl der zu berechnenden Hauptkomponenten {0}

In beiden oben genannten Fällen ist die entsprechende Hauptkomponente in der B-
Faktor-Feld der Ausgabe-PDB-Datei. Normalerweise sind nur die ersten paar PCs von irgendwelchen
Interesse (vielleicht bis zu sechs).

Beispiele: Theseus 2sdf.pdf

Theseus -l -r neu2sdf 2sdf.pdf

Theseus -s15-45 -P3 2sdf.pdf

Theseus -A cytc.aln -M cytc.mapfile -o cytc1.pdb -s1-40 cytc1.pdb cytc2.pdb cytc3.pdb
cytc4.pdb


Sie können die Umgebungsvariable 'PDBDIR' auf Ihr PDB-Dateiverzeichnis setzen und Theseus werden wir
suchen Sie dort nach dem aktuellen Arbeitsverzeichnis. In der C-Shell (tcsh oder
csh), können Sie etwas Ähnliches in Ihre .cshrc-Datei einfügen:

setenv PDBDIR '/usr/share/pdbs/'

FILE FORMATEN


Theseus liest Standard-PDB-formatierte Dateien (siehehttp://www.rcsb.org/pdb/>). Jeden
Es wurden Anstrengungen unternommen, damit das Programm nicht standardmäßige CNS- und X-PLOR-Dateiformate akzeptiert.
unterschreiben.

Zwei weitere Dateien verdienen Erwähnung, eine Sequenz-Alignment-Datei und eine Map-Datei.

Reihenfolge Ausrichtung Datei
Beim Überlagern von Strukturen mit unterschiedlichen Restidentitäten (wobei die Längen von jedem
die Makromoleküle in Bezug auf Reste nicht unbedingt gleich sind), ein Sequenz-Alignment
Datei muss enthalten sein für Theseus als Anhaltspunkt zu verwenden (angegeben von der -A Möglichkeit). Theseus
akzeptiert sowohl CLUSTAL- als auch A2M (FASTA)-formatierte Mehrfachsequenz-Alignment-Dateien.

ANMERKUNG 1: Die Restsequenz im Alignment muss genau mit der Restsequenz übereinstimmen
in den Koordinaten der PDB-Datei angegeben. Das heißt, es darf kein Fehlen oder Extra sein
Reste, die nicht der Sequenz in der PDB-Datei entsprechen. Ein einfacher Weg, um sicherzustellen
dass Ihre Sequenzen genau mit den PDB-Dateien übereinstimmen, ist es, die Sequenzen zu generieren mit
Theseus' -F Option, die eine FASTA-formatierte Sequenzdatei der Kette(n) in . schreibt
die PDB-Dateien. Die mit dieser Option ausgegebenen Dateien können dann mit einem Vielfachen ausgerichtet werden
Sequenz-Alignment-Programm wie CLUSTAL oder MUSCLE und das resultierende Output-Alignment
Datei verwendet als Theseus Eingabe mit dem -A .

HINWEIS 2: Jede PDB-Datei muss eine entsprechende Sequenz im Alignment aufweisen. Allerdings nicht
jede Sequenz im Alignment muss eine entsprechende PDB-Datei haben. Das heißt, es kann
zusätzliche Sequenzen im Alignment sein, die nicht zur Führung der Überlagerung verwendet werden.

PDB -> Reihenfolge Kartendatei
Wenn die Namen der PDB-Dateien und die Namen der entsprechenden Sequenzen im
Ausrichtung identisch sind, kann das Mapfile weggelassen werden. Andernfalls, Theseus muss wissen
welche Sequenzen in der Alignment-Datei welchen PDB-Strukturdateien entsprechen. Dies
Informationen sind in einer Kartendatei mit einem sehr einfachen Format enthalten (angegeben mit dem -M
Möglichkeit). Es gibt nur zwei durch Leerzeichen getrennte Spalten: die erste Spalte listet die
Namen der PDB-Strukturdateien, während die zweite Spalte die entsprechende Sequenz auflistet
Namen genau wie in der Mehrfachsequenz-Alignment-Datei angegeben.

Ein Beispiel für das Mapfile:

cytc1.pdb seq1
cytc2.pdb seq2
cytc3.pdb seq3

SCREEN AUSGABE


Theseus liefert eine Ausgabe, die sowohl den Fortschritt der Überlagerung als auch mehrere beschreibt
Statistik für das Endergebnis:

Klassik LS paarweise :
Der konventionelle RMSD für die Superposition, der durchschnittliche RMSD für alle paarweisen
Kombinationen von Strukturen im Ensemble.

Kleinsten Quadrate :
Die Standardabweichung für die Überlagerung, basierend auf der konventionellen Annahme
ohne Korrelation und gleiche Varianzen. Im Wesentlichen gleich dem RMSD aus dem Durchschnitt
Struktur.

Maximal Wahrscheinlichkeit :
Das ML-Analogon der Standardabweichung für die Überlagerung. Wenn man davon ausgeht
die Korrelationen sind null (eine diagonale Kovarianzmatrix), dies ist gleich der
Quadratwurzel des harmonischen Mittels der Varianzen für jedes Atom. Im Gegensatz,
die ``kleinsten Quadrate '' oben angegeben gibt die Quadratwurzel der Arithmetik an
Durchschnitt der Abweichungen. Der harmonische Durchschnitt ist immer kleiner als die Arithmetik
Durchschnitt, und der harmonische Durchschnitt gewichtet große Werte proportional zu ihren
Größe. Dies ist statistisch sinnvoll, denn bei der Kombination von Werten sollte man
gewichte sie mit dem Kehrwert ihrer Varianz (was die ML
Überlagerungsmethode funktioniert).

Marginal Log Wahrscheinlichkeit:
Die endgültige marginale logarithmische Wahrscheinlichkeit der Superposition unter Annahme der Matrix
Gaußsche Verteilung der Strukturen und das hierarchische inverse Gamma
Verteilung der Eigenwerte der Kovarianzmatrix. Der Randlog
Likelihood ist die Wahrscheinlichkeit, bei der die Kovarianzmatrix herausintegriert ist.

AIC: Das Akaike-Informationskriterium für die endgültige Überlagerung. Das ist ein wichtiger
Statistik in der Wahrscheinlichkeitsanalyse und Modellauswahltheorie. Es ermöglicht ein Ziel
Vergleich mehrerer theoretischer Modelle mit unterschiedlich vielen Parametern. In
In diesem Fall gilt: je höher die Zahl, desto besser. Es gibt einen Kompromiss zwischen Fit to the
Daten und die Anzahl der Parameter, die angepasst werden. Erhöhung der Parameteranzahl
in einem Modell passt sich immer besser an die Daten an, erhöht aber auch die
Unsicherheit der Schätzwerte. Das AIC-Kriterium findet die beste Kombination
durch (1) Maximieren der Anpassung an die Daten, während (2) Minimieren der Unsicherheit aufgrund von
die Anzahl der Parameter. Im Superpositionsfall kann man am wenigsten vergleichen
quadriert die Superposition zur Maximum-Likelihood-Superposition. Die Methode (oder
Modell) mit dem höheren AIC wird bevorzugt. Ein Unterschied im AIC von 2 oder mehr ist
als starke statistische Evidenz für das bessere Modell angesehen.

BIC: Das Bayessche Informationskriterium. Ähnlich dem AIC, aber mit einem Bayesian
Betonung.

Omnibus chi2:
Die insgesamt reduzierte chi2-Statistik für die gesamte Passform, einschließlich der Rotationen,
Translationen, Kovarianzen und die inversen Gammaparameter. Das ist wahrscheinlich der
wichtigste Statistik für die Überlagerung. In einigen Fällen ist das inverse Gamma
Die Passform mag schlecht sein, aber die Gesamtpassform ist immer noch sehr gut. Auch hier sollte es idealerweise
nahe 1.0 liegen, was eine perfekte Anpassung anzeigen würde. Wenn Sie jedoch denken, dass es so ist
zu groß, stellen Sie sicher, dass Sie es mit chi2 für die kleinste Quadrate vergleichen; es ist
wohl doch nicht so schlimm. Ein großes chi2 weist oft auf eine Verletzung des hin
Annahmen des Modells. Die häufigste Verletzung ist die Überlagerung von zwei oder
unabhängigere Domänen, die sich relativ zueinander drehen können. Wenn das der ist
Fall, dann wird es wahrscheinlich nicht nur eine Gaußsche Verteilung geben, sondern mehrere
gemischte Gaussianer, eine für jede Domäne. Dann wäre es besser, jeden zu überlagern
Domäne unabhängig.

Hierarchisch jung (Alpha, Gamma) chi2:
Das reduzierte chi2 für die inverse Gamma-Anpassung der Kovarianzmatrix-Eigenwerte. Wie
vorher sollte er idealerweise nahe 1.0 liegen. Die beiden Werte in Klammern sind
die ML-Schätzungen der Skalen- bzw. Formparameter für das Inverse
Gammaverteilung.

Dreh-, übersetzend, covar chi2:
Die reduzierte chi2-Statistik für die Anpassung der Strukturen an das Modell. Mit einem guten
fit es sollte nahe bei 1.0 liegen, was eine perfekte Anpassung der Daten an die
statistisches Modell. Im Fall der kleinsten Quadrate ist das angenommene Modell eine Matrix
Gaußsche Verteilung der Strukturen mit gleichen Varianzen und ohne Korrelationen.
Für die ML-Anpassungen ist das angenommene Modell ungleiche Varianzen und keine Korrelationen, da
berechnet mit -v Option [Standard]. Diese Statistik ist für die Überlagerung
nur und beinhaltet nicht die Anpassung der Kovarianzmatrix-Eigenwerte an an
inverse Gammaverteilung. Siehe ``Omnibus chi2'' unten.

Hierarchisch Minimum var:
Die hierarchische Anpassung der inversen Gammaverteilung beschränkt die Varianzen von
die Atome, indem man große kleiner und kleine größer macht. Diese Statistik
gibt die minimal mögliche Varianz an, wenn die abgeleiteten inversen Gammaparameter gegeben sind.

Schiefe, Schiefe Z-Wert, Kurtosis & Kurtosis Z-Wert:
Die Schiefe und Kurtosis der Residuen. Beide sollten 0.0 sein, wenn die Residuen passen
eine Gaußsche Verteilung perfekt. Es folgt der P-Wert für die
Statistiken. Dies ist ein sehr strenger Test; Residuen können sehr nicht-Gaußisch sein und
die geschätzten Rotationen, Translationen und Kovarianzmatrix können jedoch immer noch sein
ziemlich genau.

Datum Punkte, Frei Parameter, D/P:
Die Gesamtzahl der Datenpunkte aller beobachteten Strukturen, die Zahl der
Parameter, die in das Modell eingepasst werden, und das Verhältnis von Daten zu Parametern.

Median Struktur:
Die Struktur, die der durchschnittlichen Struktur insgesamt am ähnlichsten ist. Das kann sein
gilt als die "typischste" Struktur des Ensembles.

Total Runden:
Die Anzahl der Iterationen, die der Algorithmus benötigt hat, um zu konvergieren.

fraktioniert Präzision:
Die tatsächliche Genauigkeit, zu der der Algorithmus konvergiert hat.

AUSGABE DATEIEN


Theseus schreibt die folgenden Dateien aus:

thisus_sup.pdb
Die letzte Überlagerung, gedreht zu den Hauptachsen der Mittelstruktur.

thisus_ave.pdb
Die Schätzung der mittleren Struktur.

dieseus_residuals.txt
Die normalisierten Residuen der Überlagerung. Diese können auf Abweichungen analysiert werden
von der Normalität (ob sie einer Standard-Gauß-Verteilung entsprechen). ZB das chi2,
Schiefe- und Kurtosis-Statistiken basieren auf diesen Werten.

dieseus_transf.txt
Die endgültigen Transformations-Rotationsmatrizen und Translationsvektoren.

Theseus_variances.txt
Der Vektor der geschätzten Varianzen für jedes Atom.

Wenn Hauptkomponenten berechnet werden (mit dem -P Option), sind die folgenden Dateien
auch produziert:

dieseus_pcvecs.txt
Die Hauptkomponentenvektoren.

dieseus_pcstats.txt
Einfache Statistiken für jede Hauptkomponente (Ladungen, Varianz erklärt,
etc.).

Theseus_pcN_ave.pdb
Die durchschnittliche Struktur mit der N-ten Hauptkomponente geschrieben in der Temperatur
Faktor Feld.

thisus_pcN.pdb
Die endgültige Überlagerung mit der N-ten Hauptkomponente geschrieben in der Temperatur
Faktor Feld. Diese Datei wird weggelassen, wenn Moleküle mit unterschiedlichen
Restsequenzen (Modus 2).

dieseus_cor.mat, Theseus_cov.mat
Die atomare Korrelationsmatrix und die Kovarianzmatrizen, basierend auf dem endgültigen
Überlagerung. Das Format ist geeignet für die Eingabe in GNU's Oktave. Dies sind die
Matrizen, die in der Hauptkomponentenanalyse verwendet werden.

Verwenden Sie Theseus online mit den onworks.net-Diensten



Neueste Linux- und Windows-Online-Programme