IngleseFranceseSpagnolo

Ad


Favicon di OnWorks

hmmsim - Online nel cloud

Esegui hmmsim nel provider di hosting gratuito OnWorks su Ubuntu Online, Fedora Online, emulatore online Windows o emulatore online MAC OS

Questo è il comando hmmsim che può essere eseguito nel provider di hosting gratuito OnWorks utilizzando una delle nostre molteplici workstation online gratuite come Ubuntu Online, Fedora Online, emulatore online Windows o emulatore online MAC OS

PROGRAMMA:

NOME


hmmsim - raccogli le distribuzioni dei punteggi su sequenze casuali

SINOSSI


mmm [opzioni]

DESCRIZIONE


I mmm il programma genera sequenze casuali, le assegna con il/i modello/i in ,
ed emette vari tipi di istogrammi, grafici e distribuzioni adattate per il risultato
punteggi.

mmm non è una parte principale del pacchetto HMMER. La maggior parte degli utenti non avrebbe motivo di farlo
usalo. Viene utilizzato per sviluppare e testare i metodi statistici utilizzati per determinare i valori P
e valori E in HMMER3. Ad esempio, è stato utilizzato per generare la maggior parte dei risultati in un 2008
documento sulle statistiche di allineamento locale di H3 (PLoS Comp Bio 4:e1000069, 2008;
http://www.ploscompbiol.org/doi/pcbi.1000069).

Poiché è un banco di prova per la ricerca, non dovresti aspettarti che sia robusto come gli altri
programmi nel pacchetto. Ad esempio, le opzioni possono interagire in modi strani; non abbiamo
testato né provato ad anticipare tutte le diverse combinazioni possibili.

Il compito principale è quello di adattare una distribuzione di Gumbel di massima verosimiglianza ai punteggi di Viterbi o
coda esponenziale di massima verosimiglianza a punteggi Forward ad alto punteggio e per verificare che questi
le distribuzioni fittate obbediscono alla congettura che lambda ~ log_2 sia per il Viterbi Gumbel
e la coda esponenziale Forward.

L'output è una tabella di numeri, una riga per ogni modello. Quattro diversi adattamenti parametrici
ai dati del punteggio vengono testati: (1) la massima verosimiglianza si adatta sia alla posizione (mu/tau) che
parametri di pendenza (lambda); (2) assumendo lambda=log_2, massima verosimiglianza adatta al
solo parametro posizione; (3) lo stesso ma assumendo un lambda corretto dal bordo, usando la corrente
procedure in H3 [Eddy, 2008]; e (4) utilizzando entrambi i parametri determinati dalla corrente di H3
procedure. La statistica standard semplice, rapida e sporca per la bontà di adattamento è "E@10",
il valore E calcolato del decimo colpo in classifica, che prevediamo sia di circa 10.

In dettaglio, le colonne dell'output sono:

Nome Nome del modello.

coda Frazione dei punteggi più alti utilizzata per adattare la distribuzione. Per Viterbi, MSV, e
Punteggi ibridi, questo valore predefinito è 1.0 (una distribuzione Gumbel è montata su tutti i
dati). Per i punteggi Forward, questo valore predefinito è 0.02 (una coda esponenziale è montata su
il punteggio più alto del 2%).

mu/tau Parametro di posizione per l'adattamento di massima verosimiglianza ai dati.

lambda Parametro di pendenza per l'adattamento di massima verosimiglianza ai dati.

E@10 Il valore E calcolato per il decimo punteggio elevato ('E@10') utilizzando il ML mu/tau
e lambda. Per definizione, questo dovrebbe essere circa 10, se la stima del valore E fosse
accurate.

mufisso Parametro di posizione, per un adattamento di massima verosimiglianza con una pendenza (fissa) nota
parametro lambda di log_2 (0.693).

E@10fix
Il valore E calcolato per il decimo punteggio classificato utilizzando mufix e l'atteso
lambda = log_2 = 0.693.

mufix2 Parametro di posizione, per un adattamento di massima verosimiglianza con un effetto bordo corretto
lambda.

E@10fix2
Il valore E calcolato per il decimo punteggio classificato utilizzando mufix10 e l'effetto edge-
lambda corretta.

pmu Parametro di posizione determinato dalle procedure di stima di H3.

plambda
Parametro di pendenza determinato dalle procedure di stima di H3.

PE@10 Il valore E calcolato per il decimo punteggio classificato utilizzando pmu, plambda.

Alla fine di questa tabella, viene stampata un'altra riga, che inizia con # e riassume il
tempo CPU complessivo utilizzato dalle simulazioni.

Alcuni dei file di output opzionali sono in formato xmgrace xy. xmgrace è potente e gratuito
software di rappresentazione grafica disponibile.

VARIE VERSIONI


-h Aiuto; stampa un breve promemoria dell'utilizzo della riga di comando e di tutte le opzioni disponibili.

-a Raccogliere le statistiche previste sulla lunghezza dell'allineamento di Viterbi da ciascuna sequenza simulata.
Funziona solo con i punteggi di Viterbi (l'impostazione predefinita; vedi --vita). Due aggiuntivi
i campi sono stampati nella tabella di output per ogni modello: la lunghezza media di Viterbi
allineamenti e deviazione standard.

-v (Verboso). Stampa anche i punteggi, uno per riga.

-L Imposta la lunghezza delle sequenze campionate casualmente (non omologhe) su .
il valore predefinito è 100.

-N Imposta il numero di sequenze campionate casualmente su . Il valore predefinito è 1000.

--mpi Esegui in modalità parallela MPI, sotto mpirun. È parallelizzato a livello di invio
un profilo alla volta a un processo di lavoro MPI, quindi la parallelizzazione aiuta solo se
hai più di un profilo nel , e vuoi avere almeno come
molti profili come processi di lavoro MPI. (Disponibile solo se il supporto MPI opzionale era
abilitato in fase di compilazione.)

VERSIONI CONTROLLARE USCITA


-o Salva la tabella di output principale in un file piuttosto che inviarlo a stdout.

--un file
Quando si raccolgono le statistiche di allineamento di Viterbi (il -a opzione), per ogni campionato
sequenza, emette due campi per riga in un file : la lunghezza dell'ottimale
allineamento e il bit score di Viterbi. Richiede che il -a viene utilizzata anche l'opzione.

--efile
Emetti un grafico della classifica rispetto al valore E in formato XMGRACE xy su file . L'asse x è il
rango di questa sequenza, dal punteggio più alto al più basso; l'asse y è il valore E
calcolato per questa sequenza. I valori E sono calcolati utilizzando le procedure predefinite di H3
(cioè i parametri pmu, plambda nella tabella di output). Ti aspetti una partita difficile
tra rango ed E-value se gli E-value sono stimati accuratamente.

--file
Emetti un file "potenza filtro" su : per ogni modello, una riga con tre campi:
nome del modello, numero di sequenze che superano la soglia del valore P e frazione di
sequenze che superano la soglia del P-value. Vedere --ptresh per impostare il valore P
soglia, che per impostazione predefinita è 0.02 (la soglia del filtro MSV predefinita in H3). il P-
i valori sono determinati dalle procedure predefinite di H3 (i parametri pmu, plambda in
la tabella delle uscite). Se tutto va bene, ti aspetti di vedere una potenza del filtro pari al
impostazione del valore P previsto della soglia.

--pfile
Stampa i grafici di sopravvivenza cumulativa (P(S>x)) su file in formato XMGRACE xy. Là
sono tre grafici: (1) la distribuzione del punteggio osservata; (2) la massima verosimiglianza
distribuzione attrezzata; (3) un adattamento di massima verosimiglianza al parametro di posizione
(mu/tau) mentre
assumendo lambda=log_2.

--xfile
Emetti i punteggi dei bit come un array binario di float a doppia precisione (8 byte per
punteggio) per archiviare . Programmi come Easel's esl-histplot può leggere tali file binari.
Ciò è utile quando si generano campioni di dimensioni estremamente grandi.

VERSIONI CONTROLLARE MODELLO CONFIGURAZIONE (MODA)


H3 usa solo l'allineamento locale multihit ( --fs modalità), ed è qui che crediamo che
adattamenti statistici. Punteggi di allineamento locale Unihit (Smith/Waterman; --sw mode) obbedire anche al nostro
congetture statistiche. Le statistiche di allineamento glocal (multihit o unihit) sono
ancora non adeguatamente compreso né adeguatamente montato.

--fs Raccogli punteggi di allineamento locale multihit. Questa è l'impostazione predefinita. allineamento come
'modalità di ricerca frammento'.

--sw Raccogli punteggi di allineamento locale unihit. Lo stato H3 J è disabilitato. allineamento come
'Modalità di ricerca Smith/Waterman'.

--ls Raccogli punteggi di allineamento glocal multihit. Nell'allineamento glocal (globale/locale), il
l'intero modello deve allinearsi, ad una sottosequenza del bersaglio. L'ingresso/uscita locale H3
le probabilità di transizione sono disabilitate. 'ls' deriva dallo storico di HMMER2
terminologia per l'allineamento locale multihit come 'modalità di ricerca locale'.

--S Raccogli punteggi di allineamento glocal unihit. Sia lo stato H3 J che l'ingresso/uscita locale
le probabilità di transizione sono disabilitate. 's' deriva dallo storico di HMMER2
terminologia per l'allineamento glocal unihit.

VERSIONI CONTROLLARE PUNTEGGIO ALGORITMO


--vita Raccogli i punteggi di allineamento della massima probabilità di Viterbi. Questa è l'impostazione predefinita.

--avanti Raccogliere i punteggi di probabilità delle probabilità di probabilità in avanti, sommati sull'insieme di allineamento.

--ibrido Raccogli i punteggi "ibridi", come descritto negli articoli di Yu e Hwa (ad esempio,
Bioinformatica 18:864, 2002). Questi implicano il calcolo di una matrice Forward e l'assunzione di
il valore massimo della cella. Il numero stesso è statisticamente alquanto immotivato,
ma ci si aspetta che la distribuzione sia una distribuzione di valori estremi ben educata
(Gumbella).

--msv Raccogli i punteggi MSV (multiple ungapped segment Viterbi), usando il main . di H3
euristica dell'accelerazione.

--veloce Per una qualsiasi delle opzioni di cui sopra, usa l'implementazione di produzione ottimizzata di H3 (usando
vettorizzazione SIMD). L'impostazione predefinita è utilizzare le implementazioni sacrificando un piccolo
quantità di precisione numerica. Questo può introdurre rumore confondente in
simulazioni statistiche e adattamenti, quindi quando si diventa super-preoccupati per l'esatto
dettagli, è meglio essere in grado di scomporre quella fonte di rumore.

VERSIONI CONTROLLARE MONTATO CODA MASSE PER INOLTRARE


In alcuni esperimenti, è stato utile adattare i punteggi Forward a una gamma di code diverse
masse, piuttosto che una sola. Queste opzioni forniscono un meccanismo per adattare un
gamma distanziata di diverse masse di coda. Per ogni diversa massa della coda, viene generata una linea
nell'uscita.

--tmin
Imposta il limite inferiore sulla distribuzione della massa della coda. (Il valore predefinito è 0.02 per il
massa coda singola predefinita.)

--tmax
Imposta il limite superiore della distribuzione di massa della coda. (Il valore predefinito è 0.02 per il
massa coda singola predefinita.)

--tpunti
Imposta il numero di masse della coda da campionare, a partire da --tmin e termina alle --tmax.
(Il valore predefinito è 1, per la massa della coda singola predefinita di 0.02).

--tlineare
Campiona una gamma di masse di coda con spaziatura lineare uniforme. L'impostazione predefinita è usare
spaziatura logaritmica uniforme.

VERSIONI CONTROLLARE H3 PARAMETRO STIMA METODI


H3 utilizza tre brevi simulazioni di sequenze casuali per stimare i parametri di posizione per
le distribuzioni dei punteggi previste per i punteggi MSV, Viterbi e Forward. Queste
le opzioni consentono di modificare queste simulazioni.

--Eml
Imposta la lunghezza della sequenza nella simulazione che stima il parametro di posizione mu per
Valori E di MSV. Il valore predefinito è 200.

--EmN
Imposta il numero di sequenze in simulazione che stima il parametro di posizione mu
per MSV E-valori. Il valore predefinito è 200.

--EvL
Imposta la lunghezza della sequenza nella simulazione che stima il parametro di posizione mu per
Viterbi E-values. Il valore predefinito è 200.

--EvN
Imposta il numero di sequenze in simulazione che stima il parametro di posizione mu
per Viterbi E-values. Il valore predefinito è 200.

--EfL
Imposta la lunghezza della sequenza nella simulazione che stima il parametro di posizione tau
per Forward E-values. Il valore predefinito è 100.

--EfN
Imposta il numero di sequenze nella simulazione che stima il parametro di posizione
tau per Forward E-values. Il valore predefinito è 200.

--Eft
Imposta la frazione di massa della coda per adattarla alla simulazione che stima la posizione
parametro tau per Forward evalues. Il valore predefinito è 0.04.

DEBUG VERSIONI


--stalla
Per il debug della versione master/worker MPI: pausa dopo l'avvio, per abilitare il
sviluppatore per collegare i debugger ai processi master e worker in esecuzione. Spedire
Segnale SIGCONT per rilasciare la pausa. (Sotto gdb: (Gdb) segnale PROSSIMO CONTO) (Soltanto
disponibile se il supporto MPI opzionale è stato abilitato in fase di compilazione.)

--seme
Imposta il seme del numero casuale su . Il valore predefinito è 0, che rende il numero casuale
generatore usa un seme arbitrario, in modo che diverse corse di mmm sarà quasi
certamente generare un campione statistico diverso. Per il debug è utile
forzare risultati riproducibili, fissando un seme di numero casuale.

SPERIMENTALE VERSIONI


Queste opzioni sono state utilizzate in una piccola varietà di diversi esperimenti esplorativi.

--bgflat
Imposta la distribuzione del residuo di sfondo su una distribuzione uniforme, sia per
scopi del modello nullo utilizzato nel calcolo dei punteggi e per la generazione del
sequenze casuali. L'impostazione predefinita prevede l'utilizzo di una frequenza di sfondo standard di amminoacidi
distribuzione.

--bgcomp
Impostare la distribuzione dei residui di fondo sulla composizione media del profilo.
Questo è stato utilizzato per esplorare alcuni degli effetti della composizione distorta.

--x-no-lengthmodel
Disattiva il modello di lunghezza della sequenza target H3. Imposta le autotransizioni per N,C,J
e il modello nullo a 350/351 invece; questo emula HMMER2. Non è una buona idea in
generale. Questo è stato utilizzato per dimostrare una delle principali differenze tra H2 e H3.

--nu
Imposta il parametro nu per l'algoritmo MSV: il numero previsto di local ungapped
allineamenti per sequenza target. Il valore predefinito è 2.0, corrispondente a E->J
probabilità di transizione di 0.5. Questo è stato usato per verificare se variando nu ha
effetto significativo sul risultato (non sembra, entro limiti ragionevoli). Solo questa opzione
funziona se --msv è selezionato (riguarda solo MSV) e non funzionerà con --veloce
(perché le implementazioni ottimizzate sono cablate per assumere nu=2.0).

--ptresh
Impostare la soglia del valore P del filtro da utilizzare nella generazione di file di potenza del filtro con
--file. Il valore predefinito è 0.02 (che sarebbe appropriato per testare i punteggi MSV,
poiché questa è la soglia del filtro MSV predefinita nella pipeline di accelerazione di H3.)
Altre scelte appropriate (corrispondenti ai valori predefiniti nella pipeline di accelerazione) sarebbero
0.001 per Viterbi, e 1e-5 per Attaccante.

Usa hmmsim online utilizzando i servizi onworks.net


Server e workstation gratuiti

Scarica app per Windows e Linux

Comandi Linux

Ad