IngleseFranceseSpagnolo

Ad


Favicon di OnWorks

jackhmmer - Online nel cloud

Esegui jackhmmer nel provider di hosting gratuito OnWorks su Ubuntu Online, Fedora Online, emulatore online Windows o emulatore online MAC OS

Questo è il comando jackhmmer che può essere eseguito nel provider di hosting gratuito OnWorks utilizzando una delle nostre molteplici workstation online gratuite come Ubuntu Online, Fedora Online, emulatore online Windows o emulatore online MAC OS

PROGRAMMA:

NOME


jackhmmer: cerca in modo iterativo una/e sequenza/e in un database di proteine

SINOSSI


jackhmmer [opzioni]

DESCRIZIONE


jackhmmer cerca in modo iterativo ogni sequenza di query in contro il bersaglio
sequenza(i) in . La prima iterazione è identica a a phmmer ricerca. Per il
successiva iterazione, un allineamento multiplo della query insieme a tutte le sequenze di destinazione
soddisfacente inclusione soglie è assemblato, un profilo è costruito da questo allineamento
(identico all'uso hmmbuild sull'allineamento), e la ricerca del profilo del è fatta
(identico a an hmmcerca con il profilo).

La domanda può essere '-' (un trattino), nel qual caso le sequenze di query sono
leggere da a pipe invece che da un file. Il non può essere letto da a
flusso, perché jackhmmer deve eseguire più passaggi sul database.

Il formato di output è progettato per essere leggibile dall'uomo, ma è spesso così voluminoso che
leggerlo non è pratico e analizzarlo è una seccatura. Il --tblout ed --domtblout Opzioni
salva l'output in semplici formati tabulari che sono concisi e più facili da analizzare. Il -o opzione
consente di reindirizzare l'output principale, incluso l'eliminazione in /dev/null.

VERSIONI


-h Aiuto; stampa un breve promemoria dell'utilizzo della riga di comando e di tutte le opzioni disponibili.

-N Imposta il numero massimo di iterazioni su . Il valore predefinito è 5. Se N=1, il risultato
è equivalente a un phmmer ricerca.

VERSIONI CONTROLLARE USCITA


Per impostazione predefinita, l'output per ogni iterazione appare su stdout in un modo leggibile dall'uomo,
formato un po' analizzabile. Queste opzioni consentono di reindirizzare quell'output o salvare
tipi aggiuntivi di output su file, inclusi file di checkpoint per ogni iterazione.

-o Indirizza l'output leggibile a un file .

-A Dopo l'iterazione finale, salva un allineamento multiplo annotato di tutti i risultati
soddisfare le soglie di inclusione (includendo anche la query originale) per in
Formato Stoccolma.

--tblout
Dopo l'iterazione finale, salva un riepilogo tabellare dei risultati della sequenza più alta in in un
formato facilmente analizzabile, colonnare, delimitato da spazi.

--domtblout
Dopo l'iterazione finale, salva un riepilogo tabellare degli hit del dominio principale in in un
formato facilmente analizzabile, colonnare, delimitato da spazi.

--chkhmm
All'inizio di ogni iterazione, controlla la query HMM, salvandola in un file denominato
- .Hmm where è il numero di iterazione (da 1..N).

--chkali
Alla fine di ogni iterazione, verifica un allineamento di tutti i domini che soddisfi
soglie di inclusione (es. quale sarà la query HMM per la prossima iterazione),
salvandolo in un file chiamato <punto di controllo filetto prefisso>- .sto in formato Stoccolma,
where è il numero di iterazione (da 1..N).

--acc Usa le accessioni invece dei nomi nell'output principale, ove disponibile per i profili
e/o sequenze.

--noali
Ometti la sezione di allineamento dall'output principale. Questo può ridurre notevolmente l'output
volume.

--notextw
Unlimitare la lunghezza di ogni riga nell'output principale. L'impostazione predefinita è un limite di 120
caratteri per riga, che aiuta a visualizzare l'output in modo pulito sui terminali e
negli editor, ma può troncare le righe di descrizione del profilo di destinazione.

--testow
Imposta il limite di lunghezza della linea dell'output principale su caratteri per riga. L'impostazione predefinita è
120

VERSIONI CONTROLLARE SINGLE SEQUENZA PUNTEGGIO (PRIMO ITERAZIONE)


Per impostazione predefinita, la prima iterazione utilizza un modello di ricerca costruito da una singola query
sequenza. Questo modello è costruito utilizzando una matrice di sostituzione standard 20x20 per i residui
probabilità e due parametri aggiuntivi per il gap open e gap indipendente dalla posizione
estendere le probabilità. Queste opzioni consentono i parametri di punteggio di sequenza singola predefiniti
essere cambiato.

--Popen
Imposta la probabilità di apertura del gap per un modello di query a sequenza singola su . Il predefinito
è 0.02. deve essere >= 0 e < 0.5.

--pexend
Impostare la probabilità di estensione del gap per un modello di query a sequenza singola su .
il valore predefinito è 0.4. deve essere >= 0 e < 1.0.

--mx
Ottieni le probabilità di allineamento dei residui dalla matrice di sostituzione incorporata denominata
. Diverse matrici standard sono integrate e non devono essere lette da
File. Il nome della matrice può essere PAM30, PAM70, PAM120, PAM240, BLOSUM45,
BLOSUM50, BLOSUM62, BLOSUM80 o BLOSUM90. Solo uno dei --mx ed --mxfile
possono essere utilizzate opzioni.

--mxfile
Ottieni le probabilità di allineamento dei residui dalla matrice di sostituzione nel file
. La matrice di punteggio predefinita è BLOSUM62 (questa matrice è interna a HMMER
e non deve essere disponibile come file). Il formato di una matrice di sostituzione
è il formato standard accettato da BLAST, FASTA e altre sequenze
software di analisi.

VERSIONI CONTROLLARE REPORTING SOGLIE


Le soglie di reporting controllano quali hit vengono segnalati nei file di output (l'output principale,
--tbloute --domtblout). In ogni iterazione, vengono classificati gli hit di sequenza e gli hit di dominio
per significatività statistica (E-value) e l'output è generato in due sezioni chiamate per-
destinazione e output per dominio. Nell'output per target, per impostazione predefinita, tutte le sequenze vengono colpite con an
E-value <= 10 sono riportati. Nell'output per dominio, per ogni target che ha superato per-
soglie di segnalazione target, tutti i domini che soddisfano le soglie di segnalazione per dominio sono
segnalato. Per impostazione predefinita, questi sono domini con valori E condizionali di <= 10. Quanto segue
le opzioni consentono di modificare le soglie di segnalazione del valore E predefinite o di utilizzare il punteggio in bit
soglie invece.

-E Sequenze di report con valori E <= nell'output per sequenza. Il valore predefinito è 10.0.

-T Utilizzare una soglia del punteggio in bit per l'output per sequenza invece di una soglia del valore E
(qualsiasi impostazione di -E viene ignorato). Sequenze di report con un bit score >= . Da
impostazione predefinita questa opzione non è impostata.

-Z Dichiarare la dimensione totale del database come sequenze, ai fini di E-value
calcolo. Normalmente gli E-value sono calcolati in relazione alla dimensione del database
hai effettivamente cercato (ad esempio il numero di sequenze in destinazione_seqdb). In qualche
casi (ad esempio, se hai diviso il database della sequenza di destinazione in più
file per la parallelizzazione della tua ricerca), potresti conoscere meglio la dimensione effettiva
del tuo spazio di ricerca è.

--cupola
Segnala domini con valori E condizionali <= nell'output per dominio, inoltre
al dominio con il punteggio più alto per colpo di sequenza significativo. Il valore predefinito è 10.0.

--domT
Utilizza una soglia di punteggio in bit per l'output per dominio invece di una soglia di valore E
(qualsiasi impostazione di --domT viene ignorato). Segnala i domini con un po' di punteggio >= in
output per dominio, oltre al dominio con il punteggio più alto per sequenza significativa
colpire. Per impostazione predefinita, questa opzione non è impostata.

--domZ
Dichiarare il numero di sequenze significative come sequenze, ai fini di
calcolo del valore E condizionale per la significatività del dominio aggiuntivo. Normalmente
i valori E condizionali sono calcolati rispetto al numero di sequenze che passano
soglia di segnalazione per sequenza.

VERSIONI CONTROLLARE INCLUSIONE SOGLIE


Le soglie di inclusione controllano quali hit sono inclusi nell'allineamento multiplo e nel profilo
costruito per la successiva iterazione di ricerca. Per impostazione predefinita, una sequenza deve avere un per-
sequenza E-valore di <= 0.001 (vedi -E opzione) da includere, ed eventuali domini aggiuntivi in
esso oltre al punteggio più alto deve avere un E-value condizionale di <= 0.001 (vedi --cupola
opzione). La differenza tra le soglie di segnalazione e le soglie di inclusione è che
le soglie di inclusione controllano quali hit vengono effettivamente utilizzati nell'iterazione successiva (o nel
allineamento multiplo dell'output finale se -A viene utilizzata l'opzione), mentre le soglie di segnalazione
controlla ciò che vedi nell'output. Le soglie di segnalazione sono generalmente più larghe, quindi puoi
vedere i colpi limite nella parte superiore del rumore che potrebbero essere di interesse.

--incE
Includi sequenze con valori E <= nell'iterazione successiva o nell'allineamento finale
prodotto da -A. Il valore predefinito è 0.001.

--incT
Utilizzare una soglia di punteggio bit per l'inclusione per sequenza invece di un valore E
soglia (qualsiasi impostazione di --incE viene ignorato). Includi sequenze con un po' di punteggio di
>= . Per impostazione predefinita, questa opzione non è impostata.

--incdomE
Includi domini con valori E condizionali <= in iterazione successiva o finale
allineamento in uscita da -A, oltre al dominio con il punteggio più alto per significativo
colpo di sequenza. Il valore predefinito è 0.001.

--incdomT
Utilizza una soglia di punteggio bit per l'inclusione per dominio invece di una soglia di valore E
(qualsiasi impostazione di --incT viene ignorato). Includi domini con un po' di punteggio >= . Da
impostazione predefinita questa opzione non è impostata.

VERSIONI CONTROLLARE ACCELERAZIONE EURISTICO


Le ricerche HMMER3 vengono accelerate in una pipeline di filtri in tre fasi: il filtro MSV, il
Filtro Viterbi e il filtro Forward. Il primo filtro è il più veloce e il più
approssimativo; l'ultimo è l'algoritmo di punteggio Forward completo, il più lento ma il più accurato.
C'è anche un filtro di polarizzazione tra MSV e Viterbi. Obiettivi che superano tutti i passaggi
nella pipeline di accelerazione vengono quindi sottoposti a post-elaborazione - identificazione del dominio
e punteggio utilizzando l'algoritmo Forward/Backward.

In sostanza gli unici parametri liberi che controllano i filtri euristici di HMMER sono i P-
soglie di valore che controllano la frazione attesa di sequenze non omologhe che passano
i filtri. Impostando le soglie predefinite più alte passerà una proporzione maggiore di
sequenza non omologa, aumentando la sensibilità a scapito della velocità; al contrario,
l'impostazione di soglie di valore P più basse passerà una proporzione minore, diminuendo la sensibilità
e velocità crescente. L'impostazione della soglia del valore P di un filtro su 1.0 significa che passerà
tutte le sequenze e disabilita efficacemente il filtro.

La modifica delle soglie di filtro rimuove o include solo gli obiettivi dalla considerazione; mutevole
le soglie di filtro non alterano i punteggi in bit, i valori E o gli allineamenti, che sono tutti
determinato esclusivamente in post-elaborazione.

--max Massima sensibilità. Disattiva tutti i filtri, incluso il filtro bias, e funziona al massimo
Postprocessing avanti/indietro su ogni target. Questo aumenta la sensibilità
leggermente, ad un grande costo in velocità.

--F1
Soglia del primo filtro; impostare la soglia del valore P per il passaggio del filtro MSV. Il
il valore predefinito è 0.02, il che significa che circa il 2% del punteggio più alto non è omologo
ci si aspetta che i target passino il filtro.

--F2
Soglia del secondo filtro; impostare la soglia del P-value per il passo del filtro di Viterbi.
L'impostazione predefinita è 0.001.

--F3
Soglia terzo filtro; impostare la soglia del valore P per il passaggio del filtro Forward. Il
l'impostazione predefinita è 1e-5.

--nobia
Disattiva il filtro bias. Questo aumenta in qualche modo la sensibilità, ma può arrivare a
costi elevati in termini di velocità, soprattutto se la query ha una composizione del residuo distorta (come
una regione di sequenza ripetitiva, o se si tratta di una proteina di membrana con ampie regioni di
idrofobicità). Senza il filtro bias, troppe sequenze potrebbero passare il filtro
con query distorte, che portano a prestazioni più lente del previsto in quanto
gli algoritmi avanti/indietro computazionalmente intensivi sopportano un anormalmente pesante
caricare.

VERSIONI CONTROLLARE PROFILO COSTRUZIONE (DOPO ITERAZIONI)


Queste opzioni controllano come le colonne di consenso sono definite in più allineamenti quando
profili edilizi. Per impostazione predefinita, jackhmmer include sempre la sequenza di query originale in
il risultato dell'allineamento ad ogni iterazione e le posizioni di consenso sono definite da quella query
sequenza: cioè un default jackhmmer il profilo è sempre della stessa lunghezza dell'originale
query, ad ogni iterazione.

--veloce Definisci le colonne di consenso come quelle che hanno una frazione >= simfrac di residui come
contrari alle lacune. (Vedi sotto per il --symfrac opzione.) Anche se questa è l'impostazione predefinita
opzione di costruzione del profilo altrove (in hmmbuild, in particolare), può avere
effetti indesiderati in jackhmmer, perché un profilo potrebbe entrare in modo iterativo
spazio di sequenza lontano dalla query originale, lasciando poche o nessuna colonna di consenso
corrispondente ai suoi residui.

--mano Definire le colonne di consenso nel profilo successivo utilizzando l'annotazione di riferimento al multiplo
allineamento. jackhmmer propaga l'annotazione di riferimento dal profilo precedente a
l'allineamento multiplo e quindi al profilo successivo. Questa è l'impostazione predefinita.

--symfrac
Definire la soglia della frazione residua necessaria per definire una colonna di consenso quando
usando il --veloce opzione. Il valore predefinito è 0.5. La frazione del simbolo in ogni colonna è
calcolato dopo aver preso in considerazione la ponderazione relativa della sequenza e ignorando il gap
caratteri corrispondenti alle estremità dei frammenti di sequenza (al contrario di internal
inserimenti/cancellazioni). Impostandolo su 0.0 significa che ogni colonna di allineamento lo farà
essere assegnato come consenso, che può essere utile in alcuni casi. Impostandolo a 1.0
significa che solo le colonne che includono 0 spazi (inserzioni/cancellazioni interne) saranno
assegnato come consenso.

--fragthresh
Vogliamo contare i gap terminali come delezioni solo se la sequenza allineata è nota
essere a figura intera, non se è un frammento (per esempio, perché solo una parte di esso
è stato sequenziato). HMMER usa una semplice regola per dedurre i frammenti: se la lunghezza della sequenza
L è minore o uguale a una frazione volte la lunghezza dell'allineamento in colonne,
quindi la sequenza viene gestita come un frammento. Il valore predefinito è 0.5. Collocamento
--fragthresh0 non definirà nessuna sequenza (non vuota) come un frammento; potresti volere
fallo se sai di avere un allineamento accuratamente curato di full-length
sequenze. Collocamento --fragthresh1 definirà tutte le sequenze come frammenti; tu potresti
vuoi farlo se sai che il tuo allineamento è interamente composto da frammenti, come
come brevi letture tradotte nei dati metagenomici del fucile.

VERSIONI CONTROLLARE PARENTE PESI


Ogni volta che un profilo è costruito da un allineamento multiplo, HMMER utilizza una sequenza ad hoc
algoritmo di ponderazione per ridurre il peso di sequenze strettamente correlate e aumentare il peso lontanamente correlate
quelli. Questo ha l'effetto di rendere i modelli meno influenzati da filogenetici irregolari
rappresentazione. Ad esempio, due sequenze identiche riceverebbero in genere ciascuna metà del
appesantirebbe quella sequenza (ed è per questo che jackhmmer non si preoccupa di sempre
includendo la sequenza di query originale nell'allineamento di ogni iterazione, anche se la trova
di nuovo nel database che stai cercando). Queste opzioni controllano quale algoritmo viene utilizzato.

--wpb Utilizzare lo schema di ponderazione della sequenza basato sulla posizione di Henikoff [Henikoff e Henikoff,
J. Mol. Biol. 243:574, 1994]. Questa è l'impostazione predefinita.

--wgsc Utilizzare l'algoritmo di ponderazione Gerstein/Sonnhammer/Chothia [Gerstein et al, J. Mol.
Biol. 235:1067, 1994].

--wblosum
Utilizzare lo stesso schema di clustering utilizzato per pesare i dati nel calcolo di BLOSUM
matrici di sostituzione [Henikoff e Henikoff, Proc. Natl. Acad. Sci 89:10915, 1992].
Le sequenze sono cluster a collegamento singolo a una soglia di identità (predefinito 0.62; vedere
--largo) e all'interno di ogni cluster di c sequenze, ogni sequenza ottiene un peso relativo
1/c.

--wnone
Nessun peso relativo. A tutte le sequenze viene assegnato un peso uniforme.

--largo
Imposta la soglia di identità utilizzata dal clustering a collegamento singolo quando si utilizza --wblosum.
Non valido con qualsiasi altro schema di ponderazione. Il valore predefinito è 0.62.

VERSIONI CONTROLLARE EFFICACE SEQUENZA NUMERO


Dopo aver determinato i pesi relativi, vengono normalizzati per sommare a un totale effettivo
sequenza di numeri, eff_nseq. Questo numero può essere il numero effettivo di sequenze nel
allineamento, ma è quasi sempre più piccolo di quello. La ponderazione entropica predefinita
metodo (--ent) riduce il numero di sequenza effettivo per ridurre il contenuto delle informazioni
(entropia relativa, o punteggio medio atteso su veri omologhi) per posizione di consenso. Il
l'entropia relativa dell'obiettivo è controllata da una funzione a due parametri, dove i due
i parametri sono impostabili con --ecco ed --sigma.

--ent Regola il numero di sequenza effettivo per ottenere una specifica entropia relativa per
posizione (vedi --ecco). Questa è l'impostazione predefinita.

--ecluso
Imposta il numero di sequenza effettivo sul numero di cluster a collegamento singolo in a
soglia di identità specifica (vedi --eid). Questa opzione non è consigliata; è per
esperimenti valutando quanto meglio --ent è.

--uno
Disattiva la determinazione del numero di sequenza effettivo e usa semplicemente il numero effettivo di
sequenze. Uno dei motivi per cui potresti volerlo fare è cercare di massimizzare il parente
entropia/posizione del tuo modello, che può essere utile per modelli brevi.

--eset
Imposta esplicitamente il numero di sequenza effettivo per tutti i modelli su .

--ecco
Imposta l'obiettivo di entropia/posizione relativa minima su . Richiede --ent. Predefinito
dipende dall'alfabeto della sequenza; per le sequenze proteiche, è 0.59 bit/posizione.

--sigma
Imposta l'entropia relativa minima fornita da un intero allineamento del modello, oltre
tutta la sua lunghezza. Questo ha l'effetto di fare in modo che i modelli corti abbiano un parente più alto
entropia per posizione di --ecco da solo darebbe. Il valore predefinito è 45.0 bit.

--eid
Imposta il cutoff frazionario dell'identità a coppie utilizzato dal clustering a collegamento singolo con
, il --ecluso opzione. Il valore predefinito è 0.62.

VERSIONI CONTROLLARE PRIORI


Nella costruzione del profilo, per impostazione predefinita, i conteggi ponderati vengono convertiti in media posteriore
stime dei parametri di probabilità utilizzando i priori di Dirichlet della miscela. Miscela predefinita Dirichlet
vengono costruiti i parametri precedenti per i modelli di proteine ​​e per i modelli di acido nucleico (RNA e DNA)
in. Le seguenti opzioni consentono di sovrascrivere i priori predefiniti.

--pnone Non usare precedenti. I parametri di probabilità saranno semplicemente quelli osservati
frequenze, dopo la ponderazione di sequenza relativa.

--place Utilizzare un prior Laplace +1 al posto della miscela predefinita Dirichlet prior.

VERSIONI CONTROLLARE VALORE E TARATURA


Stima dei parametri di posizione per le distribuzioni di punteggio previste per il filtro MSV
punteggi, punteggi filtro Viterbi e punteggi Forward richiedono tre brevi sequenze casuali
simulazioni.

--Eml
Imposta la lunghezza della sequenza nella simulazione che stima il parametro di posizione mu per
Valori E del filtro MSV. Il valore predefinito è 200.

--EmN
Imposta il numero di sequenze in simulazione che stima il parametro di posizione mu
per i valori E del filtro MSV. Il valore predefinito è 200.

--EvL
Imposta la lunghezza della sequenza nella simulazione che stima il parametro di posizione mu per
Filtro Viterbi E-values. Il valore predefinito è 200.

--EvN
Imposta il numero di sequenze in simulazione che stima il parametro di posizione mu
per i valori E del filtro di Viterbi. Il valore predefinito è 200.

--EfL
Imposta la lunghezza della sequenza nella simulazione che stima il parametro di posizione tau
per Forward E-values. Il valore predefinito è 100.

--EfN
Imposta il numero di sequenze nella simulazione che stima il parametro di posizione
tau per Forward E-values. Il valore predefinito è 200.

--Eft
Imposta la frazione di massa della coda per adattarla alla simulazione che stima la posizione
parametro tau per Forward evalues. Il valore predefinito è 0.04.

ALTRO VERSIONI


--nonull2
Disattiva le correzioni del punteggio null2 per la composizione distorta.

-Z Afferma che il numero totale di target nelle tue ricerche è , per gli scopi
di calcoli del valore E per sequenza, piuttosto che il numero effettivo di obiettivi
visto.

--domZ
Afferma che il numero totale di target nelle tue ricerche è , per gli scopi
di calcoli del valore E condizionale per dominio, piuttosto che il numero di obiettivi
che hanno superato le soglie di segnalazione.

--seme
Semina il generatore di numeri casuali con , un intero >= 0. Se è >0, qualsiasi
le simulazioni stocastiche saranno riproducibili; lo stesso comando darà lo stesso
risultati. Se è 0, il generatore di numeri casuali viene seminato arbitrariamente e
le simulazioni stocastiche varieranno da un'esecuzione all'altra dello stesso comando. Il predefinito
il seme è 42.

--qformato
Dichiarare che l'input query_seqfile è in formato . File di sequenza accettato
i formati includono FASTA, EMBL, GenBank, DDBJ, UniProt, Stoccolma e SELEX. Predefinito
è quello di rilevare automaticamente il formato del file.

--tformato
Dichiarare che l'input destinazione_seqdb è in formato . File di sequenza accettato
i formati includono FASTA, EMBL, GenBank, DDBJ, UniProt, Stoccolma e SELEX. Predefinito
è quello di rilevare automaticamente il formato del file.

--processore
Imposta il numero di thread di lavoro paralleli su . Per impostazione predefinita, HMMER lo imposta su
il numero di core della CPU che rileva nella tua macchina, ovvero cerca di massimizzare
l'uso dei core del processore disponibili. Collocamento superiore al numero di
i core disponibili hanno poco o nessun valore, ma potresti volerlo impostare su qualcosa
meno. Puoi anche controllare questo numero impostando una variabile di ambiente,
HMMER_NCPU.

Questa opzione è disponibile solo se HMMER è stato compilato con il supporto dei thread POSIX.
Questa è l'impostazione predefinita, ma potrebbe essere stata disattivata in fase di compilazione per il tuo sito
o macchina per qualche motivo.

--stalla
Per il debug della versione master/worker MPI: pausa dopo l'avvio, per abilitare il
sviluppatore per collegare i debugger ai processi master e worker in esecuzione. Spedire
Segnale SIGCONT per rilasciare la pausa. (Sotto gdb: (Gdb) segnale PROSSIMO CONTO) (Soltanto
disponibile se il supporto MPI opzionale è stato abilitato in fase di compilazione.)

--mpi Esegui in modalità master/lavoratore MPI, usando mpirun. (Disponibile solo se MPI . opzionale
il supporto è stato abilitato in fase di compilazione.)

Usa jackhmmer online utilizzando i servizi onworks.net


Server e workstation gratuiti

Scarica app per Windows e Linux

Comandi Linux

Ad