IngleseFranceseSpagnolo

Ad


Favicon di OnWorks

cmalign: online nel cloud

Esegui cmalign nel provider di hosting gratuito OnWorks su Ubuntu Online, Fedora Online, emulatore online Windows o emulatore online MAC OS

Questo è il comando cmalign che può essere eseguito nel provider di hosting gratuito OnWorks utilizzando una delle nostre molteplici workstation online gratuite come Ubuntu Online, Fedora Online, emulatore online Windows o emulatore online MAC OS

PROGRAMMA:

NOME


cmalign: allinea le sequenze a un modello di covarianza

SINOSSI


cmallinea
[opzioni]

DESCRIZIONE


cmallinea allinea le sequenze di RNA al modello di covarianza (CM) in .
Il nuovo allineamento viene emesso su stdout nel formato Stoccolma, ma può essere reindirizzato a un file
con la -o opzione.

O or (ma non entrambi) può essere '-' (trattino), che significa leggere questo
input da stdin piuttosto che un file.

Il file di sequenza deve essere in formato FASTA o Genbank.

cmallinea utilizza una tecnica di fascettatura HMM per accelerare l'allineamento per impostazione predefinita, come descritto
sotto per il --hbandato opzione. La banda HMM può essere disattivata con --non fasciato opzione.

Per impostazione predefinita, cmallinea calcola l'allineamento con la massima precisione prevista
coerente con i vincoli (bande) derivati ​​da un HMM, utilizzando una versione a fasce del
Algoritmo di precisione ottima di Durbin/Holmes. Questo comportamento può essere modificato con --cyk or
--campione opzioni.

cmallinea presta particolare attenzione ad allineare correttamente le sequenze troncate, dove alcuni nucleotidi
dall'inizio (5') e/o dalla fine (3') dell'effettiva sequenza biologica completa
non presente nella sequenza di input (vedi DL Kolbe e SR Eddy, Bioinformatics, 25:1236-1243,
2009). Questo comportamento è attivo per impostazione predefinita, ma può essere disattivato con --notrunc. In precedenti
versioni di cmallinea , il --sub era necessaria un'opzione per gestire adeguatamente il troncamento
sequenze. Il --sub l'opzione è ancora disponibile in questa versione, ma il nuovo metodo predefinito
per la gestione delle sequenze troncate dovrebbe essere altrettanto buono o superiore al metodo sub
tutti i casi.

I --mapali l'opzione consente l'inclusione dell'allineamento di addestramento fisso utilizzato per creare il file
CM dal file all'interno dell'allineamento di uscita di cmalign.

È possibile unire due o più allineamenti creati dallo stesso CM utilizzando il Cavalletto
miniapp esl-alimerge (incluso nella sottodirectory cavalletto/miniapps/ di Infernal). Precedente
versioni di cmallinea includeva opzioni per unire gli allineamenti ma erano deprecate
sviluppo di esl-alimerge, che è significativamente più efficiente in termini di memoria.

Per impostazione predefinita, cmallinea produrrà l'allineamento su stdout. L'allineamento può essere reindirizzato
in un file di output con la -o opzione. Insieme a -oh, informazioni su ciascun allineato
la sequenza, inclusi il punteggio e i limiti di allineamento del modello, verrà stampata su stdout (more
su questo qui sotto).

Per impostazione predefinita, l'allineamento dell'output sarà nel formato Stoccolma. Questo può essere cambiato in Pfam,
formato FASTA (AFA), A2M, Clustal o Phylip allineato utilizzando il formato --formato esterno opzione,
where è il nome del formato desiderato. Come caso speciale, se l'allineamento dell'output
è grande (più di 10,000 sequenze o più di 10,000,000 di nucleotidi totali) rispetto al
il formato di output sarà il formato Pfam, con ciascuna sequenza visualizzata su una singola riga, for
ragioni di efficienza della memoria. Per allineamenti più grandi di questo, utilizzare --ho lasciato forzerà
formato Stoccolma interlacciato, ma l'utente deve essere consapevole che ciò potrebbe richiedere molto
memoria. --ho lasciato funzionerà solo per allineamenti fino a 100,000 sequenze o 100,000,000
nucleotidi totali.

Se il formato di allineamento dell'output è Stockholm o Pfam, l'allineamento dell'output sarà
annotati con probabilità a posteriori che stimano il livello di confidenza di ciascun allineato
nucleotide. Questa annotazione appare come righe che iniziano con "#=GR PP", uno per
sequenza, ciascuna immediatamente sotto la corrispondente sequenza allineata " ".
I caratteri nelle righe PP hanno 12 possibili valori: "0-9", "*" o ".". Se ".", la posizione
corrisponde ad un intervallo nella sequenza. Un valore "0" indica una probabilità a posteriori di
compreso tra 0.0 e 0.05, "1" indica tra 0.05 e 0.15, "2" indica tra 0.15 e
0.25 e così via fino a “9” che indica tra 0.85 e 0.95. Un valore "*" indica a
probabilità a posteriori compresa tra 0.95 e 1.0. Corrispondono probabilità a posteriori più elevate
ad una maggiore fiducia che il nucleotide allineato appartenga al punto in cui appare nel
allineamento. Con --non fasciato, il calcolo delle probabilità a posteriori considera tutto
possibili allineamenti della sequenza target al CM. Senza --non fasciato (cioè in default
modalità), il calcolo considera solo i possibili allineamenti all’interno delle bande HMM. Ulteriore,
le probabilità a posteriori sono condizionate dalla modalità di troncamento dell'allineamento. Per
Ad esempio, se l'allineamento della sequenza viene troncato di 5', un valore PP di "9" indica tra
0.85 e 0.95 di tutti gli allineamenti troncati in 5' includono il nucleotide dato al punto indicato
posizione. L'annotazione posteriore può essere disattivata con il --nessun problema opzione. Se --piccolo
è abilitato, anche l'annotazione posteriore deve essere disattivata utilizzando --nessun problema.

L'output tabellare che viene stampato su stdout se il file -o l'opzione utilizzata include una riga
per sequenza e dodici campi per riga: "idx": l'indice della sequenza in input
file, "seq name": il nome della sequenza; "lunghezza": la lunghezza della sequenza; "cm da" e
"cm to": le posizioni iniziale e finale dell'allineamento del modello; "trunc": "no" se la sequenza
non è troncato, "5'" se l'inizio della sequenza è troncato 5', "3'" se la fine della sequenza
la sequenza viene troncata e "5'&3'" se sono troncati sia l'inizio che la fine;
"bit sc": il punteggio in bit dell'allineamento, "avg pp" la probabilità a posteriori media di
tutti i nucleotidi allineati nell'allineamento; "calcolo banda", "allineamento" e "totale": l'ora
in secondi necessari per calcolare le bande HMM, calcolare l'allineamento e completare
elaborazione della sequenza, rispettivamente; "mem (Mb)": la dimensione in Mb di tutte le dinamiche
matrici di programmazione necessarie per allineare la sequenza. Questi dati tabulari possono essere salvati
archiviare con la --file opzione.

VERSIONI


-h Aiuto; stampare un breve promemoria dell'utilizzo della riga di comando e delle opzioni disponibili.

-o Salva l'allineamento in formato Stoccolma in un file . L'impostazione predefinita è scriverlo
allo standard output.

-g Configurare il modello per l'allineamento globale del modello di query alla destinazione
sequenze. Per impostazione predefinita, il modello è configurato per l'allineamento locale. Locale
gli allineamenti possono contenere inserimenti ed eliminazioni di grandi dimensioni chiamati "estremità locali" nel file
struttura da penalizzare diversamente rispetto agli indel normali. Questi sono annotati come
Colonne "~" nella riga RF dell'allineamento dell'uscita. IL -g l'opzione può essere utilizzata per
non consentire questi fini locali. IL -g l'opzione è richiesta se il file --sub l'opzione è anche
Usato.

VERSIONI PER CONTROLLARE LA ALLINEAMENTO ALGORITMO


--optacc
Allineare le sequenze utilizzando l'algoritmo di precisione ottimale di Durbin/Holmes. Questo è il
predefinito. L'allineamento di precisione ottimale sarà vincolato dalle bande HMM per
accelerazione a meno che il --non fasciato l'opzione è abilitata. La precisione ottimale
L'algoritmo determina l'allineamento che massimizza le probabilità a posteriori di
i nucleotidi allineati al suo interno. Le probabilità a posteriori vengono determinate utilizzando
(possibilmente HMM banded) varianti degli algoritmi Inside e Outside.

--cyk Non utilizzare l'allineamento con precisione ottimale Durbin/Holmes per allineare le sequenze,
utilizzare invece l'algoritmo CYK che determina il punteggio ottimale (massimo
probabilità) allineamento della sequenza al modello, date le bande HMM (a meno che
--non fasciato è anche abilitato).

--campione
Campionare un allineamento dalla distribuzione posteriore degli allineamenti. Il posteriore
la distribuzione è determinata utilizzando un HMM a bande (a meno che --non fasciato) variante del
Algoritmo interno.

--seme
Semina il generatore di numeri casuali con , un intero >= 0. Questa opzione può solo
essere utilizzato in combinazione con --campione. If è diverso da zero, campionamento stocastico di
gli allineamenti saranno riproducibili; lo stesso comando darà gli stessi risultati. Se
è 0, il generatore di numeri casuali viene seminato arbitrariamente e stocastico
i campionamenti possono variare da un'esecuzione all'altra dello stesso comando. Il seme predefinito è 181.

--notrunc
Disattiva gli algoritmi di allineamento troncato. Tutte le sequenze nel file di input saranno
si presume sia a figura intera, a meno che --sub viene utilizzato anche, nel qual caso il programma può
gestiscono ancora sequenze troncate ma utilizzeranno una strategia alternativa per loro
allineamento.

--sub Attivare la procedura di costruzione e allineamento del sottomodello. Per ogni sequenza, un
HMM viene utilizzato per la prima volta per prevedere le colonne di consenso di inizio e fine del modello e una nuova
sub CM è costruito in modo da modellare solo le colonne di consenso dall'inizio alla fine. IL
la sequenza viene quindi allineata a questo sub CM. Il suballineamento è un metodo più vecchio del
quello predefinito per allineare le sequenze eventualmente troncate. Per impostazione predefinita, cmallinea
utilizza speciali algoritmi DP per gestire sequenze troncate che dovrebbero essere di più
accurato rispetto al metodo sub nella maggior parte dei casi. --sub è ancora incluso come opzione
principalmente per testare questa gestione predefinita della sequenza troncata. Questo "sub CM"
la procedura non è la stessa dei "sub CM" descritti da Weinberg e Ruzzo.

VERSIONI PER CONTROLLARE VELOCITÀ E MEMORIA REQUISITI


--hbandato
Questa opzione è attivata per impostazione predefinita. Accelera l’allineamento eliminando le regioni
della matrice CM DP ritenuti trascurabili da un HMM. Innanzitutto, ogni sequenza lo è
ottenuto con un piano CM 9 HMM derivato dal CM utilizzando l'HMM Avanti e Indietro
algoritmi per calcolare le probabilità a posteriori che ciascun nucleotide si allinea a ciascuno
stato dell'HMM. Queste probabilità a posteriori vengono utilizzate per derivare i vincoli
(bande) sulla matrice CM DP. Infine, la sequenza target è allineata al CM
utilizzando la matrice DP a bande, durante la quale le celle al di fuori delle bande vengono ignorate.
Di solito la maggior parte dell'intera matrice DP si trova al di fuori delle bande (spesso più del 95%),
rendendo questa tecnica più veloce perché sono necessari meno calcoli DP e altro ancora
efficiente in termini di memoria perché è necessario allocare solo le celle all'interno delle bande.

È importante sottolineare che il banding HMM sacrifica la garanzia di determinare in modo ottimale
allineamento accurato o ottimale, che verrà mancato se si trova al di fuori delle bande.
Il parametro tau è la quantità di massa di probabilità considerata trascurabile durante
Calcolo della banda HMM; valori più bassi di tau producono accelerazioni maggiori ma anche maggiori
possibilità di perdere l'allineamento ottimale. Il tau predefinito è 1E-7, determinato
empiricamente come un buon compromesso tra sensibilità e velocità, sebbene questo valore possa farlo
essere cambiato con il --tau opzione. Il livello di accelerazione aumenta con
sia la lunghezza che il livello di conservazione della sequenza primaria della famiglia. Per esempio,
con il tau predefinito di 1E-7, i modelli di tRNA (bassa conservazione della sequenza primaria con
lunghezza di circa 75 nucleotidi) mostrano un'accelerazione di circa 10 volte e l'rRNA batterico SSU
modelli (alta conservazione della sequenza primaria con lunghezza di circa 1500 nucleotidi)
mostra circa 700X. La banda HMM può essere disattivata con --non fasciato opzione.

--tau
Impostare la probabilità di perdita della coda utilizzata durante il calcolo della banda HMM su . Questa è la
quantità di massa di probabilità all'interno delle probabilità a posteriori HMM cioè
considerato trascurabile. Il valore predefinito è 1E-7. In generale, valori più alti lo faranno
comportano una maggiore accelerazione, ma aumentano la possibilità di perdere l'ottimale
allineamento dovuto alle bande HMM.

--mxdimensione
Impostare la dimensione massima consentita della matrice DP totale su megabyte. Per impostazione predefinita questo
la dimensione è 1028 Mb. Questo dovrebbe essere abbastanza grande per la stragrande maggioranza degli allineamenti,
tuttavia, se non lo è cmallinea tenterà di stringere iterativamente le bande HMM
utilizza per vincolare l'allineamento aumentando il parametro tau e ricalcolando il
bande finché la dimensione totale della matrice necessaria non scende al di sotto megabyte o il massimo
valore tau consentito (0.05 per impostazione predefinita, ma modificabile con --maxtau) è raggiunto. In
ad ogni iterazione del rafforzamento della fascia, tau viene moltiplicato per 2.0. La fascia si stringe
la strategia può essere disattivata con il --fixedtau opzione. Se il tau massimo è
raggiunto e la dimensione della matrice richiesta è ancora superiore o se la banda HMM non lo è
in uso e la dimensione della matrice richiesta supera poi cmallinea uscirà
prematuramente e segnala un messaggio di errore che indica che la matrice ha superato il suo massimo
dimensione consentita. In questo caso, il --mxdimensione può essere utilizzato per aumentare il limite di dimensione o
con cui è possibile aumentare il tau massimo --maxtau. Il limite verrà comunemente superato
quando l' --non fasciato l'opzione viene utilizzata senza il --piccolo opzione, ma può comunque verificarsi
quando --non fasciato non viene utilizzato. Tieni presente che se cmallinea viene eseguito in multiplo
thread su una macchina multicore, ogni thread può avere una matrice allocata di up
a misura Mb in qualsiasi momento.

--fixedtau
Disattiva la strategia di restringimento della banda HMM descritta nella spiegazione del
--mxdimensione opzione sopra.

--maxtau
Impostare il valore massimo consentito per tau durante il serraggio della fascia, descritto nel
spiegazione di --mxdimensione sopra, a . Per impostazione predefinita questo valore è 0.05.

--non fasciato
Disattiva la banda HMM. È garantito che l'allineamento restituito sia globale
quello con precisione ottimale (per impostazione predefinita) o quello con punteggio ottimale a livello globale (se --cyk
è abilitato). IL --piccolo l'opzione è consigliata in combinazione con questa opzione,
perché l'allineamento standard senza banding HMM richiede molta memoria (vedi
--piccolo ).

--piccolo
Utilizzare l'algoritmo di allineamento divide et impera CYK descritto in SR Eddy, BMC
Bioinformatica 3:18, 2002. Il --non fasciato l'opzione deve essere utilizzata in combinazione con
queste opzioni. Inoltre, è consigliato ogni volta --non fasciato è usato quello --piccolo is
utilizzato anche perché l'allineamento CM standard senza banding HMM richiede molto
memoria, soprattutto per i grandi RNA. --piccolo consente l'allineamento CM all'interno della pratica
limiti di memoria, riducendo la memoria richiesta per l'allineamento LSU rRNA, il più grande
RNA conosciuti, da 150 Gb a meno di 300 Mb. Questa opzione può essere utilizzata solo in
combinazione con --non fasciato, --notrunc, ed --cyk.

OPTIONAL USCITA FILE


--file
Scarica il punteggio di allineamento per sequenza e le informazioni sui tempi nel file . Il formato di
questo file è descritto sopra (sono gli stessi dati nello stesso formato del tabular
output stdout quando il file -o viene utilizzata l'opzione).

--tfile
Scarica i traceback delle sequenze tabulari per ogni singola sequenza in un file .
Utile principalmente per il debug.

--ifile
Scarica le informazioni di inserimento per sequenza nel file . Il formato del file è
descritto dalle righe di commento con prefisso "#" incluse nella parte superiore del file . I
le informazioni inserite sono valide anche quando il --matchonly viene utilizzata l'opzione.

--elfile
Dump dello stato EL per sequenza (estremità locale) inserisce le informazioni nel file . Il formato
del file è descritto da righe di commento con prefisso "#" incluse nella parte superiore del file
filetto . Le informazioni di inserimento EL sono valide anche quando il file --matchonly opzione è
Usato.

ALTRO VERSIONI


--mapali
Legge l'allineamento dal file utilizzato per costruire il modello lo allinea come se fosse un unico
opporsi al CM; ad esempio l'allineamento in è tenuto fisso. Questo ti permette di farlo
allineare le sequenze a un modello con cmallinea e visualizzarli nel contesto di un esistente
allineamento multiplo attendibile. deve essere il file di allineamento con cui è stato creato il CM
da. Il programma verifica che il checksum del file corrisponda a quello del file
utilizzato per costruire il CM. È stata chiamata un'opzione simile a questa --conali in
versioni precedenti di cmalign.

--mapstr
Deve essere utilizzato in combinazione con --mapali . Propagare le informazioni strutturali
per tutti gli pseudonodi esistenti in all'allineamento dell'uscita. Un'opzione simile a
questo si chiamava --constr nelle versioni precedenti di cmalign.

--informati
Affermare che l'input è in formato . Non eseguire il formato Babelfish
autodefinizione. Ciò aumenta in qualche modo l'affidabilità del programma, perché il
Babelfish può commettere errori; particolarmente indicato per incustoditi, ad alta
esecuzioni di Infernal. I formati accettabili sono: FASTA, GENBANK e DDBJ.
non fa distinzione tra maiuscole e minuscole.

--formato esterno
Specificare il formato di allineamento dell'output come . I formati accettabili sono: Pfam, AFA,
A2M, Clustal e Phylip. L'AFA è allineato fasta. Solo l'allineamento Pfam e Stoccolma
i formati includeranno l'annotazione della struttura di consenso e la probabilità a posteriori
annotazione dei residui allineati.

--dnaout
Visualizza gli allineamenti come allineamenti di sequenze di DNA, invece che di RNA.

--nessun problema
Non annotare l'allineamento dell'output con le probabilità a posteriori.

--matchonly
Includere solo le colonne di corrispondenza nell'allineamento di output, non includere eventuali inserimenti
rispetto al modello consensuale. Questa opzione può essere utile quando si creano immagini molto grandi
allineamenti che richiedono molta memoria e spazio su disco, la maggior parte del quale è necessaria
solo per gestire le colonne di inserimento che sono spazi vuoti nella maggior parte delle sequenze.

--ho lasciato
Emette l'allineamento in formato Stoccolma interfogliato di larghezza fissa che può essere
più conveniente per l'esame. Questo era il formato di allineamento di output predefinito di
versioni precedenti di cmalign. Si noti che cmallinea richiede più memoria quando questo
viene utilizzata l'opzione. Per questa ragione, --ho lasciato funzionerà solo per allineamenti fino a
100,000 sequenze o un totale di 100,000,000 di nucleotidi allineati.

--regredire
Salvare nel file una copia aggiuntiva dell'allineamento di output senza informazioni sull'autore
.

--verboso
Genera informazioni aggiuntive nell'output dei punteggi tabulari (output su stdout if -o
è usato, o a if --file si usa). Questi sono principalmente utili per i test e
debug.

--processore
Specifica quello essere utilizzati CPU worker paralleli. Se è impostato come "0", quindi il
il programma verrà eseguito in modalità seriale, senza utilizzare thread. Puoi anche controllare
questo numero impostando una variabile di ambiente, INFERNALE_NCPU. Questa opzione sarà
essere disponibile solo se la macchina su cui è stato costruito Infernal è in grado di utilizzarlo
Filettatura POSIX (per ulteriori informazioni, consultare la sezione Installazione della guida per l'utente
informazione).

--mpi Eseguire come programma parallelo MPI. Questa opzione sarà disponibile solo se Infernal lo ha
stato configurato e creato con il flag "--enable-mpi" (vedere il file Installation
sezione della guida per l'utente per ulteriori informazioni).

Utilizza cmalign online utilizzando i servizi onworks.net


Server e workstation gratuiti

Scarica app per Windows e Linux

  • 1
    Alt-Fa
    Alt-Fa
    Alt-F fornisce una fonte gratuita e open
    firmware alternativo per il DLINK
    DNS-320/320L/321/323/325/327L and
    DNR-322L. Alt-F ha Samba e NFS;
    supporta ext2/3/4...
    Scarica Alt-F
  • 2
    USM
    USM
    Usm è un pacchetto slackware unificato
    manager che gestisce automatico
    risoluzione delle dipendenze. Unifica
    vari repository di pacchetti tra cui
    slackware, slacky, p...
    Scarica usm
  • 3
    Chart.js
    Chart.js
    Chart.js è una libreria Javascript che
    consente a designer e sviluppatori di disegnare
    tutti i tipi di grafici utilizzando l'HTML5
    elemento tela. Chart js offre un ottimo
    Vettore ...
    Scarica Chart.js
  • 4
    iReport-Designer per JasperReports
    iReport-Designer per JasperReports
    NOTA: Supporto per iReport/Jaspersoft Studio
    Annuncio: a partire dalla versione 5.5.0,
    Jaspersoft Studio sarà l'ufficialità
    client di progettazione per JasperReports. segnalo
    volere...
    Scarica iReport Designer per JasperReports
  • 5
    PostInstallerF
    PostInstallerF
    PostInstallerF installerà tutti i file
    software che Fedora Linux e altri
    non include per impostazione predefinita, dopo
    eseguendo Fedora per la prima volta. Suo
    facile per...
    Scarica PostInstallerF
  • 6
    straccio
    straccio
    Il progetto strace è stato spostato in
    https://strace.io. strace is a
    diagnostico, di debug e didattico
    tracciatore spazio utente per Linux. È solito
    per monitorare un...
    Scarica strace
  • Di Più "

Comandi Linux

Ad