Questo è il comando alimask che può essere eseguito nel provider di hosting gratuito OnWorks utilizzando una delle nostre molteplici postazioni di lavoro online gratuite come Ubuntu Online, Fedora Online, emulatore online Windows o emulatore online MAC OS
PROGRAMMA:
NOME
alimask - Aggiungi una linea di maschera a un allineamento di sequenze multiple
SINOSSI
alimaschera [opzioni]
DESCRIZIONE
alimaschera viene utilizzato per applicare una linea di maschera a un allineamento di sequenze multiple, in base a quanto fornito
allineamento o coordinate del modello. Quando hmmbuild riceve un allineamento mascherato come input, esso
produce un modello di profilo in cui vengono impostate le probabilità di emissione nelle posizioni mascherate
per abbinare la frequenza di fondo, piuttosto che essere impostato in base alle frequenze osservate in
l'allineamento. I tassi di inserimento e cancellazione specifici della posizione non vengono alterati, anche in
regioni mascherate. alimaschera rileva automaticamente il formato di input e produce allineamenti mascherati in
Formato Stoccolma. può contenere solo un allineamento di sequenza.
Una motivazione comune per mascherare una regione in un allineamento è che la regione contiene un
semplice ripetizione in tandem che si osserva causare un tasso inaccettabilmente alto di falsi positivi
colpi.
Nel caso più semplice, un intervallo di maschera è dato in coordinate relative all'input
allineamento, utilizzando --alirange . Tuttavia è più spesso il caso che la regione da essere
mascherato è stato identificato in coordinate relative al modello di profilo (ad esempio in base a
riconoscere un semplice schema ripetuto negli allineamenti di falsi successi o nel logo HMM). Non tutti
le colonne di allineamento vengono convertite per corrispondere alle posizioni di stato nel profilo (vedere --symfrac
bandiera per hmmbuild per la discussione), quindi le posizioni del modello non corrispondono necessariamente a
posizioni delle colonne di allineamento. Per rimuovere l'onere di convertire le posizioni del modello in
posizioni di allineamento, alimaschera accetta anche l'input dell'intervallo della maschera nelle coordinate del modello,
utilizzando --intervallomodello . Quando si utilizza questo flag, alimaschera determina quale allineamento
le posizioni sarebbero identificate da hmmbuild come stati di corrispondenza, un processo che richiede che
contro tutti i hmmbuild le bandiere che incidono su tale decisione siano fornite a alimascheraÈ per questo motivo
che molti dei hmmbuild le bandiere sono usate anche da alimaschera.
VERSIONI
-h Aiuto; stampa un breve promemoria dell'utilizzo della riga di comando e di tutte le opzioni disponibili.
-o Indirizza l'output di riepilogo al file , piuttosto che a stdout.
VERSIONI PER SPECIFICANDO MASCHERA Consumo
Un singolo intervallo di maschera è dato come una coppia separata da trattini, come --intervallomodello 10-20 e
più intervalli possono essere inviati come un elenco separato da virgole, --intervallomodello 10-20,30-42.
--intervallomodello
Fornire gli intervalli specificati nelle coordinate del modello.
--alirange
Fornire l'intervallo/gli intervalli specificati nelle coordinate di allineamento.
--apendmask
Aggiungi alla maschera esistente trovata con l'allineamento. L'impostazione predefinita è sovrascrivere qualsiasi
maschera esistente.
--model2ali
Invece di produrre effettivamente l'allineamento mascherato, stampare semplicemente l'intervallo/gli intervalli del modello
corrispondente all'intervallo/i di allineamento di input.
--ali2model
Invece di produrre effettivamente l'allineamento mascherato, stampare semplicemente gli intervalli di allineamento
corrispondente all'intervallo/i del modello di input.
VERSIONI PER SPECIFICANDO IL ALFABETO
Il tipo di alfabeto (amino, DNA o RNA) viene rilevato automaticamente per impostazione predefinita, osservando il
composizione del msafile. Il rilevamento automatico è normalmente abbastanza affidabile, ma occasionalmente
il tipo di alfabeto può essere ambiguo e il rilevamento automatico può fallire (ad esempio, su un giocattolo minuscolo
allineamenti di pochi residui). Per evitare questo, o per aumentare la robustezza nell'automazione
pipeline di analisi, è possibile specificare il tipo alfabetico di msafile con queste opzioni.
--ammino
Specificare che tutte le sequenze in msafile sono proteine.
--dna Specificare che tutte le sequenze in msafile sono DNA.
--rna Specificare che tutte le sequenze in msafile sono RNA.
VERSIONI CONTROLLARE PROFILO COSTRUZIONE
Queste opzioni controllano come vengono definite le colonne di consenso in un allineamento.
--veloce Definisci le colonne di consenso come quelle che hanno una frazione >= simfrac di residui come
contrari alle lacune. (Vedi sotto per il --symfrac opzione.) Questa è l'impostazione predefinita.
--mano Definire le colonne di consenso nel profilo successivo utilizzando l'annotazione di riferimento al multiplo
allineamento. Questo ti permette di definire tutte le colonne di consenso che ti piacciono.
--symfrac
Definire la soglia della frazione residua necessaria per definire una colonna di consenso quando
usando il --veloce opzione. Il valore predefinito è 0.5. La frazione del simbolo in ogni colonna è
calcolato dopo aver preso in considerazione la ponderazione relativa della sequenza e ignorando il gap
caratteri corrispondenti alle estremità dei frammenti di sequenza (al contrario di internal
inserimenti/cancellazioni). Impostandolo su 0.0 significa che ogni colonna di allineamento lo farà
essere assegnato come consenso, che può essere utile in alcuni casi. Impostandolo a 1.0
significa che solo le colonne che includono 0 spazi (inserzioni/cancellazioni interne) saranno
assegnato come consenso.
--fragthresh
Vogliamo contare i gap terminali come delezioni solo se la sequenza allineata è nota
essere a figura intera, non se è un frammento (per esempio, perché solo una parte di esso
è stato sequenziato). HMMER utilizza una semplice regola per dedurre i frammenti: se la lunghezza della sequenza
L è minore o uguale a una frazione moltiplicato per la lunghezza dell'allineamento in colonne,
quindi la sequenza viene gestita come un frammento. Il valore predefinito è 0.5. Impostazione
--fragthresh0 non definirà alcuna sequenza (non vuota) come frammento; potresti volerlo fare
fai questo se sai di avere un allineamento attentamente curato di brani a lunghezza intera
sequenze. Impostazione --fragthresh1 definirà tutte le sequenze come frammenti; potresti
vuoi farlo se sai che il tuo allineamento è interamente composto da frammenti, come
come letture brevi tradotte nei dati shotgun metagenomici.
VERSIONI CONTROLLARE PARENTE PESI
HMMER utilizza un algoritmo di ponderazione della sequenza ad hoc per ridurre il peso di sequenze strettamente correlate
e upweight quelli lontanamente imparentati. Questo ha l'effetto di rendere i modelli meno distorti da
rappresentazione filogenetica irregolare. Ad esempio, due sequenze identiche sarebbero tipicamente
ciascuno riceve la metà del peso che avrebbe una sequenza. Queste opzioni controllano quale
viene utilizzato l'algoritmo.
--wpb Utilizzare lo schema di ponderazione della sequenza basato sulla posizione di Henikoff [Henikoff e Henikoff,
J. Mol. Biol. 243:574, 1994]. Questa è l'impostazione predefinita.
--wgsc Utilizzare l'algoritmo di ponderazione Gerstein/Sonnhammer/Chothia [Gerstein et al, J. Mol.
Biol. 235:1067, 1994].
--wblosum
Utilizzare lo stesso schema di clustering utilizzato per pesare i dati nel calcolo di BLOSUM
matrici di sostituzione [Henikoff e Henikoff, Proc. Natl. Acad. Sci 89:10915, 1992].
Le sequenze sono cluster a collegamento singolo a una soglia di identità (predefinito 0.62; vedere
--largo) e all'interno di ogni cluster di c sequenze, ogni sequenza ottiene un peso relativo
1/c.
--wnone
Nessun peso relativo. A tutte le sequenze viene assegnato un peso uniforme.
--largo
Imposta la soglia di identità utilizzata dal clustering a collegamento singolo quando si utilizza --wblosum.
Non valido con qualsiasi altro schema di ponderazione. Il valore predefinito è 0.62.
ALTRO VERSIONI
--informati
Dichiarare che l'input msafile è in formato . Attualmente il multiplo accettato
i formati di file della sequenza di allineamento includono Stockholm, Aligned FASTA, Clustal, NCBI
PSI-BLAST, PHYLIP, Selex e UCSC SAM A2M. L'impostazione predefinita è il rilevamento automatico del formato di
il file.
--seme
Semina il generatore di numeri casuali con , un intero >= 0. Se è diverso da zero, qualsiasi
le simulazioni stocastiche saranno riproducibili; lo stesso comando darà lo stesso
risultati. Se è 0, il generatore di numeri casuali viene seminato arbitrariamente e
le simulazioni stocastiche varieranno da un'esecuzione all'altra dello stesso comando. Il predefinito
il seme è 42.
Utilizzare alimask online utilizzando i servizi onworks.net