InglésFrancésEspañol

Ad


icono de página de OnWorks

cmalign: en línea en la nube

Ejecute cmalign en el proveedor de alojamiento gratuito de OnWorks sobre Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS

Este es el comando cmalign que se puede ejecutar en el proveedor de alojamiento gratuito de OnWorks utilizando una de nuestras múltiples estaciones de trabajo en línea gratuitas, como Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS.

PROGRAMA:

NOMBRE


cmalign: alinea secuencias con un modelo de covarianza

SINOPSIS


cmalinear
[opciones]

DESCRIPCIÓN


cmalinear alinea las secuencias de ARN en al modelo de covarianza (CM) en .
La nueva alineación se envía a stdout en formato de Estocolmo, pero se puede redirigir a un archivo
con el -o .

Ambos or (pero no ambos) puede ser '-' (guión), lo que significa leer esto
entrada de stdin en lugar de un archivo.

El archivo de secuencia debe estar en formato FASTA o Genbank.

cmalinear utiliza una técnica de bandas HMM para acelerar la alineación de forma predeterminada como se describe
a continuación para el --hbanded opción. Las bandas HMM se pueden desactivar con el - sin bandas .

De forma predeterminada, cmalinear calcula la alineación con la máxima precisión esperada que es
coherente con las restricciones (bandas) derivadas de un HMM, utilizando una versión con bandas del
Algoritmo de precisión óptima de Durbin / Holmes. Este comportamiento se puede cambiar con el --cyk or
--muestra .

cmalinear tiene especial cuidado en alinear correctamente las secuencias truncadas, donde algunos nucleótidos
desde el principio (5 ') y / o el final (3') de la secuencia biológica real de longitud completa son
no presente en la secuencia de entrada (ver DL Kolbe y SR Eddy, Bioinformatics, 25: 1236-1243,
2009). Este comportamiento está activado de forma predeterminada, pero se puede desactivar con --notrunc. En anterior
versiones de cmalinear las --sub se requería la opción para manejar apropiadamente truncados
secuencias. los --sub La opción todavía está disponible en esta versión, pero el nuevo método predeterminado
para el manejo de secuencias truncadas debe ser tan bueno o superior al submétodo en casi
todos los casos.

El --mapalí La opción permite la inclusión de la alineación de entrenamiento fija utilizada para construir el
CM del archivo dentro de la alineación de salida de cmalinear.

Es posible fusionar dos o más alineaciones creadas por el mismo CM usando el caballete
MiniApp esl-alimerge (incluido en el subdirectorio caballete / miniapps / de Infernal). Anterior
versiones de cmalinear incluía opciones para fusionar alineaciones, pero estaban obsoletas
desarrollo de esl-alimerge, que es significativamente más eficiente en memoria.

De forma predeterminada, cmalinear generará la alineación en stdout. La alineación se puede redirigir
a un archivo de salida con el -o opción. Con -Oh, información sobre cada alineado
La secuencia, incluida la puntuación y los límites de alineación del modelo, se imprimirán en la salida estándar (más
sobre esto a continuación).

La alineación de salida estará en formato de Estocolmo de forma predeterminada. Esto se puede cambiar a Pfam,
alineado FASTA (AFA), A2M, Clustal o formato Phylip utilizando el --formato opción,
donde es el nombre del formato deseado. Como caso especial, si la alineación de salida
es grande (más de 10,000 secuencias o más de 10,000,000 nucleótidos totales) que el
El formato de salida será el formato Pfam, y cada secuencia aparecerá en una sola línea, para
razones de eficiencia de la memoria. Para alineaciones mayores que esto, use --Me fui obligará
formato de Estocolmo intercalado, pero el usuario debe tener en cuenta que esto puede requerir una gran cantidad de
memoria. --Me fui solo funcionará para alineaciones de hasta 100,000 secuencias o 100,000,000
nucleótidos totales.

Si el formato de alineación de salida es Stockholm o Pfam, la alineación de salida será
anotado con probabilidades posteriores que estiman el nivel de confianza de cada alineado
nucleótido. Esta anotación aparece como líneas que comienzan con "# = GR PP ", uno por
secuencia, cada uno inmediatamente debajo de la secuencia alineada correspondiente " ".
Los caracteres de las líneas PP tienen 12 valores posibles: "0-9", "*" o ".". Si ".", La posición
corresponde a un espacio en la secuencia. Un valor de "0" indica una probabilidad posterior de
entre 0.0 y 0.05, "1" indica entre 0.05 y 0.15, "2" indica entre 0.15 y
0.25 y así sucesivamente hasta "9" que indica entre 0.85 y 0.95. Un valor de "*" indica un
probabilidad posterior de entre 0.95 y 1.0. Las probabilidades posteriores más altas corresponden
a una mayor confianza de que el nucleótido alineado pertenece donde aparece en el
alineación. Con - sin bandas, el cálculo de las probabilidades posteriores considera todos
posibles alineaciones de la secuencia objetivo al CM. Sin - sin bandas (es decir, por defecto
modo), el cálculo considera solo posibles alineaciones dentro de las bandas HMM. Más lejos,
las probabilidades posteriores están condicionadas al modo de truncamiento de la alineación. Para
Por ejemplo, si la alineación de la secuencia se trunca 5 ', un valor de PP de "9" indica entre
0.85 y 0.95 de todas las alineaciones truncadas 5 'incluyen el nucleótido dado en el
posición. La anotación posterior se puede desactivar con la --no hay problema opción. Si --pequeña
está habilitado, la anotación posterior también debe desactivarse utilizando --no hay problema.

La salida tabular que se imprime en la salida estándar si el -o se utiliza la opción incluye una línea
por secuencia y doce campos por línea: "idx": el índice de la secuencia en la entrada
archivo, "nombre de secuencia": el nombre de la secuencia; "longitud": la longitud de la secuencia; "cm de" y
"cm a": las posiciones inicial y final del modelo de la alineación; "trunc": "no" si la secuencia
no está truncado, "5 '" si el comienzo de la secuencia se truncó 5', "3 '" si el final de
la secuencia está truncada, y "5 'y 3'" si tanto el principio como el final están truncados;
"bit sc": la puntuación de bits de la alineación, "avg pp" la probabilidad posterior promedio de
todos los nucleótidos alineados en la alineación; "band calc", "alineación" y "total": el tiempo
en segundos necesarios para calcular las bandas HMM, calcular la alineación y completar
procesamiento de la secuencia, respectivamente; "mem (Mb)": el tamaño en Mb de todas las dinámicas
matrices de programación necesarias para alinear la secuencia. Estos datos tabulares se pueden guardar
archivar con el --archivo .

CAMPUS


-h Ayudar; imprima un breve recordatorio del uso de la línea de comandos y las opciones disponibles.

-o Guarde la alineación en formato de Estocolmo en un archivo . El valor predeterminado es escribirlo
a salida estándar.

-g Configurar el modelo para la alineación global del modelo de consulta al objetivo
secuencias. De forma predeterminada, el modelo está configurado para alineación local. Local
Las alineaciones pueden contener grandes inserciones y eliminaciones llamadas "extremos locales" en el
estructura que se penalizará de manera diferente a los indels normales. Estos se anotan como
Columnas "~" en la línea RF de la alineación de salida. los -g La opción se puede utilizar para
rechazar estos fines locales. los -g La opción es necesaria si la --sub la opción también es
usado.

CAMPUS PARA CONTROLADOR EL REINO UNIDO ALINEACIÓN ALGORITMO


--optacc
Alinee secuencias utilizando el algoritmo de precisión óptima de Durbin / Holmes. Este es el
defecto. La alineación de precisión óptima estará limitada por las bandas HMM para
aceleración a menos que el - sin bandas la opción está habilitada. La precisión óptima
El algoritmo determina la alineación que maximiza las probabilidades posteriores de
los nucleótidos alineados dentro de él. Las probabilidades posteriores se determinan utilizando
(posiblemente con bandas HMM) de los algoritmos Inside y Outside.

--cyk No utilice la alineación de precisión óptima de Durbin / Holmes para alinear las secuencias,
en su lugar, utilice el algoritmo CYK que determina la puntuación óptima (máximo
probabilidad) alineación de la secuencia con el modelo, dadas las bandas HMM (a menos que
- sin bandas también está habilitado).

--muestra
Muestra una alineación de la distribución posterior de alineaciones. El posterior
La distribución se determina utilizando un HMM con bandas (a menos que - sin bandas) variante de la
Dentro del algoritmo.

--semilla
Siembra el generador de números aleatorios con , un entero> = 0. Esta opción solo puede
ser utilizado en combinación con --muestra. If es diferente de cero, muestreo estocástico de
las alineaciones serán reproducibles; el mismo comando dará los mismos resultados. Si
es 0, el generador de números aleatorios se siembra arbitrariamente y el estocástico
los muestreos pueden variar de una ejecución a otra del mismo comando. La semilla predeterminada es 181.

--notrunc
Desactive los algoritmos de alineación truncados. Todas las secuencias en el archivo de entrada serán
se supone que es de longitud completa, a menos que --sub también se utiliza, en cuyo caso el programa puede
todavía maneja secuencias truncadas pero usará una estrategia alternativa para su
alineación.

--sub Active el procedimiento de construcción y alineación del submodelo. Para cada secuencia, un
HMM se utiliza primero para predecir las columnas de consenso de inicio y finalización del modelo, y una nueva
sub CM está construido que solo modela columnas de consenso de principio a fin. los
A continuación, la secuencia se alinea con este sub CM. La subalineación es un método más antiguo que el
uno predeterminado para alinear secuencias que posiblemente estén truncadas. Por defecto, cmalinear
utiliza algoritmos DP especiales para manejar secuencias truncadas que deberían ser más
exacto que el submétodo en la mayoría de los casos. --sub todavía se incluye como una opción
principalmente para probar con este manejo de secuencia truncado predeterminado. Este "sub CM"
El procedimiento no es el mismo que el de los "sub CM" descritos por Weinberg y Ruzzo.

CAMPUS PARA CONTROLADOR SPEED Y MEMORIA REQUISITOS


--hbanded
Esta opción está activada de forma predeterminada. Acelere la alineación podando regiones
de la matriz CM DP que son considerados insignificantes por un HMM. Primero, cada secuencia es
puntuado con un plan de CM 9 HMM derivado del CM utilizando el HMM hacia adelante y hacia atrás
algoritmos para calcular probabilidades posteriores de que cada nucleótido se alinee con cada
estado del HMM. Estas probabilidades posteriores se utilizan para derivar restricciones
(bandas) en la matriz CM DP. Finalmente, la secuencia objetivo se alinea con el CM
utilizando la matriz DP en bandas, durante la cual se ignoran las células fuera de las bandas.
Por lo general, la mayor parte de la matriz DP completa se encuentra fuera de las bandas (a menudo más del 95%),
haciendo esta técnica más rápida porque se requieren menos cálculos de DP y más
memoria eficiente porque solo es necesario asignar celdas dentro de las bandas.

Es importante destacar que las bandas HMM sacrifican la garantía de determinar el óptimo
alineación precisa u óptima, que se perderá si se encuentra fuera de las bandas.
El parámetro tau es la cantidad de masa de probabilidad considerada despreciable durante
Cálculo de la banda HMM; valores más bajos de tau producen mayores aceleraciones pero también una mayor
posibilidad de perder la alineación óptima. La tau predeterminada es 1E-7, determinada
empíricamente como una buena compensación entre sensibilidad y velocidad, aunque este valor puede
ser cambiado con el --tau opción. El nivel de aceleración aumenta con
tanto la longitud como el nivel de conservación de la secuencia primaria de la familia. Por ejemplo,
con la tau predeterminada de 1E-7, modelos de ARNt (conservación de secuencia primaria baja con
longitud de aproximadamente 75 nucleótidos) muestran una aceleración de aproximadamente 10X, y el ARNr bacteriano SSU
modelos (alta conservación de la secuencia primaria con una longitud de aproximadamente 1500 nucleótidos)
mostrar alrededor de 700X. Las bandas HMM se pueden desactivar con el - sin bandas .

--tau
Establezca la probabilidad de pérdida de cola utilizada durante el cálculo de la banda HMM en . Este es el
cantidad de masa de probabilidad dentro de las probabilidades posteriores del HMM que es
considerado insignificante. El valor predeterminado es 1E-7. En general, los valores más altos
dan como resultado una mayor aceleración, pero aumentan las posibilidades de perder el óptimo
alineación debido a las bandas HMM.

--mxtamaño
Establezca el tamaño de matriz DP total máximo permitido en megabytes. Por defecto esto
el tamaño es de 1028 Mb. Esto debería ser lo suficientemente grande para la gran mayoría de alineaciones,
sin embargo si no es cmalinear intentará apretar iterativamente las bandas HMM que
utiliza para restringir la alineación elevando el parámetro tau y recalculando el
bandas hasta que el tamaño total de la matriz necesaria caiga por debajo de megabytes o el máximo
valor de tau permitido (0.05 por defecto, pero modificable con --maxtau) es alcanzado. A
cada iteración de ajuste de la banda, tau se multiplica por 2.0. La banda se aprieta
la estrategia se puede desactivar con el --tau fijo opción. Si la tau máxima es
alcanzado y el tamaño de matriz requerido aún excede o si las bandas HMM no son
en uso y el tamaño de matriz requerido excede luego cmalinear saldrá
prematuramente e informar un mensaje de error de que la matriz excedió su máximo
tamaño permitido. En este caso, el --mxtamaño se puede utilizar para aumentar el límite de tamaño o
la tau máxima se puede elevar con --maxtau. El límite comúnmente se excederá
cuando - sin bandas La opción se utiliza sin la --pequeña opción, pero aún puede ocurrir
cuando - sin bandas no se utiliza. Tenga en cuenta que si cmalinear se está ejecutando en múltiples
subprocesos en una máquina multinúcleo, entonces cada subproceso puede tener una matriz asignada de hasta
medir Mb en un momento dado.

--tau fijo
Desactive la estrategia de ajuste de la banda HMM descrita en la explicación del
--mxtamaño Opción anterior.

--maxtau
Establezca el valor máximo permitido para tau durante el apriete de la banda, descrito en la
explicación de --mxtamaño arriba, a . De forma predeterminada, este valor es 0.05.

- sin bandas
Desactiva las bandas HMM. Se garantiza que la alineación devuelta será la global
óptimamente precisa (por defecto) o la puntuación óptima globalmente (si --cyk
está habilitado). los --pequeña se recomienda la opción en combinación con esta opción,
porque la alineación estándar sin bandas HMM requiere mucha memoria (consulte
--pequeña ).

--pequeña
Utilice el algoritmo de alineación de dividir y conquistar CYK descrito en SR Eddy, BMC
Bioinformatics 3:18, 2002. El - sin bandas La opción debe usarse en combinación con
estas opciones. Además, se recomienda siempre - sin bandas se usa que --pequeña is
También se utiliza porque la alineación CM estándar sin bandas HMM requiere una gran cantidad de
memoria, especialmente para ARN grandes. --pequeña permite la alineación CM dentro de la práctica
límites de memoria, reduciendo la memoria requerida para la alineación LSU rRNA, el mayor
ARN conocidos, desde 150 Gb hasta menos de 300 Mb. Esta opción solo se puede utilizar en
combinación con - sin bandas, --notrunc, y --cik.

OPCIONAL SALIDA ARCHIVOS


--archivo
Volcar la puntuación de alineación por secuencia y la información de tiempo en el archivo . El formato de
este archivo se describe arriba (son los mismos datos en el mismo formato que el tabular
salida stdout cuando el -o se utiliza la opción).

--tarchivo
Volcar trazas de secuencia tabular para cada secuencia individual a un archivo .
Principalmente útil para depurar.

--archivo
Volcar información de inserción por secuencia en el archivo . El formato del archivo es
descrito por "#" - líneas de comentario con prefijo incluidas en la parte superior del archivo . El
insertar información es válida incluso cuando el --sólo coinciden se utiliza la opción.

--elfile
Volcar por secuencia EL estado (extremo local) insertar información en el archivo . El formato
del archivo se describe con "#" - líneas de comentario con prefijo incluidas en la parte superior de la
presentar . La información de inserción EL es válida incluso cuando la --sólo coinciden opción es
usado.

OTROS CAMPUS


--mapalí
Lee la alineación del archivo utilizado para construir el modelo lo alinea como un solo
objetar al CM; por ejemplo, la alineación en se mantiene fijo. Esto te permite
alinear secuencias a un modelo con cmalinear y verlos en el contexto de un
alineación múltiple de confianza. debe ser el archivo de alineación que se construyó el CM
de. El programa verifica que la suma de comprobación del archivo coincida con la del archivo.
utilizado para construir el CM. Una opción similar a esta se llamó --withali in
versiones anteriores de cmalinear.

--mapstr
Debe usarse en combinación con --mapalí . Proponer información estructural
para cualquier pseudonudo que exista en a la alineación de salida. Una opción similar a
este se llamaba --constr en versiones anteriores de cmalinear.

--informato
Afirmar que la entrada está en formato . No ejecute el formato Babelfish
autodección. Esto aumenta un poco la confiabilidad del programa, porque el
Babelfish puede cometer errores; especialmente recomendado para personas desatendidas, de alta
ejecuciones de rendimiento de Infernal. Los formatos aceptables son: FASTA, GENBANK y DDBJ.
no distingue entre mayúsculas y minúsculas.

--formato
Especifique el formato de alineación de salida como . Los formatos aceptables son: Pfam, AFA,
A2M, Clustal y Phylip. AFA está alineado fasta. Solo alineación de Pfam y Estocolmo
Los formatos incluirán la anotación de la estructura de consenso y la probabilidad posterior
anotación de residuos alineados.

--dnaout
Genere las alineaciones como alineaciones de secuencia de ADN, en lugar de como alineaciones de ARN.

--no hay problema
No anote la alineación de salida con probabilidades posteriores.

--sólo coinciden
Solo incluya columnas de coincidencia en la alineación de salida, no incluya inserciones
en relación con el modelo de consenso. Esta opción puede resultar útil al crear
alineaciones que requieren mucha memoria y espacio en disco, la mayoría de las cuales son necesarias
solo para tratar con columnas de inserción que tienen espacios en la mayoría de las secuencias.

--Me fui
Imprima la alineación en formato Estocolmo intercalado de un ancho fijo que puede ser
más conveniente para el examen. Este era el formato de alineación de salida predeterminado de
versiones anteriores de cmalinear. Tenga en cuenta que cmalinear requiere más memoria cuando esto
se utiliza la opción. Por esta razón, --Me fui sólo funcionará para alineaciones de hasta
100,000 secuencias o un total de 100,000,000 nucleótidos alineados.

--regreso
Guarde una copia adicional de la alineación de salida sin información del autor en el archivo
.

--verboso
Genere información adicional en la salida de puntajes tabulares (salida a stdout si -o
se utiliza, o para if --archivo se utiliza). Estos son principalmente útiles para probar y
depuración.

--UPC
Especificar que Se utilizarán trabajadores de CPU paralelos. Si se establece como "0", entonces el
El programa se ejecutará en modo serie, sin utilizar subprocesos. También puedes controlar
este número estableciendo una variable de entorno, INFERNAL_NCPU. Esta opción
sólo estará disponible si la máquina en la que se construyó Infernal es capaz de usar
Subprocesos POSIX (consulte la sección Instalación de la guía del usuario para obtener más
información).

--mpi Ejecutar como un programa paralelo MPI. Esta opción solo estará disponible si Infernal tiene
ha sido configurado y construido con el indicador "--enable-mpi" (consulte la Instalación
sección de la guía del usuario para obtener más información).

Use cmalign en línea usando los servicios de onworks.net


Servidores y estaciones de trabajo gratuitos

Descargar aplicaciones de Windows y Linux

  • 1
    Alt-F
    Alt-F
    Alt-F proporciona un código abierto y gratuito
    firmware alternativo para DLINK
    DNS-320/320L/321/323/325/327L and
    DNR-322L. Alt-F tiene Samba y NFS;
    soporta ext2 / 3/4 ...
    Descargar Alt-F
  • 2
    usm
    usm
    Usm es un paquete de slackware unificado
    gerente que maneja automático
    resolución de dependencia. unifica
    varios repositorios de paquetes, incluidos
    slackware, flojo, p...
    Descargar usm
  • 3
    Chart.js
    Chart.js
    Chart.js es una biblioteca Javascript que
    permite a los diseñadores y desarrolladores dibujar
    todo tipo de gráficos usando HTML5
    elemento de lienzo Chart js ofrece una gran
    matriz ...
    Descargar Chart.js
  • 4
    iReport-Designer para JasperReports
    iReport-Designer para JasperReports
    NOTA: Compatibilidad con iReport/Jaspersoft Studio
    Anuncio: a partir de la versión 5.5.0,
    Jaspersoft Studio será el oficial
    cliente de diseño para JasperReports. yo reporto
    será...
    Descargar iReport-Designer para JasperReports
  • 5
    PostInstaladorF
    PostInstaladorF
    PostInstallerF instalará todos los
    software que Fedora Linux y otros
    no incluye por defecto, después
    ejecutando Fedora por primera vez. Su
    fácil para ...
    Descargar PostInstallerF
  • 6
    rastro
    rastro
    El proyecto strace se ha trasladado a
    https://strace.io. strace is a
    diagnóstico, depuración e instrucción
    rastreador de espacio de usuario para Linux. Esta usado
    para monitorear un...
    Descargar seguimiento
  • Más "

Comandos de Linux

Ad