InglésFrancésEspañol

Ad


icono de página de OnWorks

hmmsim: en línea en la nube

Ejecute hmmsim en el proveedor de alojamiento gratuito de OnWorks sobre Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS

Este es el comando hmmsim que se puede ejecutar en el proveedor de alojamiento gratuito de OnWorks utilizando una de nuestras múltiples estaciones de trabajo en línea gratuitas, como Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS.

PROGRAMA:

NOMBRE


hmmsim: recopila distribuciones de puntuación en secuencias aleatorias

SINOPSIS


mmmsim [opciones]

DESCRIPCIÓN


El mmmsim El programa genera secuencias aleatorias, las puntúa con el (los) modelo (s) en ,
y genera varios tipos de histogramas, gráficos y distribuciones ajustadas para el resultado
puntuaciones.

mmmsim no es una parte principal del paquete HMMER. La mayoría de los usuarios no tendrían motivos para
úselo. Se utiliza para desarrollar y probar los métodos estadísticos utilizados para determinar los valores P
y valores E en HMMER3. Por ejemplo, se utilizó para generar la mayoría de los resultados en 2008
documento sobre las estadísticas de alineación local de H3 (PLoS Comp Bio 4: e1000069, 2008;
http://www.ploscompbiol.org/doi/pcbi.1000069).

Debido a que es un banco de pruebas de investigación, no debe esperar que sea tan sólido como otros
programas en el paquete. Por ejemplo, las opciones pueden interactuar de formas extrañas; no tenemos
probado ni tratado de anticipar todas las diferentes combinaciones posibles.

La tarea principal es ajustar una distribución de Gumbel de máxima verosimilitud a las puntuaciones de Viterbi o una
cola exponencial de máxima verosimilitud a los puntajes Forward de alta puntuación, y para probar que estos
distribuciones ajustadas obedecen a la conjetura de que lambda ~ log_2 tanto para Viterbi Gumbel
y la cola exponencial hacia adelante.

El resultado es una tabla de números, una fila para cada modelo. Cuatro ajustes paramétricos diferentes
a los datos de puntuación se prueban: (1) la máxima probabilidad se ajusta tanto a la ubicación (mu / tau) como
parámetros de pendiente (lambda); (2) asumiendo lambda = log_2, ajuste de máxima verosimilitud al
solo parámetro de ubicación; (3) lo mismo pero asumiendo una lambda con corrección de borde, usando la corriente
procedimientos en H3 [Eddy, 2008]; y (4) usando ambos parámetros determinados por la corriente de H3
procedimientos. La estadística estándar simple, rápida y sucia de bondad de ajuste es 'E @ 10',
el valor E calculado del décimo mejor hit clasificado, que esperamos sea alrededor de 10.

En detalle, las columnas de la salida son:

nombre Nombre del modelo.

colapso Fracción de las puntuaciones más altas utilizadas para ajustarse a la distribución. Para Viterbi, MSV y
Puntajes híbridos, este valor predeterminado es 1.0 (una distribución de Gumbel se ajusta a todos los
datos). Para las puntuaciones de Forward, este valor predeterminado es 0.02 (se ajusta una cola exponencial a
las puntuaciones más altas del 2%).

mu / tau Parámetro de ubicación para el ajuste de máxima probabilidad a los datos.

lambda Parámetro de pendiente para el ajuste de máxima verosimilitud a los datos.

E @ 10 El valor E calculado para la décima puntuación más alta ('E @ 10') usando ML mu / tau
y lambda. Por definición, se esperaba que fuera de alrededor de 10, si la estimación del valor E fuera
preciso.

mufijo Parámetro de ubicación, para un ajuste de máxima probabilidad con una pendiente conocida (fija)
parámetro lambda de log_2 (0.693).

E @ 10fix
El valor E calculado para el décimo puntaje clasificado usando mufix y el esperado
lambda = log_2 = 0.693.

mufijo2 Parámetro de ubicación, para un ajuste de máxima probabilidad con un efecto de borde corregido
lambda.

E @ 10fix2
El valor E calculado para el décimo puntaje clasificado usando mufix10 y el efecto de borde-
lambda corregida.

pmu Parámetro de ubicación determinado por los procedimientos de estimación de H3.

plambda
Parámetro de pendiente determinado por los procedimientos de estimación de H3.

pE @ 10 El valor E calculado para la décima puntuación clasificada utilizando pmu, plambda.

Al final de esta tabla, se imprime una línea más, comenzando con # y resumiendo el
tiempo total de CPU utilizado por las simulaciones.

Algunos de los archivos de salida opcionales están en formato xmgrace xy. xmgrace es poderoso y libre
software de trazado de gráficos disponible.

OTRO CAMPUS


-h Ayudar; imprima un breve recordatorio del uso de la línea de comandos y todas las opciones disponibles.

-a Recopile estadísticas de longitud de alineación de Viterbi esperadas de cada secuencia simulada.
Esto solo funciona con las puntuaciones de Viterbi (el valor predeterminado; consulte --vit). Dos adicionales
Los campos se imprimen en la tabla de salida para cada modelo: la longitud media de Viterbi
alineaciones y la desviación estándar.

-v (Verboso). Imprima también las puntuaciones, una puntuación por línea.

-L Establezca la longitud de las secuencias muestreadas aleatoriamente (no homólogas) en .
el predeterminado es 100.

-N Establezca el número de secuencias muestreadas aleatoriamente en . El valor predeterminado es 1000.

--mpi Ejecutar en modo paralelo MPI, bajo mpirún. Se paraleliza a nivel de envío.
un perfil a la vez para un proceso de trabajo MPI, por lo que la paralelización solo ayuda si
tienes más de un perfil en el y quieres tener al menos como
muchos perfiles como procesos de trabajo MPI. (Solo disponible si el soporte MPI opcional estaba
habilitado en tiempo de compilación.)

CAMPUS CONTROLADOR SALIDA


-o Guarde la tabla de salida principal en un archivo en lugar de enviarlo a stdout.

--un archivo
Al recopilar estadísticas de alineación de Viterbi (el -a opción), para cada muestra
secuencia, generar dos campos por línea en un archivo : la longitud del óptimo
alineación y la puntuación de bits de Viterbi. Requiere que el -a También se utiliza la opción.

--archivo electrónico
Genere una gráfica de rango vs.valor E en formato XMGRACE xy al archivo . El eje x es el
rango de esta secuencia, desde el puntaje más alto al más bajo; el eje y es el valor E
calculado para esta secuencia. Los valores E se calculan utilizando los procedimientos predeterminados de H3
(es decir, los parámetros pmu, plambda en la tabla de salida). Esperas un partido duro
entre rango y valor E si los valores E se estiman con precisión.

- archivo
Salida de un archivo de "potencia de filtro" a : para cada modelo, una línea con tres campos:
nombre del modelo, número de secuencias que pasan el umbral del valor P y fracción de
secuencias que superan el umbral del valor P. Ver --pthresh para establecer el valor P
umbral, cuyo valor predeterminado es 0.02 (el umbral de filtro MSV predeterminado en H3). El P-
Los valores son determinados por los procedimientos predeterminados de H3 (los parámetros pmu, plambda en
la tabla de salida). Si todo está bien, espera ver una potencia de filtro igual a la
ajuste del valor P previsto del umbral.

--parchivo
Salida de gráficos de supervivencia acumulada (P (S> x)) al archivo en formato XMGRACE xy. Allí
son tres gráficos: (1) la distribución de puntuación observada; (2) la máxima probabilidad
distribución ajustada; (3) un ajuste de máxima probabilidad al parámetro de ubicación
(mu / tau) mientras
asumiendo lambda = log_2.

--xarchivo
Genere las puntuaciones de bits como una matriz binaria de flotadores de doble precisión (8 bytes por
puntuación) para presentar . Programas como el de Easel esl-histplot puede leer tales archivos binarios.
Esto es útil cuando se generan tamaños de muestra extremadamente grandes.

CAMPUS CONTROLADOR MODELO CONFIGURACIÓN (MODO)


H3 solo usa alineación local multihit ( --fs modo), y aquí es donde creemos que el
ajustes estadísticos. Unihit puntajes de alineación local (Smith / Waterman; --sudoeste modo) también obedecen a nuestro
conjeturas estadísticas. Las estadísticas de alineación glocal (ya sea multihit o unihit) son
aún no se comprende adecuadamente ni se ajusta adecuadamente.

--fs Recopile puntuaciones de alineación locales de múltiples éxitos. Este es el predeterminado. alineación como
'modo de búsqueda de fragmentos'.

--sudoeste Recoge puntajes de alineación locales únicos. El estado H3 J está desactivado. alineación como
'Modo de búsqueda Smith / Waterman'.

--ls Recopile puntuaciones de alineación glocal de múltiples golpes. En alineación glocal (global / local), el
todo el modelo debe alinearse con una subsecuencia del objetivo. La entrada / salida local H3
las probabilidades de transición están deshabilitadas. 'ls' proviene del histórico de HMMER2
terminología para alineación local multihit como 'modo de búsqueda local'.

--s Recoge puntuaciones de alineación glocal únicas. Tanto la entrada / salida estatal como local de H3 J
las probabilidades de transición están deshabilitadas. 's' proviene del historial de HMMER2
terminología para la alineación glocal única.

CAMPUS CONTROLADOR PUNTAJE ALGORITMO


--vit Recopile las puntuaciones de alineación de máxima verosimilitud de Viterbi. Este es el predeterminado.

--adelante Recopile los puntajes de probabilidad de probabilidades de avance del registro, sumados sobre el conjunto de alineación.

--hib Recopile puntuaciones 'híbridas', como se describe en los artículos de Yu y Hwa (por ejemplo,
Bioinformatics 18: 864, 2002). Estos implican calcular una matriz Forward y tomar
el valor máximo de celda. El número en sí está estadísticamente algo desmotivado,
pero se espera que la distribución sea una distribución de valor extremo con buen comportamiento
(Gumbel).

--msv Recopile las puntuaciones de MSV (múltiples segmentos sin huecos de Viterbi), utilizando los valores principales de H3.
heurística de aceleración.

--rápido Para cualquiera de las opciones anteriores, use la implementación de producción optimizada de H3 (usando
Vectorización SIMD). El valor predeterminado es utilizar las implementaciones sacrificando un pequeño
cantidad de precisión numérica. Esto puede introducir un ruido confuso en
simulaciones y ajustes estadísticos, por lo que cuando uno se preocupa mucho por la
detalles, es mejor poder descartar esa fuente de ruido.

CAMPUS CONTROLADOR EQUIPADO COLA MASAS PARA ADELANTE


En algunos experimentos, fue útil ajustar las puntuaciones de avance a un rango de cola diferente
masas, en lugar de solo una. Estas opciones proporcionan un mecanismo para ajustar uniformemente
rango espaciado de diferentes masas de cola. Para cada masa de cola diferente, se genera una línea
en la salida.

--tmín
Establece el límite inferior de la distribución de masa de la cola. (El valor predeterminado es 0.02 para
masa de cola única predeterminada.)

--tmax
Establece el límite superior de la distribución de masa de la cola. (El valor predeterminado es 0.02 para
masa de cola única predeterminada.)

--tpuntos
Establezca el número de masas de cola para muestrear, comenzando desde --tmín y terminando en --tmax.
(El valor predeterminado es 1, para la masa de cola única predeterminada de 0.02).

--tlineal
Muestree una gama de masas de cola con espaciado lineal uniforme. El valor predeterminado es usar
espaciado logarítmico uniforme.

CAMPUS CONTROLADOR H3 PARÁMETRO ESTIMACION FORMAS DE PAGO


H3 utiliza tres breves simulaciones de secuencia aleatoria para estimar los parámetros de ubicación para
las distribuciones de puntuación esperadas para las puntuaciones de MSV, las puntuaciones de Viterbi y las puntuaciones de Forward. Estas
Las opciones permiten modificar estas simulaciones.

--Eml
Establece la longitud de la secuencia en la simulación que estima el parámetro de ubicación mu para
Valores E de MSV. El valor predeterminado es 200.

--EmN
Establece el número de secuencias en la simulación que estima el parámetro de ubicación mu
para valores E de MSV. El valor predeterminado es 200.

--EvL
Establece la longitud de la secuencia en la simulación que estima el parámetro de ubicación mu para
Valores E de Viterbi. El valor predeterminado es 200.

--EvN
Establece el número de secuencias en la simulación que estima el parámetro de ubicación mu
para los valores E de Viterbi. El valor predeterminado es 200.

--EFL
Establece la longitud de la secuencia en la simulación que estima el parámetro de ubicación tau
para valores E directos. El valor predeterminado es 100.

--EfN
Establece el número de secuencias en la simulación que estima el parámetro de ubicación
tau para valores E directos. El valor predeterminado es 200.

--Eft
Establece la fracción de masa de la cola para que se ajuste a la simulación que estima la ubicación.
parámetro tau para evaluaciones de avance. El valor predeterminado es 0.04.

DEPURACIÓN CAMPUS


--puesto
Para depurar la versión MPI master / worker: pause después del inicio, para habilitar la
desarrollador para adjuntar depuradores a los procesos maestro y trabajador en ejecución. Enviar
Señal SIGCONT para liberar la pausa. (Bajo gdb: (BGF) señal SEÑAL) (Solamente
disponible si se habilitó la compatibilidad con MPI opcional en tiempo de compilación).

--semilla
Establezca la semilla de número aleatorio en . El valor predeterminado es 0, lo que hace que el número aleatorio
generador utiliza una semilla arbitraria, de modo que diferentes ejecuciones de mmmsim casi
ciertamente generar una muestra estadística diferente. Para depurar, es útil
forzar resultados reproducibles, fijando una semilla de número aleatorio.

EXPERIMENTAL CAMPUS


Estas opciones se utilizaron en una pequeña variedad de diferentes experimentos exploratorios.

--bgplano
Establezca la distribución de residuos de fondo en una distribución uniforme, tanto para
propósitos del modelo nulo usado en el cálculo de puntajes, y para generar el
secuencias aleatorias. El valor predeterminado es utilizar una frecuencia de fondo de aminoácidos estándar
distribución.

--bgcomp
Establezca la distribución de residuos de fondo en la composición media del perfil.
Esto se utilizó para explorar algunos de los efectos de la composición sesgada.

--x-modelo sin longitud
Apague el modelo de longitud de secuencia de destino H3. Establecer las autotransiciones para N, C, J
y el modelo nulo a 350/351 en su lugar; esto emula HMMER2. No es una buena idea en
general. Esto se utilizó para demostrar una de las principales diferencias de H2 frente a H3.

--nu
Establezca el parámetro nu para el algoritmo MSV: el número esperado de locales sin espacios.
alineaciones por secuencia objetivo. El valor predeterminado es 2.0, correspondiente a E-> J
probabilidad de transición de 0.5. Esto se usó para probar si la variación de nu tiene
efecto significativo en el resultado (no parece, dentro de lo razonable). Esta opción solamente
funciona si --msv está seleccionado (solo afecta a MSV), y no funcionará con --rápido
(porque las implementaciones optimizadas están programadas para asumir nu = 2.0).

--pthresh
Establezca el umbral del valor P del filtro que se utilizará para generar archivos de potencia de filtro con
- archivo. El valor predeterminado es 0.02 (que sería apropiado para probar las puntuaciones de MSV,
ya que este es el umbral de filtro MSV predeterminado en la tubería de aceleración de H3).
Otras opciones apropiadas (coincidencia de valores predeterminados en la tubería de aceleración) serían
0.001 para Viterbi y 1e-5 para Forward.

Utilice hmmsim en línea utilizando los servicios de onworks.net


Servidores y estaciones de trabajo gratuitos

Descargar aplicaciones de Windows y Linux

Comandos de Linux

Ad