Este es el comando tigr-build-icm que se puede ejecutar en el proveedor de alojamiento gratuito de OnWorks utilizando una de nuestras múltiples estaciones de trabajo en línea gratuitas, como Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS.
PROGRAMA:
NOMBRE
tigr-glimmer - Ceates y genera un modelo de Markov interpolado (IMM)
SINOPSIS
tigr-construir-icm
DESCRIPCIÓN
El programa build-icm.c crea y genera un modelo de Markov interpolado (IMM) como se describe
en el documento AL Delcher, D. Harmon, S. Kasif, O. White y SL Salzberg. Mejorado
Identificación de genes microbianos con Glimmer. Nucleic Acids Research, 1999, en prensa.
Consulte este documento si utiliza el sistema como parte de alguna investigación publicada.
La entrada proviene del archivo nombrado en la línea de comandos. El formato debe ser una cadena por
línea. Cada línea tiene una cadena de identificación seguida de un espacio en blanco seguido de la secuencia en sí.
El script run-glimmer3 genera un archivo de entrada en el formato correcto usando el 'extracto'
.
El IMM se construye de la siguiente manera: para un contexto dado, digamos acgtta, queremos estimar
la distribución de probabilidad del siguiente carácter. Haremos esto como un lineal
combinación de las distribuciones de probabilidad observadas para este contexto y todos sus
sufijos, es decir, cgtta, gtta, tta, ta, a y vacío. Por distribuciones observadas me refiero a
recuentos del número de apariciones de estas cadenas en el conjunto de entrenamiento. El lineal
La combinación está determinada por un conjunto de probabilidades, lambda, una para cada cadena de contexto.
Para el contexto acgtta, los coeficientes de combinación lineal son:
lambda (acgtta) (1 - lambda (acgtta)) x lambda (cgtta) (1 - lambda (acgtta)) x (1 - lambda
(cgtta)) x lambda (gtta) (1 - lambda (acgtta)) x (1 - lambda (cgtta)) x (1 - lambda
(gtta)) x lambda (tta) (1 - lambda (acgtta)) x (1 - lambda (cgtta)) x (1 - lambda (gtta))
x (1 - lambda (tta)) x (1 - lambda (ta)) x (1 - lambda (a))
Calculamos los valores lambda para cada contexto de la siguiente manera: - Si el número de observaciones
en el conjunto de entrenamiento es> = la constante SAMPLE_SIZE_BOUND, la lambda para ese contexto es
1.0 - De lo contrario, haga una prueba de chi-cuadrado en las observaciones para este contexto en comparación con el
distribución predicha para el contexto de sufijo más corto de un carácter. Si el chi-cuadrado
significancia <0.5, establezca la lambda para este contexto en 0.0 De lo contrario, establezca la lambda para
este contexto a: (significado de chi-cuadrado) x (# observaciones) / SAMPLE_WEIGHT
Para ejecutar el programa:
build-icm tren.modelo
Esto usará los datos de entrenamiento en train.seq para producir el archivo train.model, que contiene
su IMM.
Use tigr-build-icm en línea usando los servicios de onworks.net