Este es el comando tigr-long-orfs que se puede ejecutar en el proveedor de alojamiento gratuito de OnWorks utilizando una de nuestras múltiples estaciones de trabajo en línea gratuitas, como Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS.
PROGRAMA:
NOMBRE
long-orfs - Encuentra / puntúa genes potenciales en el archivo de genoma usando el modelo de probabilidad en icm-
presentar
SINOPSIS
tigre-largo-orgs [archivo-genoma opciones]
DESCRIPCIÓN
El programa long-orfs toma un archivo de secuencia (en formato FASTA) y genera una lista de todos los
"genes potenciales" que no se superponen demasiado. Por "gen potencial" me refiero al
porción de un orf desde el primer codón de inicio hasta el codón de terminación al final.
Las primeras líneas de salida especifican la configuración de varios parámetros en el programa:
La longitud mínima del gen es la longitud del fragmento más pequeño que se considera un gen. los
La longitud se mide desde la primera base del codón de inicio hasta la última base * antes * de la
codón de parada. Este valor se puede especificar cuando se ejecuta el programa con la opción -g.
De forma predeterminada, el programa ahora (abril de 2003) calculará una longitud óptima para este
parámetro, donde "óptimo" es el valor que produce el mayor número de ORF largos,
aumentando así la cantidad de datos utilizados para la formación.
La longitud mínima de superposición es un límite inferior en el número de bases superpuestas entre 2 genes
eso se considera un problema. Las superposiciones más cortas que esto se ignoran.
El porcentaje mínimo de superposición es otro límite inferior en el número de bases superpuestas que es
considerado un problema. Se ignoran las superposiciones más cortas que este porcentaje de * ambos * genes.
La siguiente parte del resultado es una lista de genes potenciales:
La columna 1 es un número de identificación con fines de referencia. Se asigna de forma secuencial comenzando
con 1 a todos los genes de potencial largo. Si se eliminan los genes superpuestos, las brechas en el
se producirán números. El prefijo de ID se especifica en la constante ID_PREFIX.
La columna 2 es la posición de la primera base del primer codón de inicio en el orf. En la actualidad
Utilizo atg y gtg como codones de inicio. Esto se cambia fácilmente en la función Is_Start ().
La columna 3 es la posición de la última base * antes * del codón de parada. Los codones de parada son taa,
tag y tga. Tenga en cuenta que para orfs en los marcos de lectura inversa tienen su posición de inicio
más alto que la posición final. El orden en el que se enumeran los orfs es en orden creciente
por Max {OrfStart, End}, es decir, la posición con el número más alto en el orf, excepto para orfs
que "envuelve" el final de la secuencia.
Cuando dos genes con números de identificación se superponen al menos en una cantidad suficiente (según lo determinado por
Min_Olap y Min_Olap_Percent), se eliminan y no aparecen en la salida.
El resultado final del programa (enviado al archivo de error estándar para que no aparezca
cuando la salida se redirige a un archivo) es la longitud del orf más largo encontrado.
Especificación de diferentes codones de inicio y finalización:
Para especificar diferentes conjuntos de codones de inicio y parada, modifique el archivo gene.h.
En concreto, las funciones:
Is_Forward_Start Is_Reverse_Start Is_Start Is_Forward_Stop Is_Reverse_Stop
es_parar
se utilizan para determinar qué se utiliza para los codones de inicio y parada.
Is_Start e Is_Stop hacen comparaciones de cadenas simples para especificar qué patrones se utilizan.
Para agregar un nuevo patrón, simplemente agregue la comparación. Para eliminar un patrón, comente o
elimine la comparación para ello.
Las otras cuatro funciones utilizan una comparación de bits para determinar los patrones de inicio y parada. Ellos
representar un codón como un patrón de 12 bits, con 4 bits para cada base, un bit para cada
valor posible de las bases, T, G, C o A. Por lo tanto, el patrón de bits 0010 0101 1100
representa el patrón base [C] [A o G] [G o T]. Haciendo operaciones de bits (& | ~) y
comparaciones, se pueden probar patrones más complicados que implican lecturas ambiguas
eficientemente. Los patrones simples se pueden probar como en el código actual.
Por ejemplo, para insertar un codón de inicio adicional de CAT se requieren 3 cambios: 1. La línea ||
(Codon & 0x218) == El codon debe insertarse en Is_Forward_Start, ya que 0x218 = 0010
0001 1000 representa CAT. 2. La línea || (Codon & 0x184) == El codon debe insertarse en
Is_Reverse_Start, ya que 0x184 = 0001 1000 0100 representa ATG, que es el inverso-
complemento de CAT. Alternativamente, se podría usar la constante #define ATG_MASK. 3. El
línea || strncmp (S, "cat", 3) == 0 debe insertarse en Is_Start.
OPCIONES
-g n Establezca la longitud mínima del gen en n. El valor predeterminado es calcular un valor óptimo
automáticamente. No cambie esto a menos que sepa lo que está haciendo.
-l Considere el genoma como lineal (no circular), es decir, no permita que los genes "envuelvan
alrededor del "final del genoma. Esta opción funciona tanto en orfs brillantes como en orfs largos
. El comportamiento predeterminado es considerar el genoma circular.
-o n Establezca la longitud máxima de superposición en n. Se permiten superposiciones más cortas que esto.
(El valor predeterminado es 0 pb.)
-p n Establezca el porcentaje máximo de superposición en n%. Superposiciones más cortas que este porcentaje de
* ambas * cadenas se ignoran. (El valor predeterminado es 10%).
Use tigr-long-orfs en línea usando los servicios de onworks.net