Este es el comando daligner que se puede ejecutar en el proveedor de alojamiento gratuito de OnWorks utilizando una de nuestras múltiples estaciones de trabajo en línea gratuitas, como Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS.
PROGRAMA:
NOMBRE
daligner - alineador de lectura larga
SINOPSIS
alineador [-vbAI][-kint(14)] [-wint(6)] [-hint(35)] [-tint] [-Mint] [-edoble (.70)]
[-lint(1000)] [-sint(100)] [-Hint] [-mseguir]+ asunto: db | presa objetivo: db | presa ...
DESCRIPCIÓN
Comparar secuencias en el recortado sujeto bloquear contra los de la lista de dirigidos bloques
buscando alineaciones locales que involucren al menos -l pares de bases (por defecto 1000) o más,
que tienen una tasa de correlación promedio de -e (predeterminado 70%). Las alineaciones locales encontradas
se generará en una codificación escasa donde se registra un punto de seguimiento en la alineación cada
-s pares de bases de la lectura a (por defecto 100 pb). Las lecturas se comparan en ambas orientaciones y
las alineaciones locales que cumplen los criterios se envían a uno de los varios archivos creados descritos
abajo. los -v La opción activa un modo de informe detallado que proporciona estadísticas sobre cada
paso principal del cálculo.
Las opciones -k, -hy -w controlar la búsqueda de filtración inicial para posibles coincidencias
entre lecturas. Específicamente, nuestro código de búsqueda busca un par de bandas diagonales de ancho
2 ^ w (predeterminado 2 ^ 6 = 64) que contiene una colección de k-mers coincidentes exactos (predeterminado 14)
entre las dos lecturas, de modo que el número total de bases cubiertas por los aciertos k-mer es h
(predeterminado 35). k no puede ser mayor que 32 en la implementación actual. Si el -b opción
está configurado, entonces el alineador asume que los datos tienen un fuerte sesgo de composición (por ejemplo,> 65% AT
rich), y a costa de un poco más de tiempo, ajusta dinámicamente los tamaños de k-mer dependiendo de
sesgo composicional, de modo que los meros utilizados tengan una especificidad efectiva de 4 ^ k.
Si hay una o más pistas de intervalo especificadas con el -m opción, entonces las lecturas de
los DB o DB a los que se aplica la máscara están enmascarados suaves con la unión de los intervalos
de todas las pistas de intervalo que se aplican, es decir, los k-mers que contienen bases en cualquiera de
los intervalos enmascarados se ignoran con el fin de sembrar una coincidencia. Una pista de intervalo
es una pista, como la pista de "polvo" creada por DBdust, que codifica un conjunto de intervalos
sobre la base de datos sin recortar o recortada.
Invariablemente, algunos k-mers están significativamente sobrerrepresentados (por ejemplo, ejecuciones de homopolímeros).
Estos k-mers crean un número excesivo de pares de k-mer coincidentes y si no se tratan
hacer que el daligner desborde la memoria física disponible. Una forma de lidiar con esto es
establecer explícitamente el -t parámetro que suprime el uso de cualquier k-mer que ocurra más
que t veces en el bloque de sujeto o de destino. Sin embargo, una mejor manera de manejar el
situación es dejar que el programa seleccione automáticamente un valor de t que cumple con un dado
límite de uso de memoria especificado (en Gb) por el -M parámetro. Por defecto alineador utilizará
la cantidad de memoria física como opción para -M. Si desea usar menos, diga solo 8 Gb
en un nodo de clúster HPC de 24 Gb porque desea ejecutar 3 alineador trabajos en el nodo, luego
especificar -M8. Especificando -M0 básicamente indica que no quieres alineador a sí mismo
ajustar la supresión de k-mer para que se ajuste a una determinada cantidad de memoria.
Para cada sujeto, par de bloques objetivo, digamos X e Y, el programa informa alineaciones donde
la lectura a está en X y la lectura b está en Y, y viceversa. Sin embargo, si el -A opción es
set ("A" para "asimétrico") luego simplemente se superpone donde la lectura a está en X y la lectura b es
en Y se informan, y si X = Y, entonces informa además solo aquellas superposiciones donde el
El índice de lectura a es menor que el índice de lectura b. En cualquier caso, si el -I la opción está configurada ("I"
para "identidad"), entonces, cuando X = Y, las superposiciones entre diferentes partes de la misma lectura
también ser encontrado y reportado.
Cada alineación encontrada se registra como - a [ab, ae] x bo [bb, be] - donde ayb son los
índices (en el DB recortado) de las lecturas que se superponen, o indica si la lectura b es
de la misma hebra o la opuesta, y [ab, ae] y [bb, be] son los intervalos de a y bo,
respectivamente, que se alinean. El programa coloca estos registros de alineación en archivos cuyo nombre
tiene la forma XY [C | N] #. las donde C indica que las lecturas b se complementan y N
indica que no lo son (se realizan ambas comparaciones) y # es el hilo que detectó
y escribió la colección de alineaciones contenidas en el archivo. Ese es el archivo
XYO # .las contiene las alineaciones producidas por el hilo # para el cual la lectura a es de X y
la lectura b es de Y y en orientación O. El comando alineador -A X Y produce 2 * NTHREAD
archivos de hilo XY? .las y alineador X Y produce 4 * archivos NTHREAD XY? .las e YX? .las
(a no ser que X=Y en cuyo caso solo se producen archivos NTHREAD, XX? .las).
De forma predeterminada, alineador compara todas las superposiciones entre las lecturas en la base de datos que son mayores
que el límite mínimo establecido cuando se dividieron las bases de datos o las bases de datos, normalmente 1 o 2 Kbp. Sin embargo,
la tubería de ensamblaje de HGAP solo quiere corregir lecturas grandes, digamos 8 Kbp o más, y así
solo necesita las superposiciones donde la lectura a es una de las lecturas grandes. Al establecer el -H
parámetro para decir N, uno altera alineador para que solo informe superposiciones donde la lectura a
tiene una longitud de más de N pares de bases.
Si bien la configuración predeterminada de los parámetros es buena para los datos sin procesar de Pacbio, alineador utilizar
para encontrar alineaciones de manera eficiente en lecturas corregidas u otras lecturas menos ruidosas. Para
Por ejemplo, para mapear aplicaciones contra .dams, ejecutamos
alineador -k20 -h60 -e.85
y en las lecturas corregidas, normalmente ejecutamos
alineador -k25 -w5 -h60 -e.95 -s500
y en estos ajustes es muy rápido.
Use daligner en línea usando los servicios de onworks.net