InglésFrancésEspañol

Ad


icono de página de OnWorks

blasr - Online en la nube

Ejecute blasr en el proveedor de alojamiento gratuito de OnWorks a través de Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS

Este es el comando blasr que se puede ejecutar en el proveedor de alojamiento gratuito de OnWorks utilizando una de nuestras múltiples estaciones de trabajo en línea gratuitas, como Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS.

PROGRAMA:

NOMBRE


blasr - Asigna secuencias SMRT a un genoma de referencia.

SINOPSIS


explosión lee.bam genoma.fasta -bam -fuera fuera.bam

explosión lee.fasta genoma.fasta

explosión lee.fasta genoma.fasta -sa genoma.fasta.sa

explosión lee.bax.h5 genoma.fasta [-sa genoma.fasta.sa]

explosión lee.bax.h5 genoma.fasta -sa genoma.fasta.sa -maximo puntaje -100 -minCoincidencia 15 ...

explosión lee.bax.h5 genoma.fasta -sa genoma.fasta.sa -nproc 24 -fuera alineación.out ...

DESCRIPCIÓN


explosión es un programa de mapeo de lectura que mapea lecturas a posiciones en un genoma agrupando
coincidencias breves y exactas entre la lectura y el genoma, y ​​la puntuación de los grupos mediante la alineación.
Las coincidencias se generan buscando todos los sufijos de una lectura contra el genoma usando un
matriz de sufijo. Los métodos de encadenamiento global se utilizan para puntuar grupos de coincidencias.

Las únicas entradas necesarias para blasr son un archivo de lecturas y un genoma de referencia. Está
extremadamente útil haber leído información de filtrado, y el tiempo de ejecución del mapeo puede disminuir
sustancialmente cuando un índice de matriz de sufijos calculado previamente en la secuencia de referencia es
especificado.

Aunque las lecturas pueden ingresarse en formato FASTA, la entrada recomendada son archivos PacBio BAM
porque estos contienen información de valor de calidad que se utiliza en la alineación y produce
detección de variantes de mayor calidad. Aunque las alineaciones se pueden generar en varios formatos,
el formato de salida recomendado es PacBio BAM. El soporte para archivos bax.h5 y plx.h5 será
OBSOLETO. El soporte para tablas de regiones para archivos h5 será OBSOLETO.

Cuando no se especifica el índice de matriz de sufijos de un genoma, la matriz de sufijos se crea antes
produciendo alineación. Esto puede resultar prohibitivamente lento cuando el genoma es grande (por ejemplo, humano).
Es mejor calcular previamente la matriz de sufijos de un genoma usando el programa escritor de sierras(1), y
luego especifique la matriz de sufijos en la línea de comando usando -sa genoma.fa.sa.

Los parámetros opcionales se dividen aproximadamente en tres categorías: control sobre el anclaje,
puntuación de alineación y salida.

Los parámetros de anclaje predeterminados son óptimos para pequeños genomas y muestras con hasta un 5%
divergencia del genoma de referencia. El principal parámetro que rige la velocidad y la sensibilidad.
son los -minCoincidencia parámetro. Para las alineaciones del genoma humano, un valor de 11 o más es
recomendado. Se pueden utilizar varios métodos para acelerar las alineaciones, a expensas de
posiblemente disminuyendo la sensibilidad.

Las regiones que son demasiado repetitivas pueden ignorarse durante el mapeo limitando el número de
posiciona un mapa leído con el -maxAnclajesPorPosición opción. Valores entre 500 y
1000 son eficaces en el genoma humano.

Para genomas pequeños, como genomas bacterianos o BAC, los parámetros predeterminados son suficientes
para máxima sensibilidad y buena velocidad.

CAMPUS


Entrada archivos

Lee

lee.bam
Un archivo PacBio BAM de lecturas. Esta es la entrada preferida para explosión
porque un gran valor de calidad (inserción, eliminación y sustitución
valores de calidad) se mantiene la información. La calidad extra
La información mejora la detección de variantes y la velocidad del mapeo.

lee.fasta
Un archivo de lecturas multi-fasta, aunque cualquier archivo fasta es una entrada válida

lee.bax.h5|lee.plx.h5
el viejo OBSOLETO formato de salida de lecturas SMRT.

entrada.fofn
Archivo de nombres de archivos

-sa sufijoArrayFile
Utilice la matriz de sufijos 'sa' para detectar coincidencias entre las lecturas y las
referencia. La matriz de sufijos ha sido preparada por el escritor de sierras(1) programa.

-ctab de la pestaña.
Una tabla de recuentos de tuplas que se utiliza para estimar la importancia de la coincidencia. Esto es por el
programa 'printTupleCountTable'. Si bien se genera rápidamente sobre la marcha,
si hay muchas invocaciones de explosión, es útil calcular previamente el ctab.

-tablaregión mesa (OBSOLETO)
Leer en una tabla de regiones de lectura en formato HDF para enmascarar partes de lecturas.
Esta puede ser una sola tabla si solo hay un archivo de entrada, o un fofn. Cuando
se especifica una tabla de regiones, cualquier tabla de regiones dentro de reads.plx.h5 o
Los archivos reads.bax.h5 se ignoran.
(OBSOLETO) Opciones para modificador lee.

Hay información complementaria sobre subcadenas de lecturas que se almacena en un
'tabla de región' para cada archivo leído. Debido a que se utiliza HDF, la tabla de regiones puede
parte del archivo .bax.h5 o .plx.h5, o un archivo separado. Una lectura contigua
La subcadena de la plantilla es un subread, y cualquier lectura puede contener múltiples
subreads. Los límites de las subredes se pueden inferir de la tabla de regiones
ya sea directamente o por definición de los límites del adaptador. Normalmente tablas de regiones
también contienen información para la ubicación de las regiones de alta y baja calidad de
lee. Las lecturas producidas por lecturas falsas de ZMW vacías tienen un comienzo de alta calidad
Coordenada igual al final de alta calidad, lo que hace que no se pueda leer.

-useccs
Alinee la secuencia de consenso circular (ccs), luego informe las alineaciones de la
ccs sube a la ventana a la que se asignó el ccs. Solo alineaciones de
se informan las subredes.

-useccsall
Similar a -useccs, excepto que todas las subreads están alineadas, en lugar de solo las
subreads utilizados para llamar a los ccs. Esto incluirá lecturas que solo cubran parte
de la plantilla.

-useccsdenovo
Alinee el consenso circular e informe solo la alineación de los ccs
secuencia.

-noSplitSubreads (falso)
No divida subreads en los adaptadores. Por lo general, esto solo es útil cuando el
genoma en una versión desenrollada de una plantilla conocida, y contiene plantilla-
secuencia adaptor-reverse_template.

-ignorar Regiones (falso)
Ignore cualquier información en la tabla de regiones.

-ignorarHQregiones (falso)
Ignore las regiones de hq en la tabla de regiones.
Alineaciones A Informes

-mejor n (10)
Reportar la parte superior n alineaciones.

-hitPolicy (todos)
Especifique una política para tratar varios hits de [all, allbest, random,
más alejado, más a la izquierda]

todos informar todas las alineaciones.

todo lo mejor
reportar todas las alineaciones con la misma puntuación superior.

azar informar una alineación aleatoria.

más randombest
informar una alineación aleatoria de múltiples puntuaciones igualmente altas
alineaciones.

más a la izquierda
reportar una alineación que tiene la mejor puntuación de alineación y tiene la
coordenada de mapeo más pequeña en cualquier referencia.

-lugarRepeticionesAleatoriamente (falso)
¡OBSOLETO! Si es cierto, equivalente a -hitPolicy más randombest.

-Semilla aleatoria (0)
Semilla para generador de números aleatorios. De forma predeterminada (0), use la hora actual como semilla.

-noSortRefinedAlignments (falso)
Una vez que las alineaciones candidatas se generan y puntúan a través de dinámica dispersa
programación, se vuelven a puntuar utilizando la alineación local que tiene en cuenta
diferentes perfiles de error. El recurso basado en la alineación local puede cambiar
el orden en que se devuelven los hits.

-permitir AdyacenteIndels
Cuando se especifica, se permiten inserciones o eliminaciones adyacentes. De lo contrario,
las inserciones y eliminaciones adyacentes se fusionan en una sola operación. Utilizando
Los valores de calidad para guiar las alineaciones por pares pueden dictar que el mayor
la alineación de probabilidad contiene inserciones o deleciones adyacentes. Actual
herramientas como GATK no permiten esto y, por lo tanto, no son reportados por
predeterminado.
Salida Formatos y archivos

-fuera salir (Terminal)
Escribir salida en salir.

-sam Escriba la salida en formato SAM.

-m t Si no está imprimiendo SAM, modifique la salida de la alineación.

Cuándo t :

0 Imprime una salida como explosión con los nucleótidos emparejados de conexión de |.

1 Imprime solo un resumen: puntuación y pos.

2 Imprima en formato Compare.xml.

3 Imprimir en formato vulgar (OBSOLETO).

4 Imprima una versión tabular más larga de la alineación.

5 Imprima en un formato analizable por máquina que lea
compararSecuencias.py.

-encabezamiento
Imprima un encabezado como la primera línea del archivo de salida que describe el contenido
de cada columna.

-títuloTabla de la pestaña. (NULO)
Construya una tabla de títulos de secuencia de referencia. Las secuencias de referencia son
enumerado por fila, 0,1, ... El índice de referencia se imprime alineado
resultados en lugar del nombre de referencia completo. Esto hace que la salida sea concisa,
particularmente cuando existen títulos muy detallados en los nombres de referencia.

-no alineado presentar
Lecturas de salida que no están alineadas con presentar

-recorte [ninguna|en las|subleer|suave] (ninguno)

Utilice ningún recorte / hard / subread / soft, SÓLO para la salida SAM / BAM.

-imprimirSAMQV (falso)
Imprimir valores de calidad en la salida SAM.

-cigarUseSeqMatch (falso)
Las cadenas CIGAR en la salida SAM / BAM usan '=' y 'X' para representar la coincidencia de secuencia
y desajuste en lugar de 'M'.
Opciones para anclaje alineación regiones.

Esto tendrá el mayor efecto sobre la velocidad y la sensibilidad.

-minCoincidencia m (12)
Longitud mínima de la semilla. Un minMatch más alto acelerará la alineación, pero disminuirá
sensibilidad.

-maxCoincidencia l (inf)
Deje de mapear una lectura en el genoma cuando la longitud de lcp alcance l. Es
útil cuando la consulta es parte de la referencia, por ejemplo cuando
construcción de alineaciones por pares para montaje de novo.

-maxLCPLongitud l (inf)
Lo mismo que -maxCoincidencia.

-maxAnclajesPorPosición m (10000)
No agregue anclajes desde una posición si coincide con más de m ubicaciones en
el objetivo.

-avanzarCoincidenciasExactas E (0)
Otro truco para acelerar las alineaciones con match - E menos anclajes.
En lugar de encontrar anclajes entre la lectura y el genoma en cada
posición en la lectura, cuando se encuentra un ancla en la posición i en una lectura de
longitud L, la siguiente posición en una lectura para encontrar un ancla está en i + LE. Usar
esto al alinear contigs ya ensamblados.

-nCandidatos n (10)
Manténgase al día n candidatos para la mejor alineación. Un gran valor de n
mapeo lento porque los pasos de programación dinámica más lentos se aplican a
más grupos de anclajes que pueden ser un paso de limitación de velocidad cuando las lecturas son
muy largo.

-concordante (falso)
Mapee todas las subredes de un zmw (hoyo) donde se encuentra la subred de pase completo más larga de
el zmw alineado con. Esto requiere utilizar la tabla de regiones y las regiones hq.
Esta opción solo funciona cuando las lecturas están en formato base o pulso h5.

-plantilla concordante (pan mediano)
Seleccione un subread de paso completo de un zmw como plantilla para el mapeo concordante.
longgestsubread - use el subread de paso completo más largo mediansubread - use el
Subread típico de paso completo de longitud media: use el segundo más largo
pasar subread si la longitud del subread de pase completo más largo es un valor atípico

-rápidoMaxInterval (falso)
Intervalos crecientes máximos de búsqueda rápida como candidatos de alineación. La búsqueda
no es tan exhaustivo como el predeterminado, pero es mucho más rápido.

-corteintervaloagresivo (falso)
Filtre de manera consensuada los candidatos de alineación no prometedores, si existen
al menos un candidato prometedor. Si esta opción está activada, explosión is
Es probable que ignore alineaciones cortas de elementos ALU.

-rápidoSDP (falso)
Utilice un algoritmo heurístico rápido para acelerar la programación dinámica dispersa.
Opciones para Refinación Golpes

-sdpTamañoTupla K (11)
Usar coincidencias de longitud K para acelerar las alineaciones de programación dinámica. Esta
Controla la precisión de la asignación de espacios en alineaciones por pares una vez que se realiza un mapeo.
se ha encontrado, en lugar de mapear la sensibilidad en sí.

-scoreMatrix Puntuación matriz cadena
Especifique una matriz de puntuación alternativa para puntuar lecturas rápidas. La matriz es
en el formato

ACGTN
Un abcde
C fghij
G klmno
T pqrst
N uvwxy

Los valores a ... y deben ingresarse como una cadena separada por espacios entre comillas: "abc
... y ". Las puntuaciones más bajas son mejores, por lo que las coincidencias deben ser menores que las discrepancias
por ejemplo, a, g, m, s = -5 (coincidencia), discordancia = 6.

-affineOpen propuesta de (10)
Establece la penalización por abrir una alineación afín.

-affineExtender a (0)
Cambiar la penalización por hueco afín (extensión). Un valor más bajo permite más espacios.
Opciones para superposición / dinámica programación alineaciones y por parejas superposición para de nuevo
el montaje.

-useCalidad (falso)
Utilice valores de calidad de sustitución / inserción / eliminación / fusión para puntuar la brecha y
penalizaciones por desajuste en alineaciones por pares. Porque la inserción y
las tasas de eliminación son mucho más altas que las de sustitución, esto hará que muchos
las alineaciones favorecen una inserción / eliminación sobre una sustitución.
Los métodos de llamada a menudo perderán los polimorfismos de sustitución. Esta opción
debe usarse al llamar al consenso usando el método Quiver. Es más,
cuando no se utilizan valores de calidad para puntuar alineaciones, habrá un menor
precisión de consenso en regiones de homolímeros.

-affineAlinear (falso)
Refinar la alineación mediante la alineación guiada afín.
Opciones para filtración lee y alineaciones

-minReadLength l (50)
Omitir lecturas que tengan una longitud completa menor que l. Los subpanes pueden ser más cortos.

-minSubreadLongitud l (0)
No alinee subredes de longitud inferior a l.

-minRawSubreadPuntuación m (0)
No alinee subreads cuyo puntaje de calidad en la tabla de regiones sea menor que m
(los puntajes de calidad deben estar en el rango [0, 1000]).

-maximo puntaje m (-200)
Puntuación máxima a la salida (alta es mala, negativa buena).

-minAlnLongitud
(0) Informe las alineaciones solo si sus longitudes son mayores que minAlnLength.

-minPctSimilitud (0) Informe las alineaciones solo si su porcentaje similar es
mayor que minPctSimilarity.

-minPctPrecisión
(0) Informe las alineaciones solo si su precisión porcentual es mayor que
minPrecisión.
Opciones para paralelo alineación

-nproc N (1)
Alinear usando N Procesos. Todas las estructuras de datos grandes, como la matriz de sufijos
y la tabla de recuento de tuplas se comparten.

-Comienzo S (0)
Índice de la primera lectura para comenzar a alinear. Esto es útil cuando varios
las instancias se ejecutan en los mismos datos, por ejemplo, cuando están en un multi-rack
racimo.

-paso S (1)
Alinear una lectura cada S lee.
Opciones para submuestreo lee.

-submuestra (0)
Proporción de lecturas para submuestra aleatoria (expresada como decimal) y
alinear.

-agujeroNúmeros Anuncia
Cuando se especifica, solo alinea lecturas cuyos números de orificios ZMW están en Anuncia. Anuncia
es una cadena de rangos delimitada por comas, como '1,2,3,10-13'. Esta opción
solo funciona cuando las lecturas están en formato bam, bax.h5 o plx.h5.

-h Imprime la información de ayuda.

CITA


Para citar BLASR, utilice: Chaisson MJ y Tesler G., Mapeo de una sola molécula
secuenciación de lecturas usando Alineación local básica con refinamiento sucesivo (BLASR): Teoría
and Application, BMC Bioinformatics 2012, 13: 238.

Use blasr en línea usando los servicios de onworks.net


Servidores y estaciones de trabajo gratuitos

Descargar aplicaciones de Windows y Linux

Comandos de Linux

Ad