InglésFrancésEspañol

Ad


icono de página de OnWorks

ipdSummary: en línea en la nube

Ejecute ipdSummary en el proveedor de alojamiento gratuito de OnWorks sobre Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS

Este es el comando ipdSummary que se puede ejecutar en el proveedor de alojamiento gratuito de OnWorks utilizando una de nuestras múltiples estaciones de trabajo en línea gratuitas, como Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS.

PROGRAMA:

NOMBRE


ipdSummary: detecta modificaciones de bases de ADN a partir de firmas cinéticas.

DESCRIPCIÓN


kineticsTool carga los IPD observados en cada posición del genoma y compara esos IPD
al valor esperado para el ADN no modificado, y genera el resultado de esta prueba estadística.
El valor de IPD esperado para el ADN no modificado puede provenir de una in silico control o un
amplificado control. El control in silico es entrenado por PacBio y enviado con el
paquete. Predice predice el IPD usando el contexto de secuencia local alrededor de la corriente
posición. Se genera un conjunto de datos de control amplificado secuenciando ADN sin modificar con el
misma secuencia que la muestra de prueba. Una muestra de control amplificada generalmente se genera mediante
amplificación del genoma completo de la muestra original.

Modificación Detección
El modo básico de kineticsTools hace una comparación independiente de IPD en cada posición en
el genoma, para cada hebra, y emite varias estadísticas a CSV y GFF (después de aplicar una
filtro de significación).

Modificaciones Identificación
cinéticaHerramientas también tiene a Modificación Identificación modo esa podemos descodificar multi-sitio IPD
'huellas dactilares' dentro a reducido set of llamadas of soluciones y cambios. Este característica tiene las
siguiendo beneficios:

· Se pueden distinguir diferentes modificaciones que ocurren en la misma base (por
ejemplo m5C y m4C)

· La señal de una modificación se combina en una estadística, mejorando
sensibilidad, eliminando picos adicionales y centrando correctamente la llamada

CAMPUS


Llame a este programa con --ayuda para ver las opciones disponibles.

ALGORITMO


Sintético Control
Los estudios de la relación entre DPI y el contexto de secuencia revelan que la mayoría de los
La variación en la DPI media en un genoma se puede predecir a partir de un contexto de secuencia de 12 bases.
que rodea el sitio activo de la ADN polimerasa. Los límites del contexto relevante
ventana corresponde a la ventana de ADN en contacto con la polimerasa, como se ve en
Estructuras cristalinas de ADN / polimerasa. Simplificar el proceso de búsqueda de modificaciones en el ADN.
con los datos de PacBio, la herramienta incluye una tabla de búsqueda preentrenada que mapea el ADN de 12 mer
secuencias para significar IPDs observados en la química C2.

Filtración y Guarnición
kineticsTools utiliza el QV de mapeo generado por BLASR y almacenado en el archivo cmp.h5 para
ignore las lecturas que no estén asignadas con seguridad. El QV mínimo de mapeo predeterminado requerido es
10, lo que implica que BLASR ha 90 \% confianza en que la lectura está correctamente mapeada. Porque
el rango de longitudes de lectura inherentes a los datos de PacBio Esto se puede cambiar usando el
--mapQvThreshold argumento de línea de comando, o mediante el diálogo de configuración SMRTPortal para
Detección de modificaciones.

Hay algunas características de los datos de PacBio que requieren especial atención para lograr
buen rendimiento de detección de modificaciones. kineticsTools inspecciona la alineación entre los
bases observadas y la secuencia de referencia - para que una medición de IPD sea
incluida en el análisis, la secuencia de lectura de PacBio debe coincidir con la secuencia de referencia para k
alrededor de la base afín. En el módulo actual k = 1 La distribución de IPD en algún locus puede ser
pensado como una mezcla entre el proceso de incorporación 'normal' IPD, que es sensible
al contexto de la secuencia local y las modificaciones del ADN y un proceso de 'pausa' contaminante
DPI que tienen una duración mucho más prolongada (media> 10 veces más de lo normal), pero que ocurren raramente
(~ 1% de IPD). Nota: Nuestro conocimiento actual es que las pausas no son útiles
información sobre el estado de metilación del ADN, sin embargo, un análisis más cuidadoso puede ser
justificado. También tenga en cuenta que las modificaciones que aumentan drásticamente el Aproximadamente 1% de
Los IPD observados son generados por eventos de pausa. Limitar los IPD observados en el 99 ° mundial
El percentil está motivado por la teoría a partir de pruebas de hipótesis sólidas. Algunos contextos de secuencia
pueden tener IPD naturalmente más largos, para evitar limitar demasiados datos en esos contextos, el límite
El umbral se ajusta por contexto de la siguiente manera: capThreshold = max (global99,
5 * modelPrediction, percentil (ipdObservations, 75))

Estadístico Pruebas
Probamos la hipótesis de que los DPI observados en un locus particular de la muestra tienen un
medias más largas que las IPD observadas en el mismo locus en el ADN no modificado. Si hemos generado
un conjunto de datos Amplificado del Genoma Completo, que elimina las modificaciones del ADN, usamos un control de casos,
prueba t de dos muestras. Esta herramienta también proporciona un modelo de 'control sintético' precalibrado
que predice el IPD sin modificar, dado un contexto de secuencia de 12 bases. En el sintético
caso de control utilizamos una prueba t de una muestra, con un ajuste para tener en cuenta el error en el
modelo de control sintético.

ENTRADAS


align_reads.cmp.h5
Un archivo cmp.h5 estándar contiene alineaciones y la información de IPD proporciona los datos cinéticos.
utilizado para realizar la detección de modificaciones. El archivo cmp.h5 estándar de un trabajo SMRTportal es
data / align_read.cmp.h5.

Referencia Secuencia
La herramienta requiere la secuencia de referencia utilizada para realizar alineaciones. Actualmente esto debe
suministrarse a través de la ruta a una entrada del repositorio de referencia SMRTportal.

SALIDAS


La herramienta de detección de modificaciones proporciona resultados en una variedad de formatos adecuados para
análisis estadístico en profundidad, referencia rápida y consumo mediante herramientas de visualización
como PacBio SMRTView. Los resultados generalmente se indexan por posición de referencia y
hebra de referencia. En todos los casos, el valor de la hebra se refiere a la hebra que lleva el
modificación en la muestra de ADN. Recuerde que el efecto cinético de la modificación es
observado en secuencias leídas que se alinean con la hebra opuesta. Así que lee alineándose con el
La hebra positiva lleva información sobre la modificación de la hebra negativa y viceversa.
al revés, pero en este conjunto de herramientas siempre informamos de la hebra que contiene el putativo
modificación.

modificaciones.csv
El archivomodificaciones.csv contiene una fila para cada par (posición de referencia, hebra)
que apareció en el conjunto de datos con una cobertura de al menos x. x por defecto es 3, pero es
configurable con el indicador '--minCoverage' en ipdSummary.py. El índice de posición de referencia es
1 basado en compatibilidad con el archivo gff del entorno R.

Salida columnas
in silico control modo

┌───────────────┬───────────────────────────────── ──┐
│Columna │ Descripción │
├───────────────┼───────────────────────────────── ──┤
│refId │ ID de secuencia de referencia de este │
│ │ observación │
├───────────────┼───────────────────────────────── ──┤
│tpl │ posición de plantilla basada en 1 │
├───────────────┼───────────────────────────────── ──┤
│ hebra │ hebra de muestra nativa donde │
Se generaron cinéticas │ │. '0' es │
│ │ la hebra del original │
│ │ FASTA, '1' es la hebra opuesta │
│ │ de FASTA │
├───────────────┼───────────────────────────────── ──┤
│base │ la base análoga en este │
│ │ posición en la referencia │
├───────────────┼───────────────────────────────── ──┤
│puntuación │ pvalor transformado por Phred que un │
│ │ existe desviación cinética en este │
│ │ posición │
└───────────────┴───────────────────────────────── ──┘

│tMean │ media limitada de DPI normalizados │
│ │ observado en esta posición │
├───────────────┼───────────────────────────────── ──┤
│tErr │ error estándar limitado de │
│ │ IPD normalizadas observadas en este │
Posición │ │ (desviación estándar / │
│ │ sqrt (cobertura) │
├───────────────┼───────────────────────────────── ──┤
│modeloPredicción │ DPI media normalizada predicha por │
│ │ el modelo de control sintético para │
│ │ este contexto de secuencia │
├───────────────┼───────────────────────────────── ──┤
│ipdRatio │ tMedia/modeloPredicción │
├───────────────┼───────────────────────────────── ──┤
│cobertura │ recuento de DPI válidos en este │
│ │ posición (consulte la sección de filtrado │
│ │ para más detalles) │
├───────────────┼───────────────────────────────── ──┤
│frac │ estimación de la fracción de │
│ │ moléculas que llevan el │
│ │ modificación │
├───────────────┼───────────────────────────────── ──┤
│fracLow │ 2.5% límite de confianza de frac │
│ │ estimación │
├───────────────┼───────────────────────────────── ──┤
│fracUpp │ 97.5% límite de confianza de frac │
│ │ estimación │
└───────────────┴───────────────────────────────── ──┘

control de caso modo

┌───────────────┬───────────────────────────────── ──┐
│Columna │ Descripción │
├───────────────┼───────────────────────────────── ──┤
│refId │ ID de secuencia de referencia de este │
│ │ observación │
├───────────────┼───────────────────────────────── ──┤
│tpl │ posición de plantilla basada en 1 │
├───────────────┼───────────────────────────────── ──┤
│ hebra │ hebra de muestra nativa donde │
Se generaron cinéticas │ │. '0' es │
│ │ la hebra del original │
│ │ FASTA, '1' es la hebra opuesta │
│ │ de FASTA │
├───────────────┼───────────────────────────────── ──┤
│base │ la base análoga en este │
│ │ posición en la referencia │
├───────────────┼───────────────────────────────── ──┤
│puntuación │ pvalor transformado por Phred que un │
│ │ existe desviación cinética en este │
│ │ posición │
├───────────────┼───────────────────────────────── ──┤
│ media de casos │ media de DPI de casos normalizados │
│ │ observado en esta posición │
├───────────────┼───────────────────────────────── ──┤
│controlmedia │ media de los DPI de control normalizados │
│ │ observado en esta posición │
├───────────────┼───────────────────────────────── ──┤
│caseStd │ desviación estándar de casos de IPD │
│ │ observado en esta posición │
├───────────────┼───────────────────────────────── ──┤
│controlStd │ desviación estándar de control │
│ │ DPI observados en esta posición │
└───────────────┴───────────────────────────────── ──┘

│ipdRatio │ tMedia/modeloPredicción │
├───────────────┼───────────────────────────────── ──┤
│testStatistic │ estadístico de prueba t │
├───────────────┼───────────────────────────────── ──┤
│cobertura │ media de casos y controles │
│ │ cobertura │
├───────────────┼───────────────────────────────── ──┤
│controlCoverage │ recuento de IPD de control válidos en │
│ │ esta posición (ver Filtrado │
│ │ sección para más detalles) │
├───────────────┼───────────────────────────────── ──┤
│caseCoverage │ recuento de casos de IPD válidos en este │
│ │ posición (consulte la sección de filtrado │
│ │ para más detalles) │
└───────────────┴───────────────────────────────── ──┘

modificaciones.gff
Las modificaciones.gff cumplen con la especificación GFF Versión 3 (-
http://www.sequenceontology.org/gff3.shtml). Cada posición de plantilla / par de hebras cuyo
El valor p excede el umbral del valor p aparece como una fila. La posición de la plantilla se basa en 1,
según la especificación GFF. La columna de la hebra se refiere a la hebra que lleva el detectado
modificación, que es la hebra opuesta a las utilizadas para detectar la modificación. los
La columna de confianza de GFF es un pvalor de detección transformado por Phred.

Note on genoma, cada navegador compatibilidad

El archivomodificaciones.gff no funcionará directamente con la mayoría de los navegadores de genoma. Vas a
probablemente necesite hacer una copia del archivo GFF y convertir las columnas _seqid_ del
nombres genéricos 'ref0000x' generados por PacBio, a los encabezados FASTA presentes en el original
archivo de referencia FASTA. La tabla de mapeo está escrita en el encabezado de las modificaciones.gff
archivo en # encabezado-secuencia etiquetas. Este problema se resolverá en la versión 1.4 de
herramientas cinéticas.

La columna de datos auxiliares del archivo GFF contiene otras estadísticas que pueden ser útiles
análisis o filtrado aguas abajo. En particular, el nivel de cobertura de las lecturas utilizadas para
realizar la llamada y el contexto de secuencia de +/- 20 pb que rodea el sitio.

-
│Columna │ Descripción │

│seqid │ Fasta contig nombre │

│fuente │ Nombre de la herramienta - 'kinModCall' │

│type │ Tipo de modificación - en │
│ │ modo de identificación este será │
│ │ m6A, m4C o m5C para identificados │
│ │ bases, o la etiqueta genérica │
│ │ 'base_modificada' si es cinética │
│ │ se detectó un evento que no │
│ │ coincidir con una modificación conocida │
│ │ firma │

│start │ Posición de modificación en contig │

│ fin │ Posición de modificación en contig │

│puntuación │ Valor de p transformado por Phred de │
│ │ detección - esta es la │
│ │ valor p de detección de un solo sitio │

│ hebra │ Hebra de muestra que contiene │
│ │ modificación │
-

│fase │ No aplicable │

│atributos │ Campos adicionales relevantes para la base │
│ │ mods. IPDRatio es tradicional │
│ │ IPDRatio, el contexto es el │
│ │ secuencia de referencia -20 pb a │
│ │ + 20 pb alrededor de la modificación, │
│ │ y el nivel de cobertura es el número │
│ │ de las observaciones de DPI utilizadas después de │
│ │ Asignación de filtrado QV y │
│ │ filtrado de precisión. Si la fila │
│ │ resulta de un │ identificado
│ │ modificación también incluimos un │
│ │ etiqueta de identificación Qv con el │
│ │ de la modificación │
│ │ procedimiento de identificación. │
│ │ identityQv es el │
│ │ probabilidad transformada por phred de │
│ │ una identificación incorrecta, por │
│ │ bases identificadas como │
│ │ tener una particular │
│ │ modificación. frac, fracLow, │
│ │ fracUp son los estimados │
│ │ fracción de moléculas que llevan │
│ │ la modificación, y el 5% │
│ │ intervalos de confianza del │
│ │ estimación. El metilado │
│ │ la estimación de fracción es una │
│ │ función de nivel beta, y debería │
│ │ solo se puede utilizar para exploración │
│ │ propósitos. │
-

motivos.gff
Si se ejecuta la herramienta Motif Finder, generará motifs.gff, que es una versión reprocesada
de modificaciones.gff con los siguientes cambios. Si se produce una modificación detectada en un
motivo detectado por el buscador de motivos, la modificación se anota con datos de motivo. Un
se agrega el atributo 'motivo' que contiene la cadena del motivo, y se agrega un atributo 'id'
que contiene el id del motivo, que es la cadena del motivo para motivos no apareados o
'motifString1 / motifString2' para motivos emparejados. Si existe una instancia de motivo en el genoma,
pero no se detectó en las modificaciones.gff, se agrega una entrada a motifs.gff, indicando el
presencia de ese motivo y la cinética que se observó en ese sitio.

motivo_resumen.csv
Si se ejecuta la herramienta Motif Finder, se genera motif_summary.csv, resumiendo el
motivos descubiertos por la herramienta. El CSV contiene una fila por motivo detectado, con el
siguientes columnas

┌──────────────────┬───────────────────────────── ─────┐
│Columna │ Descripción │
├───────────────────┼───────────────────────────── ─────┤
│motifString │ Secuencia de motivo detectada │
├───────────────────┼───────────────────────────── ─────┤
│centerPos │ Posición en motivo de │
│ │ modificación (basada en 0) │
├───────────────────┼───────────────────────────── ─────┤
│fracción │ Fracción de instancias de este │
│ │ motivo con modificación QV arriba │
│ │ el umbral de QV │
├───────────────────┼───────────────────────────── ─────┤
│nDetected │ Número de instancias de este │
│ │ motivo con umbral superior │
└───────────────────┴───────────────────────────── ─────┘

│nGenome │ Número de instancias de este │
│ │ motivo en secuencia de referencia │
├───────────────────┼───────────────────────────── ─────┤
│groupTag │ Una cadena que identifica el motivo │
│ │ agrupación. Para motivos emparejados este │
│ │ es │
│ │ " / ", │
│ │ Para motivos no apareados, esto es igual a │
│ │ motivoCadena │
├───────────────────┼───────────────────────────── ─────┤
│partnerMotifString │ motifString de motivo emparejado │
│ │ (motivo con │
│ │ inversa-complementaria │
│ │ motivoCadena) │
├───────────────────┼───────────────────────────── ─────┤
│meanScore │ Media Modificación Qv de detectada │
│ │ instancias │
├───────────────────┼───────────────────────────── ─────┤
│meanIpdRatio │ Proporción media de IPD detectada │
│ │ instancias │
├───────────────────┼───────────────────────────── ─────┤
│ Cobertura media │ Cobertura media de los detectados │
│ │ instancias │
├───────────────────┼───────────────────────────── ─────┤
│objectiveScore │ Puntuación objetiva de este motivo en │
│ │ el algoritmo del buscador de motivos │
└───────────────────┴───────────────────────────── ─────┘

Utilice ipdSummary en línea utilizando los servicios de onworks.net


Servidores y estaciones de trabajo gratuitos

Descargar aplicaciones de Windows y Linux

Comandos de Linux

Ad